K8s服务访问不通的排查方法

描述

K8s 服务访问不通?从 Pod、Service 到 Ingress 一步步查

问题背景

Kubernetes 里服务访问不通是比节点 NotReady 更常见的故障场景。相比节点 NotReady 这种基础设施层的问题,服务访问不通直接表现为业务不可用——用户能打开页面但数据加载不出来,API 请求返回 502 或 504,Pod 之间内部调用超时。这类问题的根因分散在多个层次:Pod 本身没启动、Service 配置错误、Endpoint 没有关联到 Pod、网络策略阻止了流量、Ingress 配置不对、DNS 解析失败等等。

更重要的是,K8s 的网络是虚拟网络,流量路径不直观。外部请求经过 NodePort 或 LoadBalancer 到达某个节点,再由 kube-proxy 转发到后端 Pod;Pod 之间的调用直接通过 Service IP 或 DNS 名称,但实际连接的是 Endpoint IP。路径中间任何一环出问题,都会导致访问不通。

这篇文章面向初中级 Kubernetes 运维和 DevOps 工程师,以一个典型的"服务访问返回 502"故障为线索,从 Pod、Service、Endpoint、kube-proxy、CNI、Ingress 六个层次系统讲解排查方法。每个层次都有对应的检查命令、判断逻辑和修复步骤。涉及的所有命令在 Kubernetes 1.24 及以上版本验证,部分命令更早版本表现可能略有差异,会在文中说明。

适用场景

服务对外提供访问,但返回 502 Bad Gateway 或 504 Gateway Timeout

Pod 之间通过 Service 名称调用,但请求超时或连接拒绝

通过 Ingress 访问服务,但 URL 无法解析或请求路由到错误的后端

NodePort / LoadBalancer 类型的 Service 无法从外部访问

Headless Service 下的 Pod 之间无法通过 DNS 互相发现

某个命名空间内的 Pod 无法访问其他命名空间的服务

特定 IP 段或端口的流量被网络策略阻断

K8s 服务访问路径全解析

在动手排查之前,必须清楚流量从客户端到后端 Pod 的完整路径。不同类型的服务,路径不同。

场景一:集群内部 Pod 访问 Service(最常见)

 

PodA -> ClusterIP:ServicePort -> kube-proxy (iptables/ipvs) -> EndpointIP:ContainerPort -> PodB

 

Pod 内运行的进程访问 http://service-name.namespace.svc.cluster.local:port,这个 DNS 名称被 CoreDNS 解析为 Service IP,然后流量被 kube-proxy 拦截并 DNAT 转发到后端某个 Endpoint IP。

场景二:集群外部通过 NodePort 访问

 

外部客户端 -> NodeIP:NodePort -> kube-proxy -> EndpointIP:ContainerPort -> PodB

 

外部请求到达任意节点的 NodePort,kube-proxy 将流量转发到后端 Pod。不一定必须是目标 Pod 所在的节点。

场景三:通过 Ingress 访问

 

外部客户端 -> Ingress Controller Pod -> Ingress 规则匹配 -> Service:NodePort -> kube-proxy -> PodB

 

流量先打到 Ingress Controller(通常是一个 NodePort 或 LoadBalancer 类型的 Service),Ingress Controller 根据 Host 和 Path 规则找到对应的 Backend Service,然后通过 Service 访问到后端 Pod。

理解了这三条路径,就知道每个环节该查什么。

第一步:确认问题范围和现象

1.1 确认问题是否真实存在

不要假设问题存在,先复现并确认现象:

 

# 通过 kubectl 确认目标 Service 存在
kubectl get svc -n  

# 确认 Pod 是否存在且 Running
kubectl get pods -n  -l app=

# 如果 Pod 不在 Running 状态,先解决 Pod 问题
# (Pod 都没起来,Service 肯定访问不了)

 

1.2 从业务角度确认问题现象

 

# 测试外部能否访问(用 NodePort 或 LoadBalancer IP)
curl -v http://:/

# 典型 502 错误:
# HTTP/1.1 502 Bad Gateway
# Server: nginx/1.24.0
# 

502 Bad Gateway

# 典型超时错误: # curl: (7) Failed to connect to port : Connection timed out

 

1.3 确认问题影响范围

 

# 查看该 Service 有多少个健康的 Endpoint
kubectl get endpoints -n  

# 如果 endpoints 列表为空或数量少于预期,说明 Service 没有关联到健康的 Pod
# 如果 endpoints 数量正常,问题可能在 Ingress 或更上层

# 查看 Pod 分布
kubectl get pods -n  -o wide | grep 

 

第二步:从 Pod 层开始排查

Pod 是流量的最终目的地。如果 Pod 本身不正常,前面查什么都不重要。

2.1 确认 Pod 是否存在且 Running

 

kubectl get pods -n  -o wide

# 确认所有副本都在 Running
# 如果有非 Running 状态的 Pod:
kubectl get pods -n  --field-selector=status.phase!=Running

 

2.2 查看 Pod 事件

Pod 创建失败或重启时,Events 是最直接的线索:

 

kubectl describe pod  -n 

# 重点看最后 20 行 Events
kubectl describe pod  -n  | tail -20

# 常见的问题线索:
# - ImagePullBackOff: 镜像拉取失败,检查镜像名称、tag、私有仓库认证
# - CrashLoopBackOff: 容器启动后立即退出,检查应用启动命令和健康检查
# - CreateContainerConfigError: 配置错误,检查 ConfigMap/Secret 挂载
# - OOMKilled: 内存不足被杀,检查资源限制和实际使用
# - Evicted: 被驱逐,检查节点资源压力

 

2.3 查看容器内部日志

 

# 查看当前日志(stdout)
kubectl logs  -n 

# 如果容器重启过,查看上次运行的日志(用于排查启动后立即崩溃的问题)
kubectl logs  -n  --previous

# 如果是多容器 Pod,指定容器名
kubectl logs  -n  -c 

# 实时查看日志
kubectl logs -f  -n  --tail=100

 

2.4 登录 Pod 内部排查

如果日志没有明显线索,可以进 Pod 内部测试网络连通性:

 

# 进容器(需要容器内有 bash)
kubectl exec -it  -n  -- /bin/bash

# 如果容器没有 bash,用 sh
kubectl exec -it  -n  -- /bin/sh

# 确认容器进程是否监听在预期端口
# Java 应用:ps aux | grep java
# Nginx / Python / Node.js:netstat -tlnp 或 ss -tlnp
# 注意:很多精简镜像没有这些命令,可以临时安装或用其他方式验证

# 测试 localhost 端口是否监听
wget -qO- http://127.0.0.1:/healthz
# 或
curl -s http://127.0.0.1:/healthz

# 如果 localhost 访问正常,但通过 Service 访问有问题,说明问题在 Service 层

 

2.5 检查 Pod 资源限制

资源限制设置不当会导致 Pod 被 OOMKill 或被 throttle,导致请求超时:

 

# 查看 Pod 的资源请求和限制
kubectl get pod  -n  -o jsonpath='{.spec.containers[*].resources}'

# 查看 Pod 实际资源使用(需要 metrics-server)
kubectl top pod  -n 

# 如果资源使用接近限制,说明需要调高限制或优化应用内存使用

 

第三步:排查 Service 层

确认 Pod 正常后,转到 Service 层。Service 是 Pod 的访问入口,也是最容易配置出错的地方。

3.1 确认 Service 配置正确

 

# 查看 Service 完整配置
kubectl get svc  -n  -o yaml

# 重点检查以下字段:
# spec.selector: 是否正确关联到目标 Pod 的 label
# spec.ports: 端口号、目标端口、协议是否正确
# spec.type: ClusterIP / NodePort / LoadBalancer

 

常见配置错误一:selector 写错

 

# 错误示例:selector 写成了 app: web-frontend,但 Pod 的 label 是 app: web
spec:
  selector:
    app: web-frontend  # 这个 selector 找不到任何 Pod

 

正确做法:

 

# 确认 Pod 实际的 label
kubectl get pods -n  --show-labels

# 查看 Service 的 selector 是否能匹配到 Pod
kubectl get pods -n  -l app=web-frontend
# 如果没有输出,说明 selector 写错了

 

常见配置错误二:端口配置错误

 

# 错误示例:targetPort 写成了字符串,但容器实际监听的端口是数字
spec:
  ports:
  - port: 80
    targetPort: "http"   # 容器没有 named port "http",应该写 8080
    protocol: TCP

 

3.2 确认 Endpoints 存在且健康

Service 通过 Endpoints 关联到 Pod。如果 Endpoints 为空,说明 Service 找不到健康的后端:

 

# 查看 Endpoints
kubectl get endpoints  -n 

# 正常输出:
# NAME               ENDPOINTS
# my-service         10.244.1.15:8080,10.244.2.23:8080
# 如果为空:

# 查看 Endpoints 详细信息(关联了哪些 Pod IP 和端口)
kubectl describe endpoints  -n 

 

Endpoints 为空的排查方法:

Endpoints 为空通常有两个原因:selector 匹配不到 Pod,或者匹配的 Pod 没有 ready(readinessProbe 失败)。

 

# 1. 确认 selector 是否匹配到 Pod
kubectl get pods -n  --show-labels
# 手动验证:Service selector 的每个 key-value 是否都能在 Pod label 中找到

# 2. 确认 Pod 的 Ready 状态
kubectl get pods -n  -o wide
# 关注 Ready 列:应该是 1/1、2/2 等,如果不是,说明 readinessProbe 有问题

# 3. 查看 Pod 的 readinessProbe 配置
kubectl get pod  -n  -o jsonpath='{.spec.containers[*].readinessProbe}'

 

readinessProbe 配置错误的常见场景:

 

# 错误示例:readinessProbe HTTP 路径返回 404,但应用实际路径是 /api/health
readinessProbe:
  httpGet:
    path: /healthz  # 应用没有 /healthz 端点
    port: 8080
  initialDelaySeconds: 5
  periodSeconds: 5

 

3.3 测试从集群内部访问 Service

从 Pod 内部访问 Service 是最基础的测试。如果这一步失败,说明 kube-proxy 或 CoreDNS 有问题:

 

# 创建一个临时测试 Pod
kubectl run -n  testpod --image=busybox:1.36 --restart=Never -it --rm -- sh

# 在 Pod 内部执行以下测试:

# 1. DNS 解析测试
nslookup 
# 正常输出:
# Name:      
# Address:   

# 如果 nslookup 失败(DNS 问题)
nslookup kubernetes.default
# 如果连 kubernetes 都解析不了,说明 CoreDNS 有问题

# 2. 通过 Service IP 访问
wget -qO- http://:/healthz

# 3. 通过 DNS 名称访问
wget -qO- http://..svc.cluster.local:/healthz

# 4. 测试不同端口(有些服务可能有多个端口)
wget -qO- http://..svc.cluster.local:/

# 如果 DNS 名称能解析但连接超时:
# 说明 kube-proxy 没有正确转发流量,检查 kube-proxy

# 如果 Connection refused:
# 说明容器内端口没监听或 Service targetPort 配置错误

 

3.4 测试 NodePort 类型 Service

如果 Service 是 NodePort 类型,在所有节点的 NodePort 上都应该能访问:

 

# 查看 NodePort
kubectl get svc  -n  | grep NodePort

# 输出示例:
#    NodePort: http  30080/TCP
# NodePort 是 30080,在所有节点上都能通过 <任意节点IP>:30080 访问

# 从集群外部测试(如果有 firewall 规则,需要先确认 NodePort 已放行)
curl -v http://<任意节点IP>:30080/

# 如果某个节点能访问、另一个不能:
# 检查不能访问的节点上 kube-proxy 是否正常
ssh <目标节点> "systemctl status kube-proxy"

 

第四步:排查 kube-proxy 层

kube-proxy 是 Service 流量的转发引擎。它运行在每个节点上,监听 Service 和 Endpoints 的变化,动态更新本地的 iptables 或 ipvs 规则。如果 kube-proxy 异常,Service 流量转发就会失败。

4.1 检查 kube-proxy 是否运行

 

# kube-proxy 以 DaemonSet 形式运行
kubectl get pods -n kube-system -l k8s-app=kube-proxy

# 查看 kube-proxy 日志
kubectl logs -n kube-system -l k8s-app=kube-proxy --tail=50

# 如果 kube-proxy Pod 不在 Running,检查详情
kubectl describe pod -n kube-system -l k8s-app=kube-proxy

 

4.2 检查 kube-proxy 的转发模式

kube-proxy 支持 iptables 和 ipvs 两种模式,默认是 iptables。两种模式的排查方法不同:

 

# 查看 kube-proxy 的启动参数,确认使用的是 iptables 还是 ipvs
kubectl get configmap -n kube-system kube-proxy -o yaml | grep mode

# 或者在节点上查看
ssh  "grep mode /var/lib/kubelet/config.yaml"

# iptables 模式:默认,性能稍差,但稳定
# ipvs 模式:性能更好,但配置复杂,某些内核版本支持不好

 

4.3 iptables 模式排查

 

# SSH 到某个节点上查看 iptables 规则

# 1. 查看 NAT 表中关于某个 Service 的规则
# 注意:规则很多,直接 grep
ssh  "sudo iptables -t nat -L -n | grep "

# 输出示例:
# KUBE-SVC-XXXXXXXX  tcp  --  anywhere  10.109.12.34  tcp dpt:80
# KUBE-SEP-XXXXXXXX  tcp  --  anywhere  anywhere  statistic mode: probability mode: random 0.500000000
# KUBE-SEP-XXXXXXXX  tcp  --  anywhere  10.244.1.15  tcp dpt:8080

# KUBE-SVC-XXXXXXXX 是 Service 对应的链
# KUBE-SEP-XXXXXXXX 是具体 Endpoint 的链
# 如果没有这些规则,说明 kube-proxy 没有为这个 Service 生成规则

# 2. 查看 KUBE-SERVICES 链中是否有该 Service
ssh  "sudo iptables -t nat -L KUBE-SERVICES -n | grep "

# 3. 查看 FILTER 表的 FORWARD 链
ssh  "sudo iptables -t filter -L FORWARD -n | grep KUBE"

# 如果 FORWARD 链没有 ACCEPT KUBE 相关的规则,可能 kube-proxy 没有正确处理流量

 

4.4 ipvs 模式排查

 

# SSH 到节点上查看 ipvs 规则
ssh  "sudo ipvsadm -L -n"

# 正常输出:
# IP Virtual Server version 1.2.1 (size=4096)
# TCP  :80 rr
#   -> :8081          Masq    1      0          0
#   -> :8082          Masq    1      0          0

# 如果 ipvsadm 没有安装或 ipvs 模块未加载,kube-proxy 会回退到 iptables
# 检查 ipvs 模块是否加载
ssh  "lsmod | grep ip_vs"

 

4.5 kube-proxy 日志分析

 

# 查看 kube-proxy 是否有报错
kubectl logs -n kube-system -l k8s-app=kube-proxy | grep -i error

# 常见错误:
# "Failed to delete service" - 删除 Service 时清理规则失败
# "Failed to sync iptables" - 同步规则失败,可能是权限问题
# "ipvs struct not found" - ipvs 模式下某些连接状态异常

 

第五步:排查网络插件层(CNI)

如果 Service 层和 kube-proxy 都正常,但 Pod 之间还是不通,问题可能在 CNI(容器网络接口)层。CNI 负责 Pod IP 分配和 Pod 之间的网络连通性。

5.1 确认 Pod 网络是否正常

 

# 在有问题的 Pod 内测试
kubectl exec -it  -n  -- /bin/sh

# 测试到另一个 Pod 的连通性(通过 Pod IP,不是 Service IP)
ping -c 3 <另一个Pod的IP>

# 测试到网关的连通性
ip route
# 默认网关应该是 CNI 网桥或 flannel.1 / calico* 等接口

# 如果 ping 不通:
# 1. 确认两边的 Pod 是否在同一个网段
# 2. 确认 CNI 插件创建的接口是否存在
ip addr | grep -E "flannel|calico|cni|docker"

 

5.2 常见 CNI 插件排查

Flannel 排查:

 

# 查看 flannel 是否为所有节点创建了网络
kubectl get pods -n kube-system -l app=flannel

# 在节点上查看 flannel.1 接口
ip addr show flannel.1

# 查看 flannel 的网络范围(Pod CIDR)
kubectl get cm -n kube-system kube-flannel-cfg -o yaml | grep -A 3 "net-conf.json"

# 典型问题:节点 Pod CIDR 没有被 flannel 分配
# 在节点上查看:
ip addr show flannel.1
# 如果 flannel.1 没有 UP,说明该节点的 CNI 网络没有正常初始化

 

Calico 排查:

 

# 查看 calico-node 是否 Running
kubectl get pods -n kube-system -l k8s-app=calico-node

# 查看 calico-node 日志
kubectl logs -n kube-system -l k8s-app=calico-node --tail=100

# 查看 BGP 对等连接(需要 calicoctl)
calicoctl node status

# 查看 IP 池
calicoctl get ippool -o wide

# 典型问题:节点没有分配到 IP 池地址
# 查看节点 IP 分配情况
calicoctl get workloadendpoints -o wide

 

5.3 跨节点 Pod 通信测试

 

# 获取两个不同节点上 Pod 的 IP
kubectl get pods -o wide --all-namespaces | grep Running

# 在源 Pod 内测试到目标 Pod IP 的连通性
kubectl exec -it <源Pod> -n  -- ping -c 5 <目标PodIP>

# 如果同节点 Pod 通信正常,跨节点不通:
# 1. 检查源节点到目标节点的路由(VPC 或物理网络层)
# 2. 检查 CNI 的跨节点隧道是否正常(flannel 用 VXLAN,calico 可以用 BGP 或 VXLAN)
# 3. 检查是否有防火墙规则阻止了 CNI 隧道端口(flannel UDP 8472,Calico IP-in-IP 4)

# 测试特定端口(如果 ping 通了但服务访问不通,可能是防火墙或端口问题)
kubectl exec -it <源Pod> -n  -- nc -zv <目标PodIP> <端口>

 

第六步:排查 Ingress 层

如果 Service 本身正常,但通过 Ingress 访问不通,问题就在 Ingress 层。Ingress 是外部流量的入口,也是配置最复杂的一层。

6.1 确认 Ingress Controller 正常运行

 

# Ingress Controller 通常部署在 kube-system 命名空间
kubectl get pods -n kube-system | grep -E "ingress|nginx"

# 常见 Ingress Controller:
# nginx-ingress-controller(社区版或 Nginx Inc 版)
# ingress-nginx(Kubernetes 官方维护的 nginx-ingress)
# traefik

# 如果 Ingress Controller 没有 Running:
kubectl describe pod -n kube-system 

# 如果 Ingress Controller Pod 重启频繁:
kubectl logs -n kube-system  --previous | tail -50

 

6.2 查看 Ingress 规则配置

 

# 查看所有 Ingress 资源
kubectl get ingress -A

# 查看具体 Ingress 的配置
kubectl get ingress  -n  -o yaml

# 重点检查:
# spec.rules: Host 和 Path 配置
# spec.tls: HTTPS 证书配置
# spec.backend: 默认后端(如果没有匹配规则时使用)

 

6.3 确认 Ingress 和 Service 的关联

 

# Ingress 的 backend.service.name 必须和目标 Service 名称一致
kubectl get ingress  -n  -o jsonpath='{.spec.rules[*].http.paths[*].backend.service}'

# 确认 Ingress backend 的 port 端口和 Service port 一致
kubectl get ingress  -n  -o jsonpath='{.spec.rules[*].http.paths[*].backend.service.port}'

 

6.4 Ingress 日志分析

 

# 查看 Ingress Controller 日志
kubectl logs -n kube-system  -f --tail=100

# 搜索访问日志
# nginx-ingress-controller 日志格式:
#  -  [] "  "   "" ""

# 搜索 502 / 503 / 504 错误
kubectl logs -n kube-system  | grep " 502 | 503 | 504 "

# 搜索特定 Host 的访问
kubectl logs -n kube-system  | grep "Host: "

# 如果没有日志输出,说明请求根本没到 Ingress Controller
# 检查 DNS 解析、LB 配置、NodePort 是否正确

 

6.5 逐层排查 Ingress 流量路径

如果确认 Ingress 也有问题,按以下路径逐层排查:

 

1. 外部 -> DNS 解析 -> Ingress Controller 的外部 IP/NodePort
2. Ingress Controller -> Ingress 规则匹配 -> Backend Service
3. Backend Service -> kube-proxy -> Endpoint -> Pod

 

层级一:确认外部能访问到 Ingress Controller

 

# 获取 Ingress Controller 的 NodePort 或 LoadBalancer IP
kubectl get svc -n kube-system | grep -E "ingress|nginx"

# 测试从外部直接访问 NodePort(绕过 DNS)
curl -v http://<任意节点IP>:/

# 如果 NodePort 能访问,但域名访问不行:
# 说明 DNS 解析有问题,域名没有解析到正确的 IP

 

层级二:确认 Ingress 规则被正确加载

 

# 查看 Ingress Controller 进程的配置(nginx.conf)
kubectl exec -n kube-system  -- cat /etc/nginx/nginx.conf

# 搜索对应的 server {} 块
kubectl exec -n kube-system  -- grep -A 20 "server_name "

# 确认 upstream {} 块中的 server 列表是否包含正确的 Endpoint IP
kubectl exec -n kube-system  -- grep -A 10 "upstream "

 

6.6 TLS/HTTPS 相关问题

 

# 查看 Ingress 的 TLS 配置
kubectl get ingress  -n  -o yaml | grep -A 10 tls

# 常见 TLS 问题:
# 1. Secret 不存在
kubectl get secret  -n 
# 2. Secret 类型不是 kubernetes.io/tls
# 3. 证书过期(Let's Encrypt 证书有效期 90 天)
# 4. 证书和域名不匹配

# 测试 HTTPS 访问
curl -v https:/// --insecure

# --insecure 参数跳过证书验证,用于排查是证书问题还是连接问题
# 如果加 --insecure 能通,说明是证书配置问题

 

第七步:排查 DNS 解析问题

DNS 问题是导致"服务访问不通"的重灾区。Pod 访问 Service 通过 DNS 名称,如果 DNS 解析失败或缓慢,所有依赖 Service 名称的调用都会失败。

7.1 测试 DNS 解析

 

# 在 Pod 内测试 DNS
kubectl exec -it  -n  -- nslookup kubernetes.default
kubectl exec -it  -n  -- nslookup ..svc.cluster.local

# 如果 nslookup 不存在,用 dig
kubectl exec -it  -n  -- apt-get update && apt-get install -y dnsutils
kubectl exec -it  -n  -- dig +short kubernetes.default.svc.cluster.local

# 测试完整 DNS 名称
kubectl exec -it  -n  -- getent hosts ..svc.cluster.local

 

7.2 查看 CoreDNS 状态

 

# CoreDNS 通常以 Deployment 形式运行在 kube-system
kubectl get pods -n kube-system -l k8s-app=kube-dns

# 查看 CoreDNS 日志
kubectl logs -n kube-system -l k8s-app=kube-dns --tail=100

# 查看 CoreDNS 配置
kubectl get configmap -n kube-system coredns -o yaml

 

7.3 DNS 解析慢的常见原因

DNS 解析本身不应该很慢,但如果 Pod 数量很大或 DNS 查询量很高,可能出现延迟。常见原因:

DNS 查询并发限制:Linux 内核对每个进程/容器的 DNS 并发查询有限制

ndots 配置过高:K8s 默认 ndots=5,意味着任何带 5 个以下点的名称都会先查集群 DNS 再查外部 DNS,导致所有外部 DNS 查询都走集群 DNS

优化 ndots 配置(在 Pod 的 dnsPolicy 不为 Default 时生效):

 

# 在 Pod spec 中添加 dnsConfig
spec:
  dnsConfig:
    options:
    - name: ndots
      value: "2"  # 默认 5,改成 2 减少集群 DNS 查询
    - name: timeout
      value: "2"
    - name: attempts
      value: "2"

 

第八步:排查网络策略(NetworkPolicy)

如果以上所有层都正常,但流量就是不通,可能是 NetworkPolicy 阻止了流量。

8.1 查看命名空间的 NetworkPolicy

 

# 查看该命名空间是否应用了 NetworkPolicy
kubectl get networkpolicy -n 

# 查看具体的 NetworkPolicy 规则
kubectl get networkpolicy  -n  -o yaml

 

8.2 常见 NetworkPolicy 配置错误

 

# 错误示例:只允许特定标签的 Pod 访问
spec:
  podSelector:
    matchLabels:
      role: frontend
  ingress:
  - from:
    - podSelector:
        matchLabels:
          role: nginx  # 只有带 nginx 标签的 Pod 能访问
# 但实际请求来自其他标签的 Pod,所以被阻止

 

临时测试:放行所有流量排查是否是 NetworkPolicy 问题

 

# 如果确认是 NetworkPolicy 问题,需要临时放行,可以先删除 Policy
kubectl delete networkpolicy  -n 

# 或者临时添加一条允许所有流量的 Policy
kubectl apply -f - <<'EOF'
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: allow-all
  namespace: 
spec:
  podSelector: {}
  ingress:
  - {}
EOF

 

第九步:综合故障案例

案例一:Service 有 Endpoint 但返回 502

现象:Service 的 Endpoints 列表正常(有 IP 有端口),但通过 Ingress 访问返回 502。

排查过程:

 

# 1. 确认 Service 和 Endpoint 配置
kubectl get svc my-service -n default
kubectl get endpoints my-service -n default
# 输出正常,Endpoint 数量和 Pod 数量一致

# 2. 从 Pod 内直接访问 Service(绕过 Ingress)
kubectl run -n default curl-test --image=curlimages/curl --restart=Never -it --rm -- sh
# curl http://my-service.default.svc.cluster.local:8080/api/health
# 能正常返回

# 3. 通过 Ingress 访问返回 502
curl http:///api/health
# 返回 502

# 4. 查看 Ingress Controller 日志
kubectl logs -n kube-system nginx-ingress-controller-xxx | grep "/api/health"
# 日志显示:"upstream timed out (110: Connection timed out)"

# 5. 确认问题:Ingress Controller 无法连接到后端 Service
# 检查 Ingress Controller 和后端是否在同一个网络
# 发现:Ingress Controller 在 kube-system 命名空间,应用在 default 命名空间
# 但 NetworkPolicy 默认允许同集群内通信,所以不是这个原因

# 6. 实际根因:应用的重试机制导致请求携带无效的 "Host" 头
# Ingress Controller 的 upstream 配置中 server_name 和请求头中的 Host 不匹配
# 修复:调整 Ingress 的 host 字段或者应用的 Host 头

 

修复方案:

 

# 在 Ingress 中明确指定 backend 的 serviceName 和 servicePort
spec:
  rules:
  - host: api.example.com
    http:
      paths:
      - path: /api
        pathType: Prefix
        backend:
          service:
            name: my-service
            port:
              number: 8080

 

案例二:Pod 之间通过 Headless Service 无法互相发现

现象:部署了有状态应用(MySQL 主从),使用 Headless Service,但 Pod 之间无法通过 DNS 互相发现。

排查过程:

 

# 1. 确认 Headless Service 配置
kubectl get svc mysql-headless -n database -o yaml

# 关键字段:
# clusterIP: None  <-- 这个 None 是 Headless Service 的标志
# spec:
#   selector:
#     app: mysql

# 2. 确认 Pod 的 DNS 记录
kubectl exec -it mysql-0 -n database -- nslookup mysql-headless.database.svc.cluster.local
# 正常情况下应该返回所有匹配的 Pod IP

# 3. 如果 DNS 记录为空,检查:
# - selector 是否能匹配到 Pod label
kubectl get pods -n database -l app=mysql --show-labels

# - StatefulSet 的 serviceName 是否和 Headless Service 名称一致
kubectl get statefulset mysql -n database -o jsonpath='{.spec.serviceName}'

 

根因:StatefulSet 的 serviceName 必须和 Headless Service 名称完全一致,否则 Pod 的 DNS 记录不会生成。

第十步:预防措施

10.1 建立服务可达性巡检

 

#!/bin/bash
# save as: k8s_service_health_check.sh
# 建议配合 Prometheus 告警使用,这里提供命令行巡检方式

NAMESPACES=$(kubectl get ns -o jsonpath='{.items[*].metadata.name}' | tr ' ' '
' | grep -v kube-system)

for NS in $NAMSPACES; do
  # 找出所有非 Headless 的 ClusterIP Service
  SERVICES=$(kubectl get svc -n $NS -o json | jq -r '.items[] | select(.spec.clusterIP != "None") | select(.spec.clusterIP != "") | .metadata.name')

  for SVC in $SERVICES; do
    ENDPOINTS=$(kubectl get endpoints $SVC -n $NS -o json | jq '.subsets | length')
    if [ "$ENDPOINTS" == "0" ] || [ "$ENDPOINTS" == "null" ]; then
      echo "[ALERT] Service $SVC in namespace $NS has NO endpoints"
    fi
  done
done

echo "巡检完成"

 

10.2 Ingress 和 Service 关联性校验

每次部署新服务时,用以下命令校验 Ingress 和 Service 的关联是否正确:

 

#!/bin/bash
# 检查所有 Ingress 资源对应的 Service 是否存在且有 Endpoints

for INGRESS in $(kubectl get ingress -A -o jsonpath='{.items[*].metadata.name}'); do
  NS=$(kubectl get ingress $INGRESS -A -o jsonpath='{.items[0].metadata.namespace}')
  SVC=$(kubectl get ingress $INGRESS -n $NS -o jsonpath='{.spec.rules[0].http.paths[0].backend.service.name}')
  PORT=$(kubectl get ingress $INGRESS -n $NS -o jsonpath='{.spec.rules[0].http.paths[0].backend.service.port.number}')

  echo "Ingress: $INGRESS, Service: $SVC, Port: $PORT"

  EP_COUNT=$(kubectl get endpoints $SVC -n $NS -o json 2>/dev/null | jq '.subsets | map(.addresses) | flatten | length')
  if [ "$EP_COUNT" == "0" ] || [ "$EP_COUNT" == "null" ]; then
    echo "  [WARNING] Service $SVC has no endpoints!"
  fi
done

 

10.3 Pod readinessProbe 配置规范

 

# 标准 Spring Boot 应用的 readinessProbe 配置
readinessProbe:
  httpGet:
    path: /actuator/health/readiness
    port: 8080
  initialDelaySeconds: 30   # 等待应用启动
  periodSeconds: 10         # 每 10 秒检查一次
  timeoutSeconds: 5         # 超时 5 秒算失败
  successThreshold: 1        # 成功 1 次即 Ready
  failureThreshold: 3        # 连续失败 3 次才标记 NotReady

# 标准 Golang 应用的 readinessProbe 配置
readinessProbe:
  tcpSocket:
    port: 8080
  initialDelaySeconds: 5
  periodSeconds: 10
  failureThreshold: 3

 

总结

K8s 服务访问不通的问题,排查核心在于分层定位、逐层排除。推荐按以下优先级排查:

第一优先级(5 分钟内定位):

Pod 是否 Running、Ready、日志是否正常

Service 的 Endpoints 是否有关联的 Pod IP

从 Pod 内直接访问 Service IP(绕过 Ingress 和 NodePort)

第二优先级(5-15 分钟):

kube-proxy 的 iptables/ipvs 规则是否正确生成

CNI 插件是否正常(flannel.1 / calico* 接口是否存在)

Ingress Controller 是否 Running、日志是否有 502/503 错误

第三优先级(15 分钟以上):

DNS 解析是否正常(CoreDNS 日志、ndots 配置)

NetworkPolicy 是否阻止了合法流量

跨节点网络路由是否正确(VPC/物理网络层)

关键原则:

始终从 Pod 层开始,往上排查。Pod 正常是 Service 正常的前提

用 kubectl get endpoints 判断 Service 是否有关联的 Pod,是最快速的诊断方法

Ingress 访问问题,80% 是 Ingress 和 Service 关联配置错误,20% 是 Ingress Controller 自身问题

NetworkPolicy 问题隐蔽性最强,排查到最后才考虑

记住一个排查顺序口诀:先 Pod 再 Svc,EP 不为空则网络通;Ingress 有问题先看日志,DNS 不通查 CoreDNS。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分