node节点flannel网络问题导致该node上的pod与其他node节点网络不通的排查思路与解决
node节点flannel网络问题导致该node上的pod与其他node节点网络不通的排查思路与解决方法 一、问题发现 在部署一个replicas:4的nginx deployment之后在master节点通过curl + podIP + 端口的形式测试时,发现两次访问不到,两次可以访问得到。 二、问题排查 1、通过ping pod的ip地址,发现node1节点的pod全都ping不通,问题很有可能就出在node1节点上 2、通过ip a查看node1节点发现flannel.1没有ip地址,可能原因就出现在这。 3、刚开始以为是iptables规则可能导致节点flannel网络没起来,于是就把iptables规则全清了,重启了kubelet后发现还是没有flannel网络。 4、然后在master节点通过kubectl logs -f -n kube-system kube-flannel的Pod来查看对应node1的flannel Pod的日志发现一个错误日志,还是网络down掉了 failed to add vxlanRoute (10.244.0.0/24 -> 10.244.0.0): network is down 5、尝试将node1节点的flannel.1网络删除,在node1节点上执行 ip link delete flannel.1 6、在 /etc/sysctl