kubernetes集群缩容时引发的15分钟reset故障

作者: 季兴
时间: 2024-06-23
分类: 工作日志

背景：
位于阿里云的kubernetes集群，通过ingress svc暴露，类型为ClusterIP。某天在对集群内大量缩容节点时，马上出现了大量的502、504报警
500告警.jpg

以为外部密集请求导致后端服务受影响，从监控观察并无异常，联想到最近的变更，怕不是缩容导致？正在排查的过程中，服务恢复。事后通过工单确认
ClusterIP类型的SLB后端的rs被移除时，SLB的操作就是静默丢包，也就是该SLB对任何发过来的tcp包都会默认丢弃，DROP并不会响应

如果此时此链接是空闲链接，就会等待SLB设置的空闲链接超时时间，超过这个时间后，SLB断开链接
如果此时此链接还有请求，由于SLB不会回ack包，客户端就会超时重传，重传的时间就取决于客户端或者内核的超时设置，比如内核ack默认会进行15次重传(net.ipv4.tcp_retries2=15),累加起来大概是924秒，JDBC URL支持设置SocketTimeout、ConnectTimeout,会在这个超时时间后断开重连

文档描述
https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/add-annotations-to-the-yaml-file-of-a-service-to-configure-clb-instances
注解.jpg

最终解法

代码中判断，失败重新建立连接
在ingress中开启上述注解，缩短时间。并在谷值时缩容

标签: 阿里云, 排错, kubernetes, alibaba-cloud-loadbalancer-connection-drain

添加新评论

上一篇: 如何在crontab中增加每7分钟循环执行的任务
下一篇: 一次CDN被盗刷的憋屈经历