TCP keep-alive
TCP 保活机制
为什么需要 TCP 保活机制
设想这种情况,TCP连接建立后,在一段时间范围内双发没有互相发送任何数据。思考以下两个问题:
- 怎么判断对方是否还在线。这是因为,TCP对于非正常断开的连接系统并不能侦测到(比如网线断掉)。
- 长时间没有任何数据发送,连接可能会被中断。这是因为,网络连接中间可能会经过路由器、防火墙等设备,而这些有可能会对长时间没有活动的连接断掉。
基于上面两点考虑,需要保活机制。
其实 有一部分人认为,keep-alive 的检测应该放在 应用层 而不是 传输层。
TCP保活机制的实现 (Linux)
系统级别:
具体实现上有以下几个相关的配置:
- 保活时间:默认7200秒(2小时)
- 保活时间间隔:默认75秒
- 保活探测数:默认9次
可以通过 /proc/sys/net/ipv4/
接口查看
1 | cat /proc/sys/net/ipv4/tcp_keepalive_time |
或 通过 sysctl 查看
1 | sysctl -A | grep keepalive |
TCP 保活机制试验:
首先将 tcp_keepalive_time 设置为 20,即 20s 内 连接上没有数据收发就启动 间隔定时器;
1 | echo 20 | sudo tee /proc/sys/net/ipv4/tcp_keepalive_time |
将 tcp_keepalive_intvl 设置为 5,即如果连接不活跃(开启定时器后,发送一个探测报文,但是没收到响应),则每 5s 发送一个探测报文;
1 | echo 5 | sudo tee /proc/sys/net/ipv4/tcp_keepalive_intvl |
将 tcp_keepalive_probes 设置为 2。即如果 发出探测报文后 对端没有回应则重复发送探测报文的次数。
1 | echo 2 | sudo tee /proc/sys/net/ipv4/tcp_keepalive_probes |
注意:修改 /proc 接口中的内容,不能用 vi/vim 编辑器,因为 vi/vim 的做法是先根据源文件创建一个 .swap 临时文件,而 /proc 中的内容都是 内存中的映像,根本不存在于 磁盘中,如果用 vi/vim 去修改必定得到 E667: Fsync failed 错误。
在两台云服务器上进行实验,监听的一端设置 tcp keep-alive
1 | ip: 124.70.82.205 |
在另一台服务器上对 124.70.82.205 443 发起连接
1 | ip: 112.124.36.253 |
在 ip: 124.70.82.205 上对 端口 443 进行抓包:
1 | sudo tcpdump -i eth0 port 443 |
可以看到 由于连接不活跃,每隔 一个 tcp_keepalive_time 都会向对端 发送一个 keep-alive 报文,来探测对端是否还“活着”。
上述实验的过程描述:
连接中启动保活功能的一端,在保活时间内连接处于非活动状态,则向对方发送一个保活探测报文,如果收到响应,则重置保活计时器,如果没有收到响应报文,则经过一个保活时间间隔后再次向对方发送一个保活探测报文,如果还没有收到响应报文,则继续,直到发送次数到达保活探测数,此时,对方主机将被确认为不可到达,连接被中断。
TCP保活功能工作过程中,开启该功能的一端会发现对方处于以下四种状态之一:
- 对方主机仍在工作,并且可以到达。此时请求端将保活计时器重置。如果在计时器超时之前应用程序通过该连接传输数据,计时器再次被设定为保活时间值。
- 对方主机已经崩溃,包括已经关闭或者正在重新启动。这时对方的TCP将不会响应。请求端不会接收到响应报文,并在经过保活时间间隔指定的时间后超时。超时前,请求端会持续发送探测报文,一共发送保活探测数指定次数的探测报文,如果请求端没有收到任何探测报文的响应,那么它将认为对方主机已经关闭,连接也将被断开。
- 客户主机崩溃并且已重启。在这种情况下,请求端会收到一个对其保活探测报文的响应,但这个响应是一个重置报文段
RST
,请求端将会断开连接。 - 对方主机仍在工作,但是由于某些原因不能到达请求端(例如网络无法传输,而且可能使用ICMP通知也可能不通知对方这一事实)。这种情况与状态2相同,因为TCP不能区分状态2与状态4,结果是都没有收到探测报文的响应。
tcp 保活机制的弊端:保活机制会占用不必要的带宽
保活机制是存在争议的,主要争议之处在于是否应在TCP协议层实现,有两种主要观点:其一,保活机制不必在TCP协议中提供,而应该有应用层实现;其二,认为大多数应用都需要保活机制,应该在TCP协议层实现。
这里修改的 /proc 中的变量会导致 全局(整个系统)的 tcp keep-alive 机制发送变化,那么能不能只针对一个 socket 进行 keep-alive 机制的制定呢?
针对单个 socket 的保活机制
下面介绍针对单个 socket 连接 细粒度设置 的三个选项参数:
保活时间:TCP_KEEPIDLE、保活探测时间间隔:TCP_KEEPINTVL、探测循环次数:TCP_KEEPCNT(可通过 man 7 tcp 中 Socket options 这一节查看细节)
代码示例:
1 | /* server */ |
1 | /* client */ |