tcp socket文件句柄泄漏

今天发现有台redis机器上出现socket个数告警,这是很奇怪的现象。因为一台redis服务器上就部署了几个redis实例,打开的端口应该是有限。

1、netstat显示的tcp连接数正常

netstat -n | awk '/^tcp/ {++state[$NF]} END {for(key in state) print key,"\t",state[key]}'
TIME_WAIT        221
ESTABLISHED      103
 
netstat  -nat |wc -l
368

建立的tcp连接数并不是很多。

2、ss -s显示大量的closed连接

ss -s
Total: 158211 (kernel 158355)
TCP:   157740 (estab 103, closed 157624, orphaned 0, synrecv 0, timewait 173/0), ports 203
 
Transport Total     IP        IPv6
*         158355    -         -        
RAW       0         0         0        
UDP       9         6         3        
TCP       116       80        36       
INET      125       86        39       
FRAG      0         0         0

closed 157624,很多socket是处于closed状态。

而我的系统监控取值方法是:

cat /proc/net/sockstat | grep sockets | awk '{print $3}'
158391
 
cat /proc/net/sockstat
sockets: used 158400
TCP: inuse 89 orphan 2 tw 197 alloc 157760 mem 16
UDP: inuse 6 mem 0
UDPLITE: inuse 0
RAW: inuse 0
FRAG: inuse 0 memory 0

很多socket处于alloc状态,已经分配sk_buffer,而且处于closed。

redis的file discriptes存在泄漏,没有被内核回收。

3、追查真凶
上面信息说明存在socket fd泄漏,那么用lsof命令检查系统sock的文件句柄。

lsof | grep sosck
java        4684      apps *280u     sock                0,6       0t0 675441359 can't identify protocol
java        4684      apps *281u     sock                0,6       0t0 675441393 can't identify protocol
java        4684      apps *282u     sock                0,6       0t0 675441405 can't identify protocol
java        4684      apps *283u     sock                0,6       0t0 675441523 can't identify protocol
java        4684      apps *284u     sock                0,6       0t0 675441532 can't identify protocol
java        4684      apps *285u     sock                0,6       0t0 675441566 can't identify protocol

可以发现,Name列的值为“an’t identify protocol”,socket找不到打开的文件,。

这个显示,是java进程(pid=4684)出现了socket fd泄漏的状况。

ps auxww | grep 4684

发现是redis机器上日志收集工具flume。

4、解决方案
没有很好的的方法,简单粗暴的kill占有scoket fd的进程。
<更新于2015年3月11日 20:05:30>
今天发现,重启flume agent之后,仍然会出现这种大量的closed socket现象。
strace flume进程,发现flume进程已经挂起了。

sudo strace -p 36111
Process 36111 attached - interrupt to quit
futex(0x2b80e2c2e9d0, FUTEX_WAIT, 36120, NULL

首先,我比较怀疑文件句柄不够用,因为google查找到的资料也提高了文件fd不够而导致这种问题。

在我的机器上,最大允许打开的文件数为131072,文件fd个数还有近1/4没有使用。

  lsof | wc -l 
10201
 
ulimit -a 
ulimit  -n
131072

这时,同事提示我,还有其他大量机器也出现了这种问题(flume已经上线了3个月,之前都很正常)。

这是,我想起了还有flume的日志可以查看。而查看flume的日志,提示flume找不到broker 5。
纳尼,不是kafka集群不是只有4个broker(节点)。这时候才想起前几天的邮件然来spark开发的同事,对kakf集群进行扩容了。
而新的集群节点9092端口对这台redis所在的机房没有开放访问权限。

 [SinkRunner-PollingRunner-DefaultSinkProcessor] (kafka.utils.Logging$class.warn:89)  - Failed to send producer request 
with correlation id 63687539 to broker 5 with data for partitions [titan,4]

5、问题重现

在lsof: can’t identify protocol这篇文章中,用python代码重现了这种状况。

:)

在解决问题时,google查找是一种比较快捷的方式。而有时候,google出来的结果反而会影响排查问题的方向。
在我看到google的搜索结果之后,第一感觉是因为操作系统的max open files参数太小导致。在发现不是这个原因之后。我的思路仍然停留在内核参数是否配置合理的思路上。知道其他的机器上部署的flume出现了同种状况是,我才意识到是flume本身出了问题,才去strace flume进程的状态和查看flume的日志。

转自:http://mdba.cn/?p=762

原创文章,作者:s19930811,如若转载,请注明出处:http://www.178linux.com/2468

(1)
s19930811s19930811
上一篇 2016-04-13 11:54
下一篇 2016-04-13 11:54

相关推荐

  • 中秋干货之系统启动修复

    在使用CentOS系统时,难免会有误操作而导致机器不能正常启动,这里介绍了多种启动失败的原因和修复的方法。 grub损坏类 grub 1stage 被破坏使用dd擦写MBR前446字节,即抹去stage1阶段–[root@_2_ ~]# reboot #重启–启动失败,找不到系统,这时只能借助光盘进入修复模式,重新安装grub&#82…

    Linux干货 2016-09-15
  • locate、find命令使用总结

    一、简介    在linux系统中存在"一切皆文件"的说法,这就足以说明文件的重要性,因此查找文件也是我们必须要掌握的技能。这时候熟练使用locate、find命令也就显得至关重要。尤其是find命令常用于日常工作中如安装完某个软件之后要查看这些软件的安装配置路径,或是需要按指定条件直接查找我们需要操作的文件。因此更需…

    Linux干货 2015-08-31
  • 马哥教育网络班N22期+第7周作业

    1、创建一个10G分区,并格式为ext4文件系统;(1) 要求其block大小为2048, 预留空间百分比为2, 卷标为MYDATA, 默认挂载属性包含acl;mke2fs -t ext4 -b 2048 -L MYDATA -m 2 /dev/sdb1tune2fs -o acl /dev/sdb1(2) 挂载至/data/mydata目录,要求挂载时禁止…

    Linux干货 2016-11-14
  • Centos网卡bond

    Centos6_Bonding配置: 1.禁用NetworkManager服务  2.创建bonding设备的配置文件 3.添加从属接口1 4.添加从属接口2 5.重启网卡服务 6.查看bond0状态 7.删除bond配置 Centos7_Bonding配置: 1.添加bonding接口 2.添加从属接口1 3.添加从属接口2 4.修改bondin…

    2017-05-17
  • 分布式文件系统之fastDFS部署

    fastDFS下载地址:https://github.com/happyfish100/fastdfs部署参考文档:http://joelhy.github.io/2015/01/27/FastDFS-v5-06-deploy/ 我们接下来来部署fastDFS 部署结构: 192.168.42.150 node1 [Tracker]192.168.42.15…

    Linux干货 2017-06-16
  • SED基本用法和在文本中的使用

    sed命令行格式为: sed [-nefri] ‘command’ 输入文本/文件 常用选项: -n∶取消默认的输出,使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN的资料一般都会被列出到屏幕上。但如果加上 -n 参数后,则只有经过sed 特殊处理的那一行(或者动作)才会被列出来 -e∶进行多项编辑,…

    Linux干货 2017-05-05