公司服务器最近几天一直报错误,大概运行一天就报如下异常。
java.net.SocketException: No buffer space available (maximum connections reached?): JVM_Bind
搞的很是郁闷,转载篇文章,貌似很全面,试试看。
一个朋友让我帮忙解决他服务器上一个JAVA应用出现的问题,我利用业务时间赶赴现场两次,终于解决了这个疑难杂症,赶紧记录下来,不求能解救曾经和我一样困惑的劳苦大众,但愿自己别忘了。
一、问题的表现
首先说明一下环境,服务器是WINDOWS SERVER 2003,我对这个操作系统的特性不是很熟悉,只是当做普通的个人版操作系统来使用。我平时一般JAVA服务器都是安装LINUX。
数据库使用的SQL SERVER 2005,SP2。他的数据库本来是SQL SERVER 2000的,是我上周帮他做的迁移。
中间件使用RESIN 2.1.17,这是我非常喜欢和熟悉的SERVLET容器,加不加装APACHE都具有很好的WEB服务性能。
杀毒软件使用的瑞星,双网卡,硬件防火墙,什么牌子我没管。
那到底是什么问题?
这个!
com.microsoft.sqlserver.jdbc.SQLServerException: 到主机 的 TCP/IP 连接失败。 java.net.SocketException: No buffer space available (maximum connections reached?): JVM_Bind
RESIN启动后,在短时间内正常,但是在没有访问的情况下,会在几个小时后,自己死掉。静态页面没有问题,也就是基于HTTPWEB服务器没有死,涉及数据库连接的,都不行。
二、分析
我是第一次碰到这个错误,赶紧GOOGLE。
我首先自己排除了是程序的问题,网上有人说,是数据库连接没有关闭,这样的同志都是新手,而且我自己也可以肯定,程序是肯定没有问题的,这个错误,出现的位置绝对比数据库连接要底层的多。
网上的文章非常少,都看了一遍,总结一共有以下几个原因。
1. Windows服务器运行自动更新。具体为什么自动更新运行后,就会消耗系统这么多的SOCKET 连接,我还搞不清楚。但是有一点,自动更新肯定会占用网络带宽和CPU,在服务器上,我觉得应该是关闭自动更新的,采用人工更新的方法。
2.机器中了木马。木马会打开很多后门,创建大量的连接,包括局域网肉鸡上的,还有外网的。这也会导致机器出现无法上网,或者程序无法连接。在搜索到的结果中,大量的结果都是采用的SQLSERVER数据库服务器,这是很容易招来木马和病毒的服务器,大部分是SQLSERVER出问题,不是偶然的。
3.虚拟内存配置过低。第一次发现这个问题后,我到现场打开机器,确实报了一个虚拟内存的错误,说虚拟内容不足。
4.有不当程序创建了大量的短连接,由于程序的不健壮,导致SOCKET处于忙碌或者TIME_WAIT状态,或者服务器和客户端有一方出现异常,而另一方没有得到通知,还在连接,持续不断的做写操作。
三、动手解决
经过分析,将准备采取的措施一一写下来,我的脑袋不太好用,容易忘记东西。
措施如下,先做什么,后做什么,看到这篇文章的朋友,可以自己调整。
1. 优化RESIN的配置,适当的扩大连接池的数量,虽然不是这个问题,还是稍微扩大一点。配置了远程监控,关闭了默认没有做的目录浏览,屏蔽了404等错误;使用HTTPD -INSTALL将RESIN安装入服务,原来我的朋友是直接启动的控制台,这容易导致程序在控制台缓存到顶后停止。关闭了HIBERNATE的SHOW_SQL开关。
2.关闭自动更新,并且关闭Background Intelligent Transfer Service服务。打开服务的时候,发现服务窗口5秒后会自动关闭,而且奇怪的服务非常多。同时看到NORTON已经被自动禁用了,打也打不开,得,这机器的病毒还不少。
3.杀毒。不看不知道,一看吓一跳。我这哥们真是个大猛男,妈的,各种病毒都中了,还服务呢,这SERVER真是可怜啊!病了主人也不给看病,为国家服务的机器,不可能没有医保嘛。亲爸不管叔叔来给你治病。经过分析,中的病毒有U盘病毒,还有RUNAUTO..病毒,灰鸽子,传奇木马,各种不知名的后门和木马,还被安装了一个远程控制的小东西。下载了一个360,想偷懒,结果根本无法安装。删除了RUNAUTO..,(我以前的博客有专门描述怎么对付这玩意的)结果C盘都打不开了,只能在资源管理器中打开。还挺麻烦。于是找到病毒几个藏身之所,分析了未知服务,用DOS删除不掉,还是360的文件粉碎有用。什么c:\windows\lsass.exe等等,cmd.exe.exe这都太普通了。具体过程也不是很清楚了,总之最后360可以安装并更新了。360这东西确实好,木马都清除了。现在服务窗口也不自动关闭了,NORTON也正常监控,机器没有异常打开的端口,没有莫名其妙的服务,恩,差不多了。
4.优化服务器设置。其实我也不知道这么优化。看了看,虚拟内存都在C盘,C盘空间已经非常少了,找了点看的明白的东西,往别的盘搬了搬,看不懂的,不敢随便给人家动。重新打开服务窗口,没什么用的服务都开着,把我确定的都关闭,什么SERVER服务,还开着ADMIN$呢,赶紧都关了,他这机器根本用不着。还有什么IIS,APACHE,开的还真全,我看还安装了TOMCAT了,干脆加上RESIN全打开算了,那真是够热闹的,万马齐喑。我当然不允许这事出现,全干掉。
5.检查是否某个程序有漏洞。由于我自己在RESIN下还配置了一个只有我自己连GOOGLE的机器人都无法发现(并且也拒绝了机器人扫描)的小工具,之前就看到有外网IP不时的创建大量的连接,但都处于TIME_WAIT状态。这也很要命。看了一下,除了这个WEB应用,还有一个每天自动接收数据的小程序。这个程序是使用的SOCKET长连接还是短连接就不知道了,有朋友关心这方面的内容可以详细GOOGLE一下。但是这个程序确实是没有被配置为开机自动运行(我给加上了),可能是外网那个IP上的客户端在不断的寻求连接吧!SOCKET.close()是不马上释放连接的,而是设置为TIME_WAIT状态,这个时间默认是240S,也就是4分钟。这太长了,有30秒(最小值)就可以了。在修改这个默认值的时候,还发现这台机器并没有开启大端口服务,也就是高于5000的端口。这也是会出现“系统缺乏足够缓冲区空间或者因为队列已满无法执行套接字上操作”错误的!而那WEB服务就是配置到1万以上端口的!赶紧,操作方法如下:
1. 启动注册表编辑器。 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters
2. 新建
值名称:MaxUserPort
值类型: DWORD
值数据: 65534(用十进制的方法写进去就可以,如果是十六进制,是FFFE,因为4个F是65535嘛)
有效范围: 5000 - 65534 (十进制)
默认: 0x1388 5000 (十进制)
新建
值名称:TCPTimedWaitDelay
值类型: DWORD
值数据: 0000001e(也就是30,不行可以用WINDOWS计算器,很方便,这个表示TIME_WAIT的秒数)
OK!
经过一番折腾,我在震耳欲聋的轰鸣声中,终于安抚了这台哭泣的服务器,也驯服了几匹小木马,好好调教了我的RESIN服务器。顺便说一句,我身后有台什么爱默生服务器,隔一会就象打嗝似的叫一声,时常把我吓到……
希望花费我1个多小时写的这个总结,对我自己肯定有用,也希望能帮到更多的朋友,转载请注明连接!
来源:oschina
链接:https://my.oschina.net/u/2499632/blog/644324