一.开始
大概是在9月28日的下午3点的样子,公司运营部告诉我公司所有的业务瘫痪了,所有的业务都是在等待中,
包括APP服务器,官网,电商平台,线下运营支持平台等10几个网站和服务,接到这样的任务,对于非运维
人员,做为后端人员的我脑子里一片空白,因为你知道公司希望的是给你报告下一秒,问题就解决了,这对
我是挑战也是机遇,挑战的是没有处理过,害怕处理不好,怕公司出大损失,话说算到我们头上也说不定,
机遇的是正好有机会可以锻炼一下自己,看自己有几斤几两,言归正传,看下面的处理。
二.处理
1.现象
访问任何服务就是502,一直服务无法访问
2.处理过程
处理1.通过top命令发现CPU,内存一切正常
处理2.通过iftop命令发现带宽输入一切正常
处理3.通过pstree -a 发现PHP-FPM线程有些多,好吧,那就暴力一点,直接KILL掉一些,发现KILL是没有用的,好吧,把初始线程由原来的35扩大到100,重启,访问WEB服务,终于可以访问,但是慢得像蜗牛似的,但是只是可以说明一个问题,程序服务器是可以跑的,好吧,最近一直没处理过大服务,为什么慢得不要不要的,我想到我们阿里云是不是有什么鬼,好吧,那就是上阿里云看一下
处理4.查看阿里云安全提醒,没有异常
处理5.查看阿里云RTS概况,发现数据库CPU异常,占用率达到100%,我去,这还了得,终于找到原因,接下来是怎么处理CPU占用的问题
处理6.通过查看CPU占用的原因,发现时有个SQL一直在执行
处理7.通过SQL查找执行SQL的服务器IP
处理8.由SQL和IP定位问题发生的项目和业务
处理9.发现时被黑了,程序一直在执行和IP相关的业务
处理10.好吧,加上服务器的TOKEN,你还可以吗,大嘿嘿
三.结语
这也许是每个互联网公司都会遇到的问题,安全安全,还是安全,不安全玩死你,给我的经验就是在忙也不要忘了安全第一
来源:51CTO
作者:李正凡
链接:https://blog.51cto.com/13601957/2294901