分享一个刚刚在工作中遇到的故障处理流程

回复 收藏
故障情况:用户反映网站502错误
网站架构: 前端代理 -后端web+数据库

第一:首先定位了服务器故障,ssh上去(负荷160+)
第二:top查看了进程了,全是httpd(数量很多,正常下httpd进程是很少的)
直接重启了apahce,缓解了一下负荷,以便更好的操作服务器
第三:分析了apahce 日志
tail -f 10 一直刷新,某个域名特别duo
第四:使用grep 将该域名的日志读取出来,和整体日志对比
该域名的日志占用整个日志的比例达到80%,异常
访问网站发现论坛被大量写入垃圾信息
关闭网站,负荷下降到1以下,服务器正常。(到这里故障已经处理完毕,但是在我的工作环境,这个网站可以暂停,在其他工作环境不是随便可以暂停的,所以继续)
第五: 使用awk 将ip读取出来
第六:使用sort排序
第七:使用uniq 去重,
看到有几个ip 大量连接,
第八:一般的工作环境就是使用iptable 屏蔽或者网站本身的限制了。

到此,工作结束。
2016-04-26 15:01 举报
已邀请:
0

拉卡

赞同来自:

{:6_154:}  做的很好,学习。
0

放牛

赞同来自:

如果ip地址不断变化呢?我们公司也月到过类似情况,用iptables没用,根据浏览器类型屏蔽也不行,最后是研发在代码中做了过滤
0

huanglin

赞同来自:

放牛 发表于 2016-4-26 20:43
如果ip地址不断变化呢?我们公司也月到过类似情况,用iptables没用,根据浏览器类型屏蔽也不行,最后是研发 ...

这么牛逼 代码贴出来看看
0

riverxyz

赞同来自:

学习!

回复帖子,请先登录注册

退出全屏模式 全屏模式 回复
评分
可选评分理由: