能,分析日志也好,分析系统状态也好,不过根据caoz经验,出这种问题,80%以上是系统某参数越界,这种越界还蛮多的,比如最多文件打开数,系统最大连接数,syn_backlog,甚至最多文件节点数(看硬盘空间还有,其实inode没有
了,大量琐碎小文件就会出这个问题!)还有,ip_contrack什么参数,可能导致网络丢包严重, 所以这个问题的关键是,对linux各项内核参数必须有深入了解,有时候你看服务器跑不动了,可能改一下参数马上就好了,但是改哪个参数,怎么改,这就只能是经验和
搜索技巧了。
其实caoz想到的也不完整,后来有人给caoz很多提醒,比如前端mysql,memcache链接应该设置超时参数云云。不过总体来说
意识到位(先临时处理立即恢复线上应用,再彻底处理,处理要评估并且做出预判,优化与故障自动处理要并行,不能100%依赖优化结果)
思路开阔(dba的问题别死盯着dba,谢谢)
经验丰富,上述列到的,您列出了几个?
答案就此公开,谢谢各位的来信。真有不少人才,让caoz兴奋!
来自:httphi.baiducaozblogitem6020720e81ec12c67bcbe14b.html