| 作者:田逸(sery@163.com) 如需转载请注明出处及署名,否则追究责任。故障持续时间:2009年9月28日20:40故障来源:监控平台短信报警,提示源站(i.maxthon.cn)连接数处于critical.故障现象:访问起始页失败。处理过程: (1)修改hosts文件,指定服务器,然后访问起始页失败。逐个排除电信网通缓存服务器的故障嫌疑。 (2)登录源站X.X.X.80,重启apache, 无效果。运行netstat -an | wc -l 请求数保持在3万多。查看系统日志文件 /var/log/messages,大量的”out of memory”,tcp资源被耗尽。再查看站点的日志,发现gocn.maxthon.com这个访问特别频繁(日志闪屏快速滚动),用脚本过滤排序访问日志,同一ip的访问数数以百计,通过询问,得知这些ip来自快网的cdn缓存服务。于是要求对方采取措施,降低cdn对源站的抓取频率,同时我把i.maxthon.cn 源站迁移到另外一个物理服务器,恢复了起始页的访问。随着cdn抓取频率的降低,在凌晨2点,gocn.maxthon.com恢复正常。问题的具体原因(快网出具): 九月二十八日晚20:30分,我方值班工程师接贵方技术人员反映,说明gocn.maxthon.com 这个加速域名。因我方节点取源频繁,而导致贵方源服务器响应慢,甚至出现不响应现象。受影响的域名还有i.maxthon.cn 我方人员立即排查,确认该域名的相关配置,当天未做任何修改。 与贵司技术人员沟通,情况是该域名的内容有大量更新,或是有新的结构调整,而我方的配置未做相应的更新。如该域名下的htc/dat/ini等文件。 我方技术人员当即采取措施如下: 一、适当调整该域名下htc/dat/ini/txt等文件的缓存时间。 二、采用分层结构取源。 至次日凌晨一点多,取源连接减少,访问在恢复中。 注:经查源站apache日志,发现文件videoUrlRules.ini 是被请求最多的一个文件,没有被有效的缓存到cdn服务器。 总结: |