关于起始页、gocn故障的情况说明

On 2009年09月29日, in 未分类, by admin
8
作者:田逸(sery@163.com)  如需转载请注明出处及署名,否则追究责任。故障持续时间:2009年9月28日20:40故障来源:监控平台短信报警,提示源站(i.maxthon.cn)连接数处于critical.故障现象:访问起始页失败。处理过程:
(1)修改hosts文件,指定服务器,然后访问起始页失败。逐个排除电信网通缓存服务器的故障嫌疑。
(2)登录源站X.X.X.80,重启apache, 无效果。运行netstat -an  | wc -l 请求数保持在3万多。查看系统日志文件 /var/log/messages,大量的”out of memory”,tcp资源被耗尽。再查看站点的日志,发现gocn.maxthon.com这个访问特别频繁(日志闪屏快速滚动),用脚本过滤排序访问日志,同一ip的访问数数以百计,通过询问,得知这些ip来自快网的cdn缓存服务。于是要求对方采取措施,降低cdn对源站的抓取频率,同时我把i.maxthon.cn 源站迁移到另外一个物理服务器,恢复了起始页的访问。随着cdn抓取频率的降低,在凌晨2点,gocn.maxthon.com恢复正常。问题的具体原因(快网出具):
九月二十八日晚20:30分,我方值班工程师接贵方技术人员反映,说明gocn.maxthon.com 这个加速域名。因我方节点取源频繁,而导致贵方源服务器响应慢,甚至出现不响应现象。受影响的域名还有i.maxthon.cn

我方人员立即排查,确认该域名的相关配置,当天未做任何修改。

与贵司技术人员沟通,情况是该域名的内容有大量更新,或是有新的结构调整,而我方的配置未做相应的更新。如该域名下的htc/dat/ini等文件。

我方技术人员当即采取措施如下:

一、适当调整该域名下htc/dat/ini/txt等文件的缓存时间。

二、采用分层结构取源。

至次日凌晨一点多,取源连接减少,访问在恢复中。

注:经查源站apache日志,发现文件videoUrlRules.ini 是被请求最多的一个文件,没有被有效的缓存到cdn服务器。

总结:
一、存在的问题
(1)尽管我们很快定位了问题所在,但由于需要第三方做处理,所以等待处理花费了较多的时间。
(2)目前我们的it资源处于饱和状态,稍微有点大的流量上来,就顶不住,只好把流量切换到商业的cdn服务商那里。
(3)为节省资源,多个站点公用一个物理服务器,导致一个站点出问题,其他站点也受牵连。
二、解决问题的思路
(1)、适当扩充我们的it资源,使之有些富余量。具体的资源扩张包括增加服务器数量、增加带宽及增加布点。
(2)商业的cdn作为临时的大流量支持。如做大量推广的时候切换流量过去。
(3)重要的静态站点,一个站点一个机器。

 

Tagged with:
 

升级dns版本

On 2009年09月28日, in 未分类, by admin
6

作者:田逸(sery@163.com)  如需转载请注明出处及署名,否则追究责任。

时间:20090928上午9点30分

 

原因:nagios监控昨天报警

频繁,登陆系统查看,发现查询次数有点高(每分钟大概300多次)。为了不做大的修改,决定升级试试。

升级步骤:安装路径 /usr/local/named
(1)停止服务 killall -9 named
(2)备份原安装目录 cd /usr/local ; cp -r named  named_9.4.0.bk
(3)安装  cd  bind-9.5.2; ./configure –prefix=/usr/local/named ; make ; make install
(4)启动 named
(5)查看系统日志及查询日志,判定升级是否正常

关键步骤就是备份,万一升级不成功,可立即用备份目录覆盖。

Tagged with: