取消
显示结果 
搜索替代 
您的意思是: 
cancel
2540
查看次数
0
有帮助
0
评论
tao.li
Level 3
Level 3
客户反馈1:
系统大概持续使用1个月左右,本地盘disk0,disk1就会变成busy 100%,并且不会降下去。然后把samba的两个进程smbd,nmbd 直接Kill掉,磁盘使用率就下架下来了,系统就恢复正常了。当客户发现文件没法上传了,也就是出现磁盘busy100%,他就会立刻重启samba(说不能等,现场分分钟要读里面的图纸)。然后事后联系我们,说机器是不是有问题,系统是不是有问题:。
客户反馈2:
最近磁盘出现busy 100%的频率变高了,经常1,2个礼拜就会有一次,并且杀samba进程也不管用了,每次遇到直接重启。(每次都是重启以后找我们,说系统刚刚出问题了,实在是因为不能等,所以直接重启机器了)。
客户这系统用途:samba共享了一个/axway文件夹给一些windows客户端上传文件。同时这个系统上面跑一个应用,应用对外共享/axway里面的文件。
由于没能接触第一时间,再加上客户的表述,重启samba就能恢复。我这边判断:升级下samba吧,把当前3.0.几的版本升级到3.3.几的最新版本。
客户暂时把业务迁移到B机上了,A机等着我们去处理。我这边二线给的方案就是让我去升级A机的samba软件。
我去现场处理问题:升级samba,此处省略。。。。。
(我倒没准备解决磁盘busy100%的问题,因为每次都是客户说遇到,我从未见过,二来我就是准备升级软件的,多简单的一件事啊,早升级完早回家。)
到现场,我把软件升级好后,先随便检查下系统状态
用nmon,+d+t (拿下图做个讲解吧,现场的nmon没截图)


文字描述下nmon看到的情况:
hdisk0,hdisk1有规律的每隔10几秒就有大量的WWWW,磁盘的速率大概就到1000Kb/。但是磁盘的busy这项会立刻上升到100%,跟过山车一样,一会100,一会0,一会100,一会0,同时Cpu几乎没啥负担。
看到这些数据,我当时判断,系统在写很多文件,写的数据也不多,因为只有1000K/s就到busy100%了。磁头很繁忙?????为啥磁头很繁忙????不知道~~
再看了下top-processes这动态栏,没看到哪个进程长时间排在首位,看char i/o这栏,也基本都是0,-10几之间,没有哪个进程间接性的突然暴涨啊,没看出点啥头绪,(后面发现和char i/o没关系)。
哪位大拿给讲解下,res set,res text,char i/o啊?为啥磁盘busy,而char i/o动都不动?
客户反馈:现在这台机器上没跑应用,业务都在备用机上跑着。那怎么磁盘还会这么诡异的升来升去呢?原本是等我升级,然后业务切换到这台机器的,现在看来,你得再检查检查者机器了。
于是我又祭出了这条命令
filemon -o fmon.out -O all;sleep 60;trcstop
ps(跑filemon的时候,用nmon看到filemon进程的char i/o十分高)
查看下生成的报告
Filemon生成的东西我也只能看懂1,2
首先,最活跃的文件

看了下,login.cfg? Passwd?有点可疑,为啥这些文件时最活跃的??完全不明白!
其次

最活跃的LV,尼玛!!Axway!!!很有问题,52Kb/s 。这就是客户samba共享出去的文件夹!但是,现在这机器业务没在跑啊,既没有人上传文件到这个文件夹,也没有人在这个文件夹读取,怎么他是最高的呢???直觉上这里很有问题!
同样,jfs2log也高的吓人!!!!!180多KB/s
这里wblk(里面W是写的意思??)是啥???哪位大拿指点下??
我立马又执行了条命令 fuser /axway 想查看下,哪些进程一直在用这个文件夹里的东西。但是啥都没返回给我。(其实配合nmon应该能想到,有进程在用这个文件夹,但是它一会出来,一会消失,你敲fuser当然不会一下子抓到!!!!)
这时候我病急乱投医了,和客户说,帮你升级下SP吧!看看会不会好转。
Smit installp,根本升级不了,慢的要死!我直接取消了。
这时候转折点来了,我又看了会NMON,突然发现一个进程 chmod出现了,他一出现,磁盘利用率就高了,他一消失,利用率就降下去了!!!!结合前面的一些判断,瞬间我脑通了~~~~~~~~
Ps -ef|grep chmod不断的执行,不断地执行,发现,一会能抓到chmod的进程,一会消失!!同时 是这样的一条命令 chmod -R 777 /axway (axway里面躺着N多的文件)后面跟着进程号chmod的母进程是固定的数字!
Ps -ef|grep xxxxx(chmod的母进程) 呵呵!!!!终于抓到了! 是一个脚本
尼玛,顺藤摸瓜,找到那个脚本,进去查看
脚本里躺着一条chmod这条命令 并且跟着sleep 10!!!!!,粗略算了下,这命令一天执行8000+的次数啊
把脚本停了,磁盘恢复正常了!!!!!!一问客户为啥这么写,巴拉巴拉巴拉各种原因当时这么设计的。客户同样的应用多个现场出现类似问题,因为AXWAY文件夹里文件越来越多,磁盘利用率就上去了,以前的解决办法,每2个月重启一次。
这里我请教下各位大拿!
第一,Chmod -R 777 /目录 如果目录里的文件没有任何变化,那还会把所有文件的权限啥的重复写一次????
第二,chmod N多文件,为啥nmon的char i/o动都不动????
第三,有没有啥命令能看出,aix最近一段时间最最最最频繁执行的命令??????
提问的三个问题我现在都有答案了~
1.Chmod -R 777 /目录是不管原权限的,所有文件都要重置权限,更改inode里的文件权限,有写操作就导致loglv频繁写。AIX下就是i这样的~别的系统不知道。
2.写是很频繁,但字节数很少,并且,不是连续的,IO吞吐量并不大 char io为什么没反应,因为IO数据量根本不大~
3.tprof应该可以看到系统一定时间内执行最多次数的命令~
入门指南

使用上面的搜索栏输入关键字、短语或问题,搜索问题的答案。

我们希望您在这里的旅程尽可能顺利,因此这里有一些链接可以帮助您快速熟悉思科社区:









快捷链接