最近一个项目交付了一批2960L交换机,客户反映交换机经常会出现死机现象,而且出现的设备是随机的,重启设备可以解决,但是,隔一段时间又会出现死机的问题。
1.先使用
show cdp nei命令,检查物理连接,检查是否有环路。正常,没有环路,port-channel配置正确
2.使用
show log 检查是否有异常的日志,无异常情况
3.使用
show version 检查交换机的软件版本,软件版本为:目前设备版本均升级至官方最新: Version 15.2(6)E,和官网推荐的版本一致,IOS软件也可以排除
4.使用
show process cpu history 可以看到CPU的利用率经常在40-50之间,利用率还是比较高的
334333333433333344333333344434444444444444444444444444434444
781688986086465901455557402285666432055243732841238615291000
100
90
80
70
60
50 **** ** * * ** *
40 ************ ********** #################################
30##########################################################
20##########################################################
10##########################################################
0....5....1....1....2....2....3....3....4....4....5....5....6
0 5 0 5 0 5 0 5 0 5 0
CPU% per minute (last60 minutes)
* = maximum CPU% #= average CPU%
5. 然后show process cpu 检查是哪些进程占用较高的CPU
#show processes cpu 174 135817 1067117 127 3.05% 2.79% 2.75% 0 HAYSEL SISF
239 587391 1064923 551 13.71% 12.63% 12.45% 0 SISF Switcher Th
240 313662 1068371 293 6.87% 6.66% 6.62% 0 SISF Main Thread
6. 经google查询,这几个进程和DHCP snooping有关,而且还有bug ID的信息,但是不是出现在2960L平台
7.于是检查交换机关于dhcp snooping的配置
ip dhcp snooping vlan 11-36,998.检查vlan配置,由于交换机默认是vtp server的状态,所以各交换机学习到了所有的VLAN信息
排查到目前,隐约确认了故障的原因,dhcp snoop会占用系统资源,并且交换机通过VTP学习到了所有的VLAN信息,会占用更多的资源导致的死机。
9.变更VTP的配置
VTP mode trans10.只保留本交换机使用的VLAN,删除多余的vlan
no vlan 12-36no vlan 9911.只在本交换机使用的VLAN启用DHCP snooping,
ip dhcp snooping vlan 1112.查看CPU的利用率情况,可以看到CPU的利用率明显下降
#show process cpu | inc SISF174 103 1056 97 0.01% 0.01% 0.00% 0 HAYSEL SISF Proc
239 570 1056 539 0.09% 0.05% 0.05% 0 SISF Switcher Th
240 311 4683 66 0.01% 0.03% 0.02% 0 SISF Main Thread
经过几天的观察,交换机再也没有出现死机情况。
可见,此次故障是因为配置错误导致的,我们在以后的项目中一定要合理配置,精细化配置,不做无用的配置。