请选择 进入手机版 | 继续访问电脑版

设为首页 收藏本站
思科社区 关注
思科社区

  思科 CCO 登录
 找回密码
 立即注册

扫一扫,访问微社区

搜索
热搜: 邮件服务器
查看: 1247|回复: 5

【原创】记一次2960L交换机死机故障处理过程

[复制链接]
发表于 2018-6-30 21:39:27 | 显示全部楼层 |阅读模式
最近一个项目交付了一批2960L交换机,客户反映交换机经常会出现死机现象,而且出现的设备是随机的,重启设备可以解决,但是,隔一段时间又会出现死机的问题。
1.先使用show cdp nei命令,检查物理连接,检查是否有环路。正常,没有环路,port-channel配置正确
2.使用show log 检查是否有异常的日志,无异常情况
3.使用show version 检查交换机的软件版本,软件版本为:目前设备版本均升级至官方最新: Version 15.2(6)E,和官网推荐的版本一致,IOS软件也可以排除
4.使用show process cpu  history 可以看到CPU的利用率经常在40-50之间,利用率还是比较高的
334333333433333344333333344434444444444444444444444444434444
781688986086465901455557402285666432055243732841238615291000
100
90
80
70
60
50                                                     ****       **     *    *       ** *
40 ************ ********** #################################
30##########################################################
20##########################################################
10##########################################################
0....5....1....1....2....2....3....3....4....4....5....5....6
0       5       0       5       0       5       0       5       0       5       0
CPU% per minute (last60 minutes)
* = maximum CPU%     #= average CPU%
5. 然后show process cpu 检查是哪些进程占用较高的CPU

#show processes cpu

174        135817        1067117        127        3.05%        2.79%        2.75%        0 HAYSEL SISF
239        587391        1064923        551 13.71% 12.63% 12.45%        0 SISF Switcher Th
240        313662        1068371        293        6.87%        6.66%        6.62%        0 SISF Main Thread

6. 经google查询,这几个进程和DHCP snooping有关,而且还有bug ID的信息,但是不是出现在2960L平台
7.于是检查交换机关于dhcp snooping的配置
ip dhcp snooping vlan 11-36,99
8.检查vlan配置,由于交换机默认是vtp server的状态,所以各交换机学习到了所有的VLAN信息
排查到目前,隐约确认了故障的原因,dhcp snoop会占用系统资源,并且交换机通过VTP学习到了所有的VLAN信息,会占用更多的资源导致的死机。
9.变更VTP的配置
VTP mode trans
10.只保留本交换机使用的VLAN,删除多余的vlan
no vlan 12-36
no vlan 99
11.只在本交换机使用的VLAN启用DHCP snooping,
ip dhcp snooping vlan 11
12.查看CPU的利用率情况,可以看到CPU的利用率明显下降
#show process cpu | inc SISF
174        103        1056        97        0.01%        0.01%        0.00%        0 HAYSEL SISF Proc
239        570        1056        539        0.09%        0.05%        0.05%        0 SISF Switcher Th
240        311        4683        66        0.01%        0.03%        0.02%        0 SISF Main Thread

经过几天的观察,交换机再也没有出现死机情况。
可见,此次故障是因为配置错误导致的,我们在以后的项目中一定要合理配置,精细化配置,不做无用的配置。



  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5
平均得分5 (5 评价)
发表于 2018-6-30 22:08:09 | 显示全部楼层
谢谢版主分享。
  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5
平均得分2 (2 评价)
发表于 2018-7-3 08:51:39 | 显示全部楼层
我想知道是什么样的错误配置,会导致交换机随机出现这样的问题。
  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5
平均得分3 (1 评价)
发表于 2018-7-6 10:59:42 | 显示全部楼层
这个说不过去啊,CPU利用率达到40-50也不至于导致死机啊,是不是内存爆了啊
  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5
平均得分0 (0 评价)
发表于 2018-7-25 10:53:32 | 显示全部楼层
感谢楼主分享问题,学习了
  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5
平均得分0 (0 评价)
发表于 2018-7-27 10:35:00 | 显示全部楼层
good share!
有条件的话,上一套监控系统看看故障时间的各项硬件指标,SNMP的就行,排查起来应该更快。

估计是某一时间段CPU突发的100%或者内存满导致的宕机。
  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5
平均得分0 (0 评价)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver | 思科社区  

GMT+8, 2018-9-26 05:47 , Processed in 0.094467 second(s), 44 queries .

京ICP备09041801号-187

版权所有 :copyright:1992-2019 思科系统  重要声明 | 保密声明 | 隐私权政策 | 商标 |

快速回复 返回顶部 返回列表