取消
显示结果 
搜索替代 
您的意思是: 
cancel
3777
查看次数
16
有帮助
0
评论
Luke Huang
Cisco Employee
Cisco Employee
## 参考资料
Troubleshoot Xbar Sync Failures on a Nexus 7000 Series Switch
##介绍
Nexus 7000的 module 可能会卡在 power_dn 状态, 由于 Xbar sync 失败。
本文档用来介绍如何收集信息,分析和排查此问题。
##前提
您应该有 NX-OS CLI/命令行经验,和 Nexus 7000 基本架构的知识。
##LAB 构成
本 LAB 使用 Nexus 7000, nx-os 6.1.2 版本,F2板卡。当您在自己网络设备排查此问题,命令可能有所不同。
##问题
N7K-F248XP-25E 板卡不能启动,插入 Nexus 7000的 slot 1,显示为 powered down 状态。可能原因:
a. N7K-F248XP-25E 板卡问题;
b. Xbar 问题 (Fabric Module)
c. 机箱背板针脚损坏
##解决方法
对于板卡问题,必须首先判断是 module 本身故障,或者是 Xbar、机箱 引起的。
为了定位故障,可以将 F2板卡插入其他 slot,如果发现板卡能正常启动,那么说明板卡没问题,应该是机箱或者 Xbar 故障。
将板卡重新插入 slot 1,按照以下步骤收集信息:
show module internal exceptionlog module 1

********* Exception info for module 1 *********
exception information --- exception instance 1 ----
Module Slot Number: 1 <<<<< 板卡 slot 1的 F2
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)
System Errorcode : 0x40240012 xbar sync failed during module bringup <<<<< 启动失败原因: 与 Xbar 同步失败
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:55:19 2014 <<<<< 需要和您N7K 当前 show clock 同步
(Ticks: 532B0F67 jiffies)
从上面的 log 去看,F2在 slot 1 不能启动的原因是 Xbar 或者机箱 slot 1 故障。
为了进一步排查,您可能需要将 Xbar 逐个拔出,直到拔出某一个 Xbar, slot 1的 F2能正常启动为止。此过程能够确认是某一块 Xbar 的故障,需要硬件更换此 Xbar.
但是,以上步骤的非常复杂,在重复插拔过程中可能导致人为损坏,并且需要一个很长的停机/停业务窗口。为了更快定位问题,您需要查看以下信息:
show system internal xbar event-history errors

-----------------------------------------------------
8) Event:E_DEBUG, length:104, at 384347 usecs after Thu Mar 20 15:55:19 2014
[102] send_exception_log_msg_to_lcm(1101): module 1 DevId 88 dev_err 0x8 sys
_err 0x40240012 err_type 0x4
9) Event:E_DEBUG, length:59, at 384343 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(221): Sync fail for module 1 link 8 <<<<< Xbar 相关告警中,Xbar link 8与板卡 slot 1同步失败
在以上 log 里面,可以清楚看到Sync fail for module 1 link 8,含义是 slot 1 的 F2与 fabric slot link 8 同步失败。为了找到 fabric slot link 8 对应的第几块 Xbar, 您需要查看show system internal xbar sw 信息:
show system internal xbar sw

Module in slot 1 (present = 0)
Link_Map:: Num Links 10 max Edp 10
Link_num 8
connected to fab [14.0] active_lnk 1
fi_to_mon 4 fi_to_use 4
从show system internal xbar sw 去看,Link_num 8 (Link 8) 连接到 fab 14.0(Fabric Slot 14), 就是 Xbar 5 // 请注意,Xbar 计数是 0-based.
为了查看 fab [14.0] (the fabric in Slot 5),可以使用 show module xbar
show module xbar

Xbar Ports Module-Type Model Status
--- ----- -------------------------------- ----------------- ------
5 0 Fabric Module 2 N7K-C7010-FAB-2 ok
从 show module xbar, 可以看到 fabric slot 的 Xbar5。
目前为止,您可以定位出 板卡slot 1 的F2启动失败,是由于 fabric slot 的 Xbar5导致。在这个 LAB 里面,将fabric slot 的 Xbar5拔出,之后板卡 slot 1的 F2就可以正常启动了。
##结论
板卡不能启动,可以根据 show module internal exceptionlog module x 找到原因;根据exception log,进一步确认是否能精确定位故障。
本次 LAB,需要更换 Xbar5.
##建议
always keep calm and connect our TAC immediately when necessary.
入门指南

使用上面的搜索栏输入关键字、短语或问题,搜索问题的答案。

我们希望您在这里的旅程尽可能顺利,因此这里有一些链接可以帮助您快速熟悉思科社区:









快捷链接