请选择 进入手机版 | 继续访问电脑版

设为首页 收藏本站
思科服务支持社区 点击关注
思科服务支持社区

  
 找回密码
 立即注册

扫一扫,访问微社区

搜索
热搜: 邮件服务器
查看: 332|回复: 1

[原创翻译] 排查 Nexus7000 的 Xbar Sync Failure 问题

[复制链接]
发表于 2018-6-23 12:05:05 | 显示全部楼层 |阅读模式
## 参考资料
Troubleshoot Xbar Sync Failures on a Nexus 7000 Series Switch

##介绍
Nexus 7000的 module 可能会卡在 power_dn 状态, 由于 Xbar sync 失败。
本文档用来介绍如何收集信息,分析和排查此问题。

##前提
您应该有 NX-OS CLI/命令行经验,和 Nexus 7000 基本架构的知识。

##LAB 构成
本 LAB 使用 Nexus 7000, nx-os 6.1.2 版本,F2板卡。当您在自己网络设备排查此问题,命令可能有所不同。

##问题
N7K-F248XP-25E 板卡不能启动,插入 Nexus 7000的 slot 1,显示为 powered down 状态。可能原因:
a. N7K-F248XP-25E 板卡问题;
b. Xbar 问题 (Fabric Module)
c. 机箱背板针脚损坏

##解决方法
对于板卡问题,必须首先判断是 module 本身故障,或者是 Xbar、机箱 引起的。
为了定位故障,可以将 F2板卡插入其他 slot,如果发现板卡能正常启动,那么说明板卡没问题,应该是机箱或者 Xbar 故障。

将板卡重新插入 slot 1,按照以下步骤收集信息:
show module internal exceptionlog module 1
********* Exception info for module 1 *********
exception information --- exception instance 1 ----
Module Slot Number: 1 <<<<< 板卡 slot 1的 F2
Device Id         : 88
Device Name       : XbarComplex
Device Errorcode  : 0x00000008
Device ID         : 00 (0x00)
Device Instance   : 00 (0x00)
Dev Type (HW/SW)  : 00 (0x00)
ErrNum (devInfo)  : 08 (0x08)
System Errorcode  : 0x40240012 xbar sync failed during module bringup <<<<< 启动失败原因: 与 Xbar 同步失败
(DevErr is LinkNum)
Error Type        : Informational
PhyPortLayer      : Unknown
Port(s) Affected  : none
DSAP              : 0 (0x0)
UUID              : 0 (0x0)
Time              : Thu Mar 20 15:55:19 2014 <<<<< 需要和您N7K 当前 show clock 同步
(Ticks: 532B0F67 jiffies)

从上面的 log 去看,F2在 slot 1 不能启动的原因是 Xbar 或者机箱 slot 1 故障。
为了进一步排查,您可能需要将 Xbar 逐个拔出,直到拔出某一个 Xbar, slot 1的 F2能正常启动为止。此过程能够确认是某一块 Xbar 的故障,需要硬件更换此 Xbar.
但是,以上步骤的非常复杂,在重复插拔过程中可能导致人为损坏,并且需要一个很长的停机/停业务窗口。为了更快定位问题,您需要查看以下信息:
show system internal xbar event-history errors
-----------------------------------------------------
8) Event:E_DEBUG, length:104, at 384347 usecs after Thu Mar 20 15:55:19 2014
   [102] send_exception_log_msg_to_lcm(1101): module 1 DevId 88 dev_err 0x8 sys
   _err 0x40240012 err_type 0x4

9) Event:E_DEBUG, length:59, at 384343 usecs after Thu Mar 20 15:55:19 2014
   [102] xbm_mod_ac_error(221): Sync fail for module 1 link 8 <<<<< Xbar 相关告警中,Xbar link 8与板卡 slot 1同步失败

在以上 log 里面,可以清楚看到Sync fail for module 1 link 8,含义是 slot 1 的 F2与 fabric slot link 8 同步失败。为了找到 fabric slot link 8 对应的第几块 Xbar, 您需要查看show system internal xbar sw 信息:
show system internal xbar sw
Module in slot 1 (present = 0)
Link_Map:: Num Links 10 max Edp 10
Link_num 8
        connected to fab [14.0] active_lnk 1
        fi_to_mon 4 fi_to_use 4
从show system internal xbar sw 去看,Link_num 8 (Link 8) 连接到 fab 14.0(Fabric Slot 14), 就是 Xbar 5 // 请注意,Xbar 计数是 0-based.

为了查看 fab [14.0] (the fabric in Slot 5),可以使用 show module xbar
show module xbar

Xbar Ports  Module-Type                      Model             Status
---  -----  -------------------------------- ----------------- ------
5    0      Fabric Module 2                  N7K-C7010-FAB-2    ok
从 show module xbar, 可以看到 fabric slot 的 Xbar5。

目前为止,您可以定位出 板卡slot 1 的F2启动失败,是由于 fabric slot 的 Xbar5导致。在这个 LAB 里面,将fabric slot 的 Xbar5拔出,之后板卡 slot 1的 F2就可以正常启动了。

##结论
板卡不能启动,可以根据 show module internal exceptionlog module x 找到原因;根据exception log,进一步确认是否能精确定位故障。
本次 LAB,需要更换 Xbar5.

##建议
always keep calm and connect our TAC immediately when necessary.


  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5
平均得分4 (2 评价)
发表于 2018-7-4 17:19:02 | 显示全部楼层
仔细检查命令行。
  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5
平均得分0 (0 评价)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver | 思科服务支持社区  

GMT+8, 2018-7-22 06:52 , Processed in 0.086852 second(s), 33 queries .

京ICP备09041801号-187

版权所有 :copyright:1992-2019 思科系统  重要声明 | 保密声明 | 隐私权政策 | 商标 |

快速回复 返回顶部 返回列表