## 问题现象
N7K --- Peer, 10G 光纤对接,客户发现 Port-Channel 10 一共8个 member ports,其中 e8/5 端口被 suspend,其余端口正常。
## 排查
1. show logging log | in 8/5 , 观察出问题具体时间,和简单的原因
2018 May 10 14:56:36 N7K %ETH_PORT_CHANNEL-5-PORT_SUSPENDED: Ethernet8/5: Ethernet8/5 is suspended by protocol, other reasons
2. show run inter e8/5, show accounting log, 确认客户是否修改过配置;
客户没有修改配置
3. e8/5 使用 LACP 协议,端口 suspend,一般是协议层故障。show system internal ethpm event-history interface e8/5 来确认:
189) FSM:
Transition at 501021 usecs after Thu May 10 14:56:11 2018
Previous state: [ETH_PORT_FSM_ST_WAIT_BRINGUP]
Triggered event: [ETH_PORT_FSM_EV_BUNDLE_COMPAT_CHECK]
Next state: [No transition found]
190) Event:ESQ_RSP length:38, at 505186 usecs after Thu May 10 14:56:36 2018
Instance:439894016, Seq Id:0x1, Ret:port not compatible <<<<< 由 ethpm 信息确认,e8/5 suspend 原因是PORT_CHANNEL_MGR 检测到 e8/5 与其他成员接口不兼容
[E_MTS_RX] Src:MTS_SAP_ETH_PORT_CHANNEL_MGR(378), Opc:MTS_OPC_ETHPM_PORT_BRINGUP(61442)
RRtoken:0x1762D35F
191) FSM: Transition at 505251 usecs after Thu May 10 14:56:36 2018
Previous state: [ETH_PORT_FSM_ST_WAIT_BRINGUP]
Triggered event: [ETH_PORT_FSM_EV_SUSPEND_PORT]
Next state: [ETH_PORT_FSM_ST_PORT_SUSPENDED]
Curr state: [ETH_PORT_FSM_ST_PORT_SUSPENDED]
4. e8/5 通过 LACP PDU 来与 peer 协商,应该是 LACP protocol 参数协商问题
show lacp internal event-history errors
show lacp internal info interface e8/5 detail fsmlog
1) Event:E_DEBUG, length:195, at 964052 usecs after Thu May 10 14:56:36 2018
[102]lacp_ac_suspend_partner_sync_time_out(1488): lacp_ac_suspend_partner_sync_time_out port Ethernet8/7(0x1a386000) of port-channel Ethernet8/7(0x1a386000) suspended due to partner sync timeout <<<<< LACP PDU 乱序、timeout
5. 通过查看 LACP counter,发现 LACP 收发实际上数量相等,因此怀疑是参数协商不一致。
建议客户采集 e8/4 的 LACP 信息,通过对比,发现 e8/5 收到的 LACP PDU 的参数有问题:
partner_proto_fields:
oper:
info (8000, 2c-55-d3-86-8b-31, 1841, 8000, b4)
state (Ac-1:To-0:Ag-1:Sy-1
:Co-1:Di-1:De-0:Ex-0)
partner_proto_fields:
oper:
info (8000, 2c-55-d3-86-8b-31, 1841, 8000, b5)
state (Ac-1:To-0:Ag-1:Sy-0
:Co-0:Di-0:De-0:Ex-0)
Sy 是 In-Sync 的简写,如果 Sy-1, 代表此接口可以正常聚合在 port-channel;如果 Sy-0, 表示此接口不具备/不兼容到 port-channel。
## 可能原因
目前为止,请问您可以想到哪些可能原因?
--- 以下是基于经验的一些分析 ---
a. N7K peer 将 连接 e8/5 的接口的配置弄错了
b. 连线错误
## 结论
10G 光纤分为 Rx, Tx 两条线,一条线会分为两端各自 Rx, Tx, 客户把光纤顺序对应错了。
调整光纤 Rx, Tx 对应关系,问题解决。