問題描述
客戶在更換OSN2500設備主控板時誤操作,再未完成同步的情況下就更換了主板,主備間同步異常,后面又將原來的主板作為備板插入,同步后導致新舊單板的網元ID全部改變,網元脫管,業務中斷。原網元ID為1177,異常后網元ID為10007??蛻粝胧褂妹钚袑⒕W元ID恢復為1177,此時命令行上報ID沖突錯誤,錯誤碼:39048。
告警信息
NSERROR_CM_NEID_CONFLICT
處理過程
1.將CXL改為單配狀態,對該單板進行復位,然后修改ID,仍然報錯。
2.更換其他CXL單板做相同操作問題依舊。
3.使用命令行查詢故障網元ECC路由,發現確實有指向1177網元的路由,跳數為35,在相鄰網元查看也有該路由跳數為36。與客戶確認之前是否有ID沖突的網元或者有沒有新加網元的操作,客戶明確表示沒有。
4.在網管上查看相鄰網元的ecc鏈路管理,發現該1177 ID指向的就是故障網元,但是跳數異常,同時也有指向10007 ID的路由。
5.與研發確認,懷疑是子網過大鏈路不穩,引起路由老化時間過長,導致還能查看的到原1177網元ID的路由。
6.使用cm-set-maxdist命令將故障網元的ECC最大跳數修改為10,加速路由老化速度,然后再設置網元ID成功,下載數據恢復業務。
根因
1.主控板故障
2.網絡中有ID沖突的網元
建議與總結
合理規劃網絡子網,防止ECC子網過大。