問題描述
某局點OSN3500設備N1EFT8以太網單板上報T_LOSEX告警,放在5、13槽位時不上報告警(目前在5槽位),放在14、15、16槽位會上報(當前插放在14槽位上)。參數0X01、00、01、02、08。
告警信息
T_LOSEX
處理過程
1、T_LOSEX告警表示單板檢測到背板業務總線信號丟失告警。如果單板檢測到背板業務總線為LOS狀態時,就上報此告警。
2、單板放在5槽位或是13槽位告警消失,判斷單板正常。
3、放在14、15、16槽位會上報T_LOSEX告警,多個槽位故障的可能性較小,檢查槽位也是正常的。
4、按照T_LOSEX告警指導,告警參數3為0X01,表示為小槽位交叉單板故障,判斷為9槽位交叉單板SXCS故障。
5、復位9槽位交叉單板SXCS,告警不消失;更換9槽位SXCS單板,告警還是存在;拔出9槽位,告警還是上報。排除9槽位單板故障。懷疑9槽位對應母板槽位故障。
6、檢查9槽位母板槽位槽,確實存在槽位邊緣存在倒針現象,但是分析此倒針不影響以太網單板上報T_LOSEX告警,且將倒針掰回正常狀態后,告警還是不消失。(注意:對母板針腳操作是高危操作,帶電操作可能燒毀母板,必須嚴格在設備掉電情況下操作,且操作后也不能保證母板針腳正常,一般建議直接更換母板)
7、更換母板,告警還是上報。排除母板故障。至此懷疑是否其它槽位單板引起的總線故障。
8、實驗室分析,發現資料對于N1EFT8單板上報T_LOSEX告警的參數分析描述是錯誤的,(T_LOSEX告警的參數分析對其它以太網單板有效)。
目前所有NGSDH設備N1EFT8單板T_LOS_EX告警參數實際含義應該為:
參數名稱 參數含義
參數1、固定為0x01,無意義。
參數2、參數3 固定為0x00 0x01,無意義。
參數4 當前SSN1EFT8單板當前選收的交叉單板總線
0x01表示當前選收的ID小槽位的交叉單板
0x02表示當前選收的ID大槽位的交叉單板
參數5 每位代表一根背板總線好壞。
bit[0]為1表示ID小槽位交叉送來的第1根總線壞
bit[1]為1表示ID大槽位交叉送來的第1根總線壞
bit[2]為1表示ID小槽位交叉送來的第2根總線壞
bit[3]為1表示ID大槽位交叉送來的第2根總線壞
9、根據結論,參數4是0X02,表示選收10槽位的交叉總線;參數5為0X08,轉換為二進制1000, bit[3]為1表示ID大槽位交叉送來的第2根總線壞
,判斷為10槽位交叉單板故障
10、現場更換10槽位交叉單板SXCSA后,N1EFT8單板T_LOSEX告警消失。
根因
1、N1EFT8單板故障
2、交叉單板故障
3、母板故障
建議與總結
1、對于告警,一般按照資料描述處理即可,但是對于需要更換設備母板的操作一定要慎重,要多提出疑惑點。比如此次操作前期懷疑母板故障時,但是檢查母板槽位確實是正常的,那這個時候更換母板是否正確,是否還有其它原因導致?
2、后續推動N1EFT8單板代碼改寫,使其T_LOSEX告警參數和資料描述一致。(N1EFT8沒有嚴格按照告警參數開發)