問題描述
因OSN3500設備新發貨版本有5.21.18.50P01還有5.21.19.31版本,用戶要求統一版本,從5.21.18.50P01升級到5.21.19.31,升級完成后,一臺OSN3500設備主備主控板都上報hard_bad告警,主備主控頻繁倒換、設備主控板為SSN1GSCC01單板;
告警信息
截取網元部分告警如下:
17 HARD_BAD CR end 2011-06-04 09:53:26 2011-06-04 09:54:25 0xff 0xff 0xff 0x01 0x00
17 HARD_BAD CR end 2011-06-04 09:54:36 2011-06-04 09:55:45 0xff 0xff 0xff 0x01 0x00
18 HARD_BAD CR end 2011-06-04 10:28:50 2011-06-04 10:28:55 0xff 0xff 0xff 0x01 0x00
18 HARD_BAD CR end 2011-06-04 10:40:34 2011-06-04 10:40:38 0xff 0xff 0xff 0x01 0x00
18 HARD_BAD CR end 2011-06-04 10:52:00 2011-06-04 10:52:14 0xff 0xff 0xff 0x01 0x00
處理過程
1、核實升級動作,一共加載了7個站點都沒有問題,軟件包問題排除;工程師嚴格按照指導書操作,升級過程無錯誤提示,升級順利,和升級過程沒有關系;
2、兩塊單板都上報hard_bad告警,同時故障的可能性不大,因上報告警后主備主控板頻繁發生倒換,所以單板告警不可能是誤報;
3、現場全量采集數據返回分析,核實結果如下(詳細分析過程見附件):
SSN1GSCC01主控在V100R009C04SPC200版本(19.31)下底層dwReadV36接口實現錯誤,讀取到了3.3V電壓的值,從而概率性上報hard_bad告警。
4、出現此問題可以考慮:
A、版本降級到R8主流版本V100R008C02SPC200或者V100R008C02SPC300,或升級到R10版本。
B、更換為非N1GSCC01單板,如N1GSCC02,N4GSCC等單板;現場更換為N4GSCC單板問題解決;
根因
1、主機軟件升級過程有問題,沒有正確加載軟件;
2、主控板硬件故障;
3、主機軟件和主控板配合問題;
4、告警誤報;
建議與總結
如果有升級需求,建議核實下發布的設備版本策略,因為5.21.18.50P01版本就是主流維護版本,現網運行穩定,而5.21.19.31版本是針對有數據特性特殊需求局點而使用的版本,此問題站點現網實際沒有升級必要;