• 您好!歡迎進入深圳市華訊佳科技有限公司官網!

  • 15088181811
您當前所處位置: 首頁 > 新聞資訊 > 華為案例

OSN3500主主控10M以太網通信故障導致備主控不能識別問題

發布人:華訊佳 發布時間:2021-11-18 瀏覽數:

問題描述

線網一臺OSN3500設備(版本18.50,非網關網元),之前主主控有主控重復復位故障。為將故障排除,需將主備兩塊主控(都是SSN1GSCC01,在本例中編號:主主控A、備主控B)都拔下來,插入新主控(SSN1GSCC01,編號C),版本匹配并下載數據后,原有故障消除。

但將原17槽備用主控(B)插回后,單板不能識別,現象為:17槽備主控(B)STAT燈紅,網元沒有異常告警,網元不能識別物理板,當時懷疑原主備主控都故障,就將兩個主控(A、B)都返回維修。等備用主控備件到達后(SSN1GSCC02,版本已提前降級到18.50,編號D),插入17槽,發現故障現象沒有變化。

用:cfg-get-phybd查詢物理單板,返回:

BID BOARD-TYPE

…… ……

16 BPA

18 gscc

…… ……

網元不能識別17槽位的備用主控(D)。

用:cfg-set-oamport:COM,open;打開COM口后,ping網元單板,17槽不通,其他槽位通。

用:cfg-add-board:17,gscc手動添加GSCC邏輯單板并驗證:cfg-verify,17槽上報COMMUN_FAIL,參數:0x01 0x00 0x03 0xff 0xff


告警信息

STAT燈紅

COMMUN_FAIL


處理過程

1、將所帶去的N1GSCC02(D)插入17槽,故障依舊。

2、更換AUX板,故障依舊,排除AUX故障原因。(后來查詢資料證明,該故障與AUX無關)

3、將帶去的SL4A線路板插入17槽,網元能正常識別,且添加邏輯單板后,能正常上線。說明17槽備板至少部分工作正常(三根狀態線和部分數據線)。

4、將17槽備主控(D)跳線成BIOS態(N1GSCC02跳線方法為取下J12、J13跳線,插入J9、J10),插入17槽。能ping通,且能用FTP登陸上。登陸后,刪除OSF1、OSF2目錄下的PREVPDT文件,硬復位單板后,單板自動執行清庫操作。清庫完畢后,撥回正常態,單板依然起不來。17槽GSCC02(D)重新撥回BIOS態,采集單板數據,交給研發分析。

5、研發分析后,認為主主控和背板的嫌疑比較大。帶上另外一個新的N1GSCC02(E),再次去現場定位故障(此時有2塊N1GSCC02):

5.1、新GSCC02插入17槽(E),起不來。啟動過程中用CoolTest工具查詢寄存器

dwReadHardwareStatus(11)

返回值為:

Value = 0 = 0x1

說明主備主控間網口狀態異常,排除第一塊GSCC02(D)硬件故障問題。

5.2、取下兩塊GSCC(C、E),將GSCC02(D,18.50版本的)插入18槽,正常啟動,下載網元數據成功。

5.3、將原18槽GSCC01(C)插入17槽,起不來。報17槽COMMUN_FAIL。

5.4、將17槽GSCC01(C)取出,插入新的GSCC02單板(E),單板上線,網元能識別GSCC。確定是原GSCC01主控板(C)故障。(C主控10M以太網通信模塊故障,導致C當主主控時,不能與備主控建立通信,備主控不能上線。C當備主控時,也不能與主主控通信。更換新主控E后,問題就解決。)

5.5、將版本統一到18.50后,查詢:

:hbu-get-backup-info

返回:

Backup-Info : 0x00000003

同步成功。

:hsc-get-work;

返回:

Work-Status : 18 Good 17 Good

主備狀態正常。

5.6、手動下發主備倒換命令,主備成功倒換。故障排除。


根因

OSN7500/OSN3500/OSN2500/OSN1500板間通訊有二種方式

1)單板間2路HDLC通道,遵從HDLC協議,接口電氣規范為RS485。

2)1路LAN SWITCH通道。

圖1. OSN 3500主控板通信實現原理

LAN SWITCH通道傳遞的是主機和單板之間的正常配置信息和單板向主機上報的告警、性能,相當于老產品中的郵箱。其中主備主控間備份數據用的是10M速率,其他以太網速率都是100M。

485通道主要實現與復用段、SNCP、TPS相關的功能,速率為4Mbits/s。

A通道:用于復用段保護相關的SD、SF事件、K字節、倒換頁面的傳遞。

B通道:用于SNCP、TPS倒換、S1字節相關信息的傳遞,另外在線路板檢測到交叉板送過來的總線信號有問題時線路板會通過B通道傳遞交叉倒換信息,促使交叉板發生一次倒換。

根據告警信息,COMMUN_FAIL 第三個參數為0x03。指的是17號板以太網的通訊失敗告警。即para3為3時表示以太網的通訊失敗告警。

由此分析,故障原因可能如下:

1、新帶來的備主控故障。

2、原故障換上去的主主控故障。

3、AUX故障。

4、背板故障。


建議與總結

1、主控板與系統其它的單板主要是通過以太網進行通信,各單板和兩塊主控板的板間通信以太網都與AUX板相連,所以從物理上主備主控板同時都可以與其它各單板通信。

但為了保持主備主控板的數據一致,備用主控板的板間通信沒有使用,它與線路板的數據完全來源于主用主控板(通過下面提到的10M以太網通信)。對于板間通信的網口,兩塊主控板的MAC地址不同,IP地址不同,以OSN3500為例:18板位的IP為:192.168.0.18;17板位的IP地址為:192.168.0.17。這個網口的默認網段為:192.168.0.XXX,子網掩碼為:255.255.255.0。

網管接口也是如此,不同的是備用主控板的網管以太網口完全是關閉的,只有在成為主板后才打開,保證同時只有一個主控板與網管相連。對于網管通信的網口,兩塊主控板的MAC地址相同,IP地址相同。這個網口的默認網段為:129.9.XXX.XXX。

主備主控板間還有一個10M的以太網進行主備通信,備板的數據基本上都是通過這個網口從主板獲得的。這個網口的默認網段為:10.108.7.XXX。XXX與板位號一致。

2、COMMUN_FAIL告警與AUX板的關系:

COMMUN_FAIL告警參數3的意義:0x01表示RS485通道1。0x02表示RS485通道2。0x03表示板間以太網通信。

如果COMMUN_FAIL告警發生在主控板上,則告警與AUX沒有關系;

如果COMMUN_FAIL告警發生在其他單板上,且參數3為0x03,則告警有可能與AUX有關系。

3、主控板三根狀態線:

NG-SDH三根狀態線

在位狀態信號線:互送板在位狀態,板在位或者不在位,這個狀態是邏輯運行的結果,可讀不可寫;

工作狀態信號線:互送板工作狀態,板工作狀態為好或者壞,這個狀態是由硬件和軟件共同決定;

主備狀態信號線:互送板主備狀態,是主板還是備板,這個狀態是邏輯運行的結果,可讀不可寫。

本案例中,由于17槽位插SL4A單板,能正常識別并開工,所以狀態線沒有問題。

4、不能完全相信維護備件,備件也有可能是壞的,處理故障時要大膽懷疑。


總結:

該故障原因其實很簡單,但重點在分析和定位的過程。原理清楚,材料、資源準備充分,才能快速定位故障。另外,不能盲目相信備件就是完好的,該懷疑時就要懷疑。


午夜无码电影888不卡