問題描述
K國某項目SDH網絡,其中一站點(B55)配置了一套OSN1500B設備,與其他3個網元組成了一個STM-1環,拓撲請見附圖。站點B55與站點CS7之間配有EPL以太網業務,以太業務處理版分別為EFS0和EFS0A,站點B55為EPL配置,CS7為EPLAN配置,以太業務在線路側通過SNCP保護。
告警信息
站點B52至站點B55之間光纜中斷后,CS7的EFS0A單板上一個VCTRUNK上報VCAT_LOA告警,客戶側查詢到以太業務中斷。
處理過程
第一次站點B52至B55之間光纜中斷:
1. 光纜中斷時,網管無VCAT_LOA告警,客戶側業務正常;工程師未在意,全力處理光纜中斷故障。
2. 數小時后(此時光纜仍未修復),CS7網元EFS0A單板上一個VCTRUNK上報VCAT_LOA告警,此時查詢客戶側以太業務中斷;中方工程師正在站點處理光纜故障,而本地工程師憑著自己的經驗刪除了B55至CS7之間的以太業務,又重新配置了一遍,此時告警消失,業務恢復。本地工程師認為故障已得到解決,通知中方工程師修復光纜后返回。
3. 告警沒有重現,看似一切正常。
第二次,數周之后站點B52至B55之間再次光纜中斷:
1. 光纜中斷時,現象與第一次相同,網管無告警,業務亦正常。
2. 數小時后,故障復現,CS7網元上報VCAT_LOA告警,同時客戶側以太業務也中斷。仔細分析了VCAT_LOA告警產生的成因之后,工程師在網管查詢了B55網元的單板制造信息,發現OSN1500B的4/5槽位CXL1單板未按照工程設計要求進行插放。
按照工程設計要求,4槽位應為CXLL112----STM-1 System Control,Cross-connect,Optical Interface Board(L1.2,LC);
5槽位應為CXLL111----STM-1 System Control,Cross-connect,Optical Interface Board(L1.1,LC);
4槽位線路板應連接站點B52;5槽位線路板應連接站點B57。
工程師前往現場后,發現果然4/5槽位單板的位置對調了,不符合設計要求。
按照設計對換了4/5槽位單板,又重新從網管下發數據至網元后,告警消失,業務恢復。
根因
VCAT_LOA 為虛級聯延時過大告警。該告警表示VCTRUNK 綁定的時隙通過的延時時間超過了虛級聯延時所允許的時間。
在傳輸業務數據時,虛級聯的延時對齊的時間過長,時隙無法組成一個數據幀,因此業務有丟包。
告警VCAT_LOA 產生的可能原因如下:
所配置的VCTRUNK 時隙經過了不同距離的物理鏈路。
補充:EFS0/EFS0A單板VC-12 時隙的虛級聯延時時間為30ms,VC-3 時隙的虛級聯延時時間為15ms。
建議與總結
總結:
1. 斷纖時,發生SNCP倒換,此時應該由于SNCP倒換出現了多徑,即該VCTRUNK的業務通過不同的路徑到達對端,且兩條路徑差異較大,導致兩條路徑上業務到達對端的時間差超過了虛級聯時延時間,從而影響業務中斷。
2. 同時,線路板連接錯誤,也會出現業務走多徑問題,導致業務到達對端時,超過虛級聯時延,從而上報告警,業務中斷。
3. 為什么沒有馬上出現告警:
本身業務走多徑到達對端可能在虛級聯時延以內,但是某時段某一條鏈路存在一定時延,或是線路側配置有SNCP倒換,倒換后出現路經變化后,從而出現了虛級聯時延過大的情況。