問題描述
一個OptiX OSN3500設備升級后,兩個線路板SLD64狀態異常,約XXX個無線GSM站點業務中斷,影響約X用戶。問題出現后嘗試使用升級前備份的網元數據庫恢復,但是恢復失敗,業務中斷。
處理過程
1、升級后發現slot8和slot11的SLD64單板離線,相關業務中斷;
2、客戶維護人員發現slot8和slot11的N4SLD64物理單板從升級之前的N1SLD64邏輯板變成了N2SL64邏輯板,修改邏輯單板從N2SL64到N1SLD64;
3、修改邏輯板類型后,單板上線但是業務不恢復;
4、問題知會到本地中方,以及TAC,華為中方開始介入處理;
5、經過和機關GTAC溝通,決定執行回滾;
6、移走升級完的兩個R10版本GSCC,插入R8版本的GSCC,開始使用升級之前備份的數據庫恢復;
7、恢復超時,恢復失敗,業務仍然中斷(DC密碼錯誤,導致超時);
8、放棄從數據庫恢復,GTAC根據升級前備份的數據庫制作交叉配置腳本,本地命令行下發;
9、下發成功,但是業務仍然全部中斷,發現升級之前備份的數據庫有問題,無法使用;
10、開始尋找最近備份的有效數據,使用11月份巡檢收集到的業務配置,制作交叉配置腳本;
11、執行腳本,業務恢復。
根因
主控單板GSCC內部DRDB和FDB之間的同步開關被異常關閉,導致FDB中存的數據是歷史配置的,和當前運行的業務不符。由此導致兩個問題:
1、升級之后主控復位,復位之后主控重新下發數據,下發的是FDB中的舊數據,和當前邏輯板位配置以及業務配置都是不符的,因此升級上報成功但是業務中斷;
2、網元數據備份的時候是從FDB備份的,因此升級前使用DC備份的數據也是有問題的,無法基于這個數據庫進行恢復,導致回滾失敗,造成業務中斷。
數據庫備份功能默認enable,故障網元之前巡檢發現該網元是disable,未修復。
#9-48:szhw [48-***_OSN-4 ][][2014-12-12 14:31:50+06:00]>
:dbms-get-autobackup
DBMS-AUTO-BACKUP : disable
#9-48:szhw [48-***_OSN-4 ][][2014-12-12 14:31:52+06:00]>
:dbms-get-cyclebackup
CYCLE-BACKUP-SWITCH : disable
#9-48:szhw [48-***_OSN-4 ][][2014-12-12 14:31:53+06:00]>
:mml-get-evtflag
CMD EVT FLAG: disable
解決方案
找到升級之前最近的有效的網元數據庫備份文件,或者升級前的網管備份腳本,據此制作業務恢復腳本,重新刪除和配置全網交叉。
建議與總結
1、定時巡檢,對于巡檢中發現的異常及時跟蹤解決,即使客戶不主動要求解決,也要主動推動解決;
2、升級動作嚴格參考升級指導書,尤其是對于不理解的步驟,也要嚴格執行,因為很可能就是對某個潛在隱患的關鍵過濾措施;
3、加強對產品知識的理解,分清楚網元數據備份(從FDB備份)、網管數據上載(從DRDB上載)、網管腳本備份(DRDB動態有效數據)、網管上同步入口(備份網元數據到SCC)這幾個概念的含義,故障時及時找到有效數據。
4、升級嚴格遵守流程做各種備份,以備萬一之需。