幀中繼專線故障處理經驗談
2019-11-04 23:00:28
供稿:網友
成功排除故障的要害是把握定位(Localize)、消除(Eliminate)、測試(Test)和支持(Support)。換句話說,就是定位并發現故障,消除或改正它,并確保故障真的已經排除。對于幀中繼專線故障的分析和處理,因為局端涉及物理層和鏈路層的故障判定,因此相對于局端僅涉及物理層判定的DDN故障來說是比較復雜的。下面以電信局端使用新橋公司36170 ATM邊緣交換機為例,說明如何對幀中繼故障進行分析判定和處理。我們知道,中醫看病需要通過“望聞問切”才能發現病人癥結并最終妙手回春,對幀中繼專線進行故障判定和處理使用的方法,和中醫看病的方法是一致的。
1 “望”
當用戶申報故障時,首先我方按用戶所報專線號,通過對整個網管使用LIST PATHS命令,輸入用戶專線號,找到該電路,并檢查該電路狀態(STATUS)是否正常,理想情況應該是CONNECT狀態,而不應該是CONNECT(DOWN)或INTERRUPTED VIA NMTI、WAITING FOR RESOURCES等狀態。
(1) 假如是CONNECT(DOWN),首先應檢查兩端端口狀態是否正常。目前廣州新橋網上使用最多的用戶設備是新橋公司26和27系列的DTU和其他公司各種型號的Modem ,如ASCOM和RAD ASM系列Modem。DTU的外線狀態是否正常比較輕易判定,網管要做的第一步“望”就包括看DTU的端口狀態是否告警。假如告警,一般情況是外線出現故障,伴隨用戶端DTU的LINE燈會呈現閃爍狀態,此時可按流程規定通知測量室外線班處理。假如用戶端DTU狀態正常,而網管看到端口告警,則很大可能是用戶端設備沒有接好,這時應請用戶查看本端設備連接情況是否正常。Modem的故障判定相對復雜,可以請用戶檢查Modem的顯示燈狀態是否正常,例如ASCOM Modem在物理層出現故障時,FAULT燈亮;而對于ASCOM系列的Modem,局方可以請用戶看DCD燈是否熄滅,ERR燈是否亮來判定物理層是否存在故障。對于幀中繼電路,當兩端外線正常,而用戶端路由器鏈路層協議與網管設置不匹配時,幀中繼交換機提供數據鏈路層功能的幀流STREAM會呈現PROTOCOL OUT OF SERVICE狀態,此時專線也會呈CONNNECT(DOWN)狀態。因此,局方對以上情況均要進行分析,逐一排除,才能找到故障發生點和故障發生原因。
(2) 假如是INTERRUPTED VIA NMTI,這是系統故障引起的,這時局方只要將該電路DISCONNECT,然后使用UPLOAD,即可恢復正常。假如不小心將該電路的參數進行了修改,那么UPLOAD手段就會無效,這時修復的手段就是將該電路通過NMTI逐段刪除,然后重做數據即可。
(3) 假如是WAITING FOR RESOUCES,這表明幀中繼電路缺少可供使用的資源。此時,首先檢查兩端幀中繼鏈路是否完好,再檢查幀中繼COS參數,看CIR值是否超過幀中繼鏈路定義的端口速率(INTERFACE SPEED)。還有就是DTU端口設置的PORT SPEED限制必須達到端口速率值,否則均會出現此情況。
(4) 假如是CONNECT,而用戶稱此幀中繼專線不通。首先需要做的是檢查該專線兩端物理層是否有誤碼。檢查方法是網管做一條普通DDN電路以連接測試儀和相應的端口。假如對此線路的測試結果正常,則網管需要與用戶核對相關參數,包括兩端路由器上配置的協議與網管配置的協議是否一致。對于幀中繼電路,LMI(LOCAL MANAGEMENT INTERFACE)協議類型包括ANNEX A(ITU-T標準)、ANNEX D(ANSI標準)和LMI(Cisco標準)。假如路由器配置協議類型和網管不一致,也會造成狀態正常,但無法通信。如以上檢查均正常,需與用戶核對兩端路由器的DLCI號與局端配置的DLCI號是否一致。
2 “聞”
假定上述檢查均正常,但用戶路由器仍無法PING通對端,此時電信網管方需通過第二步方法:“聞”,即聽用戶具體說明故障發生時間,出現什么問題,用戶設備狀態等。一個經驗豐富的網管人員在聽到用戶具體說明的故障內容后,甚至可以不用通過“望”和“問”就可以對該幀中繼專線進行診斷(即“切”)了。由于每個用戶的故障申報內容都不相同,因此要做到僅通過“聞”就解決問題,需要電信局端網管人員自己不斷積累經驗和總結,才能達到這一處理故障的最高“境界”,在此不多詳述。
3 “問”
對于有一定經驗,但又未達到較高水準的電信幀中繼網管人員,可以通過“問”來發現問題。比如詢問用戶,該專線是否天天均有相同故障,還是僅當天才出現此故障,是時通時斷,還是根本就不通;用戶DTU或Modem狀態燈是否正常,用戶路由器是否正常工作(可通過指導用戶使用SHOW指令來發現問題)等來判定故障發生原因。例如用戶稱:該專線天天均有故障,這時首先弄清楚用戶是如何天天解決此故障的。
(1) 假如用戶是通過重啟路由器或通過網管RESET電路來解決問題,那么首先要檢查幀中繼所在兩端節點的時鐘設置是否正常,假如兩端節點不是通過外時鐘從專用時鐘源取得時鐘,或者不是通過2Mbit/s中繼提取時鐘,那么當節點處于FREE RUNNING狀態時,會影響用戶電路的正常使用的,解決辦法是修改局端節點的時鐘設置。假如時鐘設置無誤,用戶仍天天出現故障,在檢查兩端物理層無誤碼的前提下,局端可通過更換幀中繼資源模塊、幀中繼端口、幀中繼卡的替換方法試驗。如無效,則問題很有可能出現在用戶路由器的上層協議(如OSPF、IGRP、EIGRP等)設置上,此時需要通過與用戶核對其路由器設置來解決問題,同時需請用戶通過SHOW INTERFACE、SHOW FRAME PVC、SHOW IP ROUTE等指令來查看路由器物理層、鏈路層以及OSI更高層的狀態。例如,SHOW INTERFACE命令可用在物理層故障判定上。通過該指令,你可以看到帶寬、延遲可靠性、負載、輸入和輸出錯誤、載波轉換和DTE/DCE控制信號。
(2) 假如僅是當天出現故障,則按“望”的步驟,逐一處理,直到發現故障原因,并解決。
(3) 假如時通時斷,首先要判定兩端物理層是否有誤碼,其次是判定從用戶端到局端的幀中繼資源模塊處所經過的中繼是否有誤碼。新橋公司的36170產品提供了比較簡便的測試方法,即通過在用戶端做環路,局端幀中繼資源模塊使用BERT TEST來進行測試,即可判定從用戶端到局端是否有誤碼存在。假如局端物理層和鏈路層檢查均無問題,則可以通過與用戶核對參數的方法來解決問題。
(4) 假如根本就不通,則應按“望”的步驟,逐一排除故障可能發生原因,最終找到故障所在并修復它。
4 “切”
前面“望”、“聞”、“問”中,也提到了“切”的方法。對幀中繼電路故障的判定,主要是分清楚該故障是電信局端問題還是用戶本身的問題。
(1) 對于電信局端而言,首先要確保用戶端到局端物理層和鏈路層功能是否正常。主要方法是通過測試儀測試物理層是否有誤碼,或通過幀中繼測試儀測試鏈路層是否正常,以及使用新橋36170本身提供的BERT TEST功能對幀中繼電路進行用戶端到局端的測試。此外,局端的工作還包括判定幀中繼資源模塊、幀中繼端口、幀中繼卡、節點控制卡、節點系統卡、節點時鐘和傳輸中繼是否正常,判定用戶路由器設置兩端DLCI號與局端設置是否一致,判定用戶路由器的COS參數設置與局端設置是否一致。
(2) 對于用戶本身而言,路由器的問題主要有以下4種。
硬件問題:路由器的硬件故障與內存、CPU、電源子系統、LAN/WAN接口或通過它們端口與網絡的其他相連的傳播媒體等有關。與電源、內存、CPU有關的硬件問題能導致路由器不能啟動。例如:間歇的內存問題,使路由器莫名其妙地定期啟動;高端路由器的送風模塊發生故障會導致緊急報警、溫度升高,如不采取措施,當溫度升高到一定程度時路由器會自動斷電。有故障的端口使路由器不能正常工作,劣質的電纜也會影響路由器的正常工作。
不同版本的IOS問題:網絡治理員應該注重到不同版本的IOS支持不同的特征集??紤]到Cisco系列的產品很多,例如16、26、75、120等系列,它們都存在著很多的與IOS images對應的問題。有兩個以太網口、一個串口的2500系列路由器和具有OC-48/STM-16接口或G比特以太網接口的12000系列路由器所需的IOS images是不同的。當一臺路由器或一條專線發現故障時,首先要采取合理的方法排除與硬件配置相關的那些顯而易見的原因。假如故障仍存在,則有可能是IOS有問題。
錯誤配置:典型的路由器配置包括以下部分,即治理員部分(路由器名稱、口令、服務、日志)、端口部分(地址、封裝、帶寬、度量值開銷、認證)、路由協議部分(IGRP、EIGRP、OSPF、RIP、BGP)、流量治理部分(接入控制列表、團體)、路由原則