經典故事:網絡醫院的故事(四)
2019-11-04 20:31:36
供稿:網友
[故事之七]
布線環境不符合標準,導致網絡性能急劇下降
[癥狀]
某證券公司求診,要求查找錯誤源。近日股市火爆,新增不少用戶,但一周內已經三次出現交易數據錯誤,數據恢復也進行了三次。雖然涉及的金額不大,與證券交易所的資料核對不上,昨晚對歷史記錄和當日交易記錄進行了比較,發現在同一時刻往往有幾個用戶的交易數據出錯。懷疑存在病毒或惡意用戶搗亂的可能,用多套軟件查殺病毒,并重新安裝系統,恢復備份的數據。不料今日故障現象依舊出現。
[診斷過程]
該網絡99年2月進行了改擴建,全部采用NT平臺。最近又新增家50個站點。根據一般經驗,先對新增加的工作站極其聯網系統的狀況進行常規檢查。由于現在已經休市,網上錯誤無法觀察。用流量發生器模擬網上流量進行體能檢查,結果如下:正常數據幀下限幀長64Byte各類型幀體能檢查,網絡致癱流量為99%,上限幀長1518Byte的致癱流量為99.5%,錯誤幀50Byte短幀致癱流量為90%,錯誤幀4000Byte超長幀致癱流量為97%,碰撞最高時為6.4%,略偏高。無新的錯誤類型出現。從交換機處測試只發現少數傳輸延遲數據包,以上數據說明,被檢查的網絡是一個"身體素質"相當好的證券網絡。仔細研究發生錯誤的工作站,發現是在同一個新增用戶的集線器組當中,該網段通過一交換機接口與服務器相連。除了對交易服務器和行情服務器分別進行體能檢查外,對該網段內的工作站也進行體能檢查,各站表現正常。各工作站模擬流量和交易也都正常。可以基本判定,該網絡是一個承受能力很強的優秀網絡。由此我們懷疑可能存在"惡意用戶"(注:惡意用戶是指在工作站上安裝自備軟硬件或將工作站網卡插頭拔下并將自帶筆記本電腦私自接入的用戶,其目的叵測)。為了跟蹤數據出錯的情況,將F683網絡測試儀接入該網段作長期監測。第二天故障現象沒有出現。第三天下午開始后10分鐘,即13:10分,網絡測試儀監測到該網段大量錯誤出現,其中FCS幀錯誤占15%,幻象干擾占85%,約持續了1分鐘。FCS幀涉及本網段的3個用戶。該證券系統裝備有CCTV閉路視頻監控系統,從長時錄像機中可以發現故障對應時刻13:10有一個用戶使用了手機,仔細辨別圖像畫面發現其使用的是對講機。
無風不起浪,對講機的功率比微蜂窩手機的功率要大得多,使用頻率也更接近網絡基帶傳輸的頻帶,輕易對網絡造成近距離輻射干擾。但是,一個合格的、完整的UTP電纜系統在5米外還完全能反抗不超過5W的輻射功率。從故障現象推斷,本網絡的電纜或接地系統可能有一些問題。隨即決定查找本網段50個站點的布線系統(擴容時沒有經過認證測試),用Fluke的DSP2000電纜測試儀進行測試,測試結果全部通過。只在中心集線器與交換機端口的插頭發現接頭線做得很差,外包皮與接頭之間有15厘米的缺失,線纜散開排列,雙絞關系被破壞。交換機的物理位置離用戶僅隔一面玻璃幕墻,直線距離1.5米左右??梢曰緮喽?,對講機發出的較大功率的輻射信號就是由此處串入系統的。重新按TIA568B標準的要求打線,連接好系統。
[診斷評點]
出問題的網線接頭是擴容施工時的最后一根遺漏的網線,為本部工作人員自己臨時增補上的。他們不了解TIA568B所要求的打線標準,乃隨意為之。系統中串入干擾的途徑有多種,比如大動力線與網線并行距離太近或干脆就在同一個走線槽內;與某些輻射源(包括日光燈、電焊機、對講機、移動電臺等)距離太近;系統設備的接地回路不良等等。本案是由散列的網線接頭引入近距離的輻射干擾造成。由于對講機用戶比較非凡,他們的干擾是短時的,查找時有時需要"守株待兔"。當然,假如網線全部經過嚴格的測試,應該不會出現本例故障。
[診斷建議]
建議按標準化的布線環境來設計布線系統,更改系統結構后一定要測試電纜。合格的UTP電纜系統反抗輻射干擾的能力是很強的,但要求電纜系統必須經過嚴格的測試(事實上多數布線系統只測試過物理連通性,未做嚴格認證測試,存在著大量的隱患)。大量的問題都出在不起眼的接頭上。建議年檢時將布線系統作為年檢內容全部檢查一遍(也可以以一年或兩年為周期平時進行輪測,測試標準可選用北美標準TIA568A/568B或ISO11801等)。營業室內最好禁止使用大功率對講機,部分大功率模擬手機也要列入禁用清單。故障檢測中,應重點檢查最近動過的或變更過的設備,此為經驗之談。不過,一個有趣的現象是,當你向某個事后證實他確實更改過設置的用戶詢問時,經常得到的答復卻是:沒有動過任何東西。
[故事之八]
插頭故障
[癥狀]
某電信移動計費中心,用戶反映,近三個月移動用戶總數增加了近30%,但移動計費的營業收入卻只增加了5%,懷疑計費系統是不是有問題。從計費服務器查看收費記錄,沒有發現什么問題。檢查計費服務器軟件,工作正常。從路由器另一側的財務服務器檢查,內部的財務服務器顯示的計費數據與計費服務器的數據沒有差錯。查找電話局局端記錄,發現記錄次數超出移動計費的記錄次數。最后作實地測試,用移動電話撥打50次,記錄次數45次,記錄時間與實際通話時間一致的次數為30次。歷時一周,還不能確定故障位置。
[診斷過程]
計費服務器連接到一臺16端口交換機Bay28115的第一插槽5號端口。第6號端口下掛一個100Mbps的以太網,網管機HP Open View也設置在此。打開網管系統,預備觀察5號端口的工作情況,這時才發現無法打開5號端口的工作表數據記錄。詢問網絡治理人員,告知3個月前因交換機故障自行更換過備用的Bay28115交換機,更換后系統工作很正常。查看維護工作記錄登記和日志,沒有任何關于Bay18115的維護說明,也沒有關于網絡工作參數的記錄(記錄上顯示的還是系統開通時的原始數據)。詢問網管人員為何不設置并打開交換機工作表的Mib。答曰網管系統是一年前安裝的,平時只用來看看系統設備是否連接以及是否有報警信號,更多的功能也不會用。前任網絡治理員已調任工作崗位,實際上現在已沒有人會使用和設置網管系統。由于系統開通是有系統承包商負責的,自行更換交換機后沒有發現什么問題,也沒再 仔細檢查。用網絡測試儀的協議對話分析功能從網管機所在網段觀察計費服務器的工作情況,發現服務器對約有1/3的數據包沒有回應。為了不影響系統工作,于凌晨3:00在移動用戶使用率底的時候用F683網絡測試儀模擬服務器測試5號端口,顯示鏈路工作于10Mbps速率(原始記錄顯示此端口的速度應該是100Mbps)。由于交換機沒有啟動SNMP支持功能,故臨時在5號端口安裝了一只10Mbps的集線器與服務器連接,用網絡測試儀從這個集線器的任意端口對計費服務器發送數據并觀察服務器數據流工作情況。發現大量碰撞和錯誤的FCS幀,當流量為30%時,碰撞及錯誤流量占21%。用電纜測試儀檢查服務器電纜,發現靠交換器一端的插頭處近端串擾NEXT嚴重超差。重新更換插頭并正確打線,碰撞率下降為0.5%,錯誤率為0%。去掉臨時集線器,重新啟動交換器的SNMP功能,從交換器某空閑端口向服務器發送流量,用網管系統觀察5號計費服務器端口,當流量為40Mbps時,碰撞率、錯誤率、廣播率等參數均表現優良。服務器自適應恢復為100Mbps鏈路速度。
重新進行兩組各50次實際撥打測試,計費數據完全正確??梢曰究隙ㄓ嬞M功能已全部恢復正常。
[診斷評點]
本次故障的原因非常簡單(一個插頭問題),但表現出來的現象則稍微復雜一些。該服務器使用的是一個10/100Mbps的自適應以太網卡,設計鏈路速度為100Mbps。網管人員在更換交換器時曾不小心將插頭拉壞,隨即更換了接頭,但確留下隱患,不過,維護人員并未及時發現速度方面異常。服務器鏈路此時的實際工作速度已經下降為10Mbps。新交換器沒有啟動SNMP支持功能,網管系統也就不能觀察計費服務器的端口工作狀態。在平時的維護工作中,該計費中心的維護人員基本上不用網管系統定期觀測并記錄網絡的工作參數,當故障出現時就不能覺察到服務器工作速度的變化。有趣的是,假如電纜沒有問題,即使將鏈路速度設置為10Mbps,計費服務器應該還是能正常工作的(計費信息的網絡流量一般不高)。在本故障中,計費服務器繁忙時由于碰撞率和錯誤率太高,服務器無法處理一部分數據包,其中已經被"掛號"的部分數據包將被丟棄,造成計費數據不準確。
[診斷建議]
布線系統平時要定期輪測(一至兩年輪測意義遍)。更換鏈路元件后一定要對鏈路進行測試(尤其是100Mbps鏈路,必須用電纜測試儀測試)。網管系統要指定專人進行維護使用,一般來講,網管系統可以覆蓋約35%左右的網絡故障,因此強烈建議重要的網絡要安裝支持SNMP或RMON協議(多數網絡設備都支持SNMP協議,部分支持RMON),啟動已有SNMP、RMON等功能的網絡設備,否則網管系統將形同虛設。維護工作要求有及時完整的記錄,這對提高處理故障的速度是非常必要的。