精確定位網(wǎng)絡(luò)頑癥解析一例路由漂移故障

字號(hào):

1、故障描述
    此次出診的“病人”是一家化工企業(yè)的網(wǎng)絡(luò),該企業(yè)除了一條與生產(chǎn)線網(wǎng)絡(luò),還有一條遍布市區(qū)的銷售網(wǎng)絡(luò),此次出現(xiàn)故障的這條銷售網(wǎng)絡(luò)(營(yíng)業(yè)廳)。從客戶反饋來(lái)的的故障現(xiàn)象是:網(wǎng)絡(luò)時(shí)斷時(shí)續(xù),呈周期性“發(fā)作”,每隔10分鐘左右營(yíng)業(yè)廳打來(lái)電話報(bào)告業(yè)務(wù)流程出現(xiàn)問(wèn)題,無(wú)法提交數(shù)據(jù)。具體表現(xiàn)都很一致:先出現(xiàn)業(yè)務(wù)中斷,1分鐘后連接恢復(fù),但速度非常慢。此故障已經(jīng)持續(xù)了2天,網(wǎng)管人員懷疑是路由器故障,曾試著分別更換了備用的算路由器和主路由器均無(wú)效。
    2、排錯(cuò)過(guò)程
    (1).故障呈現(xiàn)周期性
    筆者首先趕到該企業(yè)的計(jì)算中心,首先向網(wǎng)絡(luò)管理人員了解故障情況?;旧吓c筆者的客服記錄報(bào)告的內(nèi)容相同。從表現(xiàn)的故障現(xiàn)象來(lái)看,根據(jù)以往的經(jīng)驗(yàn),基本上可以初步推斷是路由鏈路的問(wèn)題。網(wǎng)管人員確認(rèn),業(yè)務(wù)中斷時(shí),普通Ping測(cè)試不通,此現(xiàn)象以前也出現(xiàn)過(guò)幾次,很快就恢復(fù)了,因此也沒(méi)有引起注意。
    (2).排錯(cuò)思路
    從記錄的故障報(bào)告(電話登記)看,無(wú)論是銷售網(wǎng)絡(luò)還是生產(chǎn)網(wǎng)絡(luò)的遠(yuǎn)程網(wǎng)絡(luò)都報(bào)告過(guò)路由中斷現(xiàn)象。由于故障每隔10分鐘左右就會(huì)周期性地出現(xiàn),雖然比較頻繁,卻為故障診斷提供了很大方便??梢钥紤]選擇任意路由進(jìn)行連續(xù)的Ping測(cè)試,監(jiān)測(cè)其連接狀況與故障發(fā)生時(shí)刻的關(guān)系。
    (3).排錯(cuò)記錄
    監(jiān)測(cè)到路由遷移
    為此筆者將網(wǎng)絡(luò)測(cè)試儀接入計(jì)算中心網(wǎng)絡(luò)進(jìn)行監(jiān)測(cè)。選擇曾報(bào)告過(guò)故障的其下轄的某營(yíng)業(yè)廳的路由器作連續(xù)的ICMP Ping測(cè)試,響應(yīng)時(shí)間為9ms,質(zhì)量尚可。3分鐘后,有用戶報(bào)告故障出現(xiàn),不過(guò)網(wǎng)絡(luò)測(cè)試儀顯示正常,說(shuō)明筆者監(jiān)測(cè)的路由鏈路可能是正常的。立即改變監(jiān)測(cè)方向,向報(bào)告遇到故障的用戶的路由器做ICMP Monitor,結(jié)果大量的目標(biāo)不可達(dá)記錄出現(xiàn),并出現(xiàn)源限制、回應(yīng)請(qǐng)求和回應(yīng)響應(yīng)幀。20秒鐘后,出現(xiàn)大量重定向幀記錄,目標(biāo)不可達(dá)幀記錄速度減緩,源限制、回應(yīng)請(qǐng)求和回應(yīng)響應(yīng)則開始大量出現(xiàn)。
    以上記錄表明,路由器的動(dòng)態(tài)路由表在故障出現(xiàn)時(shí)發(fā)生了很大變化。網(wǎng)絡(luò)原來(lái)的路由中斷后,繼之被重定向路由取代。打開靜態(tài)路由表,為了與動(dòng)態(tài)路由作比較,筆者啟動(dòng)網(wǎng)絡(luò)測(cè)試儀分段路由追蹤功能,追蹤從測(cè)試儀到先前報(bào)告故障的遠(yuǎn)程路由器??梢钥吹剑酚稍诠收暇W(wǎng)絡(luò)的出口的下一站,即銷售網(wǎng)絡(luò)鏈接的第一個(gè)路由就發(fā)生了中斷。動(dòng)態(tài)路由已經(jīng)由備份路由取代。狀態(tài)為擁塞。原路由為主路由,通道速率為E1,為ATM鏈路,備份路由為DDN基本速率鏈接,速度僅為 64Kbps。打開主路由器的Mib庫(kù),觀測(cè)到主路由器的流量為0.02%,錯(cuò)誤為2%;表明它處于輕負(fù)荷狀態(tài),并有少量錯(cuò)誤流量。觀察備份路由器的 Mib庫(kù),流量為100%,說(shuō)明它處于超負(fù)荷運(yùn)行狀態(tài)。
    監(jiān)測(cè)故障周期
    由于故障為周期故障,為了觀測(cè)它的發(fā)生規(guī)律,筆者在征得客戶同意的前提下,決定不急于尋找主路由器中斷和擁塞的原因,而是先觀測(cè)在一個(gè)周期里故障變化的全過(guò)程并記錄之。筆者用第二臺(tái)網(wǎng)絡(luò)測(cè)試儀和網(wǎng)絡(luò)故障一點(diǎn)通接入網(wǎng)絡(luò),分別觀察主路由器、備份路由器、主服務(wù)器的工作流量和錯(cuò)誤,并對(duì)主路由器作連續(xù)的ICMP 監(jiān)測(cè)。約8分鐘后,主路由器流量開始迅速上升,備份路由器出現(xiàn)重定向指示,約15秒后報(bào)告?zhèn)浞萋酚善魍瞥鰞?yōu)化路由,動(dòng)態(tài)路由表恢復(fù)到與靜態(tài)路由相同的設(shè)置,網(wǎng)絡(luò)完全恢復(fù)正常。
    分析故障關(guān)系,可以斷定故障的關(guān)聯(lián)設(shè)備是主路由器。由于用戶在機(jī)架上已經(jīng)安裝了冷備份的主路由器,筆者先將冷備份路由器替換到主路由器的位置。5分鐘后路由器更換完畢,開機(jī)接入網(wǎng)絡(luò),3分鐘后網(wǎng)絡(luò)恢復(fù)正常。但只持續(xù)了2分鐘,故障現(xiàn)象又重新出現(xiàn)??磥?lái),必須對(duì)主路由器做詳細(xì)監(jiān)測(cè)才能發(fā)現(xiàn)真正的故障所在。
    定位到主路由器
    網(wǎng)絡(luò)建構(gòu)拓?fù)涫?,主路由器與三個(gè)外圍遠(yuǎn)程路由器和一個(gè)本地路由器相連,筆者可以同時(shí)監(jiān)測(cè)這幾個(gè)路由器的工作狀況。監(jiān)測(cè)結(jié)果如下:故障出現(xiàn)時(shí),外圍主路由器和本地路由器的路由表隨著故障的出現(xiàn)也發(fā)生變化,而此時(shí)營(yíng)業(yè)廳業(yè)務(wù)不受影響。受影響的業(yè)務(wù)方向是外地與本城、本城與外地、外地經(jīng)本地跨區(qū)等。用 ATM測(cè)試儀測(cè)試遠(yuǎn)程ATM路由通道,將遠(yuǎn)端ATM交換機(jī) Loopback(環(huán)回)以后監(jiān)測(cè)三個(gè)方向的通道情況,顯示完全正常。再對(duì)與主路由器相關(guān)的連接電纜進(jìn)行測(cè)試,全部合格。這表明主路由器的工作環(huán)境是基本正常的。此時(shí)筆者需要了解主路由器鏈路中的“垃圾流量”的分布。此時(shí),筆者只需要檢查主路由器的接地質(zhì)量和供電環(huán)境即可(因?yàn)橐呀?jīng)試驗(yàn)更換過(guò)主路由器),這兩個(gè)因素當(dāng)中的任何一個(gè)不負(fù)荷要求,都有可能引發(fā)主路由器中斷的故障。
    電源是最后元兇
    首先觀測(cè)為主路由器供電的UPS電源。當(dāng)故障發(fā)生時(shí)UPS顯示過(guò)載,而輸出回路卻顯示輕負(fù)荷。用F43電力質(zhì)量分析儀觀察也顯示故障時(shí)輸入諧波超差6倍。輸出回路超差400倍,故障恢復(fù)后,過(guò)載指示也隨之消失,但輸出回路仍超差80倍。證明UPS電源低效。
    將主路由器的供電電源接到另一臺(tái)UPS電源上,故障徹底消失。故障原因?yàn)楣╇娰|(zhì)量不合格。筆者注意到,該計(jì)算中心所在的大樓正在裝修,網(wǎng)管人員說(shuō)等大樓裝修完畢后還要將網(wǎng)絡(luò)設(shè)備擴(kuò)容。初步干擾源很可能就來(lái)自與裝修有關(guān)的部分。由于故障的周期性,經(jīng)過(guò)仔細(xì)觀察發(fā)現(xiàn),故障出現(xiàn)的周期與樓旁塔吊的上下周期一致!為準(zhǔn)確判定諧波干擾的源地點(diǎn),筆者將電力質(zhì)量分析儀接入供電網(wǎng)絡(luò)進(jìn)行核實(shí),結(jié)果發(fā)現(xiàn),每當(dāng)塔吊上升時(shí),故障現(xiàn)象就出現(xiàn)(下降時(shí)諧波為上升時(shí)的三分之一,網(wǎng)絡(luò)有少許變慢)。
    3、故障總結(jié)
    為主路由器供電的UPS電源由于失效,對(duì)外界電力干擾諧波的過(guò)濾能力下降,當(dāng)為重負(fù)載的用電設(shè)備供電時(shí),此諧波會(huì)引發(fā)許多設(shè)備出錯(cuò)。如果此時(shí)恰逢UPS電源濾波失效,則相關(guān)設(shè)備會(huì)受到干擾。本故障中,主路由器由于大量干擾進(jìn)入,使得鏈路阻塞,路由器連接中斷,路由變更指令使得各業(yè)務(wù)流量流向備份路由器,備份路由器的路由通道能力又不能滿足,致使網(wǎng)絡(luò)出現(xiàn)擁塞。這就是本次故障先中斷后恢復(fù)然后阻塞的原因。同城結(jié)算數(shù)據(jù)由于多數(shù)不經(jīng)過(guò)主路由器,所以未受到影響。
    塔吊下降時(shí),雖然引入的干擾也不少,不過(guò)因?yàn)槠涓蓴_的絕對(duì)值未超過(guò)主路由器的承受范圍,所以主路由器還能應(yīng)付。大樓裝修以前也出現(xiàn)過(guò)類似的故障,因干擾源很快消失并不再持續(xù)存在,因此不可能引起維護(hù)人員的注意。
    4、建議
    與電纜和光纜系統(tǒng)一樣,電力諧波和UPS電源也是列入定期檢查的內(nèi)容,考試大建議作半年定期檢查,關(guān)鍵的網(wǎng)絡(luò)建議作為周定期檢查的項(xiàng)目。諧波干擾是經(jīng)常存在的環(huán)境因素,如果此時(shí)UPS電源不出問(wèn)題,一般不會(huì)影響網(wǎng)絡(luò)的正常運(yùn)行,但諧波干擾是嚴(yán)重影響網(wǎng)絡(luò)性能的原因之一,一旦竄入網(wǎng)絡(luò)則引起的故障多數(shù)都是“致癱性”或致命性的。還由于多數(shù)用戶對(duì)干擾類型的故障“相當(dāng)?shù)亍辈皇煜ぃ侍嵴?qǐng)大家引起較多關(guān)注。
    此外,定期維護(hù)的概念應(yīng)該為大家所接受,制定了詳細(xì)的網(wǎng)絡(luò)健康維護(hù)方案,確定定期維護(hù)的詳細(xì)規(guī)章,就能夠未雨綢繆,防患于未然。比如本例中的網(wǎng)絡(luò)故障,從表象上看似乎很詭異,誰(shuí)能夠知道UPS電源是最后的元兇呢?如果管理員事前做好定期維護(hù),類似這樣的故障就不會(huì)發(fā)生。