思科運(yùn)營商路由系統(tǒng)可以通過內(nèi)嵌的可治理性,支持不間斷的系統(tǒng)運(yùn)行和服務(wù)靈活性。這種可治理性能夠不斷改進(jìn),滿足路由技術(shù)和服務(wù)供給商的各種要求。
為多機(jī)架治理做好預(yù)備
在今天的服務(wù)供給商網(wǎng)絡(luò)中,大部分核心路由器都是擁有大量接口,并且可以擴(kuò)展到數(shù)千個(gè)的單機(jī)架系統(tǒng)。在治理這些路由器時(shí),需要采集、處理和轉(zhuǎn)發(fā)的數(shù)據(jù)的數(shù)量將與有效接口的數(shù)量成比例增長。
這種方式的擴(kuò)展能力如何?假設(shè)有一臺(tái)具有幾百個(gè)接口的路由器,它的一個(gè)或者多個(gè)接口發(fā)生故障。這時(shí),會(huì)生成一個(gè)或者一組警報(bào),并將其發(fā)送到一個(gè)事件控制臺(tái)。控制臺(tái)將關(guān)聯(lián)該警報(bào),并通知操作人員。關(guān)聯(lián)、通知,甚至故障的解決都可能在幾秒鐘或者幾分鐘之內(nèi)完成。
現(xiàn)在設(shè)想一下將同樣的接口設(shè)置成具有數(shù)千個(gè)通道化接口的中繼時(shí)發(fā)生的情況。當(dāng)一個(gè)或者多個(gè)接口發(fā)生故障時(shí),大量的警報(bào)會(huì)被發(fā)送到事件控制臺(tái),從而迫使操作人員利用腳本語言——例如實(shí)際抽取報(bào)告語言(PERL)和工具命令語言(TCL)——分析警報(bào),以確定故障的性質(zhì)。盡管這種使用頂置腳本處理事件的常見做法變得越來越復(fù)雜和費(fèi)時(shí),但是它仍然很有效。故障會(huì)在可以接受的時(shí)間內(nèi)被診斷和解決。
現(xiàn)在,設(shè)想一臺(tái)具有數(shù)百個(gè)40Gbps插槽的Tb級(jí)多機(jī)架路由系統(tǒng)。它包含了幾千個(gè)接口,可以為數(shù)萬個(gè)客戶提供支持。盡管比治理單獨(dú)的、可以提供相同容量的組件簡便得多,但是警報(bào)個(gè)數(shù)仍然會(huì)以指數(shù)形式迅速增長。事件治理系統(tǒng)能否通過擴(kuò)展,支持這些負(fù)載?事件關(guān)聯(lián)和響應(yīng)能否以足夠快的速度進(jìn)行,以便為受到某個(gè)故障影響的客戶保持不間斷的服務(wù)和服務(wù)水平協(xié)議(SLA)?
隨著多機(jī)架路由系統(tǒng)的出現(xiàn),進(jìn)行處理的時(shí)間和地點(diǎn)必須進(jìn)行相應(yīng)的改變。通過治理多個(gè)網(wǎng)絡(luò)組件的組件治理系統(tǒng)(EMS)現(xiàn)在需要負(fù)責(zé)治理多個(gè)系統(tǒng)和邏輯組件。集成流程過去只需要將單個(gè)機(jī)箱的治理數(shù)據(jù)發(fā)送到北向運(yùn)營支持系統(tǒng)(OSS)應(yīng)用,而現(xiàn)在則必須從一個(gè)更加抽象的數(shù)據(jù)源中獲得數(shù)據(jù),再提供給這些應(yīng)用。
長期以來,大型網(wǎng)絡(luò)的操作人員一直期望和提倡將網(wǎng)絡(luò)治理智能轉(zhuǎn)移到網(wǎng)絡(luò)本身。為了在多機(jī)架路由平臺(tái)上保持不間斷的系統(tǒng)運(yùn)行,必須使用嵌入式、模塊化的檢測(cè)技術(shù)來自動(dòng)執(zhí)行運(yùn)營、治理、維護(hù)和供給(OAM&P)任務(wù)。故障、配置、記帳、性能和安全(FCAPS)的治理必須符合業(yè)界標(biāo)準(zhǔn),以提供與現(xiàn)有OSS應(yīng)用(例如供給和計(jì)費(fèi))的集成,從而提高收入和降低運(yùn)營成本。
Cisco CRS-1的可治理性
思科運(yùn)營商路由系統(tǒng)(圖1)是一個(gè)多機(jī)架路由平臺(tái),它建立在一個(gè)微內(nèi)核、分布式、模塊化的操作系統(tǒng)——Cisco IOS XR——的基礎(chǔ)上。

圖1 思科運(yùn)營商路由系統(tǒng)
實(shí)現(xiàn)這種可治理性需要跟上高端路由技術(shù)的發(fā)展步伐。Cisco CRS-1根據(jù)多機(jī)架路由環(huán)境的要求設(shè)計(jì)了CRS-1的可治理性。在這種環(huán)境下,CRS-1的新型分布式、模塊化架構(gòu)不僅對(duì)可治理性提出了新的要求,而且還為治理流程帶來了便利。
在這種微內(nèi)核架構(gòu)中,每個(gè)治理流程都具有全面的內(nèi)存保護(hù)和故障隔離。通過將流程分配到不同的面板,治理面板既不會(huì)影響控制和數(shù)據(jù)面板上的流程,本身也不會(huì)受這些流程的影響。這種模塊性不僅帶來了更高的安全性,而且提供了在不影響路由控制功能或者網(wǎng)絡(luò)流量的情況下修改治理流程的能力。
為了在一個(gè)分布式治理環(huán)境中保持性能,CRS-1分布式路由處理器架構(gòu)可以在多個(gè)路由處理器之間平衡處理需求。在面臨沉重的網(wǎng)絡(luò)治理負(fù)載(例如數(shù)據(jù)采集或者警報(bào)處理)時(shí),任務(wù)會(huì)被分配到任何可用的資源,以避免對(duì)要害任務(wù)造成不利的影響。為了支持OAM&P功能,閃存提供了永久存儲(chǔ),而硬盤資源可用于存儲(chǔ)臨時(shí)性的調(diào)制和診斷數(shù)據(jù)。
為了支持不間斷的系統(tǒng)運(yùn)行和靈活的治理服務(wù),CRS-1具有三個(gè)要害的內(nèi)嵌式治理功能:內(nèi)嵌檢測(cè)、內(nèi)嵌接口、內(nèi)嵌應(yīng)用服務(wù)。
內(nèi)嵌檢測(cè)
路由器的檢測(cè)和治理接口是其可治理性的兩個(gè)最重要的方面。假如路由器沒有合適的檢測(cè)功能來提供信息和控制,操作人員和OSS應(yīng)用就無法對(duì)其進(jìn)行有效的治理。
Cisco CRS-1提供了遠(yuǎn)遠(yuǎn)超出簡單的路由器檢測(cè)的嵌入式FCAPS治理。通過執(zhí)行很多以前由外部治理應(yīng)用執(zhí)行的治理任務(wù),CRS-1能夠以快于單機(jī)箱平臺(tái)的速度響應(yīng)事件和請(qǐng)求,并可以對(duì)數(shù)據(jù)進(jìn)行整理,以幫助OSS系統(tǒng)擴(kuò)展規(guī)模。
高度可擴(kuò)展的多機(jī)架平臺(tái)需要處理大量的流量和生成大量的警報(bào),所以對(duì)現(xiàn)有的事件治理平臺(tái)提出了獨(dú)特的要求。
嵌入式CRS-1事件治理器支持自主的事件關(guān)聯(lián)和過濾,以降低來自于數(shù)十萬個(gè)接口的大量事件信息。由用戶定義的過濾和關(guān)聯(lián)規(guī)則可以支持很高的精確度,而事件關(guān)聯(lián)功能可以自動(dòng)地對(duì)像啟動(dòng)系統(tǒng)恢復(fù)任務(wù)這樣的事件采取措施,例如保護(hù)交換機(jī)或者采用用戶提供的TCL腳本。
例如,單個(gè)事件——例如線卡在線插拔(OIR)——可能會(huì)導(dǎo)致多個(gè)應(yīng)用通信和接口故障警報(bào)。用戶可以定義一個(gè)關(guān)聯(lián)規(guī)則,將所有有關(guān)的事件連接到某個(gè)指定的根事件——假設(shè)它們都在設(shè)定的時(shí)間間隔內(nèi)到達(dá)。因此,只有根事件會(huì)被轉(zhuǎn)發(fā),從而大大降低事件治理系統(tǒng)的警報(bào)負(fù)載。(用戶仍然可以查詢相關(guān)事件。)
事件治理器還支持一個(gè)由用戶設(shè)置的警報(bào)緩存。一個(gè)外部治理系統(tǒng)或者操作人員可以組織或者查詢緩存中的警報(bào),以便分析狀態(tài)或趨勢(shì)。因?yàn)镃RS-1的架構(gòu)具有很高的可用性,緩存中的警報(bào)會(huì)進(jìn)行校驗(yàn),以防止警報(bào)在路由處理器進(jìn)行故障切換或者流程重啟時(shí)丟失。
盡管系統(tǒng)停機(jī)通常是由于網(wǎng)絡(luò)以外的來源所導(dǎo)致的,但是它也有可能是由網(wǎng)絡(luò)四周的來源——操作人員——所導(dǎo)致。因?yàn)槎鄼C(jī)架路由器的配置非常復(fù)雜,而且故障或者延遲可能會(huì)對(duì)客戶服務(wù)造成嚴(yán)重的影響,所以需要一個(gè)嵌入式的、智能的配置流程來保持不間斷的系統(tǒng)運(yùn)行和迅速的實(shí)施。
            內(nèi)嵌的CRS-1配置治理器可以在啟動(dòng)、運(yùn)行和OIR事件期間優(yōu)化路由器的配置流程。通過同時(shí)和批量在啟動(dòng)和OIR事件時(shí)分配和執(zhí)行改動(dòng),平均修復(fù)時(shí)間(MTTR)將會(huì)最大限度地縮短。通過校驗(yàn)逐步進(jìn)行的配置升級(jí),配置治理器讓CRS-1可以在正常運(yùn)行過程中支持配置升級(jí)上載或者恢復(fù)。
為了解決大型邊界網(wǎng)關(guān)協(xié)議(BGP)路由配置在多機(jī)架路由環(huán)境中帶來的挑戰(zhàn),Cisco IOS XR軟件還提供了一種新的路由策略語言(RPL),它能夠?qū)?shù)千個(gè)BGP對(duì)等操作集中到一個(gè)或者多個(gè)緊湊的邏輯路由器配置中。
記帳是網(wǎng)絡(luò)治理在流量工程、計(jì)費(fèi)和安全方面的一個(gè)不可或缺的重要組成部分。
為了支持嵌入式記帳治理,CRS-1提供了一個(gè)新版本的NetFlow——靜態(tài)NetFlow。NetFlow是動(dòng)態(tài)的,可以采集、匯聚和輸出大量的數(shù)據(jù)進(jìn)行分析,而靜態(tài)NetFlow對(duì)分組流的處理方式與訪問控制列表(ACL)類似,但是具有擴(kuò)展字段,例如源和目的地的自主系統(tǒng)編號(hào)和多協(xié)議標(biāo)簽交換(MPLS)標(biāo)簽。利用靜態(tài)NetFlow,可以定義一個(gè)具有擴(kuò)展ACL的流量過濾器,以便跟蹤某個(gè)特定數(shù)據(jù)流的分組和字節(jié)計(jì)數(shù)器。靜態(tài)NetFlow計(jì)數(shù)器的存儲(chǔ)和接收方式與可擴(kuò)展標(biāo)記語言(xml)或者簡單網(wǎng)絡(luò)治理協(xié)議(SNMP)計(jì)數(shù)器相同。
為了提高效率,靜態(tài)NetFlow部署在CRS-1的硬件中(以微代碼的形式),以便最大限度地降低對(duì)路由器的CPU性能的影響。一旦計(jì)數(shù)器被采集,它們就將通過線卡數(shù)據(jù)接口,輸出到外部采集器。這消除了對(duì)性能的負(fù)面影響,因?yàn)镃RS-1可以在控制面板和數(shù)據(jù)面板之間提供完全的隔離。
在基于單機(jī)箱平臺(tái)的大型網(wǎng)絡(luò)中,性能監(jiān)控和趨勢(shì)分析很難實(shí)現(xiàn)。來自于為數(shù)眾多的網(wǎng)絡(luò)組件的大量可用數(shù)據(jù)通常會(huì)超出負(fù)責(zé)采集、存儲(chǔ)、治理和處理數(shù)據(jù)的OSS性能監(jiān)控組件的能力。這些數(shù)據(jù)還可能會(huì)對(duì)組件和采集器之間的網(wǎng)絡(luò)流量造成嚴(yán)重的影響。通常,可以通過只針對(duì)平臺(tái)中的特定目標(biāo)——而不是分析整個(gè)網(wǎng)絡(luò)的趨勢(shì)——限制所采集的數(shù)據(jù)的容量。
因?yàn)槎鄼C(jī)架路由器的規(guī)模很大,傳統(tǒng)的基于某個(gè)集中應(yīng)用的數(shù)據(jù)輪詢已經(jīng)無法滿足需要,而且效率極低。因此,CRS-1上的性能統(tǒng)計(jì)數(shù)據(jù)和計(jì)數(shù)器的采集是由內(nèi)嵌的性能監(jiān)視器執(zhí)行的。
Cisco CRS-1的性能監(jiān)控能力讓操作人員可以定義所要采集的統(tǒng)計(jì)數(shù)據(jù)、采集的頻率,以及內(nèi)存中保存的樣本總數(shù)。采集操作可以被設(shè)置為按需運(yùn)行或者定期運(yùn)行(用于分析趨勢(shì))。按需采集通常用于進(jìn)行迅速的調(diào)試和診斷,例如查看利用率。無論是按需還是定期采集,數(shù)據(jù)采集都不會(huì)影響同時(shí)進(jìn)行的其他采集流程。在采集階段結(jié)束之后,數(shù)據(jù)可以被外部采集器輪詢,或者輸出到外部采集器。
CRS-1的性能監(jiān)視器可以在所有支持的實(shí)體上,將本地的計(jì)數(shù)器與用戶設(shè)置的閾值相比較,例如比較錯(cuò)誤計(jì)數(shù)器和MPLS的接口、連接利用率。閾值條件被定義為對(duì)某個(gè)相對(duì)于閾值(使用百分比或者絕對(duì)值)的屬性值的邏輯操作。閾值規(guī)則將在每次采集期間進(jìn)行評(píng)估。一旦達(dá)到或者超過某個(gè)閾值條件或者標(biāo)準(zhǔn),就會(huì)立即生成一個(gè)閾值超越警報(bào)(TCA)。范圍操作功能讓用戶可以跟蹤計(jì)數(shù)器在某個(gè)特定范圍中的值(例如,CPU利用率介于20%到60%之間),因而可以在系統(tǒng)性能超出預(yù)定范圍時(shí)提供一個(gè)功能強(qiáng)大的通知機(jī)制。閾值重設(shè)規(guī)則指定了是否生成閾值通知——即使已經(jīng)達(dá)到閾值條件。這避免了在某些情況下生成大量的閾值通知,例如在很短的時(shí)間或者間隔內(nèi)閾值條件被反復(fù)超過。
搜集到的所有數(shù)據(jù)都會(huì)進(jìn)行校驗(yàn),以防止數(shù)據(jù)在路由處理器進(jìn)行故障切換或者流程重啟 時(shí)丟失。與其他事件一樣,由嵌入式性能監(jiān)視器生成的TCA可以像“嵌入式故障治理”部分介紹的那樣,自動(dòng)地對(duì)事件采取措施。
盡管必須通過檢測(cè)功能防止服務(wù)供給商遭受安全故障所導(dǎo)致的損失,但是對(duì)這些檢測(cè)功能的使用也必須得到保護(hù)。
Cisco CRS-1的安全治理訪問功能是通過基于安全套接字層(SSL)、Secure Shell(SSH)協(xié)議、ip安全(IPSec)、TACACS+和RADIUS的身份驗(yàn)證、授權(quán)和記帳(AAA)實(shí)現(xiàn)的。另外,新的基于ID的安全功能可以對(duì)每項(xiàng)任務(wù)提供比典型的、基于角色的訪問控制更加精確的控制。在基于任務(wù)ID的安全中,可以定義不同的用戶類型,并將其分為不同的群組。每個(gè)群組都與某個(gè)特定的任務(wù)組——例如BGP和MPLS任務(wù)——相關(guān)聯(lián),并且設(shè)有明確的權(quán)限(讀取或者寫入)。
任務(wù)ID還可以在路由器治理任務(wù)授權(quán)方面提供靈活性。為了確保軟件鏡像的完整性,可加載的軟件會(huì)在安裝期間,由安裝治理員進(jìn)行數(shù)字簽名和身份驗(yàn)證。假如某個(gè)軟件包沒有通過身份驗(yàn)證,它就無法執(zhí)行。
嵌入式接口
為了使用嵌入式檢測(cè)功能提供的信息和控制,路由平臺(tái)必須通過接口--通常是通過硬件和軟件--提供訪問途徑,即所謂的應(yīng)用編程接口(API)。這些接口應(yīng)當(dāng)是開放的,并且建立在行業(yè)標(biāo)準(zhǔn)的基礎(chǔ)上。假如接口是專用的,服務(wù)供給商就需要為將路由器集成到他們現(xiàn)有的OSS基礎(chǔ)設(shè)施中付出高得多的成本。而且,隨著OSS的發(fā)展,他們還將承擔(dān)更高的維護(hù)成本,從而提高了路由器的總擁有成本。
Cisco CRS-1可通過物理接口和標(biāo)準(zhǔn)的API(如圖2所示)訪問Cisco IOS XR軟件中內(nèi)嵌的檢測(cè)功能,其中包括一個(gè)內(nèi)部元數(shù)據(jù)模型,它可在命令行界面(CLI)、SNMP或XML之間保持治理一致性:

圖2 Cisco CRS-1可治理性架構(gòu)
            CRS-1的可編程接口是通過XML提供的。它的豐富機(jī)制讓操作人員可以迅速地為路由器配置和監(jiān)控開發(fā)治理腳本和頂置的應(yīng)用。利用XML接口,客戶端應(yīng)用可以將查詢請(qǐng)求封裝在XML流中,并通過多種傳輸方法--例如公共對(duì)象請(qǐng)求代理體系結(jié)構(gòu)(CORBA)--將其發(fā)送到路由器,從而訪問CRS-1的治理數(shù)據(jù)。查詢結(jié)果將作為一個(gè)由XML編碼的響應(yīng)流,返回到客戶端。路由器XML機(jī)制文檔中定義和公布了XML標(biāo)簽。客戶端應(yīng)用可以利用這些標(biāo)簽編碼和解碼XML流。一個(gè)帶有標(biāo)簽的響應(yīng)可以被用于定制外觀和設(shè)定數(shù)據(jù)顯示的格式,從而不需要分析沒有格式化的ASCII文本--在基于文本的響應(yīng)中經(jīng)常需要這樣做。
嵌入式應(yīng)用服務(wù)--Craft Works接口
作為一個(gè)更加有效、界面更加友好的多機(jī)架治理工具,Craft Works接口(CWI)是一個(gè)使用了CRS-1 XML接口的內(nèi)嵌式java應(yīng)用,它支持增強(qiáng)的CLI功能、一個(gè)文本編輯器和一個(gè)可以從Web瀏覽器啟動(dòng)的GUI(CWI Desktop)。
CWI Config Editor
利用CWI Config Editor,用戶可以在不對(duì)目前正在運(yùn)行的配置造成任何影響的情況下,修改配置和保存配置改動(dòng)。網(wǎng)絡(luò)操作人員可以獲得標(biāo)準(zhǔn)的全屏編輯功能,例如區(qū)塊復(fù)制和粘貼,命令自動(dòng)輸入,以及檢查語法、在最后提交之前查看改動(dòng)和在實(shí)際應(yīng)用之前驗(yàn)證配置的功能。 
CWI CLI
Cisco IOS XR的CLI支持增強(qiáng)的功能,例如歷史命令調(diào)用和批處理,從而讓CRS-1的治理變成了一種更加個(gè)性化的體驗(yàn)。在SSH/Telnet窗口中提供了一個(gè)本地命令緩存,將常用命令保存在每個(gè)用戶的本地存儲(chǔ)中。治理人員在登陸到每臺(tái)路由器之后,可以調(diào)用這些常用命令,以加快治理速度和簡化應(yīng)用。另外,治理人員還能夠以批處理的方式執(zhí)行一個(gè)事先存儲(chǔ)的命令文件。
CWI Desktop
CWI Desktop(如圖3所示)提供了一個(gè)GUI,它讓操作人員可以直觀地查看系統(tǒng)的各個(gè)組件及其狀態(tài)。它提供了對(duì)一些由CRS-1支持的、重要的嵌入式FCAPS功能的訪問: 

圖3 CWI Desktop

圖4 CWI設(shè)備和警報(bào)視圖

圖5 CWI警報(bào)面板

圖6 CWI機(jī)架視圖

圖7 CWI配置桌面
結(jié)論
高利潤的服務(wù)供給商網(wǎng)絡(luò)依靠于可以提供不間斷的系統(tǒng)運(yùn)行和出色的服務(wù)靈活性的下一代路由平臺(tái)。要為核心路由平臺(tái)提供極高的可用性和方便的服務(wù)供給,要害是采用一個(gè)強(qiáng)大的可治理性解決方案。通過支持嵌入式檢測(cè)、接口和應(yīng)用服務(wù),思科運(yùn)營商路由系統(tǒng)為集成在現(xiàn)有OSS環(huán)境中的路由和可治理性技術(shù)提供了一個(gè)重要的發(fā)展方向。
如需了解更多關(guān)于補(bǔ)充性EMS和OSS解決方案的信息,請(qǐng)聯(lián)絡(luò)您的思科客戶代表。
參考資料
思科網(wǎng)絡(luò)治理系統(tǒng):最佳實(shí)踐 (PDF)
http://www.cisco.com/warp/public/126/NMS_bestPRactice.pdf
            Cisco CRS-1系統(tǒng)概述
http://www.cisco.com
Cisco CRS-1的高可用性
http://www.cisco.com
Cisco CRS-1的安全性
http://www.cisco.com
新聞熱點(diǎn)
疑難解答
圖片精選
網(wǎng)友關(guān)注