了解最新公司動態及行業資訊
系統智能運維關鍵技術研究學科 計算機技術研究方向 軟件服務指導負責人 朱立平 副院長 現場導師 蘇永昌 中級工程師 招生日期:2013 隨著信息化、智能化的逐步加快,傳統運維模式已經不能滿足人們的運維需求。當今的運維系統大多只解決運維活動中的基礎業務流程和軟硬件邏輯的管理,無法深入實現以ITIL為代表的運維管理系統。與業務密切相關的模塊缺乏相對智能化的功能,不同模塊之間缺乏有效的整合,導致運維整體效率低下。本文研究了運維系統智能化過程中用到的關鍵技術,包括:網絡拓撲發現技術、自動預警技術和資源報告生成。同時,系統介紹了數據交互中使用的模板技術、K-means降維分析方法和數據處理中的-mean模型。本文重點介紹了網絡拓撲發現算法的實現、自動預警中參數的手動生成和校準、郵件等新型預警技術的實現、系統報告的生成過程以及預警級別的定義。為解決拓撲圖功能表一、的運維報告模塊無法有效使用的問題,本文提出預警、報告和網絡拓撲圖相結合的方法。最終完成了拓撲圖生成、自動預警、資源報表評估等智能運維系統關鍵技術的實現,推動了運維智能化步伐。
關鍵詞:運維;網絡拓撲結構;智力;預先警告; .'..,,all.used,:,early,.,used,data,K-means.,,e-,,etc..,.,the,,,,up.關鍵詞:;;;早期;形式1.1課題來源1.2研究背景1.3研究意義1.4主要工作1.5論文結構2.資料收集技術2.1.簡介2.1.2信息收集原理2.2網絡拓撲發現算法簡介2.2.1 SNMP-基于網絡拓撲發現算法2.2.2 基于ARP的網絡拓撲發現算法2.2.3 基于ICMP的網絡發現算法2.3 知識庫和數據挖掘2.3.1 知識庫建設2.3.2 報表中常用的數據挖掘算法2.4 運維報表與預警技術2.4.1 報告在運維中的應用2.4. 2 報告技術的分類 102.4.3 報告在運營中的應用與維護 102.5 運維中的資源評估技術 112.5. 1 資源評估的概念 112.5.2 資源評估的方法112.5.3運維中的信息采集122.6模板技術122.6.12.6.的特點介紹@>132.6.3工作原理132.6.4 142.7 章節總結163.1 系統開發目標163.2 系統需求分析 163.3 數據集成與處理 163.< @3.1 網絡拓撲信息排序163.3.2 監控項均值閾值處理17<@ 3.3.3預警系統改進183.4系統集成203.5章節總結224.1系統總體架構224.1. 1 系統設計圖 224.2 智能運維設計關鍵技術功能254.2.1運維拓撲圖生成on254.2.2完善知識庫284.2.3人工預警系統建設304.2.4系統資源報告評價模塊374.3數據處理與顯示394.4系統集成實施414.4.1報警實施與方案生成414.4.2方案配置414.< @4.3Plan .5應用結果及分析444.5.1網絡拓撲結果統計44 4.5.2上報統計及故障預警應用分析46< @5.1 推理465.2 展望1.1 課題來源 本課題以數據挖掘為出發點 天津市重點實驗室承擔的智能運維系統子課題研究與實施實現運維系統智能化過程中的關鍵技術。
研究的技術包括運維拓撲圖的實現、智能預警系統的改進、資源報表的評估等。拓撲圖的實現是基于網絡拓撲發現算法生成運維網絡拓撲圖。預警系統的實現過程是對實時和歷史數據進行分析處理,實現資源的報表分析,結合預警模塊實現相應節點的上報和預警功能。同時,系統可以對節點上的相關設備進行檢測,構建較為完善的運維上報系統,實現故障的分級上報。根據項目組的實際需求和任務定義,承擔運維拓撲圖生成、預警系統完善、資源報告評估等功能的設計開發過程. 1.2研究背景我國的IT運維管理幾乎與互聯網行業的發展同步。 2000年之前,幾乎是一片空白,只有一些電腦維修和保養工作。發展的黃金時代已經過去十年。隨著互聯網技術迅速融入國外各行各業,互聯網技術以令人矚目的速度發展。同時,隨著各種問題的出現,IT運維管理逐漸受到廣大用戶的關注,運維工作不再是簡單的自動化設備維護,而是逐漸走向正規化。在用戶體驗互聯網帶來的便利的同時,運維工作的重要性也越來越被認可,客戶需要一整套成熟的系統來做好運維工作。但由于國外互聯網產業引入較晚,運維所需的各種軟硬件的支持遠遠落后于美國,客觀激勵的障礙使得運維工作遠遠落后于加拿大的步伐。
據悉,運維管理人員長期以來沒有得到應有的重視和尊重。近年來,隨著客觀條件的改善,運維行業取得了長足的發展。以ITIL系統為核心的運維系統在國外已經得到了很好的發展。走在這個行業前沿的國外企業有很多,北塔和摩卡更是名列前茅。作為國外最成功的運營商之一,北塔公司于2010年發布了公司最成功的運維軟件BTNM技術藍皮書,書中詳細介紹了產品的功能,重點介紹了ITIL的應用。此外,北塔在服務運維方向上也做了一定的延伸。摩卡開發的運維軟件,高度依賴運維,也具有很高的應用價值。與北塔不同,摩卡在故障處理上相對成功。不僅是必要的故障管理模塊,還有一些故障分析功能,在實際應用中具有很高的附加值。對比兩款產品可以發現,兩者都非常重視流程管理,因為這是運維的核心。區別也很明顯:北塔重視應用開發,摩卡重視商業模式建設。由于國外運維發展緩慢,早期美國的一些運維開發商如惠普、IBM等占據了中國運維市場的大部分,這些廠商憑借先進的技術理論主導了運維市場。運維產品也是基于以ITIL為代表的理論的運維管理系統。隨著ITIL給聯通開發者帶來了顯著的利益,ITIL逐漸被國外所接受,運維技術也得到了足夠的重視。
但近年來,由于國內廠商核心代碼私有化,后期使用出現不少問題,需求減少會降低高昂的運維成本。同時,國外的運維也發展得很好,所以美國的運維產品也逐漸淡出了中國市場。針對這些情況,我們的重點不是簡單地優化傳統的運維形式。運維的發展方向是業務管理而不是簡單的事務處理。傳統的運維理念給我們指明了方向,但如何走上路是每個運維人都應該思考的問題。作為行業發展標準,ITIL 依然不落后。在這個標準下,我們當前的任務是盡快將新一代運維管理與舊模式結合起來,“取其精華,去其糟粕”。只有這樣,才能順應時代發展趨勢,將運維管理推向一個新的高度。 1.3研究意義隨著IT行業的發展,作為運維管理對象的互聯網等計算機資源規模不斷擴大。另一方面,運維人員似乎有所減少,整體技能水平接近美國,但本土運維人員的專業技能參差不齊。在這種情況下,順利的運維工作給大家帶來了很大的麻煩。為了便于操作、維護和管理,新一代網管系統具有良好的圖形界面。在新的網管平臺下,非專業用戶無需完全掌握設備的配置方法,通過管理平臺即可快速完成多臺設備的配置和監控。
但由于人為激勵的干擾,管理過程中仍會出現設備功能使用不完整或不正確的問題,整體工作效率不理想。作為網絡管理的重要組成部分,局域網的運維管理對于局域網用戶來說起著非常重要的作用。值得思考的是,現實中,在當前形勢下,局域網運維工作并沒有得到足夠的重視,給運維工作的順利進行帶來了麻煩。由于局域網中涉及的主機或服務器對用戶來說非常重要it運維技術,因此確保其運行安全和使用安全是網絡管理者最關心的問題。局域網監控是建立在局域網的基礎上,以計算機技術、網絡技術、通信技術、控制技術等高新技術為基礎,以監控、管理、報警等為手段,實現對本地的管理。局域網,同時保證局域網的安全運行。它可以為網絡管理員提供清晰的監控數據信息。舉辦網絡運維將有助于解決現實中運維效率低的現狀。拓撲圖的使用充分發揮了視圖交互的優勢,讓用戶可以直觀地看到一個平面結構,而不是像中國石油學院(南京)那樣的網絡環境。本系統對拓撲圖的擴展,增加了報表系統和預警系統,加強了拓撲圖的效果。報表系統充分利用歷史數據,利用基本的物理處理和數據挖掘方法,獲取網絡用戶使用的內在規律和聯系,并將這些規律整合為用戶運維管理的有利信息。
新增的預警系統可以在發現問題之初甚至在問題發生之前就做出快速準確的報告,有效縮短運維周期,一改以往的報告系統“發現問題,發出警報,經理響應,解決問題”模型。預警方案生成系統為智能運維提供了可能。隨著知識庫的積累,從知識庫中得到的候選方案會越來越準確有效,運維方案的實際作用也會越來越大。 1.4 主要工作 本課題的主要研究內容是智能運維監控系統的一部分,是在ITIL基礎上開發的1.0版本的后續開發并結合實際需要。本文的主要內容有:網絡拓撲圖的生成與優化、自動預警系統的改進、系統日志模塊的開發與建立、系統故障診斷模塊的構建、資源報告評估系統的構建等。拓撲圖模塊,主要建立了前人工作的不足,并完成了系統告警和預警工作。拓撲圖建立后,網絡結構層次更加清晰,結構更加清晰。新增的診斷結果和評估結果也讓網絡節點的內容越來越豐富。拓撲圖與其他模塊有效結合,實現了從基于流程的運維到智能運維的蝶變。還建立了知識庫和系統日志系統。在此基礎上,對相關數據進行物理處理和簡單挖掘分析,最終得出有效的推論。根據推理診斷設備故障,并提供解決方案,實現真正的預警功能。
資源報告制度的完善也促進了計算機資源的有效量化。從評價結果可以直觀地看出各部門對計算機資源的依賴程度,更清楚地得出各部門對資源使用的聯系程度。這種報表為決策者進行資源調度決策提供了實際的量化依據。 1.5 論文結構 本文結構如下: 第一章:介紹課題來源、發展背景、研究意義和完成的主要工作。第二章:介紹與發展相關的關鍵技術。重點介紹同類型系統,開發過程中用到的一些常用技術和概念。其中包括新型網絡運維管理模型、網絡拓撲發現技術、數據挖掘中的知識庫與降維分析、數據處理與頁面實現技術等。 第三章:智能運維系統關鍵技術要求分析章節分小節介紹系統各模塊的功能需求以及技術實現的分析方法和流程。第四章:描述智能運維系統關鍵技術的設計與實現過程。本章通過具體技術逐步實現網絡拓撲圖的生成、預警系統的改進、資源評價報告體系的構建。同時展示了開發過程中的關鍵截圖和實現代碼,介紹了模塊設計和實現過程中的一些重要技術以及部署和實現的過程。第五章:分析推論,總結系統的不足。總結了現有系統實現的功能和用戶應用后的反饋,總結了系統實現成果的優勢和系統功能需要進一步完善的地方,提出了改進未來發展方向的建議。系統。
中國石油科學研究院(南京)碩士論文關鍵技術介紹2.1信息采集技術2.1.1介紹作為一款流行的開源監控系統,可以快速監控系統運行狀態和網絡信息。在監控之下,所有被監控的主機或服務都暴露在管理員的眼前。當被監控對象出現異常時,上報機制會以自己的方式通知管理員。可以用C編譯器運行Linux/Unix平臺,并提供WEB界面供用戶查看管理對象的網絡狀態和系統日志。可以監控的功能[7-10]總結如下:監控主機的可用資源(CPU利用率、磁盤使用率等);可以支持和實現主機的冗余監控; (10)多種集成B/S接口,符合最新發展趨勢,方便用戶操作。2.1.2信息采集原則必須在Linux機器上運行用C語言編譯器或類似機器,另外,運行的機器必須能聯網并支持TCP/IP協議,才能實現遠程檢測服務,加載器還必須運行支持WEB服務的服務器,以提供支持用于CGIs程序的運行。它沒有監控主機和服務的功能。
之所以能做到這一點,是因為使用了外部插件。監控檢測功能[11]啟動后,可以調用已安裝的插件按照設定的周期對目標服務器進行檢查,所有返回的狀態信息都會進入構建隊列。按照順序讀取信息,經過一系列處理,結果顯示在瀏覽器上。它有很多插件,用戶可以根據自己的需要安裝后完成監控目標。內置插件的名稱有一定的規則,用戶可以根據自己的需要學習和更改這些插件。下,可以運行/**-h,系統會返回插件的使用情況。返回的狀態信息包括以下幾種,如下表2.1[12]所示。 . .狀態碼顏色OK紅色警告紅色嚴重白色未知錯誤深藍色有功能,必須通過遠程服務器對象進行管理。系統提供了一個插件NRPE。這個插件的主要功能是完成數據傳輸。系統定期運行NRPE,獲取遠程服務器返回的各種狀態信息。
它們之間的關系如右圖2.1[13]所示。圖2.1 工作原理圖 圖2.1 通過NRPE接收遠程管理服務的命令,完成指定服務的測量;通過 SSL 插件連接到遠程機器上運行的 NRPE;通過 NRPE 運行本地插件以檢查本地服務。檢測完成后,NRPE將檢測結果傳送給控制終端,并按照一定的規則通過讀取信息來顯示檢測結果。中國石油學院(南京)碩士學位論文2.2 網絡拓撲發現算法簡介2.2.1 基于SNMP的網絡拓撲發現算法SNMP()目前運行于TCP/A基于 IP 的網絡管理合約,它是在 UDP 之上運行的應用程序級合約。 SNMP主要由三部分組成:管理信息結構、SNMP和MIB。 MIB是將可以通過網絡契約訪問的管理對象封裝成一個集合進行訪問,用于描述所有網絡元素(路由器、網橋等)的重要信息。
從數據中我們知道,在MIB中,與拓撲相關的有效信息如下: 表中存儲了包括路由器在內的地址信息,見下表2.4。表2.2 路由套接字信息表2.2 套接字索引套接字描述部分類型表2.3 路由表表2.3 目的地址本地端口索引路由類型下一個跳轉表< @2.4路由地址信息表2.4實體ip 索引實體ip子網網段2.2.2基于ARP的網絡拓撲發現算法 大多數網絡所有路由器都支持ARP協定,即維護一個ARP表it運維技術,其中包含該網段內所有活動主機和網絡設備的信息。使用此信息,網關可用于發現網絡拓撲。任何網絡設備也可以發現其他網絡設備和與其連接的主機,然后根據其他信息判斷連接的設備是網絡設備還是主機,從而得到整個網絡的拓撲結構。
這些技術不能用于不支持 ARP 合同的設備。如果網絡規模太大,可能很難將所有活躍的主機都包含在 ARP 中,所以這些技術只能在局域網中使用。 2.2.3 基于 ICMP 的網絡發現算法 這些技術使用兩種常見的 ICMP 工具,Ping 和 .首先使用Ping網絡依次進行ping掃描,可以找出網絡中活躍的網絡設備,然后操作所有活躍的網絡設備,分析兩次操作返回的信息,就可以得到整個網絡。拓撲。這些技術需要掃描局域網內的所有IP地址,會給服務器和整個網絡帶來負擔。同時ICMP過于簡單,所以這些檢測方法在一定程度上是盲目的。子網。通過對比可以看出,基于ARP和ICMP的網絡發現合約在理論上似乎能夠完成網絡拓撲發現的功能,但它們的缺點也很明顯:基于ARP的發現算法的應用范圍有限,而基于ICMP的發現算法發現效率太低。相對而言,基于SNMP的發現算法具有更高的發現效率,因此本文網絡拓撲圖的實現部分采用了這些網絡發現算法2.3知識庫和數據挖掘2.<構建的@3.1個知識庫知識庫是一個基于知識的數據庫系統[14]。
所謂知識,是指人們在社會實踐過程中的行為、數據、規范等。知識庫是基于知識的計算機系統。因為知識是人們生活過程中表現出來的數據,知識庫可以在一定程度上反映人或事物的思想、習慣、規律等。因此,知識庫具有一定的智能性。近年來,隨著人工智能和知識發現技術的進步,知識庫在科學領域的重要性逐漸為人們所認識,知識庫以其獨特的特點發揮著越來越重要的作用。同樣,在運維系統中,各種事務的并列、因果、偶發關系,有著內在的聯系。這些都是有用的資源,值得以新的數據分析方式尋找模式。通過文本處理工具的處理,我們可以從海量的知識庫中找到事物發展的必然聯系,把握變化規律,并將其應用到實際運維中。最終實現更好的運維管理,是邁向智能化的重要一步。知識庫主要用于運維系統中,記錄運維中的事務和日志。如系統運行記錄、系統故障排除、系統事務或流程的成功案例,以及實施報警或預警方案的全過程。隨著記錄的積累,知識庫會越來越豐富。這些積累的數據是后期中國石油學院(南京)碩士論文數據分析的重要依據。數據庫在運維中的構建過程,前期是積累過程,后期是數據分析。要想做好后期的數據分析,前期的積累過程是必不可少的。 2.3.2 報表中常用的數據挖掘算法 二階段報表生成方案[12] 二階段報表生成方案,即模板設計和報表生成分離,一份生成模板,另一塊實現報表的映射生成。設計生成報表模板后,在生成后續報表時,只需要調用相應的模板,將分析后的數據映射到模板即可。降維分析是數據挖掘中常用的數據分析方法