了解最新公司動態及行業資訊
企業通過成熟的技術實施和實施IT運維管理。 IT運維技術可以分四個階段逐步落地:人工運維能力、平臺化運維能力、數據化運維能力、智能化運維能力。相反,實現智能運維能力的前提是具備人工化、平臺化、數據化的能力。企業應根據自身運維發展階段和實際運維需求,分階段實施相關技術能力。
一、IT運維業務面臨挑戰
隨著中國聯通“大鏈接”戰略的深入實施,業務規模快速下滑,內外部競爭日趨激烈復雜,IT技術快速演進,中國聯通的頂底線和內外部客戶負責公司信息系統部門的IT運維管理。對執行效率和精細化運營管理能力提出了更高的要求和挑戰:
為適應瞬息萬變、新業務層出不窮的市場形勢,中國聯通提出“嚴節約、降本、增效”行動,引入人工智能技術,建立低成本高效的操作系統,推進“IT代人”戰略,在日益激烈的同質化競爭中占據主動。在 2019 年 IT 工作思路中,中國聯通提出“以積極賦能和發展 IT 為主線,大力推進 IT 支撐向 IT 運營轉變”、“著力提升智能化運營能力、 IT運維能力重點發展目標明確方向。隨著信息部門系統的云化、容器化、集中化、微服務化等架構調整,“系統架構和業務調用關系復雜,運維管理難度降低”的痛點也得到實時跟進。這個運維系統。 ,不斷調整自身發展規劃,向“大運維、一體化運營、專業化、實踐敏捷、智能運營、卓越體驗”的理念演進,為生產提供更好的運維支持服務系統。
二、【痛點與難點】
5G網元控制平面、傳輸前饋、傳統(2G/3G/4G)運維平臺,難以支撐5G網絡資源的集中統一配置管理和運維; 5G網絡實現產業提供的SDN 服務,現有運維平臺無法實現端到端的部署、運維和交付; 5G網絡的多層編排協同,目前還沒有可視化的運維管理;對于垂直應用,難以理解行業端到端的客戶體驗和應用、服務、網絡的智能運維; 5G商用廣泛,缺乏AI手段實現網絡故障預警、業務切換和故障恢復。
三、[實踐路徑]
基于能力梳理和方向規劃,提出1個愿景、3個核心、5個階段、3個基石的“1+3+5+3”智慧運維能力體系。
(1)1愿景:IT運營創造價值是構建智能運維體系的根本愿景。
(2)三個核心:穩定性和準確性、用戶滿意度和風險防范是智慧運維體系建設的三個核心價值。
(3)5個階段:“初始階段-標準化階段-手動化/可視化階段-中級智能階段-中級智能階段”是智慧運維體系建設中各項能力的演進路線。
(4)三大基石:工作規劃、文化修養、能力提升,是智慧運維體系建設的三大基石。
(1)數據采集層:對于應用監控層面的采集,可以通過UDP合約傳輸、、Java等方式獲取運維指標。建立和采集業務指標等。
(2)數據處理層:Flink流處理作為數據處理引擎,首先提供低延遲、高吞吐、實時處理能力,以及更多的監控、智能分析等系統。完美支持各種應用場景,同時Flink還支持批處理等常用數據預處理、清洗、過濾等方式的需求。
(3)數據存儲層:各種數據根據需要和分工存儲在不同的介質上,以達到最佳的效率和最佳的搭配等效果。(4)@ >數據通道層:根據運維工作和運維數據的特點,選用分布式發布-訂閱消息中間件Kakfa作為通用數據通道,以其易擴展、高吞吐的特點,組件間數據共享并且可以實現微服務。通過Kafka進行分發。
(5)微服務層:后端功能微服務化,根據業務監控、人工運維、應用配置管理、智能分析、日志管理等定義微服務的范圍和邊界。 ,以及通過API網絡段對外開放的能力。
(6)API網段層:API網段采用框架,API網段負責對外提供統一的外部訪問入口,并提供合約聚合、路由分發、負載均衡、內部為前端服務配置服務、總線消息等功能,進而實現微服務的服務隔離、線性擴展和有效監控。(7)后端應用層:后端選擇一個輕量級的,高性能,組件化的框架,適合運維這些都是數據驅動的web界面。
四、【實際療效】
五、【實現IT智能化運維能力】
1.手動運維能力
日常IT運維工作中存在大量重復性任務。這些任務有的復雜冗長,有的嚴重依賴執行順序,有的需要等待各種條件滿足才能執行。雖然IT運維管理技術在不斷提高,但實際上IT運維人員并沒有真正得到解放。目前,很多企業的系統啟動和關閉、系統更新升級、應急操作等大部分工作都是手動完成的。雖然簡單的系統變更或軟件復制粘貼升級,往往需要運維人員逐一登錄各個設備進行手動更改。尤其是在云平臺、大數據、海量設備的情況下,工作量可想而知。此類變更和檢測操作在IT運維中每天都會發生,占用了大量的運維資源。通過手動操作工具,將運維人員從簡單重復的工作中解放出來,降低誤操作風險,帶來系統穩定性、安全性和效率的提升。應用場景如下:
(1)日檢手動化:日檢內容簡單,但占用IT運維人員大量時間。日檢人工巡檢可以改變硬件狀態、設備負載、系統人工檢查時間、C盤空間、線路流量、數據庫表空間使用情況、網絡設備端口狀態、流量等,生成滿足用戶要求的檢查報告。
(2)手動配置管理:手動從生產環境中提取配置庫信息,手動更新到配置庫中,保持配置庫與生產環境的一致性。實現手動更新和同步需要對應用系統進行標準化改造,如標準化安裝路徑、統一版本等,有助于工具提取應用配置項的基本信息,最終實現配置項和屬性的手動更新。
(3)手動應用部署:使用手動平臺圖形化流程編輯器創建組件流程。根據平臺提供的插件,可實現與流行工具的集成,部署即可無需任何編程即可快速定義邏輯。可以使用相同的流程將相同的應用程序部署到多個環境。這進一步有助于節省時間和提高效率,以及早期驗證應用程序和部署過程。手動平臺可以同時在數千臺機器上運行部署過程。
(4)容災切換操作手動化:通過容災操作流程手動批量執行容災切換流程。通過-為業務系統構建雙活模式。主動數據中心,實現手動切換,減少停機時間。
2.平臺運維能力
運維工作相當復雜,包括網絡、服務器、操作系統、數據庫、發布、變更、監控、故障排除、運行環境信息維護等。同時面對日益復雜和龐大的企業IT架構,IT運維需要在不同架構、不同平臺之間實現IT資源的優化配置和高效管理,從而實現整個系統的穩定運行,滿足相應的企業業務場景。當需求出現時,可以應對用戶量和數據量的快速膨脹。
因此,平臺化運維的目標是針對不同的業務形態,對企業IT架構進行有針對性的管控和集成管理,利用大數據和基于PaaS的平臺能力進行底層運維技術和業務能力。封裝、輕量級運維技術工具體系進入運維APP場景應用,逐步集成運維工具。應用場景如下:
(1)日志采集平臺:采集各個應用形成的本地日志數據并匯總。一方面方便查看和定位問題;趨勢分析為有效規避提供依據風險失敗并指導決策。
(2)應用性能監控平臺:包括多級應用性能監控、應用性能故障快速定位、應用性能綜合優化三個模塊。可使用事務處理過程監控、模擬等指實現點對點應用檢測,檢測應用系統的各個組件,快速定位系統故障,并進行修復或提出修復建議,準確分析各個組件占用系統資源的情況,及時了解庫存和產品生產進度it運維技術,從而實現利益最大化。
(3)統一資源配置管理平臺:只有這樣才能集中管理不同環境、不同應用集群的配置,實時推送配置變化,保證底層數據配置項通過統一管理資源和配置準確。
(4)應用部署平臺:只為了部署容器和物理機,支持線上線下服務、定時任務和靜態文件的部署,提供部署資源管理、運行環境搭建、部署流程定義和部署執行跟蹤,可用于金絲雀發布和藍綠部署。應用部署平臺可以提高業務迭代率,避免失敗,提高產品發布節奏。
3.數據運維能力
由于用戶數和業務量的下降,數據量也迅速處于井噴發展階段。 IT運維數據化能力由此成為企業能力發展的重要方向。 IT運維數字化是利用數據采集、數據存儲、數據處理、可視化等全數據系統對運維過程進行評估,以確認IT運維目標的實現和程度。日常運維場景很多,看起來很復雜。畢竟與對穩定、安全、高效這三個基本價值的更高追求是分不開的。通過基于數據的運維能力,IT運維可以為企業決策提供強有力的支持,實現穩定、安全、效率提升、成本合理控制。應用場景如下:
(1)知識圖譜:使用統一語言定義運維數據,通過實體與實體之間的關系表達運維對象,整合運維領域的實體關系,生成一個知識圖譜。運維領域關系包括但不限于產品、服務、集群、服務器、網絡、IDC等。
(2)數據庫室:是一個面向主題的、集成的、相對穩定的、反映歷史變化的、用于支持管理決策的數據集合。數據庫室為用戶提供決策支持和歷史數據的當前數據。數據,這是傳統運營數據庫中難以或不可能獲取的數據。 機房技術是將運營數據有效地整合到一個統一的環境中,為決策數據訪問提供各種技術和模塊,目的是讓用戶能夠查詢到所需的信息更快、更方便,并提供決策支持。
(3)數據中心:建設面向運維領域的數據中心,資源數據、告警數據、績效數據、業務數據、日志數據、工單數據、指標數據等統一管理,撥號數據 為下層運維分析場景提供統一的數據訪問路由、數據服務目錄、數據訪問管理、數據可視化等功能,打破“數據孤島”,深度挖掘運營通過整合關聯和對外開放的數據價值。識別前端數據需求,整合后端數據,處理和輸出數據,構建數據中心級數據服務共享平臺。通過數據整理,數據源規劃、數據處理整合,對現有數據進行處理和整合,通過數據服務實現數據監控和資源利用分析。
(4)數據可視化:通過數據的可視化呈現,幫助運維人員直觀、方便、快速地分析問題,同時也提供了一系列工具組件供運維人員跟進快速進行視圖編輯、多層次下鉆分析、多維度關聯分析、報表整理、海量數據縱橫數據對比等,傳統運維體驗數字化改造,大幅改善問題故障排除、風險檢測和知識沉淀。
4.智能運維能力
由于IT運維支撐的業務規模不斷下降,越來越多的運維場景和問題難以用傳統的運維方式解決。同時,IT運維效率也逐漸無法滿足系統要求。為此,如何解放運維自身的效率,解決傳統運維方式難以解決的問題,成為企業發展轉型的一大挑戰。運維智能化能力是指將人類的知識和運維經驗與大數據和機器學習技術相結合,制定出一系列智能策略,然后集成到運維系統中,實現運維通過智能運維平臺完成工作。
目前,運維智能化應用場景主要有:
(1)故障預測:主動容錯技術,基于對系統歷史狀態和當前行為的分析it運維技術,可以生成告警預測的結果模型,判斷系統是否已經正式形成故障,并協助系統盡快避免故障或采取措施。可以發現,可以預知報警。故障預知可以使運維人員在日常工作中由被動響應變為主動,從而提高系統的整體運行質量。
(2)故障自愈:故障自愈過程包括感知、止損決策、止損三個階段。感知階段取決于監控系統的故障檢測能力,補貨階段取決于流量調度系統的調度能力。故障自愈可以提高企業的服務可用性,減少故障處理的人為投入,實現從人工處理到無人值守故障的過渡。
(3)手動擴縮容:可以根據應用負載手動調整集群容量以滿足需求。當集群中有Pods由于資源不足而難以調度時,擴容手動觸發,降低人工成本。當滿足節點空閑等伸縮條件時,手動觸發伸縮,節省資源成本。
(4)智能問答知識庫:知識庫的最新形式,具有知識挖掘、知識管理、知識關聯、知識推理與建模、智能檢索、自學訓練等功能。智能知識庫 改變故障處理方式,不僅提高了故障上報的準確性,而且簡化了信息交換的中間環節,有效減少故障處理時間,提高工作效率。
(5)智能發布變更:可否管理大規模發布變更流程,具有手動部署、分層發布、智能變更策略等功能。用戶通過UI配置整個變更流程的執行策略/API ,專用執行系統解析策略,手動執行批次及其變更。分層發布將變更過程定義為基于強度組的多個階段,并在每個階段引入人工檢測案例。階段變更可以有效提高管理和通過引入智能模板生成、智能變更檢測等智能策略,降低使用門檻,提高可復用性,減少了人力。操作錯誤率。
六、[未來洞察]
(1)端到端業務體驗:主要涉及客戶體驗、應用體驗、網絡體驗、接入設備體驗的工具和平臺。
(2)智能運維:針對B域和O域,提供微服務修復、編排修復、切片修復、智能預警、智能優化、故障自愈、持續集成、持續部署和持續測試;
(1)運維層:三橫一縱、B域運維、O域運維、邊緣估計運維、端到端運維。
(2)能力分層:業務運維、技術運維、管理運維。