了解最新公司動態(tài)及行業(yè)資訊
企業(yè)通過成熟的技術實施和實施IT運維管理。IT運維技術可以分四個階段逐步落地:人工運維能力、平臺化運維能力、數(shù)據化運維能力、智能化運維能力。相反,實現(xiàn)智能運維能力的前提是具備人工化、平臺化、數(shù)據化的能力。企業(yè)應根據自身運維發(fā)展階段和實際運維需求,分階段實施相關技術能力。
一、IT運維業(yè)務面臨挑戰(zhàn)
隨著中國聯(lián)通“大聯(lián)通”戰(zhàn)略的深入實施,業(yè)務規(guī)??焖傧禄?,內外部競爭日趨激烈復雜,IT技術快速演進,聯(lián)通內外部客戶提升IT運營水平和維護公司信息系統(tǒng)部門的管理執(zhí)行效率。精細化運營管理能力提出了更高的要求和挑戰(zhàn):
1.為適應新業(yè)務日新月異、日新月異的市場形勢,中國聯(lián)通提出“行節(jié)約、降本、增效”活動,引入人工智能技術,建立低成本和高效率的運營體系,推動“以信息代人”戰(zhàn)略的實現(xiàn),以在日益激烈的同質化競爭中贏得主動。
2.在2019年IT工作思路中,中國聯(lián)通提出“以積極賦能和發(fā)展IT為主線,大力推進IT支撐向IT運營轉變”、“著力提升智能化能力運維支撐、創(chuàng)新發(fā)展”等“能力”要求,明確了IT運維能力重點發(fā)展目標的方向。
3.隨著信息部門系統(tǒng)的云化、容器化、中心化、微服務等架構調整,“系統(tǒng)架構與業(yè)務調用關系復雜,運維管理難度降低”的痛點"是針對這個運維系統(tǒng)的。還要實時跟進,不斷調整自身發(fā)展規(guī)劃,向“大運維、一體化運營、專業(yè)化業(yè)務、實踐敏捷化、運營智能化、體驗卓越”的理念演進,為生產系統(tǒng)提供更好的運維支持服務。
二、【痛點與難點】
· IT運維痛點:
運維系統(tǒng)重復建設;各域運維隔離,響應不及時;云化后的IT運維智能化程度不高,還在不斷演進。
·5G時代ICT融合運維面臨的挑戰(zhàn):
5G網元的控制平面和傳輸前饋,傳統(tǒng)(2G/3G/4G)運維平臺難以支撐5G網絡資源的集中統(tǒng)一配置管理和運維;5G網絡實現(xiàn)SDN提供的行業(yè)切片服務,現(xiàn)有運維平臺無法實現(xiàn)端到端的部署、運維、交付;5G網絡的多層編排協(xié)同,目前還沒有可視化的運維管理;以及網絡端到端的客戶體驗和智能運維;5G大量商用,缺乏實現(xiàn)網絡故障預警、業(yè)務切換和故障恢復的AI手段。
三、【實踐路徑】
·智能運維系統(tǒng)
基于能力梳理和方向規(guī)劃,提出1個愿景、3個核心、5個階段、3個基石的“1+3+5+3”智慧運維能力體系。

(1)1愿景:IT運營創(chuàng)造價值是構建智能運維系統(tǒng)的根本愿景。
(2)穩(wěn)定性與準確性、用戶滿意度和風險防范三個核心是智慧運維體系建設的三個核心價值取向。
(3)5個階段:“初始階段-標準化階段-手動化/可視化階段-中級智能階段-中級智能階段”是智慧運維體系建設中各項能力的演進路線。
(4)三大基石:崗位規(guī)劃、文化修養(yǎng)、能力提升是智慧運維體系建設的三大基石。
·技術運營中臺技術架構

(1)數(shù)據采集層:對于應用監(jiān)控層面的采集,可以通過UDP合約傳輸、、Java等方式獲取運維指標,對業(yè)務系統(tǒng)影響較弱,可以也可以通過自定義Agent、業(yè)務指標等形式建立和收集。
(2)數(shù)據處理層:Flink流處理作為數(shù)據處理引擎,首創(chuàng)提供低延遲、高吞吐、實時處理能力,為監(jiān)控、智能分析等系統(tǒng)提供各種應用場景完善同時,對于常用的數(shù)據預處理、清洗、過濾等需求,F(xiàn)link 還支持批處理等方式。
(3)數(shù)據存儲層:各種數(shù)據根據需要和分工存儲在不同的介質上,以達到最佳的效率和最佳的匹配效果。(4)數(shù)據通道層:基于Due針對運維工作和運維數(shù)據的特點,選用分布式發(fā)布-訂閱消息中間件Kakfa作為通用數(shù)據通道,以其易于擴展、高吞吐的特點,實現(xiàn)各組件間數(shù)據共享和分發(fā),可以實現(xiàn)微服務,是通過Kafka來實現(xiàn)的。
(5)微服務層:后臺功能的微服務,根據業(yè)務監(jiān)控、人工運維、應用配置管理、智能分析、日志管理等定義微服務的范圍和邊界,對外開放世界通過API 網段能力。
(6)API網段層:API網段采用框架,API網段負責對外提供統(tǒng)一的訪問入口,對內提供合約聚合、路由分發(fā)、負載均衡、服務配置,以及為前端服務提供總線消息等功能,從而實現(xiàn)微服務的服務隔離、線性擴展和有效監(jiān)控。(7)后端應用層:選擇輕量級、高性能、組件化的框架后端,適用于這些基于數(shù)據的驅動WEB界面的運維。
四、【實際療效】
·在人工和智能運維能力和運維場景的決策過程中,基于對風暴管理流程的回顧,構建了矩陣評價模型決策體系,同時對運營分析開發(fā)、上線、運維、優(yōu)化環(huán)節(jié)的維護痛點。對相關指標進行跟蹤管理,形成閉環(huán)績效評價體系。上述系統(tǒng)實現(xiàn)了有限資源的科學合理利用,最大化運維能力it運維技術,場景建設效益。
·“微服務+能力開放”的Paas級平臺,快速建立全球支撐能力。
·一站式自助配置的場景搭建,極大地解放了人工成本。
·實現(xiàn)運維場景“百花齊放”,成為降低運營成本、提高效率的催化劑,實現(xiàn)核心業(yè)務系統(tǒng)運維管理100%覆蓋。
·團隊軟實力筑基,組織文化發(fā)展與科技創(chuàng)新形成協(xié)同效應
五、【實現(xiàn)IT智能化運維能力】

1.手動運維能力
日常IT運維工作中存在大量重復性任務。這些任務有的復雜冗長,有的嚴重依賴執(zhí)行順序,有的需要等待各種條件滿足才能執(zhí)行。雖然IT運維管理技術在不斷提高,但實際上IT運維人員并沒有真正得到解放。目前,很多企業(yè)的系統(tǒng)啟動和關閉、系統(tǒng)更新升級、應急操作等大部分工作都是手動完成的。雖然簡單的系統(tǒng)變更或軟件復制粘貼升級,往往需要運維人員逐一登錄各個設備進行手動更改。尤其是在云平臺、大數(shù)據、海量設備的情況下,工作量可想而知。此類變更和檢測操作在IT運維中每天都會發(fā)生,占用了大量的運維資源。通過手動操作工具,將運維人員從簡單重復的工作中解放出來,降低誤操作風險,帶來系統(tǒng)穩(wěn)定性、安全性和效率的提升。應用場景如下:
(1)日檢手動化:日檢內容簡單但占用IT運維人員大量時間。日檢人工巡檢可以改變硬件狀態(tài)、設備負載、系統(tǒng)時間、C手動檢查磁盤空間、線路流量、數(shù)據庫表空間使用情況、網絡設備端口狀態(tài)、流量等,生成符合用戶要求的檢查報告。
(2)手動配置管理:手動從生產環(huán)境中提取配置庫信息,手動更新到配置庫,保持配置庫和生產環(huán)境的一致性。實現(xiàn)手動更新和同步配置庫,需要對應用系統(tǒng)進行標準化,比如標準化的安裝路徑、統(tǒng)一的版本等,有利于工具提取應用配置項的基本信息,最終實現(xiàn)配置項和屬性的手動更新.
(3)手動應用部署:使用手動平臺圖形化流程編輯器創(chuàng)建組件流程。根據平臺提供的插件,可實現(xiàn)與流行工具的集成,快速部署邏輯無需任何編程即可定義 是 使用相同的流程將相同的應用程序部署到多個環(huán)境中。這進一步有助于節(jié)省時間和提高效率,以及早期驗證應用程序和部署過程。手動平臺的分布式代理模型可以擴展到數(shù)千個部署過程在每臺機器上同時運行。
(4)容災切換操作手動化:通過容災操作流程手動批量實現(xiàn)容災切換流程。通過雙活數(shù)據中心為業(yè)務系統(tǒng)構建雙活模式實現(xiàn)手動切換,盡可能減少停機時間。
2.平臺運維能力
運維工作相當復雜,包括網絡、服務器、操作系統(tǒng)、數(shù)據庫、發(fā)布、變更、監(jiān)控、故障處理、運行環(huán)境信息維護等。同時,面對日益復雜龐大的企業(yè)IT架構,IT運維需要在不同架構、不同平臺之間實現(xiàn)IT資源的優(yōu)化配置和高效管理,從而實現(xiàn)企業(yè)的穩(wěn)定運行。整個系統(tǒng),滿足相應的企業(yè)業(yè)務場景。當需求出現(xiàn)時,可以應對用戶量和數(shù)據量的快速膨脹。
因此,平臺化運維的目標是針對不同的業(yè)務形態(tài),對企業(yè)IT架構進行針對性的管控和一體化管理,利用大數(shù)據和基于PaaS的平臺能力封裝運維技術和業(yè)務。底部的能力。重量級運維技術工具體系輕量化,應用于運維APP場景,運維工具逐步融合。應用場景如下:
(1)日志采集平臺:采集各個應用形成的本地日志數(shù)據并匯總。一方面方便查看和定位問題。另一方面,平臺可以挖掘潛在價值數(shù)據和重要指標趨勢分析提供證據,有效規(guī)避風險失敗,指導決策。
(2)應用性能監(jiān)控平臺:包括多級應用性能監(jiān)控、快速應用性能故障定位、綜合應用性能優(yōu)化三個模塊??刹捎檬聞仗幚磉^程監(jiān)控、模擬等手段實現(xiàn)點對點應用檢測,檢測應用系統(tǒng)的各個組件,快速定位系統(tǒng)故障,并進行維修或提出維修建議,準確分析各個組件占用的系統(tǒng)資源,及時了解庫存和產品生產進度,最大限度地提高好處。
(3)統(tǒng)一資源配置管理平臺:只有這樣才能集中管理不同環(huán)境、不同集群應用的配置,實時推送配置變更,通過統(tǒng)一的方式保證底層數(shù)據配置項準確無誤資源和配置管理。
(4)應用部署平臺:可部署容器和物理機,支持線上線下服務、定時任務和靜態(tài)文件的部署,提供部署資源管理、運行環(huán)境搭建、部署流程定義和部署。執(zhí)行跟蹤實現(xiàn)金絲雀發(fā)布和藍綠部署it運維技術,應用部署平臺可以提升業(yè)務迭代速度,避免失敗,提高產品發(fā)布節(jié)奏。
3.數(shù)據化運維能力
由于用戶數(shù)和業(yè)務量的下降,數(shù)據量也處于爆發(fā)式發(fā)展階段。IT運維數(shù)據化能力由此成為企業(yè)能力發(fā)展的重要方向。IT運維數(shù)字化是利用數(shù)據采集、數(shù)據存儲、數(shù)據處理、可視化等全數(shù)據系統(tǒng)對運維過程進行評估,以確認IT運維目標的實現(xiàn)和程度。日常運維場景很多,看起來很復雜。畢竟與對穩(wěn)定、安全、高效這三個基本價值的更高追求是分不開的。通過基于數(shù)據的運維能力,IT運維可為企業(yè)決策提供有力支持,實現(xiàn)穩(wěn)定、安全、效率提升、成本合理控制。應用場景如下:
(1)知識圖譜:使用統(tǒng)一語言定義運維數(shù)據,通過實體與實體之間的關系表達運維對象,整合運維領域的實體關系生成知識圖譜。運維領域的關系 包括但不限于產品、服務、集群、服務器、網絡、IDC等。
(2)數(shù)據庫室:是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的、用于支持管理決策的數(shù)據集合。數(shù)據庫室為用戶提供當前和歷史數(shù)據用于決策支持,這種數(shù)據在傳統(tǒng)運營數(shù)據庫中難以獲取或無法獲取。機房技術是各種技術和模塊的總稱,將運營數(shù)據有效地整合到一個統(tǒng)一的環(huán)境中,提供決策數(shù)據訪問。目的是讓用戶能夠查詢更快、更方便地獲取所需信息,并提供決策支持。
(3)數(shù)據中臺:建設面向運維領域的數(shù)據中臺,統(tǒng)一管理資源數(shù)據、告警數(shù)據、性能數(shù)據、業(yè)務數(shù)據、日志數(shù)據、工單數(shù)據、指標數(shù)據、表盤測試數(shù)據等,為下層運維分析場景提供統(tǒng)一的數(shù)據訪問路由、數(shù)據服務目錄、數(shù)據訪問管理、數(shù)據可視化等功能,以打破“數(shù)據孤島”,深度挖掘價值運營數(shù)據通過整合關聯(lián)和對外開放 前端數(shù)據需求,整合后端數(shù)據,處理輸出數(shù)據,搭建數(shù)據中心級數(shù)據服務共享平臺。和數(shù)據流集成,對現(xiàn)有數(shù)據進行處理和整合,實現(xiàn)數(shù)據服務的方法,實現(xiàn)數(shù)據監(jiān)控和資源利用分析。
(4)數(shù)據可視化:通過數(shù)據的可視化,幫助運維人員直觀、方便、快速地分析問題,同時也提供了一系列工具組件供運維人員根據自身需求分析海量數(shù)據。快速進行視圖編輯、多層鉆取分析、多維度關聯(lián)分析、報表布局、縱橫數(shù)據對比等,對傳統(tǒng)運維體驗進行數(shù)字化改造,極大提升問題排查、風險檢測和知識積累。
4.智能運維能力
由于IT運維支持的業(yè)務規(guī)模不斷下降,越來越多的運維場景和問題難以用傳統(tǒng)的運維方式解決。同時,IT運維效率也逐漸無法滿足系統(tǒng)要求。為此,如何解放運維自身的效率,解決傳統(tǒng)運維方式難以解決的問題,成為企業(yè)發(fā)展轉型的一大挑戰(zhàn)。運維智能化能力是指將人類知識和運維經驗與大數(shù)據和機器學習技術相結合,制定出一系列智能化策略,
目前,運維的智能化應用場景主要有以下幾種:
(1)故障預測:主動容錯技術可以根據對系統(tǒng)歷史狀態(tài)和當前行為的分析,生成告警預測的結果模型,判斷系統(tǒng)是否正式形成故障,輔助系統(tǒng)避免故障或盡快采取故障恢復措施。故障預測可以使運維人員在日常工作中變被動為主動,提高系統(tǒng)整體運行質量。
(2)故障自愈:故障自愈過程包括感知、止損決策、止損三個階段。感知階段取決于監(jiān)控系統(tǒng)的故障檢測能力,補水階段取決于在交通調度系統(tǒng)的調度能力上,更能提高企業(yè)的服務可用性,減少故障處理的人為投入,實現(xiàn)從人工處理到故障無人值守的轉變。
(3)手動擴縮容:可以根據應用負載手動調整集群容量,滿足需求。當集群有Pods因資源不足而難以調度時,手動觸發(fā)擴容,從而降低人工成本??臻e等伸縮條件是手動觸發(fā)縮容,節(jié)省資源成本。
(4)智能問答知識庫:是知識庫的最新形式,具有知識挖掘、知識管理、知識關聯(lián)、知識推理與建模、智能檢索、自學習訓練等功能。智能知識基地改變了故障的處理方式,不僅提高了故障上報的準確性,而且簡化了信息交換的中間環(huán)節(jié),有效縮短了故障處理時間,提高了工作效率。
降低了使用門檻,提高了復用性,減少了人為錯誤。速度。
六、[未來洞察]
· 未來面向5G的IT解決方案
(1)端到端業(yè)務體驗:主要涉及客戶體驗、應用體驗、網絡體驗、接入設備體驗的工具和平臺。
(2)智能運維:針對B域和O域,提供微服務修復、編排修復、分段修復、智能預警、智能優(yōu)化、故障自愈、持續(xù)集成、持續(xù)部署、持續(xù)測試;
·整個技術運營中心的管理能力
(1)運維層:三橫一豎,B域運維,O域運維,邊緣估計運維,端到端運維。
(2)能力分層:業(yè)務運維、技術運維、管理運維。