了解最新公司動態(tài)及行業(yè)資訊
北京,2022年4月27日——隨著互聯(lián)網、5G、IoT等的快速發(fā)展,數(shù)字化、智能化建設對算力提出了更高的要求,數(shù)據(jù)中心不斷向大型化、集約化方向發(fā)展和綠色演進,根據(jù)《全球數(shù)據(jù)中心托管服務市場機遇》報告,超大規(guī)模數(shù)據(jù)中心預計將從2019年的509個增長到2025年的890個,這將改變數(shù)據(jù)中心的建設和使用方式,規(guī)模的數(shù)據(jù)中心繼續(xù)增長。不斷擴大,大型數(shù)據(jù)中心服務器數(shù)量已達到10萬多臺,這意味著對運維的難度、人力、成本、專業(yè)性提出了更高的要求,企業(yè)數(shù)據(jù)中心的運維壓力也越來越大面臨前所未有的壓力。解決問題的關鍵在于打破傳統(tǒng)運維方式,打造“監(jiān)督、管理、控制、預防”的智能化運維。
【圖片】
什么是智能運維?
首先要了解數(shù)據(jù)中心運維的發(fā)展歷程,主要包括三個階段:人工運維、自動化運維和智能運維。
所謂人工運維是指——在早期,數(shù)據(jù)中心的大部分運維工作都是由運維工程師手動完成的。服務器的運行狀態(tài)取決于運維工程師日常的目視檢查來定位和解決問題。每個工程師的運維上限為400臺左右。這種低效的運維方式,在數(shù)據(jù)中心服務器越來越多、人工成本越來越高的時代很難維護。

于是自動化運維應運而生。運維工程師根據(jù)運維經驗編寫腳本進行批量設備巡檢,后來發(fā)展為任務型設備巡檢。這是自動化運維的早期方式。這大大提高了發(fā)現(xiàn)異常設備的效率,降低了運維成本。然而,面對故障根源、故障預測、性能趨勢和控制決策,自動化運維卻無能為力。
根據(jù)發(fā)布的《2021中國ICT技術成熟度周期報告》,AIOps市場將持續(xù)增長,影響整個IT運營管理市場。報告預測,AIOps 將在未來 2-5 年內進入成熟階段,將幫助企業(yè)節(jié)省大量成本。從服務器運維角度分析服務器智能運維,目標是收集帶外信息(配置信息、狀態(tài)信息、性能信息、日志等)和帶內信息(配置參數(shù)、性能信息、日志信息),利用機器學習解決上述問題,提高系統(tǒng)預警能力和穩(wěn)定性,降低運維成本,提高運維效率。
浪潮信息構建智能物理基礎設施管理平臺(ISPIM)
浪潮信息物理基礎設施管理平臺ISPIM,在異常檢測、故障診斷、故障預測、故障自愈、性能預測等維度實現(xiàn)多維度智能運行。
在服務器運維中,最基本的就是異常檢測。最常見的是檢測三大數(shù)據(jù):狀態(tài)指標、性能指標和日志數(shù)據(jù)。
狀態(tài)指示燈:當服務器狀態(tài)異常時,浪潮信息ISPIM管理軟件以主動/被動模式聚合服務器的異常情況,防止重復告警和誤告警。警報風暴服務器運維,產生警報癱瘓。
性能指標:在性能指標檢測方面,傳統(tǒng)的方法是設置閾值,但由于某一時刻產生的噪聲數(shù)據(jù),經常會出現(xiàn)誤報。通過重復次數(shù)、閾值抖動范圍和自學習數(shù)據(jù)密度分布等,解決99%的噪聲數(shù)據(jù)產生的誤報;但面對周期性變化的數(shù)據(jù),無法動態(tài)調整,也會出現(xiàn)誤報,大大降低了報警的準確性。浪潮信息ISPIM管理軟件通過AI優(yōu)化,對性能數(shù)據(jù)進行時域、頻域、能量等變化的動態(tài)分析,利用LSTM和隨機森林進行預測,報警準確率達到98%。
日志數(shù)據(jù):日志一般是半結構化數(shù)據(jù)。警報是根據(jù)日志級別生成的。準確性不足,只能檢測到已知的和確定性的異常模式。浪潮信息ISPIM管理軟件擁有4000+運維專家資源庫,有助于實現(xiàn)服務器故障的快速診斷。同時,在日志智能故障診斷方面,將對采集到的日志進行重新編碼,深化對深度學習、LSTM等算法的研究,在實際應用中可以多維度分析服務器異常,并將異常檢測準確率高達99%。
為了進一步提高運維效率,浪潮信息ISPIM管理軟件不僅對日志進行故障診斷,而且對系統(tǒng)宕機后的數(shù)據(jù)進行深度分析,方便用戶使用快速定位問題,提高效率。

通過對收集到的海量數(shù)據(jù)進行分析,浪潮發(fā)現(xiàn)服務器宕機通常是由CPU MCE(Check)故障引起的。一般來說,MCE的來源有兩種,一種是CPU本身的故障,另一種是CPU本身的故障。外部零件。浪潮信息ISPIM管理軟件帶外采集服務器CPU寄存器數(shù)據(jù),基于MCA(Check)技術架構,定位CPU觸發(fā)源,分析MC Bank,分析CSR和MSR寄存器,實現(xiàn)故障原因確認和準確定位有故障的組件。并根據(jù)浪潮信息專家經驗庫,對故障問題給出專業(yè)的解決方案,提高運維效率。
據(jù)統(tǒng)計,數(shù)據(jù)中心內存和硬盤造成的故障中,50%以上是由于硬盤和內存量大、生命周期相對較短、使用率高造成的。當內存或硬盤出現(xiàn)故障時,極易發(fā)生嚴重的停機事故。
對于內存來說,內存產生的CE(可糾正錯誤)可以通過ECC(Error Code)機制來糾正,但是頻繁的CE往往會產生UCE(Error),而一旦產生UCE,往往會導致系統(tǒng)停機機器。因此,預測內存故障可以轉化為預測UCE。浪潮信息ISPIM管理軟件通過多個維度分析內存CE,包括總CE頻率、內存固定物理地址CE頻率閾值、固定Cell CE頻率閾值、CE分布范圍、頻率閾值等維度統(tǒng)計,得到UCE與CE,從而預測UCE。

在硬盤方面,數(shù)據(jù)中心的大部分存儲陣列都會使用一些冗余機制,但這只能保證有限的硬盤故障場景。一旦故障磁盤數(shù)量超過 RAID 冗余的限制,就有可能導致系統(tǒng)停機或數(shù)據(jù)丟失的風險。浪潮信息ISPIM管理軟件分析SMART(自和)標準,獲取硬盤故障預測的關鍵數(shù)據(jù)特征,基于模型算法訓練,優(yōu)化模型算法,輸出推理算法模型。通過SMART指標和硬盤操作日志,預測風險盤。同時,當硬盤預測達到換盤索引時,可以支持換盤操作。
通過這些技術優(yōu)化,浪潮信息ISPIM管理軟件可以實現(xiàn)內存和硬盤的故障預測,大大提高系統(tǒng)穩(wěn)定性。
浪潮信息ISPIM管理軟件在故障自愈方面支持內存故障自動隔離。在操作系統(tǒng)層面,結合MCE(Check)日志數(shù)據(jù)信息,根據(jù)CE故障信息服務器運維,通過虛擬內存故障Page診斷算法確定內存故障Page,并在操作系統(tǒng)內核中執(zhí)行Page,通過虛擬內存技術,隔離對故障內存區(qū)域的訪問,實現(xiàn)內存故障隔離。在物理內存層面,根據(jù)CE故障信息,通過物理內存故障診斷算法,使用SPPR(Soft Post)和HPPR(Hard Post)隔離物理內存故障Row。操作系統(tǒng)的穩(wěn)定性和可靠性,從而保證業(yè)務的穩(wěn)定可靠運行。
性能預測是指服務器的性能數(shù)據(jù)。通過ARIMA、指數(shù)平滑、LSTM等智能算法,可以感知系統(tǒng)數(shù)據(jù)在未來幾小時、幾天或一年內的趨勢、增長或周期性變化。等待。浪潮信息ISPIM管理軟件憑借自主研發(fā)的性能分析核心組件,可支持數(shù)萬臺服務器同時對性能數(shù)據(jù)進行秒級監(jiān)控和告警,幫助運維人員實時掌握設備性能狀態(tài),并實現(xiàn)對磁盤壽命和容量的準確預測。率達到99%。
浪潮信息物理基礎設施管理平臺ISPIM()具有資源管理、故障監(jiān)控、性能監(jiān)控、能耗管理、自動部署、報表統(tǒng)計、網絡拓撲、3D視圖等功能。對服務器、存儲、網絡設備等設備進行監(jiān)控、運維,統(tǒng)一進行告警管理,運維效率成倍提升。基于浪潮信息故障專家?guī)斓拇髷?shù)據(jù)規(guī)則故障診斷功能,故障診斷準確率可提升至93%。此外,能夠快速處理故障的同時,大大降低數(shù)據(jù)泄露風險,幫助用戶搭建無人值守數(shù)據(jù)中心,提高運維效率,降低運維成本,保障數(shù)據(jù)中心安全、可靠、穩(wěn)定運行.