了解最新公司動(dòng)態(tài)及行業(yè)資訊
隨著互聯(lián)網(wǎng)、5G、IoT等技術(shù)的快速發(fā)展,全球大型數(shù)據(jù)中心的數(shù)量將以3.6%的年復(fù)合增長(zhǎng)率增長(zhǎng),數(shù)據(jù)中心規(guī)模將持續(xù)增長(zhǎng)擴(kuò)容,數(shù)據(jù)中心服務(wù)器規(guī)模達(dá)到10萬(wàn)臺(tái)級(jí)別,這不僅需要更多的運(yùn)維工程師,增加了企業(yè)的運(yùn)維成本,也給運(yùn)維帶來(lái)了很大的困難和挑戰(zhàn)工程師:如何及時(shí)發(fā)現(xiàn)異常設(shè)備?異常的根本原因是什么?故障能自愈嗎?可以預(yù)測(cè)失敗嗎?性能趨勢(shì)是什么?如何決定?
運(yùn)維發(fā)展歷程:人工運(yùn)維、自動(dòng)化運(yùn)維、智能化運(yùn)維
早期的運(yùn)維工作大部分是由運(yùn)維工程師手動(dòng)完成的,稱為人肉運(yùn)維。服務(wù)器的運(yùn)行狀態(tài)取決于運(yùn)維工程師日常的目視檢查來(lái)定位和解決問題。自動(dòng)化運(yùn)維的出現(xiàn),大大提高了檢測(cè)異常設(shè)備的效率,降低了運(yùn)維成本。然而,面對(duì)故障根源、故障預(yù)測(cè)、性能趨勢(shì)、控制決策等方面,自動(dòng)化運(yùn)維顯得力不從心。
2016年提出智能運(yùn)維(針對(duì)IT)的概念,預(yù)計(jì)到2020年,智能運(yùn)維的采用率將高達(dá)??50%。從服務(wù)器運(yùn)維角度分析服務(wù)器智能運(yùn)維,目標(biāo)是收集帶外信息(配置信息、狀態(tài)信息、性能信息、日志等)和帶內(nèi)信息(配置參數(shù)、性能信息、日志信息),機(jī)器學(xué)習(xí)用于解決運(yùn)維問題,提高系統(tǒng)預(yù)警能力和穩(wěn)定性,降低運(yùn)維成本服務(wù)器運(yùn)維,提高運(yùn)維效率。
異??焖贆z測(cè),問題準(zhǔn)確預(yù)警
在服務(wù)器運(yùn)維中,異常檢測(cè)是基礎(chǔ)。常見的監(jiān)控?cái)?shù)據(jù)有三種:狀態(tài)指標(biāo)、性能指標(biāo)和日志數(shù)據(jù)。狀態(tài)指標(biāo)一般誤報(bào)率較低,而傳統(tǒng)性能指標(biāo)的設(shè)置閾值往往是某個(gè)時(shí)刻產(chǎn)生的噪聲數(shù)據(jù),導(dǎo)致誤報(bào);無(wú)法對(duì)周期性變化的數(shù)據(jù)進(jìn)行動(dòng)態(tài)調(diào)整,經(jīng)常會(huì)產(chǎn)生誤報(bào),大大降低了報(bào)警的準(zhǔn)確性。日志一般是半結(jié)構(gòu)化數(shù)據(jù),根據(jù)日志級(jí)別生成告警,非常不準(zhǔn)確服務(wù)器運(yùn)維,只能檢測(cè)到已知且確定性模式的異常。
云助手通過(guò)閾值實(shí)時(shí)告警,達(dá)到監(jiān)控的性能指標(biāo),自動(dòng)、實(shí)時(shí)、準(zhǔn)確識(shí)別異常數(shù)據(jù)。對(duì)于日志處理,通過(guò)單條日志的語(yǔ)義識(shí)別和日志文件的時(shí)間序列識(shí)別,訓(xùn)練或維護(hù)自然語(yǔ)言、專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等算法,不斷改進(jìn)和準(zhǔn)確檢測(cè)日志異常.
智能故障處理,操作簡(jiǎn)單,維護(hù)如此簡(jiǎn)單
智能故障診斷基于異常檢測(cè)。具有準(zhǔn)確的異常檢測(cè),通過(guò)綜合各種異常指標(biāo)進(jìn)行數(shù)據(jù)融合、過(guò)濾、加權(quán)等處理,并利用神經(jīng)網(wǎng)絡(luò)、SVM、隨機(jī)森林等智能算法找出問題的根本原因,并給出問題的根源。給出問題的解決方案,讓運(yùn)維工程師分分鐘解決問題。
智能故障預(yù)測(cè)是對(duì)設(shè)備某一部分的性能數(shù)據(jù)和狀態(tài)進(jìn)行動(dòng)態(tài)檢測(cè),對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,尋找特征數(shù)據(jù)建立數(shù)學(xué)模型,利用神經(jīng)網(wǎng)絡(luò)、SVM等智能算法進(jìn)行在線/離線訓(xùn)練形成預(yù)測(cè)模型。在組件發(fā)生故障之前感知故障,從而避免業(yè)務(wù)停機(jī)并提高系統(tǒng)穩(wěn)定性。
智能故障自愈是指在故障被確認(rèn)或預(yù)測(cè)后,無(wú)需人工干預(yù)即可通過(guò)重啟、配置或某些流程使系統(tǒng)恢復(fù)正常。對(duì)于故障自愈,需要維護(hù)一定的規(guī)則或標(biāo)記故障。經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)、SVM等算法訓(xùn)練,形成自愈模型,實(shí)現(xiàn)系統(tǒng)的自愈。
智能決策,感知未來(lái)發(fā)展
云助手自動(dòng)化運(yùn)維工具可以預(yù)測(cè)服務(wù)器的性能數(shù)據(jù),不僅為人工預(yù)測(cè)或智能決策提供基礎(chǔ)數(shù)據(jù),還為業(yè)務(wù)系統(tǒng)提供優(yōu)化建議。
云幫手基于異常檢測(cè)、故障診斷、故障預(yù)測(cè)、性能預(yù)測(cè)等,通過(guò)數(shù)據(jù)模型的建立,通過(guò)神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、專家系統(tǒng)等智能算法的不斷學(xué)習(xí),決策模型是在沒有人為干預(yù)的情況下形成的。干預(yù),智能調(diào)整服務(wù)器配置參數(shù),進(jìn)行版本基線升級(jí)/回滾等決策,實(shí)現(xiàn)系統(tǒng)性能最優(yōu)、異常最少、功耗最低。
例如監(jiān)控服務(wù)器運(yùn)行的性能,可以在業(yè)務(wù)低時(shí)降低服務(wù)器的功耗。在集群模式下,甚至可以關(guān)閉服務(wù)器。當(dāng)業(yè)務(wù)量較大時(shí),可以將服務(wù)器性能調(diào)整到最優(yōu)智能。決策。整機(jī)房/機(jī)房,功耗管理,服務(wù)器滿載時(shí),服務(wù)器功耗是否超過(guò)整機(jī)房或機(jī)柜最大功耗,超過(guò)后如何智能決策。
智能推薦,發(fā)現(xiàn)無(wú)限價(jià)值
智能推薦是在平臺(tái)上對(duì)大量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、計(jì)算、分析和挖掘,建立數(shù)據(jù)模型,通過(guò)神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、最小、SVM等進(jìn)行分析預(yù)測(cè),指導(dǎo)客戶在服務(wù)器下架、備件量、擴(kuò)容、減容、廠商采購(gòu)等方面做出決策。比如某類服務(wù)器故障率太高,維護(hù)成本相應(yīng)增加。建議將其從貨架上移除。此外,由于業(yè)務(wù)增長(zhǎng),需要購(gòu)買新的服務(wù)器。智能算法評(píng)估購(gòu)買金額并提出建議。
目前,云幫手依托自身的技術(shù)優(yōu)勢(shì),自主研發(fā)了一系列自動(dòng)化、智能化的服務(wù)器管理軟件套裝,實(shí)現(xiàn)了從服務(wù)器巡檢、配置、部署、監(jiān)控、到服務(wù)器的全生命周期運(yùn)維管理。故障分析。它還突破了大型基礎(chǔ)設(shè)施智能管理平臺(tái)的分布式網(wǎng)格架構(gòu)、高性能數(shù)據(jù)采集框架、智能分析系統(tǒng)、無(wú)狀態(tài)管理技術(shù),實(shí)現(xiàn)了大型服務(wù)器全生命周期的智能管理。 ????
24小時(shí)免費(fèi)咨詢
請(qǐng)輸入您的聯(lián)系電話,座機(jī)請(qǐng)加區(qū)號(hào)