了解最新公司動態及行業資訊
云原生時代,企業IT運維面臨架構復雜、業務需求多樣化、運維數據海量等挑戰。已成為企業數字化轉型的迫切需求。
9月26日,阿里巴巴高級技術專家滕勝波在“GOPS全球運維大會”上發表了題為“云服務器無人值守與自助服務”的主題演講,分享了阿里云彈性計算團隊如何利用人工智能。智能技術實現自動化運維,實現云端服務器無人值守,幫助用戶降低云服務器實例管理復雜度,保障實例服務穩定高效運行。本文是根據滕勝波的講話改編的。
本文內容結構:
1、為什么云服務器需要無人值守?
2、阿里巴巴云無人值守自助實戰
3、無人值守背后的數據和AI
1、為什么云服務器需要無人值守?
運維是一種服務,既包括基礎設施軟件服務,也包括人工服務。服務的對象是企業中使用基礎設施的業務團隊,而云計算IaaS是一種運維服務,而服務的對象已經開發為使用云服務的開發人員和運營團隊。隨著云計算的廣泛實施,大多數企業已經遷移到云端。目前,有超過100萬用戶的業務在阿里云平臺上運行,阿里云平臺服務的用戶也越來越多。
隨著平臺用戶的擴大,我們發現平臺用戶在運維ECS實例時普遍面臨三個痛點:
(1)后臺通信成本高,為什么我的實例有問題?
(2)手工處理時間長,為什么這個問題這么久沒有解決?
(3)客戶端操作不透明,問題好像解決了,但是你剛剛做了什么?
為此,我們需要在客服人員上投入巨資,讓用戶的問題得到高效的解決。為了避免用戶規模擴大帶來的客戶端運維成本線性增加,我們開始使用人工智能技術賦能用戶運維管理。當無人零售、無人駕駛成為趨勢時,我們相信未來云端服務器也將無人值守。
事實上,阿里云彈性計算產品推出十年,積累了很多ECS實例運維管理經驗和異常“行為”規則。因此,依托機器學習的數據驅動特性,我們通過對異?!靶袨椤睌祿姆治?,為云端服務器搭建無人值守架構,推出一系列自助服務,實現自診斷、自愈合、自優化和自運維幫助用戶降低ECS實例管理的復雜度,從而保證實例服務的穩定高效運行。
2、無人值守自助實戰
云計算IaaS的運維可以分為服務端運維和客戶端運維。服務端運維是云平臺的運維工作,通常用戶看不到,主要涉及基礎設施、基礎產品和上層管控。三個層次,包括機房和物理設備的運維、資源虛擬化、資源調度、熱遷移。隨著用戶規模的擴大,這些運維任務會越來越復雜。用戶側運維工作對用戶是可見的,主要是用戶對ECS實例的修改和自動化,包括擴容、重啟、監控、客服、
我們搭建的云服務器無人值守架構,為阿里云平臺用戶提供了一系列的自助服務。從廣義上講,阿里云的自助服務包括四個維度:ECS實例本身、實例生命周期管理、系統管理與自動化、市場與生態,如下圖所示。
圖:廣義的自助服務
狹義的阿里云自助服務是為用戶實現ECS實例的診斷、修復、推薦等功能。當天,阿里云自助提供了實例診斷工具、實例優化推薦、自動修復工具、最佳模板推薦、ECS事件自動化等一系列自助工具服務器運維技術,覆蓋了80%的常見ECS問題,將平均問題解決時間從幾小時縮短到幾分鐘。全程無需客服人員人工參與,不存在隱私泄露風險。云上的服務器是無人值守的。未來服務器運維技術,隨著AI+數據的不斷驅動,ECS實例的診斷和修復會越來越精準。
ECS實例智能診斷
根據平臺統計,用戶在使用ECS實例時主要面臨四類問題:
(1)無法遠程訪問實例
(2)實例無法啟動/停止
(3)實例性能異常
(4)擴盤不生效
因此,在智能診斷能力方面,我們涵蓋了ECS系統服務、磁盤健康服務、網絡健康服務、Guest OS系統配置等維度。用戶可以一鍵完成實例的智能健康診斷。
ECS實例自動修復
智能診斷完成后,我們還將為用戶提供ECS實例的自動修復解決方案。前者定位問題后,自動修復可在1-3分鐘內解決問題,主要完成ECS系統服務修復、網絡問題修復和磁盤修復。.
僅僅實施自動化修復是不夠的,我們認為自動化修復還應該是透明和合規的。我們通過運維編排服務OOS提供自動化引擎,通過云助手命令提供內部執行能力。運維編排服務OOS+云助手命令共同幫助用戶完成自動修復;同時開源運維編排服務OOS+云助手命令。代碼,使所有修復邏輯對用戶可見;所有修復操作也可以通過ECS實例鏡像、快照、數據備份進行回滾;所有權限都可以通過阿里云RAM角色控制來控制,
3、無人值守背后的AI和數據能力
使我們能夠實現智能診斷和自動修復的,是冰山下的強大技術支撐——AI+數據。依托底層數據中心,完成了物理機數據、虛擬化數據、網絡數據、控制面數據、內部數據等數據的采集、清洗、分析和模型構建;再加上AI算法的不斷優化,我們構建了用戶畫像、決策樹、預測推薦模型等,確保異常診斷和自動修復更加精準高效。
目前,在整個ECS自助服務架構中,控制監控中心主要依靠日志服務的實時監控、中間件監控、API請求監控、控制臺監控和自診斷數據,實現問題預警和通過機器學習引擎進行處理,進而驅動運維編排服務OOS,實現問題的自動修復。
通過這種AI驅動的自助服務架構,目前阿里云ECS實時內存異常感知準確率超過70%,實現預測鏈路延遲控制在100s以內;此外,整合專家經驗、案例庫和知識庫,構建強大的診斷決策樹,為加快問題定位和修復提供有力依據。
近兩年,阿里云彈性計算團隊不斷投入異常行為數據集的建設。未來計劃將其演化為阿里巴巴集團異常預測的“數據集”并開源,希望對行業異常預測的發展有所幫助。貢獻更大的價值。