亚洲成无码人在线观看丨久久精品国产亚洲77777丨亚洲不卡av一区二区三区丨69麻豆天美精东蜜桃传媒潘甜甜丨久久综合之久久綜合

行業動態

了解最新公司動態及行業資訊

當前位置:首頁>新聞中心>行業動態
全部 4191 公司動態 1055 行業動態 3136

阿里云彈性計算團隊如何利用人工智能運維自動化,實現云上服務器無人值守

時間:2022-05-07   訪問量:2406

云原生時代,企業IT運維面臨架構復雜、業務需求多樣化、運維數據海量等挑戰。已成為企業數字化轉型的迫切需求。

9月26日,阿里巴巴高級技術專家滕勝波在“GOPS全球運維大會”上發表了題為“云服務器無人值守與自助服務”的主題演講,分享了阿里云彈性計算團隊如何利用人工智能。智能技術實現自動化運維,實現云端服務器無人值守,幫助用戶降低云服務器實例管理復雜度,保障實例服務穩定高效運行。本文是根據滕勝波的講話改編的。

本文內容結構:

1、為什么云服務器需要無人值守?

2、阿里巴巴云無人值守自助實戰

3、無人值守背后的數據和AI

1、為什么云服務器需要無人值守?

運維是一種服務,既包括基礎設施軟件服務,也包括人工服務。服務的對象是企業中使用基礎設施的業務團隊,而云計算IaaS是一種運維服務,而服務的對象已經開發為使用云服務的開發人員和運營團隊。隨著云計算的廣泛實施,大多數企業已經遷移到云端。目前,有超過100萬用戶的業務在阿里云平臺上運行,阿里云平臺服務的用戶也越來越多。

隨著平臺用戶的擴大,我們發現平臺用戶在運維ECS實例時普遍面臨三個痛點:

(1)后臺通信成本高,為什么我的實例有問題?

(2)手工處理時間長,為什么這個問題這么久沒有解決?

(3)客戶端操作不透明,問題好像解決了,但是你剛剛做了什么?

為此,我們需要在客服人員上投入巨資,讓用戶的問題得到高效的解決。為了避免用戶規模擴大帶來的客戶端運維成本線性增加,我們開始使用人工智能技術賦能用戶運維管理。當無人零售、無人駕駛成為趨勢時,我們相信未來云端服務器也將無人值守。

運維項目服務巡檢報告_it運維服務流程圖_服務器運維技術

事實上,阿里云彈性計算產品推出十年,積累了很多ECS實例運維管理經驗和異常“行為”規則。因此,依托機器學習的數據驅動特性,我們通過對異?!靶袨椤睌祿姆治?,為云端服務器搭建無人值守架構,推出一系列自助服務,實現自診斷、自愈合、自優化和自運維幫助用戶降低ECS實例管理的復雜度,從而保證實例服務的穩定高效運行。

2、無人值守自助實戰

image.png

云計算IaaS的運維可以分為服務端運維和客戶端運維。服務端運維是云平臺的運維工作,通常用戶看不到,主要涉及基礎設施、基礎產品和上層管控。三個層次,包括機房和物理設備的運維、資源虛擬化、資源調度、熱遷移。隨著用戶規模的擴大,這些運維任務會越來越復雜。用戶側運維工作對用戶是可見的,主要是用戶對ECS實例的修改和自動化,包括擴容、重啟、監控、客服、

我們搭建的云服務器無人值守架構,為阿里云平臺用戶提供了一系列的自助服務。從廣義上講,阿里云的自助服務包括四個維度:ECS實例本身、實例生命周期管理、系統管理與自動化、市場與生態,如下圖所示。

image.png

服務器運維技術_運維項目服務巡檢報告_it運維服務流程圖

圖:廣義的自助服務

狹義的阿里云自助服務是為用戶實現ECS實例的診斷、修復、推薦等功能。當天,阿里云自助提供了實例診斷工具、實例優化推薦、自動修復工具、最佳模板推薦、ECS事件自動化等一系列自助工具服務器運維技術,覆蓋了80%的常見ECS問題,將平均問題解決時間從幾小時縮短到幾分鐘。全程無需客服人員人工參與,不存在隱私泄露風險。云上的服務器是無人值守的。未來服務器運維技術,隨著AI+數據的不斷驅動,ECS實例的診斷和修復會越來越精準。

ECS實例智能診斷

根據平臺統計,用戶在使用ECS實例時主要面臨四類問題:

(1)無法遠程訪問實例

(2)實例無法啟動/停止

服務器運維技術_運維項目服務巡檢報告_it運維服務流程圖

(3)實例性能異常

(4)擴盤不生效

因此,在智能診斷能力方面,我們涵蓋了ECS系統服務、磁盤健康服務、網絡健康服務、Guest OS系統配置等維度。用戶可以一鍵完成實例的智能健康診斷。

ECS實例自動修復

智能診斷完成后,我們還將為用戶提供ECS實例的自動修復解決方案。前者定位問題后,自動修復可在1-3分鐘內解決問題,主要完成ECS系統服務修復、網絡問題修復和磁盤修復。.

僅僅實施自動化修復是不夠的,我們認為自動化修復還應該是透明和合規的。我們通過運維編排服務OOS提供自動化引擎,通過云助手命令提供內部執行能力。運維編排服務OOS+云助手命令共同幫助用戶完成自動修復;同時開源運維編排服務OOS+云助手命令。代碼,使所有修復邏輯對用戶可見;所有修復操作也可以通過ECS實例鏡像、快照、數據備份進行回滾;所有權限都可以通過阿里云RAM角色控制來控制,

it運維服務流程圖_服務器運維技術_運維項目服務巡檢報告

3、無人值守背后的AI和數據能力

使我們能夠實現智能診斷和自動修復的,是冰山下的強大技術支撐——AI+數據。依托底層數據中心,完成了物理機數據、虛擬化數據、網絡數據、控制面數據、內部數據等數據的采集、清洗、分析和模型構建;再加上AI算法的不斷優化,我們構建了用戶畫像、決策樹、預測推薦模型等,確保異常診斷和自動修復更加精準高效。

image.png

目前,在整個ECS自助服務架構中,控制監控中心主要依靠日志服務的實時監控、中間件監控、API請求監控、控制臺監控和自診斷數據,實現問題預警和通過機器學習引擎進行處理,進而驅動運維編排服務OOS,實現問題的自動修復。

image.png

通過這種AI驅動的自助服務架構,目前阿里云ECS實時內存異常感知準確率超過70%,實現預測鏈路延遲控制在100s以內;此外,整合專家經驗、案例庫和知識庫,構建強大的診斷決策樹,為加快問題定位和修復提供有力依據。

近兩年,阿里云彈性計算團隊不斷投入異常行為數據集的建設。未來計劃將其演化為阿里巴巴集團異常預測的“數據集”并開源,希望對行業異常預測的發展有所幫助。貢獻更大的價值。

上一篇:【干貨】運維工程師的職責和前景點解剖

下一篇:服務機器人應用技術員:為機器人裝上聰明的“大腦”送餐(組圖)

發表評論:

評論記錄:

未查詢到任何數據!

在線咨詢

點擊這里給我發消息 售前咨詢專員

點擊這里給我發消息 售后服務專員

在線咨詢

免費通話

24小時免費咨詢

請輸入您的聯系電話,座機請加區號

免費通話

微信掃一掃

微信聯系
返回頂部
主站蜘蛛池模板: 广德县| 大名县| 肥西县| 年辖:市辖区| 辛集市| 保德县| 太白县| 隆林| 泰宁县| 格尔木市| 九龙城区| 鸡泽县| 海门市| 洪湖市| 涿鹿县| 杭锦后旗| 阿坝县| 石河子市| 乐都县| 淮阳县| 遵化市| 武冈市| 文山县| 南投县| 灌南县| 长春市| 邳州市| 易门县| 搜索| 贺兰县| 马山县| 浮梁县| 乐清市| 呼和浩特市| 安平县| 远安县| 金昌市| 聊城市| 东兴市| 潮州市| 马尔康县|