了解最新公司動態及行業資訊
(環球網8月2日訊)7月27日,由OCP社區主辦,浪潮承辦的第三屆OCP 成功舉辦。會上,浪潮聯合騰訊云發布了《數據中心服務器智能故障診斷TIFDS(&Fault)系統技術藍皮書》。藍皮書詳細分析了當前大型數據中心運維面臨的挑戰,并對騰訊云與浪潮聯合開發的TIFDS系統進行了探討。該框架為大型數據中心提高服務器運維效率,保障數據中心穩定運行提供重要參考。
基于騰訊云百萬級服務器運行數據和浪潮深厚的固件開發專家經驗庫,“TIFDS”系統可以利用AI技術實時分析海量服務器運行數據,對各種組件故障進行實時預警,并診斷出故障“一目了然”,故障人工查明率提高到95%以上,遠超行業平均水平。
,騰訊云星海實驗室研發總工程師劉超介紹藍皮書內容
大型數據中心服務器暴漲,人力運維逼近極限
隨著互聯網公司的崛起服務器運維技術,云估算市場已經走過了十多年。據統計,2020年全球云測算市場將快速下滑,增幅超過40%,而中國云測算市場將繼續以兩位數的速度下滑。 ,市場下行勢頭逐漸從泛互聯網向工業化迅速滲透,且下滑繼續加速。
藍皮書強調,云測算的快速擴張帶來了數據中心服務器數量的爆發式下降,服務器運維管理的復雜度和難度驟增,而傳統運維大規模服務器故障面臨著更大的挑戰和更昂貴的成本。從最初的腳本運維、工具運維到平臺運維,人力已經逼近極限,越來越難以滿足快速修復故障和恢復業務運營的要求。為了高效管理10萬臺甚至數百萬臺服務器,智能監控診斷系統已成為大型數據中心不可或缺的工具。
TIFDS系統架構公布,人工故障排除率超過95%
TIFDS(&Fault)是騰訊云與浪潮聯合開發的故障診斷系統。是服務器健康監測技術和故障預警診斷技術的總稱,從而實現運維工作從人工離線分析到人工智能在線識別的發展。構建以帶外BMC為核心的故障診斷系統。藍皮書認為服務器運維技術,TIFDS系統具有風險實時預警、故障診斷準確、日志多樣化、透明化、安全等特點,對提升大型數據中心的運維效率具有重要意義。