了解最新公司動態及行業資訊
歡迎來到騰訊云技術社區服務器運維技術,獲取更多騰訊海量技術實踐干貨~
作者:知云平臺團隊,騰訊SNG社交平臺業務運維團隊,負責QQ空間、微云、QQ相冊、天天Ptu、優圖等產品的技術運營。致力于服務質量優化、服務保障、自動化運維體系建設等工作。經歷了農牧場、紅包、“軍裝”P圖等諸多活動。團隊一直在進行自動化運維、智能化運維探索與實踐。
前言
這兩天人民日報+騰訊云聯合運營的“軍裝合影”活動,想必炸了你的朋友圈。在這場營銷盛宴的背后,還有另外一個海量運維能力:4000臺設備、峰值24G帶寬、5次自動運維擴展。
這種由社會關系引爆的運營事件,對于騰訊SNG的運維團隊來說,并不新鮮。從全民農牧場、全民紅包、甄嬛傳記、軍裝照片,SNG運維團隊已經應對了業務突發事件。變化是智云智能運維平臺的核心能力。今天,就讓我們一起來探索智云智能運維平臺的關鍵技術和核心功能。
智云智能運維平臺1、標準化運維
智云智能支撐平臺管理著10萬多臺服務器,24小時為上萬個功能提供服務,但運維人員卻寥寥無幾。一個人維護了近萬臺服務器,當軍裝事件來臨時,4000臺服務器可以快速無誤地上線。它的依據是什么?主要的好處是智云長期貫徹的標準化服務和運維的理念和要求。智云平臺提供的統一包框架、集中配置管理、統一路由、統一組件等標準化技術手段,幫助運維研發質量等多個團隊完成高效協同、標準交付、和快速反應。標準化的運維體系,幫助我們隨時快速響應各種突發業務需求。
2、強大的 IAAS 供應基礎
依托騰訊云海量資源,智云可提供秒級IAAS供給能力,結合自動變擴縮技術,快速響應萬級服務資源線上供給需求。
3、CMDB應用配置介紹
智云CMDB的設計以模塊為管理節點(模塊:提供單一功能服務的集群)。相關配置信息將被記錄,包括:硬件配置、軟件配置、操作設置、軟件包、配置文件、腳本、流程、測試用例等自動化依賴的關鍵系統。
日常P圖業務CMDB應用配置示意圖如下。
4、 自動化流程簡介
智云倡導的自動化理念是:標準化->配置->自動化,讓企業的常用操作固化成流程工具。不要依賴容易過時的文檔,也不要依賴容易流失的人的經驗。
參照持續交付的原則“為軟件發布創建可重復且可靠的流程”,為解決人類操作體驗差異的問題,運維團隊利用流程DIY編排能力,實現標準化操作的固化. “軍裝合影”活動擴容,任何運維人員只需執行每日P圖的擴容功能即可實現擴容,云織過程將自動完成整個業務部署和上線運營。(如下所示)
5、 關鍵技術點:
(1)智云路由:L5
調用對象 IP 和端口被抽象為名稱服務。調用時,調用者不需要關注實際被調用的服務器,只需要確定名稱服務ID即可。這樣,被調整方的IP變更對主調整者來說是完全透明的。
由于部分轉入的服務器存在差異,存在計算能力不一致的可能。可以為不同的傳輸對象配置不同的權重。智云 Beam可以根據服務器的處理能力和容量自動配置權重,達到負載均衡的目的。.
當鏈路或機房環境發生故障時,可能導致單臺服務器故障的概率很高。智云L5具備主動檢測調機能力,主動將故障機踢出轉機,故障機恢復后自動添加回轉機。簇。在發生大規模機房故障時服務器運維技術,也可以借助L5調度功能將整體調整對象切換到其他機房。
(2)大并發傳輸
如何在運維平臺上實現文件的快速分發,智云平臺的技術實現主要有兩個技術點:
(3)活動平臺:自動縮放
社交運營活動是騰訊SNG的常態,智云專門針對這類活動業務的特點:快上快下,定義了活動平臺的功能來支持。
自動伸縮功能支持定時伸縮和低負載伸縮,不同的策略觸發自動化運維流程?!盾娧b照》4000臺設備活動結束后,運維人員可以設置自動伸縮策略,實現自動伸縮,無需人工干預。(收縮操作如下圖)
容量監測方法
1、 高低負載日常管理
運維工作要盡量減少消防任務,鼓勵有計劃有準備的工作,把容量管理變成重要的、非緊急的工作。因此,我們傾向于將這部分工作例行化,將容量管理從計劃外任務變為計劃任務。
以騰訊SNG的生產環境容量管理計量方法為例,智云平臺提供統計數據(以模塊為管理單位):
2、 容量異常處理
在騰訊SNG運維的日常工作中,與容量相關的運維對象有:單機、模塊、SET。
(1)利用智云L5路由服務的請求權重調度能力(參考開源nginx、、LVS等)解決集群IP負載不均的問題。
(2)利用云一致性管理能力解決應用或配置文件部署不一致的問題。
λ SET容量管理,結合壓力測試尋找SET的性能短句柄,保持SET容量模型在關鍵時刻調度可靠。
3、 實時模塊容量監控
在模塊內IP容量相同的情況下,智云監控實時采集單機硬件性能指標,并可匯總計算模塊實時容量指標,進行自動決策。
智云主機監控技術的技術架構如下圖所示,支持10W設備主機性能數據采集,為騰訊社交業務提供精準高效的基礎監控能力。
寫在最后
在騰訊云和智云平臺的協助下,SNG社交平臺業務運維團隊為人民日報“軍照”運營活動提供了強有力的運維支持。雖然運維在聚光燈下并不常見,但我們依然為騰訊的產品感到自豪,為我們的運維工作感到自豪!
閱讀建議
“云+未來”峰會北京站,開發者專場報名開啟
深度探索(一)
是的,騰訊投票已經擁抱騰訊云
本文已獲得作者授權在騰訊云技術社區發布。轉載請注明文章出處。
原文鏈接:///