了解最新公司動態及行業資訊
我在一家游戲公司做運維有一段時間了,分享一下我的經驗。
游戲公司的運維可以分為幾大模塊:
1、網站
2、游戲
3、支持
4、數據
5、安全
6、成本
網站
技術是web的技術,如lvs、lnmp、.cdn、持續更新CI、人工運維等。搜索中可以解決的常見問題,結構和估計量根據情況增減以實際業務規模為準。由于沒有涉及到電商業務,所以搜索和大數據業務會有所不同,細節我們就不展開了。日均pv保持在500、600w是正常的,推廣期間會形成高峰。
游戲是公司的主營業務,但也是行業相對封閉的一部分。由于這類產品基本上是自己開發和修補的,如果有bug,會開發并提供熱更新解決方案,并通過運維來實現。剩下的就是換衣服、版本更新、和服等日常操作了。
游戲項目的生命周期也與錯誤的數量有關。上線初期,各種廢話都會糾纏運維。以下是筆者遇到的一些反例:idc值班人員在巡查時踢了機柜電源導致宕機游戲進程句柄泄露;游戲存在bug,資源需要臨時維護;游戲出現意外的峰值帶寬,導致用戶卡頓;運營商帶寬小的用戶認為網卡(長寬聯通斷網還想玩游戲);機房光纖被切斷;手動工具配置更新錯誤;數據庫表結構不一致等;有很多很多,想想運維,說好的一點是挑戰自己,運維的丑點就是抖M!
項目穩定后,所有 ,等流程都梳理清楚,通過手動工具實現后,運維每天晚上需要做的就是看監控(起床)
支持
監控系統服務器運維,我只知道所有核心游戲進程都被監控,但是關鍵業務數據需要開發并提供。要么是數值匹配錯誤,要么是有漏洞被玩家刷了。其他對cpu、內存、io、磁盤空間、網絡帶寬的監控也要扎實做好,定期做好相關告警和統計報表。也是運維的一項重要工作。
支持客服朋友,查看日志,想辦法給客服朋友他們想看的數據。 Sql是最好的,可以教,可以優化。
他們通常需要支持運營市場的是報告、轉化率、arpu、返回玩家信息等,主要是為了吹噓自己的會議和迎合老板。
知識管理也是支持的一部分。文檔、工具使用指南、歷史故障記錄、優化解決方案等各類知識都可以消化分享給部門,甚至跨部門。
它也是支持的一部分,可以使用,還有廚師等,你必須了解并能夠掌握其中之一的使用。容器技術目前可以作為玩具和吹牛的資本,不要放在線環境中。
數據
數據也是一個大坑。運維必須糾正它在這個環節中的作用。很多原始數據在運維手里,但是需求端可能只需要一小部分,但是查詢需求可以說是五花八門,玩死開發,開發會議和運維討論,有時侯太坑的需求直接被堵死了。在游戲行業,每個公司的標準都不一樣服務器運維,都是根據自己公司的需求來執行的。關系型數據庫、大表、開放式數據庫、剖析工具、需求和實現方案,需要有一定的了解。
查詢業務將涉及軟硬件選型、ssd、cpu、顯存數據庫、主從架構讀寫分離等技術。
安全
運維又一個大坑。在被黑和注入之前,運維和研發都覺得自己的架構是安全的。
流量命中、DDos 也是我考慮將所有業務遷移到云端的原因。傳統IDC沒有可靠的流量清洗系統。基本上同一個機房??被攻擊,你們都吃虧。如果受害者是你自己,你基本上無法在 24 小時內恢復業務。切換到云端后,去年承受了高達 63G/s 的功率沖擊,但也花了不少錢。
費用
在公司成立初期,被認為過于開放,無法擴大規模。它買了很多服務器,在帶寬和其他資源上花了很多錢。一旦框架成熟穩定,老板就會開始考慮成本控制,是否把沒用的服務器發回去賣掉,帶寬能不能降低。幸運的是,如果所有服務器都是 linux,則無需擔心 的版權問題。粗略測算,之前的業務切換到云端后,運維成本增加到原來的1/3。
最后,將您的業務放到云端確實是一個不錯的選擇。其實上云之后還要處理一系列的問題,這里就不多說了。