了解最新公司動態及行業資訊
運維工作經驗總結 運維工作直接關系到應用系統的正常穩定運行,但運維工作復雜,形式化、系統化相對薄弱。如何改變這種狀況?從眾多運維人員的成敗經驗中總結并升級為運維規則,是提高運維水平、保障應用系統正常穩定運行的有效途徑。通過我多年的運維經驗,筆者總結了以下必須遵守的基本運維規則,可以大大降低沒有經驗的運維人員由于自己的失誤導致系統故障的可能性。 一、系統變更和升級要先在同一個環境下測試,實施前要有經過驗證的計劃。運維是一門經驗學科,也是一門試錯的學科。沒有做的事情總會給你帶來意想不到的問題,所以在進行更改之前,你必須在相同或相似的運行環境中對其進行測試,并且只有通過測試后才能在正式環境中實施更改。同時,應該為失敗的更改準備一個后備計劃。比如系統備份、數據庫備份、配置備份等都要做好準備,把變更前的操作站點固化下來,讓變更有機會回去。 二、破壞性操作必須按照預定計劃確認,然后謹慎執行。什么是破壞性操作?例如:是的,執行操作,因為它們不是必需的,它們很容易被忽略和危險it運維,更不用說drop之類的操作了。就: , , drop 而言,這些語句執行起來既簡單又舒適,但請記住!即使數據可以回滾,成本也是非常高的!對于 Linux,rm 將刪除所有當前數據及其所有子目錄。
經歷過這種失敗的人大多會給rm一個別名=′rm mv 也可以有同樣的選項: 比如不備份直接修改文件等三、備份并驗證備份的有效性,遇到硬件或軟件總是意外死機怎么辦?備份! ! !備份知識非常豐富,可以分為不同的維度:冷備份和熱備份、實時和非實時、物理和邏輯、全量和增量備份。有了備份,你能無后顧之憂嗎?不!備份的有效性還有待驗證。備份總是有很多次無法保證100%恢復。簡單的驗證就是找到一個空的數據庫來恢復它。 四、 永遠敬畏生產環境 這是避免應用系統故障的鐵律,也容易被開發人員和運維人員忽視。我們必須堅決杜絕直接在生產環境中進行開發、測試和bug修復。這些操作只能在開發和測試環境中進行。否則,如果出現問題,我們將哭無淚。 五、 交接和休假是最容易失敗的。接手別人的工作需要反復確認變更計劃。向人們征求意見并不一定是無能的表現;最好準備一份文件,說明在什么情況下如何操作以及與誰聯系;在別人放假的時候接手,“可以延遲”,確實需要執行:一定要不厭其煩的跟原系統管理員確認每一個操作的細節。
六、要有監控方法和報警措施。運維人員生存的工具是報警和監控。報警可以讓您及時了解系統發生了什么異常,從而及時跟進,扼殺搖籃中的故障;報警與監控是衣與水的好兄弟,相得益彰,相得益彰。 七、使用自動切換技術時要小心為了保證數據庫安全,經常會用到HA或者RAC等技術,但是這些技術在關鍵時刻能否真正發揮作用,還需要反復驗證和確認。僅僅按照文件的要求做好是不夠的。許多意想不到的因素或系統因素會導致自動切換技術無法按預期工作。如果你以后發現這一點,那就太晚了。 八、有偏執的精神,計劃要檢查,檢查,再檢查。有這樣一個人:在測試機上寫一個腳本,叫大家操作步驟和腳本,和相關人員重新確認操作、順序、時間。檢查可能的影響和回滾是否準備好。最后,在后臺運行腳本并同時登錄另一個窗口。在ps和查看結果輸出過程中,姿勢端正,呼吸急促均勻it運維,眼神凝重。操作的人不覺得累,但是看的人累了。 九、簡單就是美我們總是面臨著各種各樣的誘惑:新的系統架構、新的更智能的命令和工具、最新的硬件平臺、更全功能的HA軟件……你可以離線安裝、測試等等。但是,如果您想在生產環境中使用它,請三思而后行! ! Linux本身自帶的字符界面比那些復雜的圖形界面更簡單方便。如果你能堅持這九大鐵律,你的應用系統就能長期穩定運行。