了解最新公司動態及行業資訊
編輯推薦:
本文主要介紹IT運維服務內容、IT運維服務流程、IT運維服務管理體系規范和IT運維應急服務響應措施。
本文來自騰訊云,火龍果軟件Linda編輯推薦。
編輯前注意事項:信息系統服務的目標是對用戶現有的基礎信息系統資源進行監控和管理,及時掌握網絡信息系統資源的當前狀態和配置信息,反映網絡信息系統資源的可用性和健康狀況。信息系統資源。創造一個可知可控的IT環境,保證用戶信息系統各業務應用系統的可靠、高效、持續、安全運行。
IT運維服務總體規劃
IT運維服務內容
IT運維服務流程
IT運維服務管理體系規范
IT運維應急服務應對措施
一、服務內容
1.1 服務目標
運維服務包括信息系統相關主機設備、操作系統、數據庫和存儲設備等信息系統的運維和安全防護服務,保障用戶現有信息系統的正常運行,提高整體管理水平費用。提高網絡信息系統整體服務水平。同時,根據日常維護的數據和記錄,提供用戶信息系統的整體建設規劃和建議,更好地為用戶信息化發展提供有力保障。
用戶信息系統的組成主要可以分為硬件設備和軟件系統兩大類。硬件設備包括網絡設備、安全設備、主機設備、存儲設備等;軟件設備可分為操作系統軟件、典型應用軟件(如數據庫軟件、中間件軟件等)、業務應用軟件等。
通過對運維服務的有效管理,提高用戶信息系統的服務效率,協調各業務應用系統內部運行,改善網絡信息系統部門與業務部門的溝通,提高服務質量。結合用戶現有環境、組織結構、IT資源和管理流程的特點,從流程、人員、技術三個方面規劃用戶網絡信息系統的架構。使用 IT 服務協調用戶的運營目標和業務需求。
信息系統服務的目標是監控和管理用戶現有的基礎信息系統資源,及時掌握網絡信息系統資源的當前狀態和配置信息,反映信息系統資源的可用性和健康狀態,并創建一個知可控的IT環境,進而保證用戶信息系統各業務應用系統的可靠、高效、持續、安全運行。
服務項目所涵蓋的信息系統資源的以下幾個方面的關鍵狀態和參數指標:
運行狀態、故障情況
配置信息
可用性和健康績效指標
統計運維數據,提供信息系統管理和工作報告,匯總并提供用戶想知道的數據報告
1.2 信息資產統計服務
本服務為基礎服務,包含在運維服務中,有助于我們了解用戶現有的信息資產,更好地提供系統運維服務。
服務包括:
硬件設備型號、數量、版本等統計記錄
軟件產品型號、版本和補丁的統計記錄
網絡結構、網絡路由、網絡IP地址統計記錄
綜合布線系統配光概述
其他輔助設備的統計記錄
硬件設備列表統計
1.3 網絡與安防系統運維服務
網絡系統的運維管理從網絡連通性、網絡性能、網絡監控管理三個方面實現。網絡與安全系統基本服務內容:
(1)用戶現場技術人員值班
根據用戶需求,我們常年提供現場技術人員服務,保證網絡的實時連通性和可用性,保障接入交換機、匯聚交換機、核心交換機的正常運行。
現場技術人員記錄網絡交換機的端口是否可以正常使用,網絡的轉發和路由是否正常,交換機的性能測量,網絡整體性能評估。為網絡擴展和優化提出優化建議。
現場值班人員還監控安全設備的日常運行狀態,查看各種安全設備的日志,記錄重點風暴,找出并解決安全風暴形成的原因,及時發現問題,預防從發生的問題。還沒有。
同時還可以記錄設備的運行數據并生成報表進行統計分析,從而對網絡系統進行分析,提前預測故障。具體記錄數據包括:
配置數據
性能數據
故障數據
(2)現場檢查服務
現場檢查服務是對客戶的設備和網絡進行全面檢查的服務項目。通過這項服務it運維,客戶可以獲得設備運行的第一手信息,從而找出隱患,保證設備的穩定運行。
同時會提出針對性的預警和解決方案,讓客戶提前防控,將運營風險降到最低。
檢查包括以下內容:
(3)網絡運營分析與管理服務
網絡運行分析與管理服務是指工程師對網絡運行狀態和網絡問題進行定期檢測和分析后,向客戶提供指導和建議的綜合性中間服務。內容包括:
p>
(4)重要時刻有專人值班
確保設備在重要時刻穩定運行對于客戶的成功尤為關鍵。為此,我們可以在重要時刻為客戶提供現場現場支持,包括政府客戶重大會議期間、金融客戶年終結算日、運營商客戶生產等。重大網絡切換或客戶認為可能對其業務運營產生重大影響的任何其他時刻。
如果需要專人,客戶應至少提前3周聯系授權服務商的客戶服務總監。對于每一位簽約客戶,授權服務商均需按照事先約定提供專人值守服務。如果客戶需要超出協議范圍的更多值班支持,他們需要支付額外的人工和差旅費用。
1.4主機、存儲系統運維服務
主機和存儲系統運維服務包括:主機和存儲設備日常監控、設備運行狀態監控、故障排除、操作系統維護、補丁升級。
大型機存儲系統基本服務內容:
現場人員可監控管理的內容包括:
CPU 性能管理;
視頻內存使用管理;
硬盤利用率管理;
系統進程管理;
主機性能管理;
實時監控主機電源、風扇使用情況及主機機箱內部溫度;
監控主機硬盤的運行狀態;
監控主機網卡、陣列卡等硬件狀態;
監控主機 HA 運行狀況;
主機系統文件系統管理;
監控存儲交換機設備狀態、端口狀態、傳輸速率;
監控備份服務進程、備份狀態(起止時間、成功、錯誤告警);
監控和記錄C盤陣列、磁帶庫等存儲硬件故障提示和告警,及時解決故障問題;
監控存儲性能(例如緩存、光纖通道等)。
1.5個數據庫系統運維服務
數據庫運維服務包括主動數據庫性能管理,對系統運維非常重要。通過主動的性能管理,可以了解數據庫日常運行狀態,識別數據庫性能問題出現在哪里,有針對性地進行性能優化。同時密切關注數據庫系統的變化,主動預防可能出現的問題。
數據庫運維服務還包括快速檢測、診斷和解決性能問題。當出現問題時,能夠及時發現性能難點,解決數據庫性能問題,維護高效的應用系統。
數據庫運維服務,主要工作是利用技術手段達到管理的目的it運維,以系統的最終運維為目標,提高用戶的工作效率。
具體數據庫運維監控的基本服務內容包括:
1.6個中間件運維服務
中間件管理是指BEA、MQ等中間件的日常維護管理和監控,提高對中間件平臺風暴的分析和解決能力,保障中間件平臺持續穩定運行。中間件監控指標包括配置信息管理、故障監控、性能監控。
執行線程:監控配置執行線程的空閑數。
JVM顯存:JVM顯存曲線正常,可以及時回收顯存空間。 JDBC連接池:連接池的初始容量和最大容量應設置為相等,且至少等于執行線程數,以防止在運行過程中創建數據庫連接造成性能消耗。
檢查日志文件是否有異常錯誤
如果有集群配置,需要檢查集群配置是否正常。
二、運維服務流程
建議用戶采用兩種服務形式:一種是技術人員上門值班,另一種是定期檢查結合故障上門服務。
技術人員上門運維服務的基本操作流程如右圖所示:
定期巡檢結合現場運維服務的基本操作流程如右圖所示:
三、服務管理系統規范
3.1個服務小時
(1)接收服務請求和咨詢:在工作時間5*8小時內設立專人熱線,回答內部服務請求,記錄服務臺風波結果。
(2)設置聯通電話熱線,非工作時間7*24小時接聽,用于解決內部技術問題,7*24小時回答機房監控人員上報機房緊急情況。
(3)服務響應時間:
在解決故障時,技術支持人員會最大限度的保護數據,準備故障恢復的文件,力求恢復故障點前的業務狀態。
對于“系統癱瘓,業務系統無法運行”的故障級別,如無法在12小時內解決故障,將在16小時內提出應急預案,確保業務系統正常運行。故障解決后24小時內提交故障處理報告。說明故障類型、故障原因、故障排除技術以及故障損失。
3.2 行為準則
(1)違反用戶規章制度,嚴格按照用戶相應規章制度執行。
(2)與用戶運維系統的其他部門和環節,密切配合,共同組織技術支持工作。
(3)遇到技術難點、業務問題和重大突發事件及時向負責人報告。
(4)現場技術支持要細膩,著裝得體,文明,說話簡單。接電話時,文明禮貌,語言清晰,語氣溫和。
(5)遵循保密原則,負責所支持的網絡、主機、系統軟件、應用軟件等的密碼、核心參數、業務數據等的保密單位,不得隨意復制和傳播。
3.3 現場服務支持規范
運維服務人員應提供耐心、細心、熱情的服務。工作要做好記錄、反饋、重大問題及時報告。嚴格按照工作時間安排,嚴格按照服務流程操作。
(1)現場支持工程師著裝整齊,言行有禮,技術專業,操作熟練,嚴謹規范;現場支持必須遵守相關規章制度用戶單位。
(2)現場支持工程師在進行現場支持工作時,必須在保證數據和系統安全的前提下工作。
(3)現場支持過程中如果出現暫時未解決的故障或其他新的故障,應及時通知用戶并報告負責人,尋找其他解決方案。
(4)故障解決后,現場支持工程師詳細記錄問題的時間、地點、提出者和問題描述,并生成書面文件。必要時現場支持工程師應向用戶介紹故障原因和預防技術以及解決方法。
3.4 問題記錄規范
根據用戶提出的問題類型,問題分為咨詢問題和系統缺陷問題兩類:咨詢問題是指用戶提出的可以通過服務熱線現場解決的問題,或者- 現場故障排除。直接、快速、實時的特點,問題可由現場支持人員終止,并可使用咨詢問題記錄模板記錄此類問題的記錄。系統缺陷問題是指用戶提出的涉及系統相應環節的確認和修改,需要經過提交、診斷、確認、處理和回復等階段的問題。 ,并將解決方案反饋給用戶。具體提交流程如下:
(1)問題提交。應用信息系統用戶發現屬于系統缺陷的問題時,應填寫系統缺陷提交表,提交給服務支持中心。
(2)問題分析。服務中心收到用戶提交的問題表,應組織相應人員對問題表中描述的問題進行分析判斷,確定問題類型(技術問題) 、業務問題或運營問題)問題)。
如果是技術問題,應提交服務中心技術人員對存在的問題提出具體處理意見和建議;如果是業務問題,應提交服務中心業務人員處理;如果是操作問題,可以安排相關人員向提出問題的人說明問題,并將系統缺陷問題提交表轉換為系統咨詢問題提交表。
(3)問題確認與解決。收到系統缺陷問題提交表后,服務中心的技術人員和業務人員會對提交的問題進行分類、總結、分析和確認。
如能解決,應明確解決問題的具體處理建議和措施。經主管簽字同意后,交給實施人員實施方案實施。服務人員確認解決方案是否解決,并將解決方案附在系統缺陷問題提交表中反饋給問題提出者。
(4)報告問題。服務人員收到業務或技術人員確認的系統缺陷問題提交表后,向服務中心報告。
(5)問題回復。服務中心對提交的問題進行分析,制定解決方案并實施解決方案,并保留變更記錄。匯總解決方案后,將及時發送給問題提交單位或問題分配單位 回答并提交分析過程以及問題的基本原理。
四、緊急服務響應
項目制定了詳細的設計和應急預案,整個過程嚴謹有序。并且,在服務維護過程中,也不會完全杜絕意外情況。
下面,我們將詳細分析項目實施的意外風險,但針對各種突發風暴,我們設計了相應的預防和解決措施,并提供了完整的應急處理流程。
4.1 基本應急程序
維修服務應急處理流程
4.2防控措施
針對現場服務過程中可能遇到的各種風險,制定了一系列預防和處理措施,針對一些可能的情況,舉例如下:
4.3 突發風暴應急響應策略
系統運維應急預案是快速響應和處理中斷或嚴重影響業務的故障,如停機、數據丟失、業務中斷等,在最短時間內恢復業務系統并盡量減少損失。
在系統維護過程中,很難完全避免突發風暴的出現。針對這些情況,設計并制定了突發風暴應急響應策略。
系統巡檢人員要定期檢查各種硬件設備和應用軟件的運行情況,同時做好日常數據增量備份和定期全量備份。
在向各級負責人報告發現的問題時,要協調相關資源,分析問題癥結,確定解決辦法和臨時解決辦法,防止產生更大的影響。待問題穩定或徹底解決后,應生成問題報告,以防日后出現類似的重大突發事件。
在向負責人??報告發現的問題時,要協調相關資源,分析問題的癥結所在,確定解決方案和臨時解決方案,防止產生更大的影響。待問題穩定或徹底解決后,應生成問題報告,以防日后出現類似的重大突發事件。
當獲悉突發動亂時,技術支持人員可以立即從知識庫中獲取相應的應急策略,并根據用戶的具體情況提供相關的解決方案,然后通過電話和盡快發送電子郵件。或者以現場服務的形式幫助用戶解決問題,盡量減少突發風暴對用戶日常應用的影響。
應急策略服務流程圖如下: