777米奇色狠狠俺去啦777,精品A∨一二三区视频,精品国产色综合久久

在講解事件和故障處理思路之前，先說一個(gè)故障場(chǎng)景（以呼叫中心系統(tǒng)為例）：

業(yè)務(wù)人員反映呼叫中心系統(tǒng)運(yùn)行緩慢，部分電話在自助語言環(huán)節(jié)超時(shí)，電話轉(zhuǎn)人工座席，人工座席出現(xiàn)線路突發(fā)情況。

運(yùn)維人員忙碌，查看資源使用情況，查看服務(wù)是否正常，查看日志是否報(bào)錯(cuò)，查看交易量是否還在……時(shí)間在敲打鍵盤，敲打鍵盤，在鍵盤上打字，但原因仍然沒有找到。

經(jīng)理過來查看情況：“系統(tǒng)恢復(fù)了嗎？”、“故障有什么影響？”、“事務(wù)中斷了嗎？”……

運(yùn)維人員趕緊敲鍵盤，寫sql，查看交易量；敲了鍵盤，寫了命令，看了看系統(tǒng)資源和情況……

最后定位，問題原因是其中一個(gè)函數(shù)沒有控制返回次數(shù)，導(dǎo)致內(nèi)存泄漏。

針對(duì)這個(gè)故障，業(yè)務(wù)希望運(yùn)維能夠更快的解決故障恢復(fù)。經(jīng)理希望制定和優(yōu)化呼叫中心的故障處理流程，做了以下幾件事：

1、是時(shí)候確定故障排除過程的優(yōu)先級(jí)了——“用鼠標(biāo)可以做什么，而不是鍵盤”

2、提前發(fā)現(xiàn)故障，加強(qiáng)監(jiān)控——“技術(shù)比業(yè)務(wù)更早發(fā)現(xiàn)問題，監(jiān)控不僅是報(bào)警，還有助于故障定位”

3、完善故障應(yīng)急預(yù)案——“應(yīng)急預(yù)案及時(shí)、準(zhǔn)確、簡(jiǎn)單明了”

4、長(zhǎng)期目標(biāo)：故障的自愈——“可以??治愈的操作自動(dòng)化，機(jī)器可以做的機(jī)器”

下面將從常見的故障排除方法介紹開始，然后從故障前的準(zhǔn)備工作（完善監(jiān)控、制定應(yīng)急預(yù)案等）著手解決管理者提出的問題，并提出解決故障的思路未來。

1、常用方法：

1）判斷故障現(xiàn)象，初步判斷問題影響

在處理故障之前，運(yùn)維人員首先要了解故障現(xiàn)象，而故障現(xiàn)象直接決定了故障應(yīng)急預(yù)案的制定，這取決于運(yùn)維人員需要對(duì)整體有一定的熟悉程度應(yīng)用系統(tǒng)的功能。

確認(rèn)故障現(xiàn)象后，即可指導(dǎo)運(yùn)維人員初步判斷故障影響。

2）緊急恢復(fù)

運(yùn)維最基本的指標(biāo)是系統(tǒng)可用性，而應(yīng)急恢復(fù)的及時(shí)性是系統(tǒng)可用性的關(guān)鍵指標(biāo)。

通過對(duì)上述故障現(xiàn)象和影響的判斷，可以制定故障應(yīng)急操作。故障應(yīng)急操作有很多，例如：

另外，需要補(bǔ)充的是，在故障出現(xiàn)之前，需要在一定條件下保存當(dāng)前系統(tǒng)場(chǎng)景。例如，在殺死一個(gè)進(jìn)程之前，您可以先捕獲一個(gè) CORE 文件或一個(gè)數(shù)據(jù)庫(kù)快照文件。

3）快速定位故障原因

故障現(xiàn)象能否重現(xiàn)對(duì)于快速解決問題非常重要?？蓮?fù)現(xiàn)是指總會(huì)有方法或工具幫助我們定位問題的原因，而可復(fù)現(xiàn)的故障往往可能是由于服務(wù)異常、變更等工作造成的。

但是，如果故障是零星的，發(fā)生概率很小，則故障排除就比較困難，這取決于系統(tǒng)在故障期間是否有足夠的現(xiàn)場(chǎng)信息來確定是否可以定位始終原因。

大多數(shù)故障是由更改引起的。在確定故障現(xiàn)象后，如果有相應(yīng)的變化，有助于從變化的角度分析是否是由變化引起的it運(yùn)維技術(shù)，以便快速定位故障，制定折返等應(yīng)急預(yù)案。

一方面，應(yīng)用系統(tǒng)提倡解耦，一筆交易會(huì)流經(jīng)不同的應(yīng)用系統(tǒng)和模塊；另一方面，故障可能是由于應(yīng)用程序、系統(tǒng)軟件、硬件、網(wǎng)絡(luò)等環(huán)節(jié)的問題。在排除故障原因時(shí)，應(yīng)避免全面檢查。建議在協(xié)調(diào)相關(guān)團(tuán)隊(duì)調(diào)查之前將問題范圍縮小到某個(gè)程序。

同時(shí)（3）點(diǎn)）為避免所有相關(guān)團(tuán)隊(duì)同時(shí)在沒有線索的情況下同時(shí)排查，牽頭方需要有開放的態(tài)度，要求相關(guān)方在收窄后配合定位范圍，相關(guān)方需要積極配合。工作態(tài)度。

定位故障原因最常用的方法是分析應(yīng)用程序日志。運(yùn)維人員不僅要知道業(yè)務(wù)功能對(duì)應(yīng)的是哪個(gè)服務(wù)進(jìn)程，還要知道服務(wù)進(jìn)程對(duì)應(yīng)的是哪個(gè)應(yīng)用日志，對(duì)應(yīng)用日志的異常有一些簡(jiǎn)單的判斷。能力。

故障期間的系統(tǒng)站點(diǎn)非常重要。緊急情況前，建議保留系統(tǒng)站點(diǎn)文件，如COREDUMP，或TRACE收集信息等，并備份一些可能被覆蓋的日志。

以上是一般故障的常用方法。當(dāng)發(fā)生重大故障或多方故障時(shí)，小范圍排查往往不利于快速解決，需要啟動(dòng)應(yīng)急處理流程。建議考慮以下溝通：

2、完美監(jiān)控

1）從監(jiān)控可視化提升

完善的監(jiān)控策略需要統(tǒng)一的可視化操作界面。制定完善的監(jiān)控策略后，故障處理者需要能夠快速看到相應(yīng)的運(yùn)行數(shù)據(jù)，例如一段時(shí)間內(nèi)的趨勢(shì)、故障期間的數(shù)據(jù)性能、性能分析等數(shù)據(jù)，而這些數(shù)據(jù)可以在提前將分析結(jié)果直接推送給故障處理人員，大大提高了故障處理的效率。以呼叫中心系統(tǒng)為例，需要提前配置以下實(shí)時(shí)交易數(shù)據(jù)，用于故障定位：

- 事務(wù)性能數(shù)據(jù)：平均事務(wù)時(shí)間、系統(tǒng)內(nèi)部模塊事務(wù)時(shí)間（IVR事務(wù)時(shí)間、接口總線事務(wù)時(shí)間）、關(guān)聯(lián)系統(tǒng)事務(wù)時(shí)間（核心事務(wù)時(shí)間、工單系統(tǒng)事務(wù)時(shí)間等）

- 重要交易指標(biāo)數(shù)據(jù)：交易量、IVR交易量、流量、座席呼叫率、核心交易數(shù)、工單等系統(tǒng)交易量

- 交易異常數(shù)據(jù)：交易成功率、失敗率、大部分有錯(cuò)誤碼的交易

- 按服務(wù)器分析交易數(shù)據(jù)：根據(jù)每個(gè)服務(wù)處理的交易數(shù)量統(tǒng)計(jì)，總交易時(shí)間

有了以上交易數(shù)據(jù)，通過監(jiān)控以一定的頻率統(tǒng)計(jì)，當(dāng)發(fā)生故障時(shí)，運(yùn)維人員可以通過鼠標(biāo)點(diǎn)擊查看故障是從什么時(shí)候開始的，是系統(tǒng)內(nèi)部有問題還是關(guān)聯(lián)系統(tǒng)有問題，最突出的事務(wù)是哪一個(gè)it運(yùn)維技術(shù)，各個(gè)服務(wù)器的事務(wù)量是否均衡等等。

2）從監(jiān)控的角度來看很完美

監(jiān)控最基本的任務(wù)是實(shí)現(xiàn)對(duì)負(fù)載均衡設(shè)備、網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲(chǔ)設(shè)備、安全設(shè)備、數(shù)據(jù)庫(kù)、中間件和應(yīng)用軟件等IT資源的全面監(jiān)控和管理。在應(yīng)用軟件的監(jiān)控中，不僅需要對(duì)服務(wù)進(jìn)程和端口的監(jiān)控，還需要對(duì)業(yè)務(wù)層和事務(wù)層的監(jiān)控。

全面的應(yīng)用程序監(jiān)控可以對(duì)故障進(jìn)行早期預(yù)警，并保存影響應(yīng)用程序運(yùn)行環(huán)境的數(shù)據(jù)，以減少故障處理時(shí)間。

3）改進(jìn)監(jiān)控和報(bào)警

完善的監(jiān)控策略需要有清晰的監(jiān)控報(bào)警提示，值班人員可以根據(jù)監(jiān)控報(bào)警做出簡(jiǎn)單的問題定位和應(yīng)急處理方案。例如，類似如下的監(jiān)控消息：

it運(yùn)維技術(shù)_it運(yùn)維服務(wù)管理流程_it運(yùn)維新技術(shù)

22:00，在【理財(cái)應(yīng)用系統(tǒng)】的【應(yīng)用服務(wù)器10.2.111.111】中，【應(yīng)用端口：9080】不存在，且端口功能【提供財(cái)務(wù)管理應(yīng)用處理（負(fù)載均衡部署）】，原因可能是【服務(wù)異常停止】，監(jiān)控系統(tǒng)進(jìn)行了以下應(yīng)急處理【自動(dòng)執(zhí)行端口進(jìn)程啟動(dòng)】，本次事件的緊急程度高]。

管理員可以通過短信內(nèi)容看到是哪個(gè)系統(tǒng)、哪個(gè)應(yīng)用、哪個(gè)模塊有問題，可能的原因是什么，對(duì)業(yè)務(wù)有什么影響，是否需要立即處理（例如，預(yù)警是否可以延遲到次日處理）等信息。

4)從監(jiān)控分析改進(jìn)

完善的監(jiān)控策略不僅需要實(shí)時(shí)數(shù)據(jù)報(bào)警，還需要對(duì)匯總數(shù)據(jù)進(jìn)行分析報(bào)警。不用說，實(shí)時(shí)數(shù)據(jù)分析警報(bào)的重要性在于從聚合和分析的數(shù)據(jù)中發(fā)現(xiàn)潛在的風(fēng)險(xiǎn)。疾病幫助。

5)通過監(jiān)控主動(dòng)改進(jìn)

監(jiān)控不僅僅是報(bào)警，它還可以做更多的事情，只要我們想辦法給它規(guī)則來主動(dòng)解決事件，它就有能力為管理員處理故障。

3、應(yīng)急計(jì)劃

需要提前制定故障應(yīng)急預(yù)案，但是在日常工作過程中我們的應(yīng)急預(yù)案遇到了一些問題：

1）應(yīng)急預(yù)案缺乏持續(xù)維護(hù)，缺乏演練，信息不及時(shí)準(zhǔn)確；

2）應(yīng)急預(yù)案太大太全面，不利于閱讀和使用；

3）應(yīng)急預(yù)案的形式大于實(shí)際使用效果，方案針對(duì)性不強(qiáng)；

4）只關(guān)注應(yīng)急預(yù)案的內(nèi)容，不關(guān)注運(yùn)維人員對(duì)預(yù)案的理解；

針對(duì)以上常見問題，應(yīng)急預(yù)案需要做到以下幾點(diǎn)：

1）精簡(jiǎn)內(nèi)容

it運(yùn)維技術(shù)_it運(yùn)維新技術(shù)_it運(yùn)維服務(wù)管理流程

很多人可能認(rèn)為故障可以有多種形式，因此應(yīng)急計(jì)劃需要涵蓋方方面面。但是在實(shí)際的排查過程中，我們可以發(fā)現(xiàn)我們的應(yīng)急措施往往會(huì)復(fù)用幾個(gè)常用的步驟，所以我認(rèn)為應(yīng)急預(yù)案應(yīng)該重點(diǎn)突出。如果一個(gè)應(yīng)急計(jì)劃可以處理 80% 的常見故障，那么這個(gè)應(yīng)急手冊(cè)應(yīng)該是合格的。過分追求影響應(yīng)用系統(tǒng)各個(gè)方面的內(nèi)容，會(huì)導(dǎo)致解決方案的可讀性差，最終改變一個(gè)應(yīng)該檢查的文檔。以下是我認(rèn)為應(yīng)用系統(tǒng)應(yīng)急計(jì)劃應(yīng)具備的內(nèi)容：

(1）系統(tǒng)級(jí)：

可以知道當(dāng)前應(yīng)用系統(tǒng)在整個(gè)事務(wù)中的作用。當(dāng)當(dāng)前系統(tǒng)或上下游出現(xiàn)問題時(shí)，可以知道如何配合上下游分析問題，例如：上下游系統(tǒng)如何通信，是否有唯一的通信關(guān)鍵字等.

此外，在系統(tǒng)層面還涉及到一些基本的應(yīng)急操作，如擴(kuò)容、系統(tǒng)和網(wǎng)絡(luò)參數(shù)調(diào)整等。

(2）服務(wù)等級(jí)：

可以知道這個(gè)服務(wù)影響了哪些業(yè)務(wù)，服務(wù)中涉及的日志、程序、配置文件在哪里，如何檢查服務(wù)是否正常，如何重啟服務(wù)，如何調(diào)整應(yīng)用級(jí)參數(shù)。

(3）事務(wù)級(jí)別：

能知道如何找出某個(gè)分支或某類事務(wù)有問題，無論是大規(guī)模的、局部的還是偶發(fā)的問題，都能用數(shù)據(jù)解釋事務(wù)的影響，并能定位事務(wù)錯(cuò)誤信息。這里最常用的方法是使用數(shù)據(jù)庫(kù)查詢或工具。

知道如何檢查最重要的交易是否正常，以及重要定時(shí)任務(wù)的應(yīng)急解決方案，如開戶、日期變更、對(duì)賬時(shí)間要求、應(yīng)急措施等。

(4）輔助工具的使用：

有時(shí)，需要使用一些工具或自動(dòng)化工具來輔助分析和應(yīng)急響應(yīng)。這時(shí)候，就需要有一個(gè)如何使用輔助工具的方法。

(5）交流計(jì)劃：

溝通計(jì)劃涉及通訊錄，包括上下游系統(tǒng)、第三方單位、業(yè)務(wù)部門等渠道。

(6）其他：

以上五點(diǎn)都完成了，相信這本應(yīng)急手冊(cè)可以解決80%的故障恢復(fù)工作。

2）應(yīng)急計(jì)劃是一項(xiàng)持續(xù)的工作

有了應(yīng)急預(yù)案，很難讓運(yùn)維人員不斷更新。我認(rèn)為要解決這個(gè)困難，我們需要讓運(yùn)維人員經(jīng)常使用這本手冊(cè)。如果手冊(cè)沒有使用場(chǎng)景，管理人員需要為運(yùn)維人員創(chuàng)造使用手冊(cè)的機(jī)會(huì)，例如應(yīng)急演練。

3）關(guān)注運(yùn)維人員對(duì)關(guān)鍵應(yīng)用信息的理解

前兩點(diǎn)關(guān)注手冊(cè)，最后一點(diǎn)我覺得有必要關(guān)注使用它的人。一些運(yùn)維人員認(rèn)為應(yīng)用運(yùn)維人員沒有能力對(duì)應(yīng)用系統(tǒng)本身的內(nèi)容了解透徹，因此應(yīng)用運(yùn)維人員在排查過程中的狀態(tài)非常尷尬。該怎么辦。

對(duì)此，我同意應(yīng)用運(yùn)維人員不需要掌握應(yīng)用系統(tǒng)的業(yè)務(wù)功能，但我認(rèn)為應(yīng)用運(yùn)維人員對(duì)于應(yīng)用系統(tǒng)本身需要具備以下基本能力：

（1）知道應(yīng)用系統(tǒng)是做什么的，基礎(chǔ)業(yè)務(wù)是什么；

(2）了解應(yīng)用架構(gòu)部署，上下游系統(tǒng)邏輯關(guān)系；

（3）知道應(yīng)用下服務(wù)的作用、端口、服務(wù)級(jí)別的緊急處理，以及如何查找和簡(jiǎn)單定位日志等數(shù)據(jù)信息。

(4）了解應(yīng)用系統(tǒng)的重要時(shí)間點(diǎn)和任務(wù)，如開、關(guān)、換天、定時(shí)任務(wù)，以及如何判斷這些任務(wù)是否正確

(5）了解最重要交易的流程；

(6）了解常見的數(shù)據(jù)庫(kù)表結(jié)構(gòu)并且可以使用它們。

4、智能事件處理

處理方法如下（詳細(xì)智能涉及監(jiān)控、規(guī)則引擎、配置工具、CMDB、應(yīng)用配置庫(kù)等模塊協(xié)同工作）