omniture

浪潮天梭M13之故障管理系統(tǒng) 發(fā)現(xiàn)問題比解決問題更重要

2017-11-01 10:46 5663
天梭M13關(guān)鍵主機的眾多高可用技術(shù)之一 -- FMS 故障管理系統(tǒng),是一套完整的服務(wù)器軟硬件健康管理容錯保護系統(tǒng),為客戶提供故障定位、診斷、預(yù)測等服務(wù),保證客戶關(guān)鍵業(yè)務(wù)長久安全穩(wěn)定運行。

北京2017年11月1日電 /美通社/ -- 天梭M13關(guān)鍵主機的眾多高可用技術(shù)之一 -- FMS 故障管理系統(tǒng),是一套完整的服務(wù)器軟硬件健康管理容錯保護系統(tǒng),為客戶提供故障定位、診斷、預(yù)測等服務(wù),保證客戶關(guān)鍵業(yè)務(wù)長久安全穩(wěn)定運行。

天梭M13關(guān)鍵應(yīng)用主機是浪潮自主研制的在線交易處理性能較強的單機服務(wù)器系統(tǒng),面向?qū)Ψ€(wěn)定性和可用性極高的銀行、政府、大企業(yè)的超大型數(shù)據(jù)庫應(yīng)用設(shè)計,具備比肩大型機的處理性能。要持續(xù)支撐如此強悍的業(yè)務(wù)處理能力絕非易事,浪潮匯聚在服務(wù)器研發(fā)、維護領(lǐng)域多年成功經(jīng)驗,為天梭M13主機配備了各項尖端RAS技術(shù),助力客戶業(yè)務(wù)長久穩(wěn)定運行。RAS 特性中的 R "Reliability" 高可用性對于大型關(guān)鍵應(yīng)用主機來說尤為關(guān)鍵,其作用體現(xiàn)在及時應(yīng)對突發(fā)故障以及警示維護人員規(guī)避故障風(fēng)險上,可以顯著延長服務(wù)器整系統(tǒng)平均無故障時間,維持客戶關(guān)鍵應(yīng)用持續(xù)穩(wěn)定運行。完備的高可用性是服務(wù)器達到“五個9”的重要衡量指標(biāo)之一,下文介紹天梭M13關(guān)鍵主機的眾多高可用技術(shù)之一 -- FMS故障管理系統(tǒng)。

快速準(zhǔn)確找到問題已成為一個問題

如今隨著客戶業(yè)務(wù)類型及業(yè)務(wù)量的不斷攀升,生產(chǎn)系統(tǒng)所產(chǎn)生的故障信息也越來越多。為了保證系統(tǒng)的正常運行,很多數(shù)據(jù)中心都會實時監(jiān)控系統(tǒng)產(chǎn)生的消息,希望能夠及時發(fā)現(xiàn)系統(tǒng)中存在的潛在問題。然而,隨著交易數(shù)量的不斷增加,大量消息的產(chǎn)生,讓人應(yīng)接不暇,監(jiān)控系統(tǒng)也變得越來越困難。對于一個龐大的系統(tǒng)來說,一旦問題出現(xiàn),想從浩如煙海的故障消息中去定位這個問題是一件異常困難的事。對于一些大型的業(yè)務(wù)系統(tǒng),一天所產(chǎn)生的日志量可能達到幾十個G的數(shù)量級。 要在這些數(shù)據(jù)中去尋找問題出現(xiàn)的根源,無疑是一項重大挑戰(zhàn)。因此,急需一種能夠方便監(jiān)控系統(tǒng)和定位的問題的工具。FMS 就是在這樣的需求下,應(yīng)運而生的。

如何找到問題 -- FMS 自動化定位,預(yù)測、容錯

FMS 故障管理系統(tǒng)是一套完整的服務(wù)器軟硬件健康管理容錯保護系統(tǒng),是為浪潮服務(wù)器打造的“健康衛(wèi)士360”,具有故障自動化定位,預(yù)測、容錯和自動化故障處理的功能,支持多層級故障管理架構(gòu)自主擴展,自動故障診斷及智能故障預(yù)測,同時通過浪潮服務(wù)故障診斷數(shù)據(jù)庫,建立了故障的數(shù)據(jù)化分析和科學(xué)預(yù)測的平臺。

不同于集群或單機服務(wù)器監(jiān)控軟件,FMS故障管理系統(tǒng)采取輕量級故障信息捕獲技術(shù),對于大部分故障事件的處理采用主動通知方式,當(dāng)故障發(fā)生時主動報告給故障管理系統(tǒng),無故障發(fā)生時不消耗系統(tǒng)資源。機器正常運行狀態(tài)下,F(xiàn)MS 故障管理系統(tǒng)對于正在運行的業(yè)務(wù)不產(chǎn)生任何干擾,故障管理系統(tǒng) CPU 占用不超過1%,內(nèi)存占用低于5M,對系統(tǒng)性能沒有任何影響。

如何處理問題 -- FMS 的實戰(zhàn)服務(wù)器故障規(guī)則庫

浪潮多年服務(wù)器銷售、維護經(jīng)驗,搭建了一整套基于實戰(zhàn)的服務(wù)器故障規(guī)則庫,積累了豐富的故障判斷規(guī)則和處理經(jīng)驗。龐大的故障診斷規(guī)則數(shù)據(jù)庫,支持 BMC、CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)、XFS、PCIE、MD、死鎖、內(nèi)核等多設(shè)備故障檢測診斷,每條規(guī)則都經(jīng)過了嚴格的測試來驗證其準(zhǔn)確性,確保其在生產(chǎn)環(huán)境中穩(wěn)定可靠。經(jīng)由這些規(guī)則可以診斷檢測出機器設(shè)備或系統(tǒng)的故障問題,并劃分故障嚴重等級,及時給出處理方案。

如何提前預(yù)警 -- FMS 學(xué)習(xí)模型

涵蓋 CPU,內(nèi)存,網(wǎng)卡,文件系統(tǒng)等服務(wù)器硬件軟件各個層次的故障信息。能夠?qū)Υ疟P進行故障預(yù)測:通過大數(shù)據(jù)的積累分析,建立學(xué)習(xí)模型,實現(xiàn)提前預(yù)測并預(yù)警磁盤故障,提示客戶在故障發(fā)生前進行妥當(dāng)?shù)木S護處理。支持節(jié)點高可用方式,節(jié)點發(fā)生故障,無法登陸界面的時候,可以利用其它機器分析故障機器的信息。例如:當(dāng)一個內(nèi)存條(內(nèi)存頁面)上,24小時發(fā)生10個 "Memory write error" 故障的話,就將該內(nèi)存頁面離線并報告該內(nèi)存條的具體位置,通知管理員及時更換內(nèi)存條。

如何降低運維難度 -- FMS 健康狀態(tài)評估系統(tǒng)

FMS 故障管理系統(tǒng)提供整體健康狀態(tài)評估系統(tǒng),周期性的全方深度檢查服務(wù)器的每一個角落,為客戶直觀展示服務(wù)器各組成部件的健康狀態(tài)、故障情況以及可能產(chǎn)生的安全隱患。與故障管理工具相互配合,對檢查出來的故障和隱患進行自助修復(fù)、隔離,若有硬件級別無法處理的故障,則會提示聯(lián)系廠家進行維修和更換,這種提示的定位可以精確到主板的某一個槽位上,對于天梭M13這種龐大的系統(tǒng),硬件級別的精準(zhǔn)故障定位極大程度降低了運維人員的維護難度。

浪潮天梭M13系統(tǒng)不但能提前預(yù)測、預(yù)警,又能快速自動化定位,找到問題,處理問題,為客戶關(guān)鍵應(yīng)用持續(xù)穩(wěn)定運行保駕護航。

消息來源:浪潮集團
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection