omniture

浪潮信息物理基礎設施管理平臺 解決大型數據中心服務器運維難題

2022-04-27 15:25 5255

北京2022年4月27日 /美通社/ -- 隨著互聯網、5G、IoT等飛速發(fā)展,數字化、智慧化的建設對算力提出更高的要求,數據中心向著規(guī)?;?、集約化、綠色化不斷演進,根據ResearchAndMarkets 《全球數據中心托管服務市場機遇》報告顯示,超大規(guī)模數據中心預計將從2019年的509個增長到2025年的890個,這將改變數據中心建設和使用的方式,數據中心規(guī)模不斷擴大,大型數據中心服務器數量已經達到了10萬以上的量級,這意味著對運維的難度、人力、成本、專業(yè)性都提出了更高的要求,企業(yè)數據中心的運維壓力面臨著前所未有的挑戰(zhàn),打破傳統(tǒng)運維方式,打造"監(jiān)、管、控、防"智能化的運維是解決問題的關鍵。


什么是智能運維?

首先,要了解數據中心運維的發(fā)展歷程,它主要包含三個階段:人肉運維、自動化運維和智能運維。

所謂人肉運維就是指 -- 在早期,大部分數據中心的運維工作是由運維工程師手工完成。服務器運行狀態(tài),全靠運維工程師每日肉眼查看,進行問題定位與解決,每位工程師可以運維的上限約為400臺設備。這種低效的運維方式,在數據中心服務器增多和人力成本逐漸增高的時代,是難以維繼的。

所以自動化運維便應運而生,由運維工程師根據運維經驗編寫腳本,進行批量設備巡檢,后期發(fā)展成基于任務的設備巡檢,這便是自動化運維的早期方式。這大大提升了發(fā)現異常設備的效率,降低了運維成本。但是,面對故障根因、故障預測、性能趨勢和控制決策,自動化運維卻力不從心。

根據Gartner發(fā)布的《2021年中國ICT技術成熟度曲線報告》顯示,AIOps市場將持續(xù)增長并影響整個IT運營管理市場,報告預計未來2-5年內AIOps將進入成熟期并會幫助企業(yè)大幅節(jié)約成本。從服務器運維的角度來分析服務器智能運維,目標就是通過對帶外信息(配置信息、狀態(tài)信息、性能信息、日志等)和帶內信息(配置參數、性能信息、日志信息)進行采集,利用機器學習的方式來解決上述問題,提高系統(tǒng)預警能力和穩(wěn)定性,降低運維成本,提高運維效率。

浪潮信息打造智能化的物理基礎設施管理平臺(ISPIM

浪潮信息物理基礎設施管理平臺ISPIM,通過對數據中心IT設備的7*24h納管監(jiān)控,實現在異常檢測、故障診斷、故障預測、故障自愈、性能預測等多維度的智能化運維。

  • 異常檢測

服務器運維中,最根本的是對于異常的檢測,常見的是對狀態(tài)指標、性能指標和日志數據三大數據的檢測。

狀態(tài)指標:當服務器的狀態(tài)出現異常時,浪潮信息ISPIM管理軟件通過主/被動方式對服務器的異常進行聚合,防止重復告警和誤報,同時對同時刻多告警進行根因定位,防止告警風暴,產生告警麻痹。

性能指標:在性能指標檢測方面,傳統(tǒng)手段是設置閾值,但常常因為某一時刻產生噪點數據而發(fā)生誤報,通過重復次數,閾值抖動范圍和自學習數據密度分布等方案,便能夠解決噪點數據產生的99%的告警誤報;但面對周期性變化的數據卻無法進行動態(tài)調整,也會產生誤報的情況,大大降低告警的準確性。浪潮信息ISPIM管理軟件通過AI優(yōu)化,針對性能數據進行時域、頻域、能量等變化進行動態(tài)分析,采用LSTM和隨機森林兩種方案進行預測,告警準確性達到98%。

日志數據:日志一般是半結構化的數據,根據日志級別產生告警,準確性不夠并且只能檢測到已知和確定模式的異常。浪潮信息ISPIM管理軟件擁有4000+運維專家資源庫,幫助實現服務器故障快速診斷,同時在日志智能故障診斷方面,會將采集的日志進行重新編碼,不斷加深對深度學習、LSTM等算法的研究、實踐應用,實現從多個維度對服務器異常進行分析,異常檢測準確率高達99%。

  • 故障診斷

為進一步提高運維效率,浪潮信息ISPIM管理軟件除了對日志的故障診斷之外,還會對系統(tǒng)宕機后的數據進行深入的剖析,便于問題快速定位,提高效率。

通過對采集的海量數據進行分析,浪潮發(fā)現服務器的宕機通常是發(fā)生了CPU MCE(Machine Check Exception)故障,MCE來源一般來說有兩種,一種是CPU本身故障,一種是來自CPU外部的部件。浪潮信息ISPIM管理軟件通過帶外收集服務器CPU寄存器數據,基于MCA(Machine Check Architecture)技術架構,通過定位CPU觸發(fā)源、分析MC Bank、解析CSR、MSR寄存器,實現故障原因的確認以及故障部件的精準定位,并根據浪潮信息專家經驗庫對故障問題給出專業(yè)的解決方案,從而提升運維效率。

  • 故障預測

據統(tǒng)計顯示,在數據中心中由內存、硬盤造成的故障占比超過50%以上,其主要原因在于硬盤、內存保有量較大,生命周期相對較短,使用率較高等。當內存或硬盤產生故障時,極容易發(fā)生嚴重宕機事故。

對于內存而言,內存產生的CE(可糾正錯誤),可以通過ECC(Error Correcting Code)機制進行糾正,但是頻繁的CE往往會產生UCE(Unchecked Error),一旦產生UCE,往往會導致系統(tǒng)宕機。因此,預測內存故障即可轉化為預測UCE,浪潮信息ISPIM管理軟件對內存CE,通過多個維度統(tǒng)計分析,從CE總頻率、內存固定物理地址CE頻率閾值、固定Cell CE頻率閾值、CE在Column分布范圍及頻率閾值等維度統(tǒng)計,獲取UCE與CE關聯關系,從而預測UCE。

而對于硬盤,在數據中心中大多存儲陣列會采用一些冗余機制,但是這只能保證有限硬盤失效的場景,一旦故障盤數量超過RAID冗余的極限之后,很可能造成系統(tǒng)宕機或者數據丟失的風險。浪潮信息ISPIM管理軟件通過對SMART(Self-Monitoring Analysis and Reporting Technology)標準進行分析,獲取硬盤故障預測的關鍵數據特征,基于模型算法進行訓練,優(yōu)化模型算法,輸出為推理算法模型,通過SMART指標及硬盤運行日志,預測風險盤。同時當硬盤預測達到換盤指標時,可支持換盤操作。

通過這些技術優(yōu)化,浪潮信息ISPIM管理軟件可以實現對內存和硬盤的故障預測,大大提高系統(tǒng)穩(wěn)定性。

  • 故障自愈

浪潮信息ISPIM管理軟件在針對故障自愈方面,可以支持內存故障自動隔離,在操作系統(tǒng)層面,結合MCE(Machine Check Exception)日志數據信息,基于CE故障信息,通過虛擬內存故障Page診斷算法,確定內存故障Page,并在操作系統(tǒng)內核執(zhí)行Page Offline,通過虛擬內存技術,隔離對故障內存區(qū)域的訪問,實現內存故障隔離。在物理內存層面,基于CE故障信息,通過物理內存故障診斷算法,利用SPPR(Soft Post Package Repair)、HPPR(Hard Post Package Repair)對物理內存故障Row進行隔離,在技術上實現對故障內存的永久性隔離,提高操作系統(tǒng)的穩(wěn)定性和可靠性,從而保障業(yè)務的穩(wěn)定可靠運行。

  • 性能預測

性能預測是指對服務器的性能數據,經過ARIMA、指數平滑、LSTM、Prophet等智能算法,能夠感知系統(tǒng)在未來幾個小時、幾天或者一年的數據的走勢、增長量或者周期性變化等。浪潮信息ISPIM管理軟件憑借自研性能分析核心組件,可支撐上萬臺服務器同時進行秒級性能數據的監(jiān)控與告警,幫助運維人員實時掌握設備的性能狀況,實現對磁盤壽命、容量預測,準確率達到99%。

浪潮信息物理基礎設施管理平臺ISPIM(Inspur Physical Infrastructure Manager),具備資源管理、故障監(jiān)控、性能監(jiān)控、能耗管理、自動部署、報表統(tǒng)計、網絡拓撲和3D視圖等功能,可同時對數萬臺不同品牌服務器、存儲、網絡設備等設備進行統(tǒng)一監(jiān)控、運維、告警管理,運維效率提升2倍,基于浪潮信息故障專家?guī)斓拇髷祿?guī)則故障診斷功能,可將故障診斷準確率提升到93%,并且可在快速處理故障的同時極大程度降低數據泄露風險,幫助用戶打造無人值守數據中心,提高運維效率并降低運維成本,保障數據中心安全、可靠、穩(wěn)定的運行。

消息來源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯網、科技、媒體、通訊企業(yè)的經營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection