領(lǐng)跑智能化運維
北京2023年8月2日 /美通社/ -- 近日,國際權(quán)威研究機構(gòu)高德納(Gartner)正式發(fā)布《2023年中國ICT技術(shù)成熟度曲線(Hype Cycle for ICT in China,2023)》報告,浪潮信息作為全球領(lǐng)先的數(shù)據(jù)中心產(chǎn)品及方案提供商,憑借前瞻的技術(shù)布局以及領(lǐng)先的智能運維(AIOps)技術(shù),被Gartner評選為中國智能運維(AIOps in China)標(biāo)桿廠商。
Gartner每年都會發(fā)布一份技術(shù)成熟度曲線報告,評選出業(yè)界最受關(guān)注的ICT技術(shù)。2023年ICT技術(shù)成熟度曲線涵蓋生成式AI、AIOps、邊緣計算、混合云、云原生等20余項當(dāng)下最熱的ICT技術(shù)。Gartner報告通過優(yōu)先級矩陣和市場炒作熱度,深度解讀了各類技術(shù)的成熟度和采用程度,同時列舉了各類技術(shù)的標(biāo)桿廠商,以幫助客戶、廠商和投資者更好地理解各項技術(shù)的發(fā)展成熟度和未來商業(yè)潛力,為企業(yè)的數(shù)字化轉(zhuǎn)型提供科學(xué)專業(yè)的參考建議。
大模型時代,IT運維管理發(fā)力AIOps平臺
隨著大模型疾風(fēng)驟雨般的發(fā)展,模型迭代、參數(shù)量的擴大以及日活人數(shù)的擴大,相關(guān)算力需求指數(shù)級增長,推動了數(shù)據(jù)中心服務(wù)器規(guī)??焖贁U張。以與人工智能研究公司OpenAI合作的微軟為例,目前已有超過400萬臺的服務(wù)器部署在全球超過200個數(shù)據(jù)中心之中,且未來仍將以每年50至100個的速度新建數(shù)據(jù)中心。
數(shù)據(jù)中心規(guī)模持續(xù)、快速地增長創(chuàng)造了巨大的市場機遇。同時隨著IT基礎(chǔ)設(shè)施的數(shù)量不斷增加,IT運維環(huán)境的復(fù)雜性與日俱增,各類故障發(fā)生的不確定性越來越大,任何的錯誤都可能導(dǎo)致數(shù)據(jù)中心系統(tǒng)故障甚至業(yè)務(wù)中斷,傳統(tǒng)粗放的基礎(chǔ)設(shè)施運維管理也需要更加精細化、自動化、智能化。
自2016年Gartner首次將AIOps納入中國ICT技術(shù)成熟度曲線,AIOps已被業(yè)界各大廠商廣泛接納。在人工智能、大模型等新技術(shù)的促進下,AIOps 成為未來運維發(fā)展的重要方向,并呈現(xiàn)出快速替代傳統(tǒng)運維的趨勢。目前,Gartner已連續(xù)4年將AIOps納入中國ICT技術(shù)成熟度曲線第三階段,AIOps市場將不斷發(fā)展成熟,市場競爭日趨激烈,只有長期扎實投入的廠商才能不斷成長。浪潮信息是此次唯一入選標(biāo)桿廠商的服務(wù)器企業(yè),這也是中國市場對浪潮信息AIOps能力的深度認(rèn)可。
浪潮信息InManage,數(shù)據(jù)中心基礎(chǔ)設(shè)施的360°智能管家
不久前,浪潮信息發(fā)布了全新一代G7服務(wù)器,性能、可靠性和易維護性都有了進一步的提升。浪潮信息還進一步升級了數(shù)據(jù)中心基礎(chǔ)設(shè)施管理平臺InManage,產(chǎn)品綜合能力大幅提升的同時,重點增強了其AIOps(智能運維)能力,幫助企業(yè)用戶統(tǒng)一、智能化管理服務(wù)器、存儲、網(wǎng)絡(luò)等IT基礎(chǔ)設(shè)施,提高運維效率、降低運維成本,保障數(shù)據(jù)中心穩(wěn)定的運行。
針對用戶多地數(shù)據(jù)中心設(shè)備種類多,統(tǒng)一管理難度大的挑戰(zhàn),InManage通過"一中心多網(wǎng)格"的分布式設(shè)計,突破了海量IT基礎(chǔ)設(shè)施智能化監(jiān)控告警的難題,能夠納管多達400多種機型,支持超過10萬臺IT設(shè)備的統(tǒng)一智能化管理,是業(yè)界領(lǐng)先的ITIM(IT基礎(chǔ)設(shè)施管控)平臺。
在智能化管理方面,針對數(shù)據(jù)中心服務(wù)器運行過程中存在的CPU、內(nèi)存、硬盤等關(guān)鍵部件故障預(yù)測失效、監(jiān)控失準(zhǔn)、告警失穩(wěn)的難題,InManage依托自研的面向基礎(chǔ)設(shè)施的AIOps平臺,擁有自動化數(shù)據(jù)處理、特征衍生、自動化建模工具多項創(chuàng)新能力,有效解決局部硬件概率性故障下系統(tǒng)有效容錯的問題。
(1)基于服務(wù)器日志的智能故障根因定位技術(shù)
InManage實現(xiàn)了對海量服務(wù)器帶內(nèi)、帶外日志的穩(wěn)定采集,提出了基于服務(wù)器部件告警日志,通過智能故障診斷 AI 模型,推理出服務(wù)器故障根因的整體解決方案,故障診斷精準(zhǔn)度超過95%,遠高于業(yè)界平均標(biāo)準(zhǔn)。
(2)硬盤故障主動預(yù)測技術(shù)
InManage通過硬盤特征數(shù)據(jù)分布式采集和存取技術(shù),實現(xiàn)了線上生產(chǎn)系統(tǒng)10萬級硬盤 特征數(shù)據(jù)的高質(zhì)量采集,通過決策樹選擇、剪枝策略對隨機森林算法進行改進,構(gòu)建面向業(yè)務(wù)場景的硬盤故障預(yù)測模型,準(zhǔn)確率超過95%。
(3)內(nèi)存故障預(yù)測技術(shù)
InManage利用設(shè)備檢查異常檢測機制,完成物理內(nèi)存故障精準(zhǔn)位置的抓取,實現(xiàn)故障內(nèi)存物理位置向量化,基于向量化特征構(gòu)建內(nèi)存特征關(guān)聯(lián)關(guān)系模型,對內(nèi)存健康狀況有效進行實時預(yù)測性分析,與基于閾值預(yù)測方式相比準(zhǔn)確率提升約30%。
針對基礎(chǔ)設(shè)施自動化過程中存在運維工具離散化,與業(yè)務(wù)場景切合度不高以及升級、配置、部署等流程復(fù)雜低效的難題,InManage在自動化運維管理方面,秉承"軟件定義基礎(chǔ)設(shè)施"產(chǎn)品理念,為用戶提供可定義、自編排的服務(wù)器自動化能力,覆蓋從固件升級到業(yè)務(wù)上線再到設(shè)備下架的全生命周期自動化運維場景。在某客戶數(shù)據(jù)中心近4000臺服務(wù)器上架工作中,通過浪潮信息InManage平臺,幫助用戶將部署周期從原來預(yù)計的幾十天縮短至7天,運維效率提升450%以上,保障數(shù)據(jù)中心運維效率。
目前,浪潮信息InManage憑借著這些優(yōu)勢,在海內(nèi)外收獲了廣泛的客戶認(rèn)可,正在為全球互聯(lián)網(wǎng)、金融、通信、IT、教科研等用戶的數(shù)據(jù)中心,提供全程無憂的運維服務(wù),保障數(shù)據(jù)中心業(yè)務(wù)安全、穩(wěn)定地運行。