omniture

浪潮信息InManage,再獲Gartner數(shù)據(jù)中心智能運維標桿

2023-09-11 16:26 3387

北京2023年9月11日 /美通社/ -- 近期,國際權威研究機構高德納(Gartner)發(fā)布中國AIOps市場指南報告《Market Guide for AIOps, China》,報告從數(shù)據(jù)中心運維需求變化、技術影響等角度,為中國的組織和I&O領導在采用或推進AIOps提供了深刻見解和實施建議。其中,浪潮信息InManage作為唯一的一款服務器廠商軟件產(chǎn)品,憑借領先的AI能力,以及多個行業(yè)數(shù)據(jù)中心智能化運維的成功經(jīng)驗,獲評AIOps標桿。


大模型對數(shù)據(jù)中心運維帶來全新挑戰(zhàn)

在AIGC等大模型創(chuàng)新技術的驅(qū)動下,算力成為了行業(yè)關注的焦點。為滿足數(shù)字經(jīng)濟對于多元算力的旺盛需求,算力規(guī)模迅速增長,給數(shù)據(jù)中心運維帶來全新挑戰(zhàn),構建智能化的運維管理AIOps 能力勢在必行。

首先,數(shù)據(jù)中心運維的難度與質(zhì)量要求不斷提升。在大模型訓練等負載的驅(qū)動下,數(shù)據(jù)中心部署了越來越多的設備與應用,這些設備與應用在架構、管理接口等方面存在很大差異,因此系統(tǒng)的復雜性與數(shù)據(jù)中心的不確定性增大,可能會對數(shù)據(jù)中心業(yè)務穩(wěn)定性造成嚴重的影響。

其次是數(shù)據(jù)中心運維效率亟待提升。伴隨著數(shù)據(jù)中心設備規(guī)模的不斷增長與運維難度的提升,運維的工作量呈現(xiàn)出大幅增長趨勢,大量重復冗余的工作不僅容易出錯,也降低數(shù)據(jù)中心運維效率,亟需將運維人員從復雜、依賴人工的告警和修復等運維工作中解放出來。

再次是對數(shù)據(jù)中心設備故障智能診斷、預測性運維需求的提升。為保障數(shù)據(jù)中心穩(wěn)定運行,需要盡可能地降低設備的故障率,通過精準的故障預警、預測性運維等方式,提前解決潛在隱患,提升數(shù)據(jù)中心各類 IT 資產(chǎn)的使用率。

同時,如何完善數(shù)據(jù)中心IT設備能耗管理是運維要考慮的一個關鍵。由于人工智能、數(shù)據(jù)分析、數(shù)據(jù)庫等工作負載對計算能力的需求不斷增長,以及半導體工藝的巨大改進,CPU、GPU等多元芯片已經(jīng)集成了極多的晶體管。盡管單核功耗因工藝技術的改進而不斷下降,但芯片的熱設計功率 (TDP) 卻由于性能大幅度的增長而在不斷增加,數(shù)據(jù)中心能耗管理的不完善可能會導致部分設備隨機斷電或由于功率不足而出現(xiàn)性能降低等問題。

AIOps引領數(shù)據(jù)中心運維的進化之路

面對數(shù)據(jù)中心的多重運維挑戰(zhàn),AIOps即智能運維已被業(yè)界廣泛使用。早在2016年,Gartner就已將AIOps納入中國ICT技術成熟度曲線的關鍵技術,指出在人工智能、大模型等新技術的促進下,AIOps成為未來數(shù)據(jù)中心運維發(fā)展的重要方向,并呈現(xiàn)出快速替代傳統(tǒng)運維的趨勢。以軟件定義、API驅(qū)動的AIOps模塊化平臺架構將有助于實現(xiàn)快速產(chǎn)品創(chuàng)新,將基礎設施、運維納入統(tǒng)一發(fā)展方向規(guī)劃,具備統(tǒng)一數(shù)據(jù)采集、存儲,強大的數(shù)據(jù)分析和機器學習能力,提供自動化運維和決策支持的能力并具備可視化的操作界面。

對于如今數(shù)據(jù)中心發(fā)展面臨的挑戰(zhàn),AIOps提供了如下關鍵優(yōu)勢:

  • 通過智能化的響應流程,以及數(shù)據(jù)驅(qū)動的決策支持,AIOps將極大將提升核心業(yè)務的穩(wěn)定性和可靠性,保證業(yè)務持續(xù)運行,提升業(yè)務價值。同時,運維效率提升和成本降低將為企業(yè)釋放更多的資源,用于核心業(yè)務的創(chuàng)新和發(fā)展。
  • 在基于故障、告警觸發(fā)的被動響應式運維的基礎上,AIOps提供了主動智能止損、主動定位故障等能力,將引領數(shù)據(jù)中心運維從被動響應向主動預防、從主動預防向智能化預防不斷演進。
  • AIOps將不斷引入異常情況模擬等混沌工程能力,助力評估智能運維系統(tǒng)在故障發(fā)生時的彈性和可恢復性,監(jiān)控系統(tǒng)在異常情況下的行為,有效識別和收集關鍵的運維指標和管理數(shù)據(jù),從而通過迭代和改進來不斷提高系統(tǒng)的運維能力和韌性。

隨著人工智能等技術的不斷發(fā)展,AIOps 還在不斷進化之中,憑借著長期運維所積累的海量數(shù)據(jù),以及飛速發(fā)展的大模型等應用,AIOps面臨著新一輪技術創(chuàng)新的契機。例如,大模型在云事件管理、根因定位具體場景中的應用為AIOps開辟了新的領域,大模型的涌現(xiàn)能力,也在為AIOps技術的革新、提高AIOps運維效率提供了有效的支撐。

浪潮信息InManage 打造數(shù)據(jù)中心智能管理行業(yè)標桿

浪潮信息數(shù)據(jù)中心管理平臺InManage順應AIOps發(fā)展趨勢,依托自研的面向基礎設施的AIOps平臺,有效解決局部硬件概率性故障下系統(tǒng)容錯的問題,智能故障診斷和故障根因定位故障診斷率達到95%以上,硬盤故障預測可提前15天感知風險,內(nèi)存故障預測準確率提高30%,此外,結合AI算法進行性能和容量預測,實現(xiàn)精準算力調(diào)配,讓用戶數(shù)據(jù)中心更加高效、穩(wěn)定、可靠。

同時,InManage還在資產(chǎn)管理、監(jiān)控管理、配置管理和能效管理方面提供一系列的智能化管理能力,幫助企業(yè)用戶統(tǒng)一運維服務器、存儲、網(wǎng)絡等基礎設施,提升運維效率和質(zhì)量、降低運維成本:

  • 智能資產(chǎn)管理:InManage結合智能網(wǎng)絡自動發(fā)現(xiàn)技術和RFID射頻識別技術,能夠精準搜索和識別整機型和部件型資產(chǎn),可以納管400多種不同品牌不同類型的資產(chǎn)設備。借助自動拓撲與3D建模技術,InManage能夠幫助用戶構建數(shù)字孿生式資產(chǎn)可視化,清晰展示資產(chǎn)的網(wǎng)絡架構、空間位置和關聯(lián)關系,沉浸式了解資產(chǎn)狀況。同時,InManage采用基于物聯(lián)網(wǎng)(IoT)的技術方案,實現(xiàn)自動化的線上線下資產(chǎn)管理,支持自動巡檢、資產(chǎn)報表、維保管理、出入庫管控等功能,打通采購、使用、審計、財務壁壘,全面滿足企業(yè)管理需求,運維工作量降低40%,資產(chǎn)管理效率提升90%。
  • 智能監(jiān)控管理:InManage通過"一中心多網(wǎng)格"的分布式設計,突破海量基礎設施數(shù)據(jù)收集和分析的性能瓶頸,支持10萬級IT設備的統(tǒng)一納管。同時為保障數(shù)據(jù)中心穩(wěn)定運行,InManage基于日志、指標、關系鏈等高維數(shù)據(jù),能夠進行特征構建、算法優(yōu)化及模型訓練、結合業(yè)界領先的運維專家?guī)?,實現(xiàn)對CPU、內(nèi)存、硬盤,PCIe等設備故障的精準定位和故障預測,故障診斷率達到95%以上,其中,硬盤故障預測可提前15天感知風險,內(nèi)存故障預測準確率提高30%。InManage基于自研的ETF無閾值告警算法,支持服務器集群性能和容量無閾值告警,告警準確率高達95.26%,極大提升數(shù)據(jù)中心運維效率。
  • 智能配置管理:InManage 基于在線鏡像平臺實現(xiàn)服務器全量固件智能匹配和自動推送,遵循業(yè)務策略智能升級,實現(xiàn)零人工干預,升級效率800%。依托多年服務器運維經(jīng)驗和多行業(yè)客戶需求,內(nèi)置數(shù)百種開箱即用模板,涵蓋全量固件升級、BIOS/BMC/RAID配置、電源策略、操作系統(tǒng)安裝、壓力測試、應用部署等運維場景,基于可視化編排,實現(xiàn)大規(guī)模服務器一站式智能上架和業(yè)務自動上線交付,有效地保障數(shù)據(jù)中心快速投產(chǎn)、可靠運行。
  • 智能化能耗分析:InManage打通動環(huán)和IT能耗數(shù)據(jù),通過多種智能化算法和模型,提供豐富的功耗策略,完成數(shù)據(jù)中心能耗優(yōu)化和碳排放管理,實現(xiàn)機架密度優(yōu)化,數(shù)據(jù)中心能耗調(diào)整可視化。同時InManage可分析用戶服務器功耗和溫度分布范圍提供制冷方案,優(yōu)化機房環(huán)境;分析數(shù)據(jù)中心空載服務器及服務器負載運行時間分布,優(yōu)化業(yè)務系統(tǒng);優(yōu)化配置能源使用策略,管理服務器的功耗,能耗降低 15-20%。有效降低數(shù)據(jù)中心PUE,助力數(shù)據(jù)中心碳中和目標,推動綠色數(shù)據(jù)中心建設。

目前,浪潮信息InManage在海內(nèi)外收獲了廣泛的客戶認可,正在為全球互聯(lián)網(wǎng)、金融、通信、IT、教科研等用戶的數(shù)據(jù)中心提供全程無憂的運維服務。在科研高校,借助InManage平臺,助力高校數(shù)據(jù)中心實現(xiàn)了服務器的智能化、一體化管理,運維成本降低50%,但整個數(shù)據(jù)中心的運維效率提高了10倍以上。在某世界TOP級銀行巨頭的數(shù)據(jù)中心,浪潮信息以"主備HA模式"部署InManage平臺,管理規(guī)模超過10萬節(jié)點,管理各項參數(shù)指標超過300萬,覆蓋了數(shù)據(jù)中心設備的所有組件,幫助該行數(shù)據(jù)中心運維效率實現(xiàn)3倍提升,保障業(yè)務穩(wěn)定可靠運行。

在日新月異的數(shù)字化創(chuàng)新環(huán)境中,浪潮信息正在持續(xù)推進InManage的技術創(chuàng)新與場景化落地,助力數(shù)據(jù)中心運維效率、質(zhì)量的提升,為更多企業(yè)的數(shù)字化轉(zhuǎn)型賦能。

消息來源:浪潮信息
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection