浪潮參加第十三屆國際性能工程學(xué)大會以性能優(yōu)化應(yīng)對數(shù)據(jù)挑戰(zhàn)

浪潮

2022-04-18 10:59 6709

北京2022年4月18日 /美通社/ -- 4月9日-13日，第十三屆國際性能工程學(xué)大會（ICPE2022）在線召開，大會由國際計(jì)算機(jī)協(xié)會ACM和標(biāo)準(zhǔn)性能評估組織SPEC聯(lián)合舉辦,高效能服務(wù)器和存儲技術(shù)國家重點(diǎn)實(shí)驗(yàn)室承辦。此次大會吸引了300余位專家、學(xué)者報(bào)名參與，共收到各類投稿290余篇，涉及AI建模及算法、算力提升、能效測量、新型計(jì)算架構(gòu)、體系結(jié)構(gòu)研究等多個(gè)主題。其中專業(yè)論文70余篇，包含優(yōu)秀論文58篇，論文集收錄22篇。會議期間還舉辦了6場專題研討會，涵蓋基準(zhǔn)測試、存儲管理、軟件開發(fā)等多個(gè)領(lǐng)域。

首次引入數(shù)據(jù)挑戰(zhàn)專題，評估數(shù)據(jù)算法優(yōu)化對服務(wù)器性能的提升情況

相對于傳統(tǒng)應(yīng)用來講，在云、邊、AI等新興領(lǐng)域，數(shù)據(jù)中心的首要性能挑戰(zhàn)主要來自不斷增長的數(shù)據(jù)規(guī)模，系統(tǒng)內(nèi)的數(shù)據(jù)流動(dòng)制約了大規(guī)模、超大規(guī)模系統(tǒng)計(jì)算的效能，提高了系統(tǒng)部署及維護(hù)的復(fù)雜度和成本。根據(jù)國際權(quán)威機(jī)構(gòu)Statista的統(tǒng)計(jì)和預(yù)測，2020年全球數(shù)據(jù)產(chǎn)生量預(yù)計(jì)達(dá)到47ZB，而到2035年這一數(shù)字將達(dá)到2142ZB。數(shù)據(jù)挑戰(zhàn)帶來的直觀問題是超大規(guī)模系統(tǒng)的協(xié)同，即如何解決數(shù)據(jù)流動(dòng)、系統(tǒng)模塊之間的通信問題。為此，ICPE2022首次引入數(shù)據(jù)挑戰(zhàn)專題，針對數(shù)據(jù)集形成算法并進(jìn)行優(yōu)化，同時(shí)優(yōu)化服務(wù)器的性能。

來自沃爾茨堡大學(xué)的André Bauer教授介紹了一種性能改變點(diǎn)的自動(dòng)分類方法，通過應(yīng)用時(shí)間序列分析和機(jī)器學(xué)習(xí)方法，開發(fā)一個(gè)可以對潛在的性能變化點(diǎn)進(jìn)行分類的模型，以評估不同機(jī)器學(xué)習(xí)模型的性能，并將生成的模型應(yīng)用于其他未標(biāo)記的數(shù)據(jù)集，以自動(dòng)對性能變化點(diǎn)進(jìn)行分類和檢測，從而節(jié)省人力及設(shè)備資源，提升部署速度。

專家分享研究實(shí)踐成果，從邊緣到集群的性能優(yōu)化

在大會Keynote演講環(huán)節(jié)，來自維也納理工大學(xué)、谷歌及浪潮信息的三位演講嘉賓，分別從邊緣故障預(yù)測、數(shù)據(jù)中心管理、多層數(shù)據(jù)訪問優(yōu)化的角度介紹了應(yīng)對數(shù)據(jù)挑戰(zhàn)所采取的方案。

維也納理工大學(xué)教授Ivona Brandic（IEEE 云計(jì)算雜志、IEEE TPDS 和 IEEE TCC 編委），在題為《面向可持續(xù)和容錯(cuò)邊緣系統(tǒng)的數(shù)據(jù)科學(xué)驅(qū)動(dòng)方法》演講中，揭示了邊緣系統(tǒng)與物聯(lián)網(wǎng)相結(jié)合的挑戰(zhàn)：由于時(shí)效性、高度異構(gòu)性和資源稀缺，云計(jì)算或通用分布式系統(tǒng)設(shè)計(jì)的故障恢復(fù)機(jī)制無法應(yīng)用于邊緣系統(tǒng)。因此，Ivona Brandic和她的團(tuán)隊(duì)設(shè)計(jì)了一種基于機(jī)器學(xué)習(xí)的新機(jī)制，可以評估在邊緣基礎(chǔ)設(shè)施上冗余部署的服務(wù)故障恢復(fù)能力。該方法利用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(dbn)的概念，學(xué)習(xí)邊緣服務(wù)器故障之間的時(shí)空相關(guān)性，并將其與拓?fù)湫畔⑾嘟Y(jié)合，以合并鏈路故障。最后，可推斷出在服務(wù)運(yùn)行時(shí)，某一組服務(wù)器發(fā)生故障或并發(fā)斷開連接的概率。

SOSP、FAST、EuroSys和HotCloud的程序委員會主席，John Wilkes，長期從事谷歌計(jì)算基礎(chǔ)設(shè)施集群管理工作，發(fā)表主題為《構(gòu)建倉庫規(guī)模的計(jì)算機(jī)》的演講，他介紹谷歌內(nèi)部面對幾個(gè)月內(nèi)增加100000 個(gè) CPU 內(nèi)核 + RAM + 閃存 + 加速器 + 磁盤的需求，可以動(dòng)態(tài)地將資源分配給最迫切需要它們的產(chǎn)品組，準(zhǔn)確地反映所有機(jī)器和基礎(chǔ)設(shè)施的成本（運(yùn)營支出/資本支出），并監(jiān)控、控制數(shù)據(jù)中心的電源和冷卻系統(tǒng)以實(shí)現(xiàn)最小的開銷。

浪潮信息人工智能與高性能應(yīng)用軟件部高性能應(yīng)用架構(gòu)師，李龍翔博士發(fā)表主題為《多層數(shù)據(jù)訪問優(yōu)化》的演講。隨著近年CPU核心數(shù)增加及性能的不斷增強(qiáng)，在超大規(guī)模系統(tǒng)并行計(jì)算時(shí)，越來越多的應(yīng)用運(yùn)行性能主要受數(shù)據(jù)訪問速度限制。針對超大規(guī)模集群的數(shù)據(jù)存儲特點(diǎn)，他介紹了一種多層數(shù)據(jù)訪問 (Multi-Layered Data Access，MLDA) 優(yōu)化方法，可以快速對超大規(guī)模并行計(jì)算性能瓶頸進(jìn)行分析，通過對存儲、網(wǎng)絡(luò)、訪存、CPU等設(shè)備數(shù)據(jù)訪問過程優(yōu)化，提升超大規(guī)模集群并行計(jì)算效率。這只是浪潮信息解決超大規(guī)模系統(tǒng)挑戰(zhàn)多種技術(shù)之一，在中文巨量模型"源1.0"的訓(xùn)練過程中，浪潮信息采用了多種面向超大規(guī)模并行計(jì)算技術(shù)的軟硬件協(xié)同優(yōu)化手段，通過流水線并行、張量并行等手段自動(dòng)地將模型多層數(shù)據(jù)切分到不同的節(jié)點(diǎn)中實(shí)現(xiàn)并行。"源1.0"模型包含的參數(shù)總量達(dá) 2457 億，是 GPT-3 的 1.404 倍。

除主題演講之外，分論壇內(nèi)容同樣精彩

學(xué)術(shù)論文獲獎(jiǎng)?wù)?，來自猶他大學(xué)的Richard Li表示，對于基于分布式微服務(wù)的應(yīng)用程序來說，性能故障排除是出了名的困難。分析人員對性能異常的典型根源診斷首先是縮小慢速服務(wù)的范圍，調(diào)查慢速組件中的高級性能指標(biāo)或可用日志，最后深入到實(shí)際原因。由于缺乏領(lǐng)域知識和實(shí)際操作經(jīng)驗(yàn)，這個(gè)過程可能會很長、很乏味，有時(shí)還會漫無目的。在本次大會中，他介紹了一種新的由機(jī)器學(xué)習(xí)驅(qū)動(dòng)的性能分析系統(tǒng)，該系統(tǒng)可自動(dòng)化與延遲相關(guān)的性能異常的故障排除過程，以方便診斷和解釋根本原因。

來自于IBM的Lixiang Luo為本次大會的產(chǎn)業(yè)論文獲獎(jiǎng)?wù)?，他提出的三種NVMe存儲虛擬化方法（PCI設(shè)備直通法、虛擬塊設(shè)備法和SPDK虛擬主機(jī)目標(biāo)法）通過虛擬機(jī)提供NVMe存儲，同一主機(jī)上的多個(gè)虛擬機(jī)可以共用一個(gè)物理NVMe設(shè)備，以滿足現(xiàn)代工作負(fù)載不斷增長的I/O吞吐量和延遲需求。

消息來源：浪潮