CCF信息存儲技術(shù)專委會走進(jìn)浪潮信息 共話大模型時代的存儲創(chuàng)新之道
北京2024年6月7日 /美通社/ -- 近日,中國計算機(jī)學(xué)會信息存儲技術(shù)專業(yè)委員會(CCF信息存儲技術(shù)專委會)首場“走進(jìn)企業(yè)”活動啟動,來自CCF信息存儲技術(shù)專委會、清華大學(xué)、北京大學(xué)、華中科技大學(xué)、華東師范大學(xué)、上海交通大學(xué)、上海理工大學(xué)等單位的十余位存儲領(lǐng)域?qū)<摇W(xué)者走進(jìn)浪潮信息,在“大模型時代數(shù)據(jù)中心存儲技術(shù)創(chuàng)新和應(yīng)用”的會議主題下,分別就“以數(shù)據(jù)為中心的存儲技術(shù)協(xié)同創(chuàng)新”和“大模型新應(yīng)用的存儲技術(shù)挑戰(zhàn)與探索”兩個核心議題,共同探討了在存儲架構(gòu)創(chuàng)新、近數(shù)據(jù)計算、多協(xié)議融合互通、GPU直通存儲、故障預(yù)測等多個領(lǐng)域的前沿技術(shù)創(chuàng)新和產(chǎn)業(yè)洞察。
“以數(shù)據(jù)為中心”加速到來,存儲架構(gòu)亟待創(chuàng)新
隨著數(shù)字化、智能化的加速發(fā)展,社會產(chǎn)生的數(shù)據(jù)量呈現(xiàn)出爆炸式增長。IDC報告顯示,中國數(shù)據(jù)量規(guī)模將從2022年的23.88ZB增長至2027年的76.6ZB,年均增長速度(CAGR)達(dá)到26.3%,為全球第一。同期,全球數(shù)據(jù)量規(guī)模預(yù)計增長一倍以上,到2027年將達(dá)到284.3ZB,年均增長速度(CAGR)達(dá)到22.6%。當(dāng)數(shù)據(jù)變成重要的生產(chǎn)要素,其價值釋放正加速“以數(shù)據(jù)為中心”的到來,這對存儲架構(gòu)創(chuàng)新提出了新的要求。
浪潮信息存儲產(chǎn)品線首席架構(gòu)師孫斌認(rèn)為,作為數(shù)據(jù)的主要載體,數(shù)據(jù)中心呈現(xiàn)出大型集約化、邊緣分散化的發(fā)展趨勢,未來數(shù)據(jù)中心將實現(xiàn)“人機(jī)物”三元智聯(lián)融合,提供全面服務(wù)且資源利用率趨向最優(yōu)。但是,隨著數(shù)據(jù)中心應(yīng)用多樣化與計算多元化的疊加,亟需一套新型存儲架構(gòu)來實現(xiàn)均衡全能存儲服務(wù),通過融合軟硬件協(xié)同設(shè)計,實現(xiàn)介質(zhì)、軟件和數(shù)據(jù)的分離,從而可組合可共享,最終靈活支撐全場景綜合負(fù)載。
北京大學(xué)助理教授張杰認(rèn)為,存儲架構(gòu)創(chuàng)新將是一個長期性、持續(xù)性工程,最終是要解決所謂的“存儲墻”問題。以數(shù)據(jù)為中心要求計算圍著數(shù)據(jù)轉(zhuǎn),以減小數(shù)據(jù)搬運(yùn)帶來的性能瓶頸以及功耗,但馮·諾依曼架構(gòu)是一個以計算為中心的架構(gòu),數(shù)據(jù)搬運(yùn)已然成為當(dāng)下大數(shù)據(jù)、大規(guī)模應(yīng)用所面臨的最大的問題。
華中科技大學(xué)的劉海坤教授提出,基于新型高速互連總線CXL實現(xiàn)單機(jī)內(nèi)存擴(kuò)展和分布式內(nèi)存擴(kuò)展,可以較好地解決大規(guī)模數(shù)據(jù)處理特別是大模型應(yīng)用面臨的“內(nèi)存墻”問題,可能顛覆未來數(shù)據(jù)中心架構(gòu),推動存算融合向存算分離演進(jìn),同時使能以數(shù)據(jù)為中心的CPU、GPU、FPGA間的對等計算。但是,劉海坤也指出,目前CXL總線面臨體系結(jié)構(gòu)、操作系統(tǒng)、編程模型等多方面的挑戰(zhàn),產(chǎn)業(yè)技術(shù)生態(tài)有待進(jìn)一步完善。
Storage for AI,AI for Storage,推動大模型與存儲的雙向進(jìn)化
如果說數(shù)據(jù)中心是數(shù)據(jù)的“集散地”,那么大模型就是數(shù)據(jù)的“掘金場”。隨著大語言模型(LLM)以及生成式AI的飛速發(fā)展,數(shù)據(jù)規(guī)模和質(zhì)量對模型精度的價值日趨凸顯,這也推動存儲技術(shù)成為提升人工智能生產(chǎn)力的關(guān)鍵環(huán)節(jié),直接關(guān)乎到人工智能整體落地水平。同時,人工智能技術(shù)的進(jìn)步,也正向回饋于存儲技術(shù)創(chuàng)新之中,帶動了智能化存儲技術(shù)的發(fā)展。Storage for AI,AI for Storage,大模型與存儲呈現(xiàn)出雙向進(jìn)化。
大模型開發(fā)通常涵蓋數(shù)據(jù)歸集、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、應(yīng)用推理幾個流程階段,其中跨設(shè)備、跨中心的數(shù)據(jù)準(zhǔn)備往往耗時數(shù)周,同時大模型訓(xùn)練過程中存在海量的小文件讀取,小文件的讀寫性能較差,進(jìn)一步拉長了訓(xùn)練周期,對存儲系統(tǒng)的容量、性能、穩(wěn)定性等方面都帶來了巨大挑戰(zhàn)。
清華大學(xué)副教授陸游游表示,從大模型訓(xùn)練過程中反映出的數(shù)據(jù)特征來看,小文件讀取和帶寬的優(yōu)化是非常重要的。同時隨著模型參數(shù)量提升,對內(nèi)存、HBM顯存以及CXL遠(yuǎn)端內(nèi)存等多層次內(nèi)存的管理也變得更加重要,需要與計算更好地協(xié)同。此外,向量存儲、參數(shù)存儲等新興的存儲方式也需要予以關(guān)注。
浪潮信息一直深耕面向AIGC場景的新一代存儲平臺。通過全局緩存技術(shù),突破多模態(tài)小文件訓(xùn)練瓶頸,創(chuàng)新性提出多協(xié)議融合互通技術(shù),實現(xiàn)數(shù)據(jù)免遷移,構(gòu)建全局文件管理平臺,統(tǒng)一多源異構(gòu)存儲,數(shù)據(jù)管理更加便捷,引入GPU直通存儲技術(shù),大大縮短AI訓(xùn)練I/O路徑,提高大模型訓(xùn)練效率。此外,浪潮信息也積極地圍繞CXL2.0,QLC,PCIe Gen 5等新型硬件和協(xié)議等進(jìn)行全面的適配和優(yōu)化,提供更強(qiáng)大的存儲性能,助力大模型系統(tǒng)創(chuàng)新及AI應(yīng)用落地。
而在AI for Storage領(lǐng)域,人工智能在數(shù)據(jù)恢復(fù)、故障預(yù)測等場景中也體現(xiàn)出越來越高的技術(shù)價值。上海交通大學(xué)教授吳晨濤分享了分布式機(jī)器學(xué)習(xí)高可靠數(shù)據(jù)恢復(fù)機(jī)制的研究,包括分布式學(xué)習(xí)過程中硬盤故障恢復(fù)加速的研究以及故障和繁忙節(jié)點(diǎn)的混合全局圖恢復(fù)方法;華東師范大學(xué)教授石亮分享了面向大規(guī)模存儲場景的SSD故障預(yù)測及部署優(yōu)化技術(shù)研究,包括差異化的機(jī)器學(xué)習(xí)SSD故障預(yù)測研究和基于預(yù)測備份的RAID快速恢復(fù)技術(shù),主要針對當(dāng)前大規(guī)模閃存存儲系統(tǒng)故障預(yù)測性能不佳、故障恢復(fù)機(jī)制占用計算資源且速度慢的問題做了優(yōu)化。
浪潮信息作為本次活動的東道主,存儲產(chǎn)品線總經(jīng)理李輝對各位專家的到來表示熱烈歡迎,指出面向數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新與大模型應(yīng)用的存儲需求,業(yè)界與學(xué)界的深度對接和交流將進(jìn)一步拓展創(chuàng)新的邊界。CCF信息存儲技術(shù)專委會走進(jìn)浪潮信息活動的成功舉辦,將有助于加快信息存儲領(lǐng)域的學(xué)術(shù)創(chuàng)新到產(chǎn)業(yè)落地的轉(zhuǎn)化,推動數(shù)據(jù)成為新質(zhì)生產(chǎn)力的優(yōu)質(zhì)生產(chǎn)要素。