AICC AI Infra技術創(chuàng)新圓桌共話大模型時代的掘金利器

浪潮信息

2023-12-20 19:03 8738

北京2023年12月20日 /美通社/ -- 2023年大模型智能應用涌現(xiàn)，帶來了大模型工程實踐的爆發(fā)，在大模型進一步落地應用過程中，AI Infra作為連接硬件和上層應用的中間層基礎設施，無疑是關鍵的一環(huán)。

近日，AICC 2023人工智能計算大會上，量子位主編方馭洋主持“AI Infra：大模型時代掘金利器”圓桌論壇，與浪潮信息AI應用架構師朱紅、潞晨科技副總裁梁爽、始智AI wisemodel創(chuàng)始人兼CEO劉道全、無問芯穹商務副總裁李楓，圍繞大模型時代AI Infra概念、行業(yè)地位、發(fā)展挑戰(zhàn)和多元化算力等關鍵問題展開思想碰撞。

與會嘉賓指出，AI Infra是支撐AI和大模型的底座，大模型訓練和推理是復雜的系統(tǒng)工程，需要在硬件、軟件以及訓練、推理等各個層面和角度深入優(yōu)化，解決算力成本、訓練門檻和多元化算力等挑戰(zhàn)，發(fā)揚開源思想，推動人工智能快速發(fā)展。

以下是圓桌論壇問答實錄：

主持人：目前AI Infra的概念并不統(tǒng)一，有人把它定義為AI所需要的全部硬件基礎設施，有人強調(diào)它是算力層跟應用層之間的軟件堆棧，請問各位如何定義AI Infra？在當前整個AI產(chǎn)業(yè)當中，扮演著什么樣的角色？

朱紅：從業(yè)界角度來說，大家認為AI Infra是硬件之上的軟件層。從浪潮信息的角度來看，應用層之下的硬件、軟件都可以納入AI Infra中，也可以稱之為AI中臺或者AI平臺。

AI Infra在整個AI產(chǎn)業(yè)中起著承上啟下的作用，因為AI由算力驅(qū)動，而算力的發(fā)揮取決于AI Infra層。

梁爽：我覺得AI Infra包含硬件、軟件。大模型一般需要在成千上萬的計算卡上進行分布式訓練，用戶如果采用原生軟硬件方案，在海量參數(shù)的情況下可能會出現(xiàn)顯存溢出，很難把硬件的利用效率發(fā)揮出來。通過數(shù)據(jù)并行、張量模型并行、流水線并行等方式，AI Infra為客戶提供更強的計算能力，能夠在大模型訓練時高效地把分布式硬件利用起來。同時，訓練大模型的成本可能高達上千萬，我們的AI Infra目標是把訓練成本減少一半、時間減少一半，這也是用戶關心的點。

劉道全：AI Infra還有一個更寬泛的范圍，除了前面已提到軟硬件系統(tǒng)，還包括網(wǎng)絡、存儲等硬件和軟件等。大模型的訓練、推理是一個系統(tǒng)工程，需要在計算、網(wǎng)絡、存儲等各個層面優(yōu)化，才能更好地把性能和效率發(fā)揮出來。

從大模型社區(qū)的角度來說，我們現(xiàn)在更多地把模型和數(shù)據(jù)集匯聚起來，后續(xù)還會把應用開發(fā)層、模型訓練、部署和推理等相關的開源工具軟件也匯聚起來，讓大家更容易地獲取和使用，提升工作效率。

李楓：在我們看來，AI Infra是支撐以大模型為代表的AI技術的底座，包括硬件、軟件、工具鏈和優(yōu)化方法等，是一個整體解決方案。無問芯穹成立剛剛半年，此前我們公開露面不是很多，業(yè)內(nèi)很多朋友記得我們團隊，就是從“M×N”開始的。我們在AI Infra上，著眼于軟硬一體的整體解決方案，做從算法到芯片、從芯片集群到模型、再從模型到應用的三階段“M×N”中間層產(chǎn)品，一方面幫助AI開發(fā)者們克服目前多元異構算力初階軟件生態(tài)，以及異構算力池的影響，另一方面依托我們行業(yè)領先的AI計算優(yōu)化能力，助力提高算力的供給水平、持續(xù)降低計算成本、提高大模型的落地能效。

主持人：隨著大模型熱潮的到來，大家對于大模型工程實踐有了更明確的認知。大模型訓練和推理是一件非常復雜的事情，需要很多基礎設施作為支撐，也正因為此，AI Infra越來越受到關注，請各位嘉賓談談大模型應用面臨哪些挑戰(zhàn)？

朱紅：效率是大模型應用的核心挑戰(zhàn)，包括剛才提到延遲、速度等都屬于效率范疇。浪潮信息認為效率需要從橫向和縱向來看，首先是縱向的效率是AI計算平臺的效率如何發(fā)揮出來，是大家非常關心的點；第二，橫向的效率亦即穩(wěn)定性，無論是訓練還是推理都能夠長期運行，這是保障。

浪潮信息的很多工作聚焦在這兩個層面，也就是怎么解決縱向和橫向的效率問題，然后去推動大模型的落地應用，這是我們服務客戶過程中發(fā)現(xiàn)的挑戰(zhàn)和解決思路。

梁爽：對于客戶來說，AI大模型應用的挑戰(zhàn)包括推理延遲、推理速度，以及如何減少推理參數(shù)，還有一些量化技術。在終端應用場景，比如像“智能座艙”，客戶對于硬件的需求更為敏感，現(xiàn)在智能駕駛大多數(shù)采用高通芯片，能不能實現(xiàn)大模型推理、推理能不能達到主流加速卡的效果，這對于相關應用來說都是非常重要的。這種終端場景的硬件算力是有限的，又牽扯到模型壓縮技術和推理優(yōu)化，我們也在做推理方面的研發(fā)工作。

劉道全：大模型應用最大的問題是應用跟模型的脫節(jié)。因為最終到應用層面，需要從業(yè)務角度去考慮?，F(xiàn)實是應用方面的人員大都不懂模型，而模型方面人員多數(shù)也很難體會實際應用場景。大模型廠商都想著怎么把模型的通用能力提升起來，但是對應用的理解和認知其實可能遠遠不夠。無論是ToB應用還是ToC應用，每個環(huán)節(jié)和流程都有很多的業(yè)務知識在里面，怎么把這一部分業(yè)務知識跟模型能力結合起來，就需要應用和模型開發(fā)人員共同參與進來，可能才能真正的解決問題，做出好的應用。

現(xiàn)階段始智AI是從社區(qū)切入，能夠更多地了解行業(yè)需求，不管是應用端的需求，還是模型層等的需求，最終是希望打通大模型應用開發(fā)的環(huán)節(jié)，讓后續(xù)應用開發(fā)環(huán)節(jié)不再需要關心模型怎么調(diào)，模型相關事務都可以在平臺上基本自動化的完成，做到應用跟模型的分離。這里涉及很多中間環(huán)節(jié)，我們也可以跟潞晨科技、無問芯穹等中間各方合作，一起把中間的環(huán)節(jié)串起來，讓更多的人更方便地使用大模型。

在這個過程中，開源社區(qū)就有重要地位和作用。開源社區(qū)是行業(yè)信息的匯集地，在從應用到底層的框架到更底層芯片的架構中起到承上啟下的作用。大模型和中間工具軟件最終還是需要落地應用才能創(chuàng)造價值，整個過得始終離不開社區(qū)承上啟下的作用。我們未來不會自己去做應用，還是希望在中間聯(lián)合更多合作伙伴把大模型應用開發(fā)的環(huán)節(jié)打通，最后讓應用變得簡單，讓AI落地也更簡單。

李楓：因為大模型落地成本很高，做推理很貴，大部分人接受不了這個價格，我們利用軟硬一體化優(yōu)勢，首先把成本降下來，其次軟硬一體化能夠發(fā)揮異構算力潛能，可以把模型開發(fā)訓練門檻降低，讓更多創(chuàng)造者有能力進入這個領域，這是我們的考慮。

另外，大模型如果想真正在行業(yè)落地，還需要行業(yè)數(shù)據(jù)。這時候一定需要軟硬結合，才能去做行業(yè)落地的完整方案，而非僅依靠模型。因為一個模型的落地，不足以實現(xiàn)一個場景。

主持人：看來大模型應用和普及的核心關鍵是“效率”，各位嘉賓都有著豐富的一線實踐經(jīng)驗，請大家分享一下真正降低大模型普及門檻的著力點，技術或者是生態(tài)領域都可以談一談。

梁爽：開源大模型框架系統(tǒng)是我們推動大模型應用和普及的實際行動，也填補了國內(nèi)相關技術空白。AI之所以發(fā)展的如火如荼，與開源精神和無數(shù)開源社區(qū)貢獻者密不可分。潞晨科技開源大模型框架，也是希望能夠把研發(fā)成果共享給大家，讓AI能夠發(fā)展的更好，降低AI的門檻，提升生產(chǎn)力。

劉道全：首先，解決剛才提到的應用跟模型脫節(jié)的問題，關鍵是促進應用層和模型層之間的互動交流，這需要讓更多應用場景里的人參與到大模型應用的開發(fā)中。

第二，數(shù)據(jù)質(zhì)量比較好的場景，也是大模型落地更容易的方向，比如銀行、金融、電商等領域，還有工業(yè)領域已經(jīng)實現(xiàn)IoT數(shù)據(jù)采集和自動化的場景等，總體上有了高質(zhì)量的數(shù)據(jù)，就有大模型應用落地更好的基礎。

第三，目前大模型應用的聚焦點更多的還是AI技術領域，而對于核心場景應用需求的挖掘還不夠，未來在應用場景和需求方向上做更多的探索。

主持人：除了開源軟件包括框架層面的進展，我們現(xiàn)在面臨著一個很大問題，就是算力的緊缺，從軟硬件結合角度，有哪些可以努力改進的地方？

朱紅：開源確實是促進AI產(chǎn)業(yè)發(fā)展、推動行業(yè)落地的很關鍵的一步，對于整個產(chǎn)業(yè)推動也是很大。浪潮信息目前也在嘗試把自身工作以類似的方式推出去，加速大模型的應用和普及，降低行業(yè)應用門檻。

李楓：針對算力緊缺的問題，首先要“把能用的算力用得更好”，可以從推理端進行更多量化，通過減少模型的存儲空間和計算需求來提高推理效率，使得同樣算力可以跑更多的模型。第二，“把以前利用不了的算力用起來”，也就是對于模型訓練考慮異構化，通過異構計算平臺把更多的算力使用起來。

主持人：當前大模型訓練等底層支撐面臨算力多元化的挑戰(zhàn)，現(xiàn)在從AI Infra層面考慮還是要做更多元化的適配。目前各位是否有相關技術布局？

朱紅：多元算力支撐是現(xiàn)在非常熱的話題，也是浪潮信息持續(xù)關注的方向。我們兩年前發(fā)布“源 1.0”大模型之后，就開始考慮在推理階段適配更多推理硬件，也落地了一些實際工作，能夠把當時百億規(guī)模模型，高效地推理跑起來。現(xiàn)在，“源 2.0”也在做各種硬件適配。

當然，模型訓練也是我們重點關注的方向，我們也在與比較有潛力的算力提供方進行更多優(yōu)化工作，也引入了開源工作。目的是希望無論是商業(yè)化軟硬件方案，還是硬件+開源軟件的方案，我們都能夠支持用戶又快又好地把訓練、推理跑起來。

梁爽：我們已經(jīng)適配了比較多的硬件。相比國外，國內(nèi)的多元算力在算子數(shù)量、生態(tài)系統(tǒng)等方面確實存在差距。這時，就需要多元算力廠商和用戶一起去做研發(fā)適配，爭取能夠盡快地趕上。

劉道全：適配工作其實并不是我們自己去做，我們目前和一些多元算力廠商的探索更多是生態(tài)層面的合作。社區(qū)可以作為一個很好的入口，讓大家可以先體驗一下多元算力的能力，這也是比較重要，特別是很多偏應用的中小企業(yè)，很多可能還沒有使用過多元算力。體驗之后才能更好地了解相關芯片在推理和訓練方面的能力。

李楓：我們的布局核心是“M×N”中間層。其中“M”和“N”都是指多元適配，在硬件側支持多種芯片，在模型側支持多種大模型，這一中間層具備大模型推理引擎、訓練引擎、異構算力評測等能力，使大模型算法能運行在多種芯片上，并實現(xiàn)最優(yōu)訓練與推理效率，相當于是在大模型和不同芯片之間搭建了橋梁。

消息來源：浪潮信息