亞馬遜云科技：生成式AI發(fā)展的瓶頸在算力

亞馬遜云科技

2023-03-08 12:24 4531

北京2023年3月8日 /美通社/ -- 經(jīng)過60余年的等待，生成式AI（Generative AI）終于爆發(fā)了。

早在1957年，萊杰倫·希勒和倫納德·艾薩克森就完成了歷史上第一支由計算機創(chuàng)作的弦樂四重奏《伊利亞克組曲》。而生成式AI真正走向產(chǎn)業(yè)化發(fā)展則是在2022年。這一年，Stability AI獲得超過一億美元的融資，估值突破十億美元，并選擇亞馬遜云科技作為首選云供應(yīng)商，其提供的開源AI模型Stable Diffusion可以根據(jù)用戶輸入的文字自動生成圖片。Stability AI由此成為生成式AI領(lǐng)域第一家獨角獸企業(yè)。

Gartner預(yù)計，到2025年，大型企業(yè)機構(gòu)對外營銷信息中的合成信息比例將從2022年的不到2%上升到30%。

在生成式AI方面，亞馬遜云科技已經(jīng)深耕了很長時間，擁有成熟的生成式AI專屬解決方案，既提供經(jīng)過廣泛驗證且易于部署的先進AI算法模型，又提供豐富且高性價比的云端資源以優(yōu)化成本，旨在幫助游戲、電商、媒體、影視、廣告、傳媒等行業(yè)快速構(gòu)建生成式AI應(yīng)用通路，打造AI時代的領(lǐng)先生產(chǎn)力。

"從AI技術(shù)發(fā)展來看，生成式AI開啟了一次范式變遷。大模型、多模態(tài)、高算力和海量數(shù)據(jù)將主導(dǎo)新一輪科技范式的發(fā)展，為內(nèi)容、營銷、游戲等行業(yè)帶來顛覆性創(chuàng)新。"亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建表示，"亞馬遜云科技廣泛而深入的生成式AI專屬解決方案，以先進的性能、更優(yōu)的性價比和全面的服務(wù)賦能千行百業(yè)，助力各個規(guī)模的企業(yè)擁抱生成式AI的浪潮。"

降低成本，讓生成式AI觸手可及

亞馬遜云科技認為，目前生成式AI模型主要集中在文本和圖片生成，正在逐步滲透到音頻和視頻內(nèi)容生成，未來將出現(xiàn)越來越多的跨模態(tài)/多模態(tài)內(nèi)容生成。通用大模型更容易引發(fā)熱議，但對企業(yè)而言，針對特定場景的模型在成本和準確度方面都更具優(yōu)勢，也是目前企業(yè)主要采用的模型。芯片性能和高質(zhì)量訓(xùn)練既是生成式AI爆發(fā)的基礎(chǔ)，也是其實現(xiàn)飛躍式發(fā)展的瓶頸。

之前模型的參數(shù)量級可能是千級或百萬級，但今天擁有十億百億級參數(shù)的模型比比皆是，下一代模型有可能會朝著萬億級參數(shù)級別去發(fā)展。因此，降低大模型的成本至關(guān)重要。

雖然，機器學(xué)習(xí)的芯片差不多每兩年或每幾年就會有一倍或數(shù)倍的提升，但仍然不足以跟上訓(xùn)練模型復(fù)雜度的提升。替代的解決辦法就是利用分布式多處理器，通過一個網(wǎng)絡(luò)進行協(xié)同計算、協(xié)同訓(xùn)練。亞馬遜云科技專門為云中高性能模型訓(xùn)練而搭建的Trn1實例最多可以搭載16顆專門用于機器學(xué)習(xí)訓(xùn)練的Trainium芯片，512GB加速器內(nèi)存和800GBps的網(wǎng)絡(luò)帶寬。

Trn1是擁有高性價比的深度學(xué)習(xí)實例，與基于GPU的類似實例相比，訓(xùn)練成本降低了50%。以一個具備萬億級參數(shù)的大模型進行兩周訓(xùn)練為例，GPU服務(wù)器P3dn需要600個實例，最新一代GPU實例P4d需要128個實例，但Trn1只需要用96個實例。

2022亞馬遜云科技re:Invent全球大會推出了一款基于Trn1的網(wǎng)絡(luò)優(yōu)化型實例Trn1n，進一步把網(wǎng)絡(luò)帶寬增加一倍，從800GBps躍升到1600GBps，其強大的網(wǎng)絡(luò)吞吐能力能夠?qū)⒊^1萬個Trainium芯片構(gòu)建在一個超大規(guī)模集群里，并在集群中進行模型的并行訓(xùn)練。

除訓(xùn)練外，大模型也需要超高的推理能力。所以亞馬遜云科技構(gòu)建了Inf1實例，用自研的推理芯片Inferentia提供支持，實現(xiàn)低延時低成本的推理。Inf1實例和GPU的實例相比，每次推理成本可以降低70%。

亞馬遜云科技re:Invent全球大會還推出了下一代自研推理芯片Inferentia2以及基于此的Amazon EC2 Inf2實例。這是唯一一個專門為大型Transformer模型分布式推理建立的實例。與Inf1實例相比，它提供高達4倍的吞吐量，降低多達10倍的延遲，與基于GPU的實例相比，每瓦性能提升高達45%，同時也支持諸如GPT類型的大型復(fù)雜模型，并且可以用單實例實現(xiàn)1750億參數(shù)模型的推理。

行業(yè)先行者的最佳實踐

以AI繪畫走紅全球的Stability AI備受矚目，其開源AI模型Stable Diffusion自2022年8月推出以來，已經(jīng)被全球超過20萬開發(fā)者下載和授權(quán)。在算力需求方面，Stable Diffusion模型所需的算力硬件成本已超過5000萬美元。

Stability AI利用亞馬遜云科技上的大規(guī)模GPU集群和Amazon Trainium機器學(xué)習(xí)訓(xùn)練芯片組成的高性能計算集群來訓(xùn)練其生成式AI基礎(chǔ)模型，并通過云上模型訓(xùn)練的彈性來優(yōu)化成本，最終將其使用的GPT-NeoX等開源語言模型的訓(xùn)練時間和成本減少58%。

Qualtrics是一家設(shè)計和開發(fā)體驗管理軟件的公司。"Qualtrics的重點是借助技術(shù)創(chuàng)新縮小體驗差距。為實現(xiàn)這一目標，我們正在開發(fā)復(fù)雜的多任務(wù)、多模態(tài)的深度學(xué)習(xí)模型，包括文本分類、序列標記、話語分析、關(guān)鍵短語提取、主題提取、聚類以及端到端對話理解等。"Qualtrics 核心機器學(xué)習(xí)負責人 Aaron Colak 表示，"隨著我們在更多應(yīng)用程序中使用這些復(fù)雜的模型以及非結(jié)構(gòu)化數(shù)據(jù)量不斷增長，為給客戶提供最佳體驗，我們需要像Inf2 實例這樣性能更高的推理優(yōu)化解決方案來滿足我們的需求。我們很高興看到新一代 Inf2 實例的推出，它不僅讓我們實現(xiàn)更高的吞吐量，顯著降低延遲，而且還引入了分布式推理和支持增強的動態(tài)形狀輸入等功能。隨著我們部署更大、更復(fù)雜的模型，這將能進一步滿足我們對部署的更高要求。"

消息來源：亞馬遜云科技