加速生成式AI和高性能計算應用,由英偉達H100 Tensor Core GPU提供支持
北京2023年7月31日 /美通社/ -- 亞馬遜云科技近日在紐約峰會上宣布Amazon Elastic Compute Cloud(EC2)P5實例正式可用。這是一款下一代GPU實例,由最新的英偉達H100 Tensor Core GPU提供支持,可以滿足客戶在運行人工智能、機器學習和高性能計算工作負載時對高性能和高擴展性的需求。與上一代基于GPU的實例相比,Amazon EC2 P5實例可以將訓練時間縮減6倍(從幾天縮短到幾小時),從而幫助客戶節(jié)省高達40%的訓練成本。
Amazon EC2 P5實例提供8個英偉達H100 Tensor Core GPU,具有640 GB高帶寬GPU內存,同時提供第三代AMD EPYC處理器、2TB系統(tǒng)內存和30 TB本地NVMe存儲。Amazon EC2 P5實例還提供3200 Gbps的聚合網絡帶寬并支持GPUDirect RDMA,從而能夠繞過CPU進行節(jié)點間通信,實現(xiàn)更低的延遲和高效的橫向擴展性能。
亞馬遜云科技與英偉達攜手開發(fā)下一代基礎設施
亞馬遜云科技和英偉達(NVIDIA)在今年3月宣布了一項多方合作,構建全球最具可擴展性且按需付費的人工智能基礎設施,以便訓練日益復雜的大語言模型和開發(fā)生成式AI應用程序。
當時,亞馬遜云科技預發(fā)布了由英偉達H100 Tensor Core GPU支持的Amazon EC2 P5實例,可為構建和訓練更大規(guī)模的機器學習模型提供高達20 exaFLOPS的算力。亞馬遜云科技和英偉達合作十多年來成果頗豐,推出了包括支持視覺計算、人工智能和高性能計算集群的各種GPU實例,如CG1實例(2010年)、G2(2013年)、P2(2016年)、P3(2017年)、G3(2017年)、P3dn(2018年)、G4(2019年)、P4(2020年)、G5(2021年)和P4de(2022年)實例。
現(xiàn)在,機器學習模型的規(guī)模已經達到數萬億參數,這種復雜性大大增加了客戶訓練模型所需的時間,例如,最新的大語言模型訓練時間長達數月之久。類似的趨勢也出現(xiàn)在高性能計算領域。隨著高性能計算客戶數據收集準確度的提高以及數據集達到EB級規(guī)模,客戶已經在尋找解決日益復雜應用程序的更快方法。
關于Amazon EC2 P5實例
Amazon EC2 P5實例非常適合訓練和運行越來越復雜的大語言模型和計算機視覺模型,以滿足最苛刻的計算密集型生成式AI應用的需求,包括問答、代碼生成、視頻和圖像生成、語音識別等。與上一代基于GPU的實例相比,Amazon EC2 P5實例在這些應用中的訓練時間縮短了6倍。那些可以在工作負載中使用較低精度FP8數據類型的客戶,例如使用Transformer框架的語言模型,將通過英偉達Transformer Engine的支持獲得高達6倍的性能提升。
高性能計算客戶通過使用Amazon EC2 P5實例可以在藥物發(fā)現(xiàn)、地震分析、天氣預報和金融建模等領域更大規(guī)模地部署高要求的應用程序。此外,對于使用基于動態(tài)規(guī)劃(Dynamic Programming)算法進行基因組測序或加速數據分析等應用的客戶,Amazon EC2 P5將通過新的DPX指令集提供支持。
Amazon EC2 P5實例使客戶能夠探索以前看似無法解決的問題,更快地迭代解決方案,并加速進入市場。
第二代Amazon EC2 UltraClusters和Elastic Fabric Adapter
Amazon EC2 P5實例為多節(jié)點分布式訓練和緊密耦合的高性能計算工作負載提供先進的橫向擴展功能,其使用的第二代Elastic Fabric Adapter(EFA)網絡設備提供高達3200 Gbps的網絡速度,是Amazon EC2 P4d實例的8倍。
為了滿足客戶對大規(guī)模和低延遲的需求,Amazon EC2 P5實例部署在第二代Amazon EC2 UltraClusters中,該集群目前可在超過2萬個英偉達H100 Tensor Core GPU上為客戶提供更低的延遲。作為云中最大規(guī)模的機器學習基礎設施之一,Amazon EC2 UltraClusters中的Amazon EC2 P5實例可提供高達20 exaFLOPS的聚合計算能力。
Amazon EC2 UltraClusters使用了Amazon FSx for Lustre,這是一種完全托管的共享存儲,構建在常用的高性能并行文件系統(tǒng)上??蛻敉ㄟ^Amazon FSx for Lustre,可以按需大規(guī)??焖偬幚砗A繑祿崿F(xiàn)亞毫秒級延遲。Amazon FSx for Lustre的低延遲和高吞吐量特性經過優(yōu)化,可在Amazon EC2 UltraCluster上為深度學習、生成式AI和高性能計算工作負載提供支持。
Amazon FSx for Lustre可以為Amazon EC2 UltraCluster中的GPU和機器學習加速器持續(xù)提供數據,從而加速最苛刻的工作負載,包括大語言模型訓練、生成式AI推理,以及基因組學和金融風險建模等高性能計算負載。
Amazon EC2 P5實例現(xiàn)已正式可用
Amazon EC2 P5實例現(xiàn)已在以下區(qū)域正式可用:美國東部(北弗吉尼亞)和美國西部(俄勒岡)。更多信息可訪問:Amazon EC2定價和Amazon EC2 P5實例。
客戶也可以選擇亞馬遜云科技提供的各種內置生成式AI的云服務,它們都運行在具有成本效益的生成式AI云基礎設施上,助力客戶加快創(chuàng)新和重塑應用。更多信息請訪問亞馬遜云科技生成式AI頁面。