北京2023年9月28日 /美通社/ -- 近日,大模型智算軟件棧 OGAI 發(fā)布會在北京開幕,作為大模型智算軟件棧的重要基座,會上重磅發(fā)布了大模型算力服務的智能算力底座--智算 OS。智算 OS 是面向大模型算力服務的智能算力運管平臺,通過池化通用、智能等算力,滿足多租戶彈性 AI 算力供給需求,不斷驅動產業(yè) AI 轉型升級,為百行千業(yè)開啟智慧算力新征程。
OGAI,即 Open GenAI Infra 元腦生智,是為大模型業(yè)務提供 AI 算力系統(tǒng)環(huán)境部署、算力調度以及開發(fā)管理能力的全棧全流程的智算軟件棧。
基于全棧全流程、算力充分釋放、實戰(zhàn)驗證提煉等設計理念,OGAI 分為 L0-L4 共5層,旨在為大模型開發(fā)與應用全力打造高效生產力。浪潮云海智算 OS 作為智算軟件棧的基座,能夠滿足多租戶以裸金屬為主的彈性 AI 算力運管需求。其中,高效的裸金屬服務支持分鐘級部署上千規(guī)模裸金屬節(jié)點,并按需進行彈性擴展,實現異構計算芯片、IB、RoCE 高速網絡、高性能存儲等環(huán)境一鍵獲取,并實現計算、網絡、數據隔離以保障業(yè)務安全。
智算 OS 是智算中心的基礎底座
作為智慧算力時代的典型應用,AIGC(人工智能生成內容)自出現起便備受關注,也大大加速傳統(tǒng)數據中心向“智算中心”的轉型進程。智算中心不僅需要提供通用算力,還需具備GPU、DPU、FPGA 等多元異構算力,并且能夠根據用戶的不同需求,提供算力的發(fā)放或售賣服務。
智算 OS 聚焦智算中心場景,在融合云、服務器、存儲、網絡、AI 等基礎設施產品的基礎上,整合各類算力資源,為智算中心提供基礎硬件設施以及云、數、智等軟件平臺的統(tǒng)一運營、運維門戶和智能管理,幫助企業(yè)解決智慧算力時代的種種難題,滿足互聯網、教科研、金融等行業(yè)客戶智算中心建設及運營運維需求。
通過算力的生產、聚合、調度和釋放,幫助企業(yè)高效開發(fā)專屬大模型,形成與企業(yè)適配的 AI 開發(fā)模式,助力生成式 AI 落地。
在大模型場景下,通過智算 OS 統(tǒng)一化算力平臺,能夠簡便靈活獲取 GPU 裸金屬服務,分鐘級即可部署上千規(guī)模裸金屬服務器,按需進行彈性擴展。異構計算芯片、IB、RoCE 高速網絡、并行存儲等計算環(huán)境,一鍵獲取,計算、網絡、數據、隔離保障業(yè)務安全,像虛擬機一樣易用,充分釋放算力潛能。
智算 OS 最大化提升資源利用率
在用戶場景中,常出現通用算力、AI 算力獨立建設,這會導致一系列問題:
智算 OS 支持通用算力、智能算力等多種異構算力統(tǒng)一納管,并采用彈性計算框架,實現資源彈性調度和多租戶體系。根據租戶使用情況,自動分配和調度資源,大幅降低資源使用的等待時間。按照用戶實際情況進行邏輯體系規(guī)劃,實現不同租戶體系間資源隔離,保障數據安全性。通過自動化運維能力,降低對運維人員的專業(yè)性要求和運維復雜度,幫助用戶將主要精力集中在 AI 開發(fā)中,真正實現降本增效。
智算 OS 最大化提升模型訓練效率
針對 AI 大模型訓練的計算特點,智算 OS 對集群架構、高速互聯、算力調度等方面進行全面優(yōu)化,在系統(tǒng)架構上,采用單節(jié)點集成 8 顆加速器的 AI 服務器,節(jié)點內加速器間實現超高速 P2P 通信,節(jié)點間建立極低延遲、超高帶寬的 Infiniband 通信網絡。
在大模型訓練技術層面,成功運用了中文巨量 AI 模型“源1.0”的訓練優(yōu)化經驗,對分布式訓練策略進行了針對性優(yōu)化,通過合理設計張量并行、流水并行和數據并行,精準調整模型結構和訓練過程的超參數,最終實現千億參數規(guī)模AI大模型的訓練算力效率達到53.5%,刷新了業(yè)內 AI 大模型訓練算力效率新高。
智算 OS 促進算力運營
為了保證模型開發(fā)資源的正常供給,企業(yè)通常會考慮算力高峰、低谷的現象,額外購置部分算力設備作為冗余,造成算力資源的閑置浪費和成本支出。
智算 OS 提供商業(yè)化的算力租賃服務,可通過互聯網出售算力服務,并配合內置商業(yè)化計費系統(tǒng),對資源使用情況進行精確計費,提供按需計費、包年包月等多樣化計費套餐,幫助企業(yè)快速建成成熟的算力售賣體系,實現閑置算力資源的最大化價值輸出。
目前智算 OS 已經廣泛應用于多個省市級智算中心,全棧訓練出 2 個 LLM 大模型,具備豐富建設調優(yōu)經驗,為千行百業(yè)提供高效的算力支撐。