浪潮AI服務(wù)器NF5288M5獲年度創(chuàng)新產(chǎn)品獎

浪潮集團

2018-03-24 00:00 8782

3月22日，浪潮AI服務(wù)器NF5288M5在2018中國IT市場年會暨賽迪生態(tài)伙伴大會上榮獲2017年度創(chuàng)新產(chǎn)品獎。浪潮NF5288M5是目前業(yè)界唯一可在2U空間支持8顆NVlink2.0高速互聯(lián)GPU加速計算的AI服務(wù)器。

北京2018年3月24日電 /美通社/ -- 2018年3月22日，浪潮AI服務(wù)器NF5288M5在2018中國IT市場年會暨賽迪生態(tài)伙伴大會上榮獲2017年度創(chuàng)新產(chǎn)品獎。浪潮NF5288M5是目前業(yè)界唯一可在2U空間支持8顆NVlink2.0高速互聯(lián)GPU加速計算的AI服務(wù)器，能滿足AI云、深度學(xué)習(xí)模型訓(xùn)練和線上推理等各類AI應(yīng)用場景對計算架構(gòu)性能、功耗的不同需求。

2017年是人工智能應(yīng)用元年，從“阿爾法狗”以3比0戰(zhàn)勝了圍棋天才柯潔，到仿真機器人Sophia被授予國籍，人工智能正全面進入人類生活。無人超市、自動駕駛等技術(shù)應(yīng)用正在深刻改變這個世界。以人工智能、大數(shù)據(jù)為代表的新技術(shù)不斷應(yīng)用于工業(yè)、金融、物流、商貿(mào)、能源、教育、農(nóng)業(yè)等行業(yè)，AI計算的需求量將呈爆發(fā)式增長。然而當前市場上的AI計算平臺卻普遍面臨著通訊效率低下、平臺架構(gòu)僵化、計算密度低等問題。

AI計算平臺的瓶頸 -- 效率、彈性和密度

在AI訓(xùn)練中，通常采用CPU+GPU異構(gòu)計算架構(gòu)，CPU和GPU之間需要頻繁的通訊，分擔整個計算任務(wù)中不同的部分，而一旦通訊頻次過高，CPU和GPU就需要花費大量的時間進行相互通訊，嚴重影響整個計算架構(gòu)的效率。

目前市面上成熟的AI框架有十多種，像標準的圖像、語音、語意理解等神經(jīng)模型的數(shù)量非常龐大。不同的AI框架包含了不同的模型和算法，產(chǎn)生不同規(guī)模的訓(xùn)練數(shù)據(jù)，對CPU和GPU計算架構(gòu)的多樣化需求。

普通的AI訓(xùn)練通常需要幾十萬個樣本進行十幾萬次訓(xùn)練迭代，為了保證模型能在有限的時間內(nèi)做到足夠收斂，某些模型甚至需要超過200片GPU卡以AI服務(wù)器集群的方式并行，這就需要部署更多的AI服務(wù)器，而數(shù)據(jù)中心空間是有限的，更高密度的服務(wù)器成為趨勢。

浪潮NF5288M5 -- AI計算加速器

為了提升計算效率、滿足多樣化AI場景需求，浪潮NF5288M5另辟蹊徑，變異構(gòu)為同構(gòu)，消除了異構(gòu)通信帶來計算效率降低的煩惱。在2U空間內(nèi)支持部署8塊NVLink或PCI-E 接口的NVIDIA® Tesla® P100 GPU，可以在不依賴CPU的前提下，實現(xiàn)機內(nèi)點到點通訊，減少了異構(gòu)通訊的次數(shù)；在業(yè)界率先支持NVLink 2.0和最新發(fā)布的NVIDIA® Tesla®系列GPU，可以實現(xiàn)GPU間高達300GB/s的互連帶寬，并提供極低的延遲，讓多塊GPU并行的效率大幅提升超過60%。將GPU同構(gòu)，把NF5288M5的并行計算效率盡可能推到極限。

浪潮AI服務(wù)器NF5288M5可在2U空間內(nèi)支持8顆GPU，在超大規(guī)模AI訓(xùn)練集群或HPC集群引用時，可以幫助客戶節(jié)省數(shù)據(jù)中心的基礎(chǔ)設(shè)施資源，更有利于數(shù)據(jù)中心的空間分配。

浪潮NF5288M5采用PCIe線纜的方式連接CPU和GPU資源，可以靈活調(diào)整CPU的連接帶寬和連接數(shù)量，在應(yīng)對不同的AI應(yīng)用時，更好的做到PCIe資源按需分配，彈性的異構(gòu)平臺，足以支撐多樣化的AI場景。

創(chuàng)新設(shè)計應(yīng)對極限挑戰(zhàn)

浪潮AI服務(wù)器NF5288M5在實現(xiàn)性能、靈活性和密度多維度增強的同時，也面臨著互連、供電和散熱設(shè)計的三大極限挑戰(zhàn)。如何在一個系統(tǒng)中實現(xiàn)GPU卡的靈活配置，滿足高達3000W的供電需求，并在有限的空間內(nèi)解決散熱，成為了開發(fā)這款產(chǎn)品的三大難題。

有別于業(yè)界異構(gòu)服務(wù)器CPU和GPU緊耦合的互連方式，浪潮NF5288M5采用解耦式設(shè)計，參考刀片服務(wù)器的設(shè)計思路，把組件緊湊的布局到2U空間中，同時確保NVLink?的走線長度、信號都處在較佳狀態(tài)，以保證GPU的性能發(fā)揮。

8塊功耗高達300W的GPU，以及服務(wù)器內(nèi)其他的計算、存儲和I/O資源，使整機的功耗達到3000W，供電如何走線成為較大的挑戰(zhàn)。NF5288M5借鑒了浪潮在整機柜服務(wù)器的供電設(shè)計方式，對單服務(wù)器內(nèi)部采用無線纜供電設(shè)計，減少了供電線纜對空間的占用以及對散熱氣流的影響。

3000W的供電，意味著3000W的峰值發(fā)熱量，6倍于傳統(tǒng)的2U服務(wù)器，散熱成為一個繞不過的難題。把低發(fā)熱量組件前置，高發(fā)熱量組件后置，避免局部熱點，讓空氣在服務(wù)器的內(nèi)部均衡的升溫，再通過高速風(fēng)扇將熱量快速帶出服務(wù)器，保障了NF5288M5可以和傳統(tǒng)服務(wù)器一樣工作在35℃的環(huán)溫下。并且為了支持低PUE數(shù)據(jù)中心，還可以配置氣液混合散熱，甚至可以支持45℃的高環(huán)溫運行。

浪潮NF5288M5作為一款高密度、高性能的AI服務(wù)器，無論是在面向人工智能訓(xùn)練還是HPC應(yīng)用時，都能為用戶提供極致性能體驗。

消息來源：浪潮集團