"算力猛獸"浪潮NF5468A5 GPU服務(wù)器開(kāi)放試用免費(fèi)申請(qǐng)

浪潮信息

2022-07-25 11:14 6593

北京2022年7月25日 /美通社/ -- 近期，一系列針對(duì)浪潮NF5468A5服務(wù)器的專業(yè)測(cè)評(píng)不斷發(fā)布，報(bào)告顯示這款GPU服務(wù)器在典型的AI計(jì)算場(chǎng)景擁有超乎預(yù)期的卓越性能，在MLPerf Training、MLPerf Inference、Alphafold2、NAMD、HPL、Stream等各種典型應(yīng)用評(píng)測(cè)中展示出了讓人驚嘆的領(lǐng)先性能，因而被媒體稱贊為"算力猛獸"。浪潮信息官網(wǎng)顯示，NF5468A5正在進(jìn)行"超值機(jī)型限免試用"活動(dòng)，對(duì)算力有強(qiáng)大需求的用戶都可以免費(fèi)申請(qǐng)。

NF5468A5是浪潮信息推出的一款面向AI訓(xùn)練、AI推理、HPC、視頻處理等多種應(yīng)用場(chǎng)景的GPU服務(wù)器，在4U空間內(nèi)搭載2顆AMD EPYC處理器，支持多達(dá)8張雙寬加速卡，巧妙的分區(qū)散熱設(shè)計(jì)有效實(shí)現(xiàn)CPU與GPU模組的分流，同時(shí)通過(guò)PCIE 4.0直連有效降低CPU和GPU間的通信延遲。該服務(wù)器支持高達(dá)8T的DDR4內(nèi)存、409.6 GB/s的內(nèi)存總帶寬，并且提供了8個(gè)全高全長(zhǎng)雙寬PCIe x16的物理插槽。其強(qiáng)勁的處理器性能、巨大的內(nèi)存容量和帶寬、豐富的IO擴(kuò)展，特別適合AI計(jì)算、云計(jì)算、HPC以及企業(yè)各類業(yè)務(wù)的工作負(fù)載。

媒體對(duì)NF5468A5進(jìn)行了一系列測(cè)評(píng)。其中HPL測(cè)試結(jié)果表明，NF5468A5搭載2顆AMD EPYC 7543處理器，浮點(diǎn)計(jì)算速度為2.69 TFLOPS，根據(jù)AMD平臺(tái)理論浮點(diǎn)計(jì)算速度，處理器計(jì)算效率達(dá)到93.74%。在STREAM測(cè)試中，由于采用多線程并行，實(shí)測(cè)結(jié)果內(nèi)存帶寬373 GB/s，對(duì)比平臺(tái)內(nèi)存理論帶寬，實(shí)測(cè)內(nèi)存帶寬效率同樣達(dá)到驚人的91.1%。

NF5468A5 HPL測(cè)試結(jié)果

NF5468A5內(nèi)存帶寬測(cè)試結(jié)果

在AI訓(xùn)練性能測(cè)試中，浪潮NF5468A5搭配8張NVIDIA A100 PCIE 40GB GPU，使用MLPerf Training V1.0代碼訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)ResNet50，每秒處理的圖片數(shù)量可以達(dá)到21486張，單臺(tái)機(jī)器35分鐘即可完成Resnet50模型訓(xùn)練。參考最近幾期MLPerf訓(xùn)練榜單，搭載8張NVIDIA A100 40G GPU卡的服務(wù)器的最好成績(jī)是36.2分鐘?？梢哉f(shuō)，在同等GPU配置的服務(wù)器中，浪潮NF5468A5的ResNet50訓(xùn)練性能是最好的。

ResNet50訓(xùn)練測(cè)試結(jié)果

在AI推理性能測(cè)試中，搭載1張NVIDIA Tesla T4 GPU的NF5468A5，使用MLPerf Inference V1.0代碼，ResNet50測(cè)試結(jié)果為每秒處理5671.9張圖片，這份成績(jī)也是非常出色的。同時(shí)，NF5468A5能夠很好地支持寒武紀(jì)MLU270-S4推理加速卡，Caffe框架下的ResNet18計(jì)算性能每秒超過(guò)7000張圖片。

ResNet50推理測(cè)試結(jié)果

同時(shí)，媒體還對(duì)浪潮信息自研的專用加速器M10A進(jìn)行了性能測(cè)試，結(jié)果表明，浪潮NF5468A5搭配1張M10A，可實(shí)現(xiàn)480fps 1080P視頻的流暢轉(zhuǎn)碼，一張M10A的視頻處理能力相當(dāng)于一臺(tái)雙路服務(wù)器的性能。此外，NF5468A5搭載1張RTX3090顯卡，ETHASH算法性能突破100MH/s。

M10A視頻轉(zhuǎn)碼性能測(cè)試結(jié)果

浪潮NF5468A5+單卡RTX3090 HASH算法測(cè)試結(jié)果

算法	ETHASH	ETCHASH	AUTOLYKOS2	BLAKE3	MTP	MTP-TCR	OCTOPUS
性能	108MH/s	108MH/s	232MH/s	2.44GH/s	7.23MH/s	28.78MH/s	103.07MH/s
算法	KAWPOW	PROGPOW	PROGPOW-VEIL	PROGPOW-VERIBLOCK	PROGPOWZ	FIROPOW	/
性能	55MH/s	54.4MH/s	54.85MH/s	27.31MH/s	54.37MH/s	54.91MH/s	/

NF5468A5在HPC應(yīng)用性能方面同樣有非常優(yōu)秀的表現(xiàn)。媒體在NF5468A5平臺(tái)上搭載了2顆AMD Milan-X 7773X運(yùn)行常見(jiàn)的氣象應(yīng)用WRF和計(jì)算流體力學(xué)應(yīng)用OpenFOAM進(jìn)行性能基準(zhǔn)測(cè)試。測(cè)試數(shù)據(jù)顯示，WRF測(cè)試其性能相比同平臺(tái)搭載兩顆Rome 7742處理器的計(jì)算性能提升23%~34%；而在OpenFOAM測(cè)試中，其性能相比同平臺(tái)Rome 7742處理器計(jì)算性能提升34%~80%。

WRF在不同AMD處理器上的性能對(duì)比

OpenFOAM motorbike算例在不同AMD處理器上的性能對(duì)比

在最新一期評(píng)測(cè)中，媒體還對(duì)NF5468A5服務(wù)器在AI+Science應(yīng)用場(chǎng)景的表現(xiàn)進(jìn)行了全面的測(cè)評(píng)。測(cè)試選擇了兩項(xiàng)近期大熱的應(yīng)用AlphaFold2和NAMD。評(píng)測(cè)結(jié)果發(fā)現(xiàn)，對(duì)于長(zhǎng)度在1000以內(nèi)的蛋白序列，結(jié)構(gòu)預(yù)測(cè)的完整時(shí)間基本在半小時(shí)以內(nèi)，意味著一臺(tái)NF5468A5服務(wù)器一天可以完成至少384個(gè)Alphafold2蛋白序列的預(yù)測(cè)任務(wù)；對(duì)于分子動(dòng)力學(xué)模擬來(lái)說(shuō)，STMV算例在NF5468A5上可以實(shí)現(xiàn)90.6ns/day的計(jì)算速度，一臺(tái)服務(wù)器一天就能實(shí)現(xiàn)100萬(wàn)原子近100ns的模擬。浪潮NF5468A5 GPU服務(wù)器可以滿足絕大多數(shù)科研團(tuán)隊(duì)在AlphaFold2、NAMD等科學(xué)應(yīng)用領(lǐng)域的AI加速計(jì)算需求。

NF5468A5+單張A100預(yù)測(cè)得到的AlphaFold2 top1模型計(jì)算性能

NAMD在NF5468A5平臺(tái)的測(cè)試結(jié)果

通過(guò)多次不同配置、不同場(chǎng)景的深度評(píng)測(cè)，媒體認(rèn)為浪潮NF5468A5是一款性能強(qiáng)大、應(yīng)用場(chǎng)景廣泛的GPU服務(wù)器。該服務(wù)器硬件設(shè)計(jì)合理，可最大化發(fā)揮核心組件的性能優(yōu)勢(shì)，并通過(guò)分區(qū)散熱設(shè)計(jì)保障服務(wù)器穩(wěn)定運(yùn)行。同時(shí)，NF5468A5廣泛兼容主流加速卡，以更靈活的計(jì)算架構(gòu)最大程度地滿足用戶在圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別等多場(chǎng)景應(yīng)用需求。

目前，據(jù)浪潮官網(wǎng)顯示NF5468A5正在推出 "超值機(jī)型限免試用"活動(dòng)，感興趣的用戶不妨申請(qǐng)，一試究竟。

消息來(lái)源：浪潮信息