北京2020年9月7日 /美通社/ -- 自計算機誕生之日起,科學(xué)和工程對計算性能的無限追求,一直在不斷沖擊和超越摩爾定律的想象。高性能計算資源特別是其計算能力的大小已經(jīng)成為衡量高校科學(xué)技術(shù)研究、產(chǎn)品研發(fā)實力、人才培養(yǎng)水平和持續(xù)創(chuàng)新能力的重要標志。
中南大學(xué)是教育部直屬全國重點大學(xué)、國家“211工程”首批重點建設(shè)高校、國家“985工程”部省重點共建高水平大學(xué)和國家“2011計劃”首批牽頭高校,2017年9月入選世界一流大學(xué)A類建設(shè)高校。
中南大學(xué)高性能計算公共服務(wù)平臺作為一個硬件先進、功能齊全、資源豐富,面向全校師生提供高性能計算服務(wù)的開放性公共服務(wù)基礎(chǔ)設(shè)施,不僅可以為學(xué)校的科學(xué)研究和工程計算提供計算力支撐,而且還參與了中國教育科研網(wǎng)格(ChinaGrid)二期的建設(shè)并成為其重要節(jié)點。
強強聯(lián)手,打造首個5萬核智算中心平臺
中南大學(xué)與浪潮強強聯(lián)手,共同打造國內(nèi)高校計算能力一流的高性能智算平臺。針對用戶需求和項目特點,采用浪潮高密度AI微模塊數(shù)據(jù)中心解決方案,運用多項業(yè)內(nèi)新技術(shù),搭建高度智能化高性能智算平臺。
整個平臺擁有1058個計算節(jié)點,合計50896個計算核心。為滿足多元算力作業(yè)需求,智算中心集群采用CPU、GPU的混合計算環(huán)境,CPU理論計算能力可達4856萬億次,GPU理論計算能力可達788萬億次,整個計算集群聚合計算能力達到五千六百萬億次。
同時采用浪潮AIstation調(diào)度平臺對算力進行高效調(diào)度,滿足算力資源的細粒度高效共享,整體資源利用效率可提升至80%;在算力聚合層面,配置100Gb高速IB計算網(wǎng)絡(luò)對算力集群進行高效聚合,保證應(yīng)對大規(guī)模作業(yè)任務(wù)或AI訓(xùn)練模型場景的集群內(nèi)算力的高效聚合。
此外,為確保元數(shù)據(jù)訪問服務(wù)不間斷運行,獨立配置雙熱備高性能I/O服務(wù)器節(jié)點,通過成熟的HA軟件配置成高可用模式,任何一臺服務(wù)器出現(xiàn)故障(網(wǎng)絡(luò)通訊、操作系統(tǒng)、服務(wù)器硬件等)都會自動切換到另一臺服務(wù)器,確保數(shù)據(jù)訪問服務(wù)不間斷運行。
60KW冷量空調(diào),打破制冷瓶頸
通過對中南大學(xué)高性能計算公共服務(wù)平臺建設(shè)場地進行了詳細的實地勘察,為了最大化提升空間利用率,采用業(yè)內(nèi)技術(shù)領(lǐng)先的60KW高冷量列間空調(diào),相比傳統(tǒng)風冷列間空調(diào)節(jié)省了7個標準IT機柜,有效提升了計算節(jié)點機柜的布置空間,計算資源相應(yīng)地提升約1.2倍。60KW冷量空調(diào)優(yōu)勢在于,一是冷量更高,約為傳統(tǒng)列間空調(diào)制冷量的1.5倍;二是能耗更低,使智算平臺PUE值整體降低約10%。
定制化布線系統(tǒng),集約高效
中南大學(xué)高性能計算公共服務(wù)平臺采用了兩套浪潮AI微模塊。由于在進行高性能計算時,存在多個計算節(jié)點同時協(xié)同工作的應(yīng)用場景,要求兩個微模塊之間實現(xiàn)高速互聯(lián)。傳統(tǒng)的走線方式需要鋪設(shè)大量的IB(InfiniBand)線纜,增加了數(shù)據(jù)傳輸?shù)难訒r,同時,IB線纜造價昂貴,經(jīng)費投入巨大。為滿足應(yīng)用的整體化需求,浪潮在兩個微模塊之間采用定制化過線橋架,優(yōu)化了IT機柜之間的布線。定制化橋架保證了系統(tǒng)整體美觀協(xié)調(diào),相對傳統(tǒng)布線方案減少IB線纜長度約20%,在有效節(jié)約投入的同時,保證了高性能計算對高速計算網(wǎng)絡(luò)帶寬的需求。
AI智能監(jiān)控系統(tǒng),智算平臺的晴雨表
中南大學(xué)高性能計算公共服務(wù)平臺有了可靠的硬件支撐還需要一個“大腦”對其進行監(jiān)控和管理。微模塊監(jiān)控系統(tǒng)采用32寸觸控大屏,可運行3D可視化管理系統(tǒng)。3D可視化系統(tǒng)運用H5技術(shù),具備監(jiān)視面板、溫度云圖、資產(chǎn)查詢、空間查詢、功率查詢、AI智能巡檢等功能,有效降低了運維人員的工作強度。在操作間還部署了機房運維監(jiān)控大屏,通過監(jiān)控大屏和輔助顯示器對主機房和配電間設(shè)施的運行狀態(tài)進行實時監(jiān)控和顯示。AI智能監(jiān)控系統(tǒng)就像晴雨表,不僅可以實現(xiàn)數(shù)據(jù)的監(jiān)控,還可以通過日志數(shù)據(jù)的統(tǒng)計分析,預(yù)測可能發(fā)生的故障,極大地提高了平臺運行的穩(wěn)定性。
系統(tǒng)自動投影,運行狀態(tài)一目了然
作為國內(nèi)高校計算能力一流的智算平臺,中南大學(xué)高性能計算公共服務(wù)平臺不僅提供強大的計算力及專業(yè)技術(shù)服務(wù),還是對外展示風采的平臺。AI微模塊搭載監(jiān)控系統(tǒng)自動投影技術(shù),在滑動門上通過特殊屏幕呈現(xiàn)出清晰的投影效果,使觀眾仿佛置身于中南大學(xué)智算平臺之中,通過屏幕上投射的動態(tài)影像,觀眾可以全方位感受到智算平臺所帶來的強烈震撼,一睹高性能計算公共服務(wù)平臺的風采,彰顯中南大學(xué)的文化魅力,享受一場視覺盛宴。
中南大學(xué)高性能計算公共服務(wù)平臺的建設(shè)與學(xué)校“智慧中南”的理念不謀而合。高密度部署、定制化設(shè)計以及AI智能監(jiān)控系統(tǒng)三大法寶為平臺的穩(wěn)定、持續(xù)和可靠運行提供了強有力的保障。平臺將于2020年9月底建成并于10月份投入試運行,我們相信,智算平臺的投入使用,必將極大地推動中南大學(xué)科學(xué)研究的成果產(chǎn)出并進一步促進高水平人才的培養(yǎng)。