北京2023年3月16日 /美通社/ -- 延續(xù)長(zhǎng)達(dá)半個(gè)世紀(jì)的"摩爾定律",讓不少人難免產(chǎn)生這樣的錯(cuò)覺(jué):同樣的成本,總能不斷獲得更強(qiáng)的計(jì)算資源。事實(shí)上,摩爾定律僅僅來(lái)自戈登·摩爾在上世紀(jì)60年代得出的經(jīng)驗(yàn)之談,并非自然定律。隨著企業(yè)數(shù)字化轉(zhuǎn)型的提速,企業(yè)對(duì)算力性能需求的高漲致使芯片制程不斷逼近物理極限,通用型芯片日益高漲的成本讓摩爾定律舉步維艱。
因此,那些提前預(yù)見(jiàn)到"后摩爾時(shí)代"的企業(yè)紛紛探索可行的技術(shù)路線,在確保高質(zhì)量發(fā)展的前提下,維系能促進(jìn)數(shù)字化轉(zhuǎn)型的性能與成本關(guān)系。早在十多年前,亞馬遜云科技就開(kāi)始意識(shí)到通用芯片在云基礎(chǔ)設(shè)施中的無(wú)效性能和能源損耗等問(wèn)題,并將注意力轉(zhuǎn)向?qū)樵朴?jì)算定制的芯片和硬件?;趯?duì)云環(huán)境復(fù)雜性的深刻理解以及底層技術(shù)對(duì)上層應(yīng)用影響的深刻洞見(jiàn),亞馬遜云科技走上了自研芯片的創(chuàng)"芯"之路。
"足夠好,還遠(yuǎn)遠(yuǎn)不夠好"
關(guān)于開(kāi)發(fā)云計(jì)算自研芯片的意義,亞馬遜云科技首席技術(shù)官Werner Vogels在2022 re:Invent全球大會(huì)上表示:"足夠好,還遠(yuǎn)遠(yuǎn)不夠好。"比如,當(dāng)開(kāi)發(fā)者使用參數(shù)強(qiáng)大的GPU來(lái)執(zhí)行機(jī)器學(xué)習(xí)模型從構(gòu)建到訓(xùn)練、推理的全過(guò)程時(shí),由于GPU并未進(jìn)行過(guò)針對(duì)不同任務(wù)的優(yōu)化,因此性能損耗往往超出想象,并且開(kāi)發(fā)者還要負(fù)擔(dān)高昂的硬件和能耗成本。
云計(jì)算用戶必然不斷追求更強(qiáng)的算力,但沒(méi)有用戶愿意看到"量?jī)r(jià)齊升"。為此,亞馬遜云科技在本世紀(jì)初就開(kāi)始進(jìn)行云計(jì)算定制硬件的開(kāi)發(fā),并在2006年推出第一個(gè)Amazon Elastic Compute Cloud(Amazon EC2)實(shí)例。此后,隨著云端業(yè)務(wù)多樣性與復(fù)雜性加劇,以及用戶對(duì)降本增效的需求提升,亞馬遜云科技意識(shí)到底層技術(shù)的定制化創(chuàng)新必然成為云計(jì)算高速發(fā)展不可或缺的一塊拼圖。
2013年,亞馬遜云科技推出云服務(wù)器虛擬化引擎Amazon Nitro系統(tǒng),由此開(kāi)始了在云計(jì)算底層技術(shù)賽道上領(lǐng)跑行業(yè)的十年。2015年在收購(gòu)Annapurna Labs之后,亞馬遜云科技自研芯片駛?cè)肟燔嚨?,?017年就已開(kāi)發(fā)了多個(gè)自研芯片,包括虛擬化系統(tǒng)、云原生處理器和機(jī)器學(xué)習(xí)訓(xùn)練及推理芯片。亞馬遜云科技自研芯片助推了Amazon EC2實(shí)例數(shù)量的快速增長(zhǎng),現(xiàn)在Amazon EC2實(shí)例已多達(dá)600余種,幾乎覆蓋了全部操作系統(tǒng)和應(yīng)用,讓數(shù)百萬(wàn)客戶都能在亞馬遜云科技上找到最合適的方案,應(yīng)對(duì)極端的業(yè)務(wù)需求。
抹平虛擬化的性能損耗
Nitro系列虛擬化定制芯片是亞馬遜云科技自主創(chuàng)"芯"的起點(diǎn)。虛擬化作為云計(jì)算的"基石",所占用的計(jì)算資源曾一度高達(dá)30%,即是說(shuō)用戶所購(gòu)買算力中有近三分之一成了"門票"而并未獲得實(shí)質(zhì)性算力回報(bào)。
Nitro誕生的重要目標(biāo)之一,就是從底層技術(shù)上解決虛擬化性能損耗難題。通過(guò)定制芯片和獨(dú)立的模塊化設(shè)計(jì),讓Nitro專門承擔(dān)云計(jì)算系統(tǒng)的所有虛擬化功能,將虛擬化帶來(lái)的性能損耗控制在1%以下,幾乎可以忽略不計(jì),讓用戶所購(gòu)買的實(shí)例算力能夠近乎100%地服務(wù)于業(yè)務(wù)。同時(shí),Nitro的安全芯片為用戶提供了硬件級(jí)別的安全機(jī)制,不但實(shí)現(xiàn)了網(wǎng)絡(luò)、存儲(chǔ)隔離的獨(dú)立安全通道,還在數(shù)據(jù)傳輸?shù)乃协h(huán)節(jié)都可以實(shí)現(xiàn)硬件級(jí)別加密,用戶可獲得更強(qiáng)的數(shù)據(jù)安全性。
從2013年到2020年,亞馬遜云科技已陸續(xù)將Nitro更新至第四代,而且Nitro的升級(jí)仍在持續(xù)。在去年2022 re:Invent全球大會(huì)上,亞馬遜云科技又推出了全新的第五代Nitro,進(jìn)一步提升了數(shù)據(jù)處理能力并降低延遲。如果將性能上的提升換算成能耗比,第五代 Nitro將每瓦性能提高了40%,從另一個(gè)維度給用戶帶去更高的性價(jià)比。
相應(yīng)地,由第五代 Nitro 支持的新實(shí)例Amazon EC2 C7gn也一同發(fā)布。在最新一代Nitro的加持下,C7gn與當(dāng)前一代C6gn相比,具有更強(qiáng)的網(wǎng)絡(luò)處理能力,這也讓C7gn成為所有Amazon EC2網(wǎng)絡(luò)優(yōu)化型實(shí)例中,能提供最高網(wǎng)絡(luò)帶寬和數(shù)據(jù)包轉(zhuǎn)發(fā)性能的實(shí)例。C7gn實(shí)例還提高了多達(dá)25%的計(jì)算性能及多達(dá)2倍的加密性能,為用戶優(yōu)化在Amazon EC2上要求最嚴(yán)苛的網(wǎng)絡(luò)密集型工作負(fù)載的成本,并提供更強(qiáng)大的擴(kuò)展性能。
自研芯片持續(xù)升級(jí)及規(guī)?;瘧?yīng)用為用戶帶來(lái)更高性價(jià)比
Nitro幫助用戶告別了算力損耗,那么用戶已到手的這部分算力,又該如何跑贏摩爾定律?
亞馬遜云科技首席執(zhí)行官 Adam Selipsky 曾表示:"如果希望針對(duì)所有可能的工作負(fù)載徹底變革計(jì)算的性價(jià)比,還需要徹底重新思考實(shí)例。為了實(shí)現(xiàn)這個(gè)目標(biāo),我們需要深入底層技術(shù)直達(dá)芯片。"最終亞馬遜云科技交出的答卷,是基于ARM架構(gòu)的通用型云原生處理器Graviton。
相比X86架構(gòu),Graviton低成本和高核心密度的特性在高計(jì)算密度領(lǐng)域更具優(yōu)勢(shì),能耗表現(xiàn)也更佳,但在當(dāng)時(shí)ARM架構(gòu)并未在基于云計(jì)算的企業(yè)級(jí)應(yīng)用領(lǐng)域取得突破。采用ARM架構(gòu),意味著亞馬遜云科技要開(kāi)拓一個(gè)幾乎沒(méi)有用戶基礎(chǔ)的賽道。
亞馬遜云科技在2018年推出首代Graviton處理器,隨后在2020年推出Graviton 2并實(shí)現(xiàn)規(guī)?;瘧?yīng)用,開(kāi)創(chuàng)了ARM處理器企業(yè)級(jí)應(yīng)用的標(biāo)桿。同時(shí),每一代Graviton都保持著大幅度的性能提升,其中2021年宣布推出的Graviton 3相比上一代單核性能提升25%,浮點(diǎn)性能提升2倍,并且由于采用ARM架構(gòu),還實(shí)現(xiàn)相比x86實(shí)例多達(dá)60%的能耗下降。
近年來(lái),隨著人工智能和自動(dòng)駕駛等新興應(yīng)用對(duì)高性能計(jì)算優(yōu)化實(shí)例的負(fù)載與性價(jià)比需求出現(xiàn)倍數(shù)級(jí)提升,亞馬遜云科技在2022 re:Invent全球大會(huì)上發(fā)布了專門對(duì)浮點(diǎn)和向量指令運(yùn)算進(jìn)行了優(yōu)化的Graviton 3E,以及由其提供支持的高性能計(jì)算優(yōu)化實(shí)例Hpc7g。Hpc7g相比當(dāng)前一代Hpc6a實(shí)例性能提升達(dá)20%,讓用戶能夠在多達(dá)數(shù)萬(wàn)個(gè)內(nèi)核的高性能計(jì)算集群中進(jìn)行復(fù)雜計(jì)算,為計(jì)算流體動(dòng)力學(xué)、天氣模擬、基因組學(xué)和分子動(dòng)力學(xué)等高性能計(jì)算工作負(fù)載提供超高的性價(jià)比,進(jìn)一步解決難度系數(shù)持續(xù)增加的問(wèn)題并降低高性能計(jì)算工作負(fù)載的成本。
為了讓用戶獲得更高性價(jià)比,方便用戶采用Graviton實(shí)例,亞馬遜云科技已將20多種托管服務(wù)運(yùn)行在Graviton之上,并且這一數(shù)字還在持續(xù)增加。這些服務(wù)包括用戶經(jīng)常使用的Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。托管服務(wù)大幅降低了客戶將應(yīng)用遷移到 Graviton的復(fù)雜度,時(shí)間可以從幾天降低到幾分鐘,而且轉(zhuǎn)移到Graviton實(shí)例上即可實(shí)現(xiàn)高達(dá)40%的性價(jià)比提升。
專"芯"應(yīng)對(duì)機(jī)器學(xué)習(xí)各環(huán)節(jié)
隨著機(jī)器學(xué)習(xí)逐漸步入超大模型時(shí)代,十億級(jí)參數(shù)模型比比皆是,已然成為壓榨算力的黑洞。其所消耗的算力與成本也讓企業(yè)不堪重負(fù)。
雖然被廣泛應(yīng)用于機(jī)器學(xué)習(xí)的通用芯片差不多每?jī)赡昃湍軐?shí)現(xiàn)性能翻倍,但仍然難以跟上訓(xùn)練模型復(fù)雜度的提升速度。亞馬遜云科技認(rèn)為,未專門針對(duì)機(jī)器學(xué)習(xí)優(yōu)化的GPU將難以長(zhǎng)期勝任云上機(jī)器學(xué)習(xí)任務(wù),唯一的解決方法是通過(guò)分布式多處理器,將一個(gè)模型通過(guò)網(wǎng)絡(luò)協(xié)同計(jì)算處理。為此,亞馬遜云科技針對(duì)機(jī)器學(xué)習(xí)的兩個(gè)環(huán)節(jié),分別推出了用于訓(xùn)練的Amazon Trainium芯片和用于推理的Amazon Inferentia芯片。
2022年10月,亞馬遜云科技推出基于Trainium的Amazon EC2 Trn1實(shí)例,專為云中高性能模型搭建,最多可搭載16顆Trainium芯片,擁有512GB高帶寬內(nèi)存和800Gbps網(wǎng)絡(luò)帶寬。亞馬遜云科技在2022 re:Invent全球大會(huì)上,發(fā)布了增強(qiáng)的Trn1n實(shí)例,網(wǎng)絡(luò)帶寬躍升至1.6Tbps,可將萬(wàn)余個(gè)Trainium芯片構(gòu)建在一個(gè)超大規(guī)模集群上,實(shí)現(xiàn)對(duì)超大模型進(jìn)行并行訓(xùn)練。
亞馬遜云科技針對(duì)推理的Inferentia芯片則在2018年發(fā)布,并在次年推出對(duì)應(yīng)的Amazon EC2 Inf1實(shí)例,能夠幫助用戶實(shí)現(xiàn)低延時(shí)低成本的推理。亞馬遜云科技在2022 re:Invent全球大會(huì)上,又發(fā)布了新一代推理芯片Inferentia 2及基于此芯片的Amazon EC2 Inf2實(shí)例,以應(yīng)對(duì)深度學(xué)習(xí)模型規(guī)模和復(fù)雜度的指數(shù)級(jí)增長(zhǎng)。Inf2實(shí)例是唯一一個(gè)專為大型Transformer模型的分布式推理所構(gòu)建的實(shí)例。與Inf1實(shí)例相比,Inf2實(shí)例吞吐量提升4倍,延時(shí)只有1/10,每瓦性能提升45%。Inf2實(shí)例可以運(yùn)行高達(dá)1,750億參數(shù)的大模型,足以勝任諸如GPT-3、Mask R-CNN、ViT等超大型復(fù)雜模型。
十年領(lǐng)跑,硬件創(chuàng)新進(jìn)入加速期
美國(guó)計(jì)算機(jī)科學(xué)家、圖靈獎(jiǎng)獲得者Alan Kay曾經(jīng)說(shuō)過(guò):"真正認(rèn)真對(duì)待軟件的人應(yīng)該制造自己的硬件。"亞馬遜云科技十年創(chuàng)"芯"與這一論斷不謀而合,通過(guò)長(zhǎng)年深耕自研芯片和硬件,在底層技術(shù)層面建立起顯著的差異化優(yōu)勢(shì)。
近年來(lái),定制硬件創(chuàng)新對(duì)于云計(jì)算的重要性已得到越來(lái)越多企業(yè)的關(guān)注和認(rèn)可。亞馬遜云科技首席技術(shù)官Werner Vogels預(yù)測(cè)"2023年,專用芯片的使用將迅速增加,工作負(fù)載利用硬件優(yōu)化帶來(lái)最大化性能,同時(shí)降低能耗和成本。"這也意味著定制硬件將成為云端算力最可靠的增長(zhǎng)引擎之一,幫助用戶以更優(yōu)的成本和性能回報(bào),獲得支持企業(yè)高質(zhì)量發(fā)展的數(shù)字化能力。