從浪潮登頂NuScenes榜首解讀自動駕駛AI感知技術(shù)的發(fā)展

浪潮信息

2022-12-09 10:03 8155

北京2022年12月8日 /美通社/ -- 自動駕駛是集感知、決策、交互于一體的技術(shù)。環(huán)境感知能力作為自動駕駛的第一個環(huán)節(jié)，是車輛與環(huán)境交互的紐帶。通過"攝像頭、毫米波雷達、超聲波雷達、激光雷達"等各類傳感器設(shè)備，感知環(huán)境的手段日趨多元化。同時，在平臺層面感知決策處理能力的提升，平臺算力和感知算法的效率提升和創(chuàng)新，也成為了車企發(fā)展智能駕駛能力的關(guān)鍵。

NuScenes挑戰(zhàn)賽，作為檢驗感知算法在自動駕駛領(lǐng)域相關(guān)任務(wù)性能的試金石，自數(shù)據(jù)集公開以來，吸引了來自全球各地的研究團隊的結(jié)果提交。

在最新一期所公布的競賽測評榜單中，全球領(lǐng)先級AI算力基礎(chǔ)設(shè)施提供商----浪潮信息憑借Inspur-DABNeT4D登頂自動駕駛數(shù)據(jù)集NuScenes 純視覺3D目標(biāo)檢測任務(wù)榜單，并將關(guān)鍵性指標(biāo)NuScenes Detection Score（NDS）提高至62.4% 。

除傳統(tǒng)的自動駕駛創(chuàng)業(yè)公司和造車企業(yè)之外，人工智能平臺廠商、算力廠商也開始逐步關(guān)注和投入自動駕駛的技術(shù)研發(fā)。那么，未來自動駕駛感知技術(shù)究邁向如何的路徑發(fā)展，逐步實現(xiàn)大規(guī)模的量產(chǎn)落地？

本文試圖從浪潮信息在NuScenes榜單上的感知模型解讀出發(fā)，來一窺自動駕駛的感知技術(shù)發(fā)展。

從自動駕駛的分級來看，當(dāng)前的自動駕駛技術(shù)，隱隱可以看出2個流派，一個是以直接實現(xiàn)L4級自動駕駛為目標(biāo)的激進派，一個是從L2級輔助駕駛開始，逐步提升自動駕駛等級的漸進派。但無論是L2級的輔助駕駛還是L4級的自動駕駛，從整體架構(gòu)上看，都可以大致分為感知、決策和控制3部分。感知是自動駕駛汽車的眼睛，和人類的眼睛為大腦提供了70%以上的信息類似，感知系統(tǒng)也為自動駕駛車輛提供了車輛外部環(huán)境信息輸入。自動駕駛的感知依賴于各種車載傳感器的信息輸入，包括攝像頭、超聲波雷達、毫米波雷達和激光雷達等。其中最核心的就是攝像頭和激光雷達。

圖 1（上）：自動駕駛架構(gòu)組成。圖 2（下）：3D目標(biāo)檢測示意圖， 3D目標(biāo)被定義為一個長方體，(x,y,z)是長方體的中心坐標(biāo)，（l,w,h）是長寬高信息，θ是航向角，比如長方體在地平面的偏航角，class是3D目標(biāo)的類別。vx、vy描述3D目標(biāo)在地面上沿x軸和y軸方向的速度。

自動駕駛面對的是一個3維的環(huán)境空間，甚至于我們可以說，因為自動駕駛車輛要在環(huán)境空間中移動，且環(huán)境空間中其他的行人、車輛等也會移動，則可以看作自動駕駛面對的是一個3維空間+1維時間的4維時空體系。自動駕駛車輛需要在三維空間中判斷周圍的人、車、物的距離遠近，在此基礎(chǔ)上還要判斷他們是靜態(tài)或者動態(tài)的，以及移動的方向和速度等信息，我們一般稱之為3D目標(biāo)檢測任務(wù)。3D目標(biāo)檢測任務(wù)可以看作是自動駕駛中最核心的感知任務(wù)。當(dāng)然，除此之外，其他的感知任務(wù)還包括識別紅綠燈、交通標(biāo)識、車道線、斑馬線等道路信息。

長期以來，激光雷達一直被認(rèn)為是自動駕駛車輛不可或缺的零部件之一，因為激光雷達能提供對車輛周圍環(huán)境最精確的三維感知。激光雷達采集的點云信息天然就存儲了三維空間信息，因此基于激光點云信息的3D目標(biāo)檢測來說，算法設(shè)計就簡單了許多，也誕生了一系列的經(jīng)典模型，比如PointPillar、SECOND、SASSD等等。但是激光雷達的成本問題也成為了自動駕駛落地最大的瓶頸。早期的激光雷達價格，比如激光雷達鼻祖Velodyne推出的高精度激光雷達的價格達到了8萬美元。雷達比車貴的現(xiàn)實問題成為了激光雷達上車和量產(chǎn)的最大阻礙。雖然今年隨著技術(shù)的進步，激光雷達的價格下降明顯，但是能滿足L4級自動駕駛需求的激光雷達的價格依然偏高。

攝像頭是自動駕駛車輛的另外一個非常重要的傳感器，因為激光雷達采集的點云信息沒有色彩和紋理，因此無法識別對于人類來說可以輕松辨別的紅綠燈、交通標(biāo)識、車道線、斑馬線等道路信息。因此還是需要攝像頭作為補充。而這又會帶來額外的多個模態(tài)的信息融合難題。簡單來說，激光雷達主要擅長三維空間中的車輛、行人等的三維時空信息感知，而攝像頭主要擅長除此之外的紅綠燈、車道線等視覺紋理特征比較豐富的信息感知。另外，在量產(chǎn)成本和價格上，攝像頭也有無可比擬的優(yōu)勢。比如Tesla搭載的單顆單目攝像頭的成本僅為25美元，整車8個攝像頭的價格也才200美元。相比于整車價格來說，幾乎可以忽略不計。如果僅使用攝像頭，在強大AI算法的加持下，就能實現(xiàn)精確的3D目標(biāo)檢測任務(wù)，那意味著不使用激光雷達的自動駕駛也不無可能。

在計算機視覺領(lǐng)域，近年誕生了大量的分類、檢測、分割模型，比如ResNet、YOLO、Mask RCNN等，這些AI模型已經(jīng)廣泛的應(yīng)用于安防、交通、以及自動駕駛領(lǐng)域。但有一個核心的問題是，這些模型都是針對2D圖像設(shè)計的，無法直接適用于3D目標(biāo)檢測任務(wù)?；趫D像進行3D目標(biāo)檢測的核心問題就是如何精確的估計圖像中物體的深度。因為攝像頭拍攝的照片和視頻是把3D空間投射到了2D平面中，丟失了深度信息，如何對這些深度信息進行還原就是一個機器學(xué)習(xí)領(lǐng)域所謂的"病態(tài)問題"。即，問題的解可能不是唯一的。因此長期以來，基于圖像的3D目標(biāo)檢測算法性能一直遠低于基于激光雷達的3D目標(biāo)檢測性能。

自從Tesla使用純攝像頭方案的輔助駕駛系統(tǒng)取得一定的成功之后，基于純視覺的自動駕駛感知方案受到了業(yè)界越來越多的關(guān)注。同時隨著數(shù)據(jù)、算法、算力等多個方面的進步，純視覺的自動駕駛感知方案在3D目標(biāo)檢測任務(wù)上的性能在最近一年和激光雷達的差距有了明顯的改觀。

在數(shù)據(jù)方面，出現(xiàn)了搭載傳感器更多，采集時間更長的自動駕駛道路數(shù)據(jù)集。比如2019年由Motional（由現(xiàn)代汽車集團和Aptiv資成立的一家無人駕駛公司）的團隊開發(fā)和開源的NuScenes數(shù)據(jù)集采集于波士頓和新加坡兩個城市的實際道路。收集了大約15小時的駕駛數(shù)據(jù)，精心選擇駕駛路線以捕捉具有挑戰(zhàn)性的場景數(shù)據(jù)。數(shù)據(jù)場景覆蓋了城市、住宅區(qū)、郊區(qū)、工業(yè)區(qū)各個場景，也涵蓋了白天、黑夜、晴天、雨天、多云等不同時段不同天氣狀況。采集車上配備了完善的傳感器，包括了6個相機、1個激光雷達、5個毫米波雷達、以及GPS和IMU，具備360°的視野感知能力。NuScenes數(shù)據(jù)集是第一個提供自動汽車全套傳感器數(shù)據(jù)的大型數(shù)據(jù)集。

除了NuScenes之外，業(yè)界還有Waymo、ONCE等開源數(shù)據(jù)集。但目前NuScenes是被使用最多的數(shù)據(jù)集。自公開以來，NuScenes數(shù)據(jù)集已經(jīng)被論文引用超2000次。NuScenes挑戰(zhàn)賽也成為了檢驗感知算法在自動駕駛相關(guān)任務(wù)性能的試金石。吸引了來自全球各地的研究團隊的220余次結(jié)果提交，不僅有百度、華為、商湯、曠視等知名企業(yè)，還涵蓋了卡內(nèi)基梅隆大學(xué)、加利福尼亞大學(xué)伯克利分校、MIT、清華大學(xué)、香港科技大學(xué)、上海交通大學(xué)、中國科學(xué)技術(shù)大學(xué)等國內(nèi)外重點高校。近期，鑒智機器人、縱目科技、億咖通等車企研發(fā)團隊也出現(xiàn)在了NuScenes的榜單上。

NuScenes數(shù)據(jù)集提供了包括 3D 目標(biāo)檢測、3D 目標(biāo)跟蹤、預(yù)測軌跡、激光雷達分割、全景分割和跟蹤在內(nèi)的多個評測任務(wù)。其中3D目標(biāo)檢測任務(wù)的目標(biāo)是檢測NuScenes數(shù)據(jù)集上的10種不同類別的檢測對象，包括標(biāo)出3D目標(biāo)框，并且估計相應(yīng)類別的屬性信息和當(dāng)前的速度信息等。這10種檢測對象具體包括汽車、卡車、公交車、行人、摩托車、自行車、錐桶、路障等，檢測的信息包括物體的三維位置、大小、方向、速度等。NuScenes 提出了一個綜合指標(biāo)NDS，即NuScenes 檢測分?jǐn)?shù)（NuScenes Detection Score, NDS）,這個指標(biāo)由平均精度（mAP）、平均平移誤差（ATE）、平均尺度誤差（ASE）、平均方向誤差（AOE）、平均速度誤差（AVE）和平均屬性誤差（AAE）綜合計算得到。

圖 3：NuScenes數(shù)據(jù)集中車身6個攝像頭采集畫面示意圖。

NuScenes提供了一個常年更新的榜單，在純視覺 3D目標(biāo)檢測任務(wù)榜單^[1]上，目前一共有50次提交，其中大多數(shù)的提交發(fā)生在2022年。目前排名第一的是浪潮信息的AI團隊在22年10月提交的DABNet4D算法，實現(xiàn)了綜合檢測精度NDS 0.624的檢測效果。而在2022年初排名第一的BEV3D算法的NDS精度是0.474。也就是說在不到一年的時間內(nèi)，NuScenes 純視覺3D目標(biāo)檢測的NDS指標(biāo)提升了15個點。相比之下，基于激光雷達的3D目標(biāo)檢測精度，僅從年初的0.685提升到0.728，提升約4個點。而基于純視覺算法和激光雷達算法的精度差距也從年初的45%縮小到17%。這主要得益于純視覺3D檢測算法優(yōu)化帶來的性能提升。

圖 4（上）：NuScenes評測榜單截圖。圖 5（下）：把不同視角的圖像轉(zhuǎn)換到統(tǒng)一的鳥瞰圖（BEV）視角空間。

浪潮此次所提交的算法DABNet4D是Depth-awared BEVNet 4D的縮寫，即深度感知的四維鳥瞰圖（bird's eye view, BEV）神經(jīng)網(wǎng)絡(luò)。其核心思想就是構(gòu)建了鳥瞰圖（BEV）神經(jīng)網(wǎng)絡(luò)，并使用了時空融合的4D感知和深度預(yù)測優(yōu)化。由于單個攝像頭的視角有限，僅使用單個攝像頭很難實現(xiàn)對車身周圍360度的感知。前期自動駕駛算法模型一般是基于車身不同位置的攝像頭分別進行環(huán)境感知，然后進行融合。但是這一方案存在一些潛在的問題，比如對于像大卡車這類比較大的車輛挨著自動駕駛車輛時，會在自動駕駛車輛的多個攝像頭中出現(xiàn)卡車的不同部位，會導(dǎo)致算法出現(xiàn)錯誤檢測和漏檢的情況。最近融合模型架構(gòu)，通過先對不同攝像頭或其他傳感器的信息進行融合，然后在一個統(tǒng)一的融合的空間進行3D目標(biāo)感知和檢測，能夠有效的解決這些問題，是目前感知技術(shù)發(fā)展的一大趨勢。

所謂鳥瞰圖，就是從天空俯視自動駕駛車輛及其周圍環(huán)境，也就是所謂的上帝視角。自動駕駛車輛的攝像頭都是水平視角，如果把不同水平視角的圖像融合成一個統(tǒng)一的以自動駕駛車輛為中心的俯視視角的特征圖，那么就可以提供最清晰和完整的自動駕駛車輛周圍環(huán)境空間的視覺表征，從而也就方便從這統(tǒng)一的視覺表征中進行3D目標(biāo)檢測以及其他的檢測、分類、分割等視覺感知任務(wù)。但是，如何基于AI算法構(gòu)建這統(tǒng)一鳥瞰圖視覺表征是一個很大的挑戰(zhàn)。

圖 6（左）：多相機融合算法架構(gòu)圖。先使用特征提取神經(jīng)網(wǎng)絡(luò)對不同視角的圖像進行特征提取，并融合到統(tǒng)一的BEV空間，并基于統(tǒng)一BEV空間進行障礙物檢測、車道線檢測和道路檢測等檢測任務(wù)。圖 7（右）：浪潮團隊研發(fā)的基于Transformer架構(gòu)的多視角特征融合模型CBTR的架構(gòu)圖。

在2022年初，浪潮團隊構(gòu)建了一個基于Transformer架構(gòu)的多視角特征融合模型CBTR。CBTR以經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取的圖像特征作為輸入，并經(jīng)過標(biāo)準(zhǔn)Transformer架構(gòu)的特征融合和特征變換，實現(xiàn)了高效穩(wěn)定的BEV特征輸出。以CBTR構(gòu)建的BEV特征為基礎(chǔ)，團隊在NuScenes數(shù)據(jù)集上實現(xiàn)了在精度和速度上都最優(yōu)的車道線檢測算法。相關(guān)成果發(fā)表在CVPR 2022 WAD上。在DABNet4D中，團隊進一步優(yōu)化了BEV特征的提取網(wǎng)絡(luò)，以實現(xiàn)更好的特征提取效果。

考慮到車輛所處的環(huán)境是一個動態(tài)變化的三維空間，引入歷史空間數(shù)據(jù)對于目標(biāo)的速度和方向的預(yù)測將會有比較大的幫助。為了進一步引入車輛所處的動態(tài)環(huán)境中的歷史信息，浪潮團隊基于NuScenes中的多幀數(shù)據(jù)，分別進行BEV特征提取，并使用專門的特征融合模塊對時序的特征進行融合，構(gòu)建了MASTER（Multi-camerA Spatial and Temporal feature ExtractoR，多相機時空特征提取器）算法。2022年7月，團隊在NuScenes榜單提交了MASTERv2版本的3D目標(biāo)檢測結(jié)果，實現(xiàn)了NDS 0.576的檢測精度。位列當(dāng)前同類型算法第一。

在此基礎(chǔ)上，如何進一步提高純視覺3D目標(biāo)檢測的精度，其核心還是進一步優(yōu)化模型的深度估計性能。在MASTER算法的基礎(chǔ)上，團隊進一步引入了深度估計網(wǎng)絡(luò)，來強化模型的深度感知性能。最終的完整網(wǎng)絡(luò)架構(gòu)如下圖所示。

圖 8：浪潮團隊研發(fā)的DABNet4D模型架構(gòu)圖。

除此之外，多種數(shù)據(jù)增強算法的應(yīng)用，也對DABNet4D的性能提升有比較大的幫助，這主要是因為雖然NuScenes數(shù)據(jù)集在目前開源的自動駕駛測評數(shù)據(jù)集中，已經(jīng)算是比較大的規(guī)模，但是其相對于真實的自動駕駛場景來說，數(shù)據(jù)集的規(guī)模還是比較有限，比如有的目標(biāo)檢測類別，在整個數(shù)據(jù)集中，只出現(xiàn)了很少的次數(shù)。這種不同類別目標(biāo)在數(shù)據(jù)集中的不均衡性，對于模型整體檢測效果的提升，有較大的不利影響。因此DABNet4D使用了圖像數(shù)據(jù)增強、BEV特征增強和樣本貼圖增強等多尺度的數(shù)據(jù)增強技術(shù)，來提升模型的檢測效果。

在此基礎(chǔ)上，使用性能更優(yōu)的特征提取網(wǎng)絡(luò)對于整體的性能提升也有一定的幫助。團隊測試了EfficientNet系列、Swin Transformer系列、ConvNeXt系列等多個典型的視覺特征提取網(wǎng)絡(luò)，并最終選用了ConvNeXt網(wǎng)絡(luò)架構(gòu)以期獲得最佳的特征提取性能。

在集合了上述算法和工程化方法上的創(chuàng)新之后，DABNet4D最終實現(xiàn)了NuScenes評測榜單上當(dāng)前業(yè)界最佳的純視覺3D目標(biāo)檢測精度。

需要提到的是，完善的算力基礎(chǔ)設(shè)施也在這一工作過程中起到了舉足輕重的作用。和訓(xùn)練2D目標(biāo)檢測模型比如YOLO系列相比，DABNet4D的訓(xùn)練需要更多的算力以及更好的算力平臺支撐。

本次構(gòu)建的DABNet4D-tiny和DABNet4D-base兩個模型，其參數(shù)量分別是59.1M和166.6M。雖然參數(shù)量不是特別大，但是由于使用的輸入數(shù)據(jù)分辨率達到了1600x900，遠大于ImageNet、COCO等數(shù)據(jù)集訓(xùn)練2D目標(biāo)檢測網(wǎng)絡(luò)的圖片尺寸，這意味著模型訓(xùn)練過程中的特征圖輸出也會大很多，從而需要更多的顯存空間來存儲。與此同時，多相機視角的引入以及時序數(shù)據(jù)的引入，意味著模型訓(xùn)練需要更大的批尺寸。舉例來說，NuScenes數(shù)據(jù)集有6個相機，如果僅使用連續(xù)3幀的時序數(shù)據(jù)，也意味著模型的輸入批尺寸是18。這進一步增大了對訓(xùn)練設(shè)備的顯存需求。實際上，浪潮團隊訓(xùn)練模型使用的是搭載了NVIDIA Ampere 架構(gòu)40GB和80GB顯存的多臺5488A5 GPU服務(wù)器平臺。其中GPU之間使用了NV-Switch全互聯(lián)架構(gòu)，來滿足模型訓(xùn)練的高顯存需求，以及模型并行訓(xùn)練的高通信帶寬需求。除此之外，服務(wù)器上部署的AISTATION資源管理系統(tǒng)，對于整個任務(wù)中的資源管理和分布式訓(xùn)練優(yōu)化，對于整個模型訓(xùn)練的效率提升，也起到了很大的幫助。

另外，數(shù)據(jù)的豐富程度對于純視覺3D目標(biāo)檢測模型的感知性能提升作用明顯。這也是為什么在DABNet4D的優(yōu)化過程中，團隊使用了較多的數(shù)據(jù)增強算法。因為相對于真實的自動駕駛場景和數(shù)據(jù)集來說，NuScenes數(shù)據(jù)集的規(guī)模還是太小了。比如公開資料表明，Tesla 訓(xùn)練其FSD自動駕駛系統(tǒng)使用了 100萬的 8-camera 36fps 10-second videos作為訓(xùn)練數(shù)據(jù)，其規(guī)模遠大于NuScenes數(shù)據(jù)集。DABNet4D使用了大約2000 GPU hours。做同比換算的話，Tesla的FSD的訓(xùn)練需求大約是316 臺5488A5服務(wù)器訓(xùn)練約1周的時間。其計算需求之大，可見一斑。

在自動駕駛落地的產(chǎn)業(yè)化進程中，感知技術(shù)作為自動駕駛的核心技術(shù)模塊，既是起點也是基石。而未來，面向自動駕駛感知算法的研發(fā)，也將會投入更為強大的人工智能計算平臺予以支撐。作為全球領(lǐng)先的算力提供商，浪潮信息始終踐行多角度切入，發(fā)揮融合算力、算法等全棧解決方案能力優(yōu)勢，推動自動駕駛領(lǐng)域的技術(shù)創(chuàng)新型發(fā)展。從NuScenes榜單技術(shù)的快速迭代來看，我們有理由相信，隨著算力、算法的持續(xù)型突破，自動駕駛產(chǎn)業(yè)化落地進程也將多一層"騰飛動力之源"。

消息來源：浪潮信息