新聞動態

                Dynamics

                首頁 >  新聞動態  > 詳情

                上海人工智能實驗室團隊榮膺Waymo挑戰賽桂冠 | CVPR 2022 上海人工智能實驗室

                6月20日,CVPR 2022自動駕駛研討會(Workshop on Autonomous Driving)[1] 公布Waymo開放數據集挑戰賽結果,上海人工智能實驗室自動駕駛與通用視覺團隊憑借BEVFormer++模型大幅領先,摘得純視覺3D檢測項目桂冠。

                1.png

                Waymo開放數據集挑戰賽結果

                Waymo開放數據集挑戰賽是自動駕駛領域中算法研發方面最重要的國際性大賽,以任務難度高、高手云集而著稱。今年,該比賽更是吸引了眾多學術界和產業界的自動駕駛研發團隊參加,組委會共收到超過1700份有效申請,創下歷史新高。參賽隊伍不僅包含來自MIT、德國伯恩大學、南洋理工大學、香港中文大學、清華大學、浙江大學等全球20多所高校的團隊,也不乏來自奔馳、地平線、小鵬等產業界的優秀選手。本次獲殊榮的BEVFormer++算法通過融合“歷史記憶”的鳥瞰圖(Bird’s Eye View, BEV)特征,并實現在多任務中的共享,獲得了超過60%的性能提升。相關論文《BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》已于今年3月在arXiv平臺發布[2],BEVFormer的代碼[3]亦已在GitHub公開。

                2.png

                Waymo挑戰賽自動駕駛場景示意圖。左圖:鳥瞰圖視角;右上:座艙內視角;右下:前視視角(圖片引自Waymo官網)

                實驗室自動駕駛與通用視覺團隊在視覺感知領域有長期的技術沉淀與經驗積累,在本次大賽中創造佳績的3D檢測算法BEVFormer++,來自于團隊2022年3月提出的BEVFormer升級版。實驗室青年科學家李弘揚介紹,“團隊從2021年起開始關注BEV感知并進行深入研究。通過洞察自動駕駛業界的發展趨勢,結合當時學術界最熱的Transformer結構,我們將不同傳感器、不同時空下的特征以BEV視角進行統一表達。”


                【性能提升60%,BEVFormer++創佳績】

                今年的Waymo開放數據集挑戰賽聚焦計算機視覺算法在解決自動駕駛運動和感知問題方面的進展,共設置了運動預測、地圖柵格占據和運動流預測、純視覺3D檢測以及3D語義分割4個項目賽道。其中,純視覺3D檢測項目要求選手基于來自多個攝影機的圖像,為場景中的可見對象生成一組3D框。該項目在今年提高了評定標準,要求選手在僅能使用攝像頭輸入(Camera-only)的條件下對目標位置進行精準檢測,考驗其使用視覺輸入建模3D場景的能力。

                純視覺3D檢測算法BEVFormer++,綜合考量了之前學術界最新的研究成果,基于時序特征積累和空間特征融合,創新性地提出了一套新方案,將時序信息、多檢測頭集成和LET-IoU NMS等模塊有機地統一到時空融合的Transformer BEV感知架構中,實現了在自動駕駛場景下對目標進行更精準的檢測,同時有效去除假陽結果。相比基線方法,BEVFormer++獲得了超過60%的性能提升,最終取得了56.2 LET-mAPL的成績,在榜單上大幅領先于其他參賽選手。

                Waymo數據集可視化結果.gif

                Waymo數據集可視化,相比基線方法,BEVFormer++獲得了超過60%的性能提升

                此外,值得一提的是,在Waymo挑戰賽的3D語義分割項目賽道中,團隊提出了一種新的3D點云語義分割算法,提升了前景物體分割結果的整體性和在稀有類別上的分割性能。該算法以71.18 mIoU的成績在該賽道中表現亮眼。


                【共享“歷史記憶”,解決兩大痛點】

                BEVFormer++算法有效解決了智能駕駛既往存在的兩大痛點:一是無法對圖像中物體的運動狀態進行判斷,并且難以很好地捕獲被遮擋物;二是針對多感知任務只能分別設計,面臨計算量大、不同模型感知結果不一致等問題。

                3.png

                BEVFormer算法解決了自動駕駛中遮擋物、多任務等行業痛點

                針對第一點,BEVFormer使用一組預先設定的可學習參數用于表征鳥瞰圖特征,這組參數被稱之為鳥瞰圖詢問向量Q。基于稀疏注意力機制,使用鳥瞰圖詢問向量Q與多視角圖像特征進行交互,可以捕獲空間信息;通過使用當前時刻的鳥瞰圖詢問向量Q和上一時刻的鳥瞰圖特征進行自注意力交互,可以捕獲時序信息。由于被遮擋的物體并非一直處于被遮擋的狀態,在歷史上可能完整地出現在相機視角中,所以BEVFormer可以通過時序信息提取被遮擋物體曾經出現時的特征,即在“歷史記憶”中提取物體特征,并將其與對當前時刻有價值的信息融合,從而較好地解決了遮擋問題。

                針對第二點,基于融合了時空特征的鳥瞰圖特征,該算法可同時支持所有能在BEV空間下輸出的自動駕駛感知任務,使不同任務可共享鳥瞰圖特征,從而生成一致的感知結果。而且,由于實現了耗時最多的骨干網絡和鳥瞰圖特征生成器的共享,算法感知的計算負擔得以大幅降低,從而有效降低獲取所有感知結果延遲,并顯著提升推理速度。

                nuScenes數據集可視化結果.gif

                BEVFormer在nuScenes檢測數據集的三維目標檢測任務上取得了56.9% NDS 的成績, 較歷史最好成績提升9個點

                BEVFormer的推出,在學術界引領了對BEV感知研究的廣泛關注,同時也為產業界解決多目相機前融合、時序信息融合等問題提供了參考。這一方法打破了原有基于深度信息的傳統感知框架,無需嚴格依賴3D先驗知識,可自適應學習BEV特征,對于BEV感知性能的提升具有重要意義。實驗室的BEVFormer系列研究工作為探索相機感知算法性能上界提供了新思路,為如何以低成本達到激光雷達算法性能提供了新方案。


                注釋:

                [1] CVPR 2022 Workshop on Autonomous Driving網址://cvpr2022.wad.vision/

                [2] 論文鏈接://arxiv.org/pdf/2203.17270v1.pdf

                [3] 代碼://github.com/zhiqi-li/BEVFormer


                comm@pjlab.org.cn

                上海市徐匯區云錦路701號西岸國際人工智能中心37-38層

                滬ICP備2021009351號-1

                        
                        

                              拔萝卜又叫又疼原声视频