忘記密碼
11月28日,機器學習和計算神經科學國際頂級會議NeurIPS 2022(Neural Information Processing Systems)將在美國新奧爾良召開。上海人工智能實驗室自動駕駛課題組攜科研成果赴會前特別撰文,分享關于自動駕駛感知決策一體化的架構設計思考。
【端到端自動駕駛的發展】
自動駕駛是當前人工智能領域頗受關注且具挑戰的產業方向,是推動全球汽車工業變革的重要科技力量。傳統自動駕駛算法體系將自動駕駛分為感知、決策、規劃與控制,模塊化完成自動駕駛任務。而端到端自動駕駛,則是基于人類根據場景信息直接輸出控制信號這一駕駛過程,通過端到端網絡直接輸出車輛的軌跡規劃或控制信號。傳統模塊化方案的優勢是低耦合、可解釋性高,但往往會丟失最優性;相比于傳統方法,端到端自動駕駛最優性更佳,同時人為設計更少,因此也對算法提出了更高的要求。
傳統自動駕駛方案與端到端自動駕駛方案對比
端到端自動駕駛學術界發展脈絡圖(1988 - 2023)
如上圖所示,隨著學術界與產業界推動,感知決策一體化的端到端自動駕駛受關注度不斷提升。在已舉辦的CVPR 2022自動駕駛專業論壇上,來自加利福尼亞大學伯克利分校、多倫多大學、特斯拉、英偉達等高校和企業的研究人員對感知決策一體化相關工作進行了分析與探討。
在即將召開的NeurIPS 2022上,上海人工智能實驗室自動駕駛課題組將參會展示自動駕駛感知決策一體化相關成果。以下內容重點圍繞預研工作和工程落地方面的進展展開分享。
本文主要內容概覽——端到端自動駕駛
【預研工作】
大規模數據預訓練
在通用視覺中,已經有豐富的大數據自監督預訓練方法,端對端自動駕駛只需解決在感知決策一體化模型中的遷移問題。但這些數據中往往包含著大量與駕駛決策無關的信息,對于駕駛任務而言,下一步往哪里行駛、信號燈是否允許通行等才是真正需要關注的信息。
PPGeo研究動機:基于自監督幾何建模的自動駕駛策略預訓練方法
如何讓感知決策一體化算法自動過濾不相關信息?
來自美國加州大學洛杉磯分校的周博磊團隊提出了Action-conditioned COntrastive Learning(ACO),利用網上數據打偽標簽,關注轉向信息在特征提取骨干網絡中的表征,通過數據預訓練來提升網絡性能,受到業界廣泛認可。
此外,在近期的ICLR 2023雙盲評審Openreview網站上,一項題為 Policy Pre-training for Autonomous Driving via Self-supervised Geometric Modeling(PPGeo)的研究中,作者提出了一個自監督學習框架,在大規模網絡駕駛數據上預訓練,為感知決策模型提供先驗知識,顯著提升了感知決策模型的性能。
PPGeo自監督學習框架
PPGeo分為兩個階段。在第一階段,根據時序圖像生成位姿和深度預測;在第二階段,利用第一階段訓練的位姿和深度網絡監督單圖像輸入的視覺編碼器,完成視覺編碼器的預訓練過程。PPGeo對預訓練的視覺編碼器進行調優,可以適配于不同的下游任務。實驗表明,基于PPGeo的預訓練模型具有更好的駕駛能力,在無關物體干擾、特定信號指引、環境變化等困難環境下,均可以輸出合理結果。
ACO論文地址:arxiv.org/pdf/2204.02393.pdf
PPGeo論文地址:openreview.net/forum?id=X5SUR7g2vVw
加強解碼器表達能力
為加強解碼器表達能力,上海人工智能實驗室自動駕駛課題組提出的Trajectory-guided Control Prediction(TCP)對解碼器部分進行了特殊設計,解決了以往感知決策一體化模型重感知、輕決策的問題,僅使用單一單目相機作為輸入,獲得了CARLA Leaderboard(截至2022.6.24)(leaderboard.carla.org/)榜單第一名,大大減少了各類碰撞、偏航等問題出現的概率。
CARLA Leaderboard:為評估真實環境下自動算法性能而設立的榜單,吸引了來自得克薩斯大學奧斯汀分校、法雷奧等眾多自動駕駛研究人員和從業者參與其中
TCP在CARLA AD Leaderboard上的排名(截至2022.6.24)
TCP方法框圖
TCP解決的主要問題是輸出軌跡加PID控制的方法不能準確穩定地控制車輛,而直接以控制輸出的方法又缺乏對未來時刻的考慮。TCP采用取長補短的方法,通過多任務學習(Multi-tasks)對解碼器進行特殊設計,包含了軌跡及控制兩個分支,軌跡分支教控制分支“看向未來”,控制分支負責在PID不穩定的情況下接管車輛。
Demo:TCP在CARLA中的測試片段,TCP可以準確地輸出對應的軌跡與控制信號。
針對相關研究成果,在NeurIPS 2022期間,上海人工智能實驗室自動駕駛課題組吳鵬浩將于北京時間12月3日23:35在ML4AD workshop發表演講。
論文地址:arxiv.org/abs/2206.08129 (NeurIPS 2022)
項目地址:github.com/OpenPerceptionX/TCP
以目標驅動的感知決策一體化設計
純視覺方案具有信息豐富與低成本的優勢,同時,以往端到端方案通常單純使用控制信號進行監督。自動駕駛課題組提出,對純視覺自動駕駛算法每個模塊都加以設計并進行端到端訓練,提出了ST-P3:End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning。
ST-P3工作結構框圖
ST-P3是一個基于視覺的可解釋的端到端系統,該系統可以改善感知、預測和規劃的特征學習。在多個時刻下的環視相機圖像會依次經過感知、預測、規劃模塊,輸出最終的規劃路徑。其中,感知和預測模塊的特征輸出,可以經過解碼器得到不同類型的場景語義信息,增強可解釋性。團隊還通過每個模塊中特殊的設計來增強時空特征的學習。在端到端一體化的訓練方式下,三個模塊的性能在nuScenes數據集上的感知、預測與開環規劃效果均超越相應的方法達到SOTA,并且在CARLA上的測試也可以超越經典的基于多模態的Transfuser方法。
論文地址:arxiv.org/abs/2207.07601(ECCV 2022)
項目地址:github.com/OpenPerceptionX/ST-P3
落地方案Openpilot
Openpilot
在工業界,同樣對端到端自動駕駛有了相應方案。Openpilot是一套針對高速駕駛場景,面向L2輔助駕駛功能(ACC、LKA、DMS等)的開源項目,已實現將端到端模型應用于量產落地。Openpilot采用一個簡單的多任務學習模型,以前后兩幀前視攝像頭作為輸入,直接輸出預測軌跡,預測軌跡和雷達信號結合送入MPC控制器得到最終的控制信號。
基于此,自動駕駛課題組復現了Openpilot的模型,以多任務學習的形式同時預測車道線、車輛狀態等信息,相關資料發表在arxiv上。
網站鏈接:sites.google.com/view/openpilot-deepdive/home
項目鏈接:github.com/OpenPerceptionX/Openpilot-Deepdive
端到端自動駕駛在迅速發展的同時,也仍然存在諸多挑戰,自動駕駛課題組期待與學界交流分享前沿觀點,不斷發掘自動駕駛相關研究在現實世界中的應用潛力。
未經允許,禁止轉載;以上圖、表未作說明,均為原創。