忘記密碼
在7月6日舉行的2023世界人工智能大會(WAIC 2023)開幕式和科學前沿全體會議上,上海人工智能實驗室(上海AI實驗室)聯合香港中文大學和上海市測繪院發布全球首個城市級NeRF實景三維大模型“書生·天際(LandMark)”(以下簡稱“書生·天際”)。
書生·天際在大模型層面提出一種新的實景三維模型表征和訓練范式,可以4K級圖像精度準確呈現大規模三維城市場景。在重構出來的三維實景中,不僅具備包括移除、移動和新建城市建筑等城市布局的調整能力,還可以“上帝視角”調節光照、季節等城市風格。書生·天際已超越“城市重建”,突破性實現了“城市編輯”功能。
未來,上海AI實驗室將對書生·天際的建模范圍和功能進行擴展,并對書生·天際的算法、算子和系統全部進行開源。
“今天當談到 AIGC,我們想到的還是一張張照片;未來,AIGC 將可能生成我們心目中的家,心目中的整個城市。”上海AI實驗室林達華教授表示,書生·天際讓超寫實城市級三維實景成為可能,還將繼續進化,覆蓋更多城市區域和地標建筑,提供更多、更豐富的三維實景功能。
【超越實景重建,實現城市“可編輯”】
自然資源部發布的《實景三維中國建設總體實施方案(2022-2025年)》指出,實景三維是對一定范圍內人類生產、生活和生態空間進行真實、立體、時序化反映和表達的數字空間,是重要的新型基礎設施。
書生·天際在實景三維重建領域,實現了一系列技術突破。具有千億級參數的書生·天際,已實現對100平方公里范圍進行城市實景三維建模。研究人員將預先采集的航拍傾斜攝影圖像導入書生·天際模型進行訓練,經計算渲染后便可生成實景三維模型。
圖像質量方面,書生·天際實現了4K分辨率離線渲染,同時首次實現城市級NeRF的100平方公里全范圍1K分辨率、30幀實時渲染。書生·天際利用少量的傾斜拍攝圖像,便可實現大規模場景的三維實景建模,建模范圍理論上具有無限可擴展性。與傳統建模方式相比,書生·天際效率顯著提升,有望為城市數字孿生節約可觀的人力和資源。
“書生·天際”可實現大規模場景的三維實景建模
書生·天際實現4K分辨率離線渲染、1K分辨率實時渲染
在高質量實景重構的基礎上,書生·天際首次在城市區域和地標建筑兩個維度上提供豐富的超越重建能力。
在“書生·天際”中編輯地標建筑
【首創CityNeRF技術,“生成”城市】
書生·天際高性能的內核,是上海 AI 實驗室首創的CityNeRF技術。2021年12月,上海AI實驗室提出CityNeRF,將衛星與近景等多種不同高度的影像進行有效融合,率先把NeRF建模技術從物體級拓展到城市級。這項工作的提出超前于Google的BlockNeRF和卡內基梅隆大學的MegaNeRF。隨后,上海AI實驗室進一步研發出基于網格(Grid)表征和NeRF表征相結合的雙支模型結構,支持模型的多層級拓展的第二代CityNeRF技術,為城市級NeRF大范圍無限擴展建模奠定了技術基礎。
為實現從NeRF到第二代CityNeRF的技術突破,上海AI實驗室創新性提出了“算法+計算系統+算子”全套創新的“解題思路”,使大范圍、高精度、可編輯的城市級實景三維大模型變為現實。
針對大規模城市級場景的NeRF建模,書生·天際采用了基于網格(Grid)表征的雙支結構模型,包含一個網格端和一個NeRF端。網格端(Grid branch)將場景分解成地面特征平面和垂直特征軸,NeRF端(NeRF branch)采用輕量MLP網絡重建訓練視角。為減少渲染計算量,書生·天際可有效地跳過空白空間,降低九成以上采樣量,同時還采用提前終止渲染的方式提高計算效率。
在訓練階段,書生·天際采取漸進式的訓練策略逐步增大訓練圖像的分辨率。每個階段訓練后,還會加入形變損耗(distortion loss)來約束每條光束上點權重的分布,以得到更加干凈緊湊的場景密度。
基于網格(Grid)表征的雙支結構模型
針對三維實景重構所面臨的海量計算任務,書生·天際采用了并行訓練、數據集分塊、分布式渲染3個計算加速方案,大幅度提升了計算效率。在并行系統中,并行策略組件(BranchParallel、PlaneParallel、ChannelParallel、DataParallel)進行混合,實現了超過200B參數量的城市級NeRF高效訓練。
城市級場景的生成,輸入數據規模通常達到100TB級別規模,針對大規模數據加載與預處理問題,“書生·天際”把數據分塊,通過兩層數據集重排,使得運算負載更均衡。渲染速度是影響基于NeRF的城市級三維實景的實際體驗的關鍵因素,為了從系統層面充分提高渲染效率,書生·天際在渲染前先做多分支模型的分支合并。渲染引擎還根據城市級場景的特點,提出了一種運行時動態加載模型參數的策略,可以使實時渲染不隨場景尺度的增大而增加所消耗的資源。得益于這一系列系統層面的優化,書生·天際最終提升渲染性能近3個數量級(1000倍),并實現了城市級NeRF的100平方公里1K分辨率、30幀的實時渲染。
隨著城市場景渲染的規模不斷增加和精細度要求不斷提高,城市級NeRF的場景規模和渲染精細度對實時計算、存儲以及系統的硬件配置都提出了更大的挑戰。因此,在算子方面,書生·天際提供了一套完整的基于CUDA的算子優化方案。該方案針對網格端和NeRF端的不同特性,采用了不同的核心算子優化手段,并最終實現了一系列針對城市級NeRF計算特點的高性能算子設計。