忘記密碼
隨著深度學習技術的演進,超大規模通用模型技術正快速發展,一個模型廣泛應用于各種任務并具有某些通用智能特性的時代正在到來。
針對這一主題,上海人工智能實驗室OpenMMLab浦視團隊將舉辦“超大規模視覺通用模型”直播活動,邀請清華大學電子工程系副教授、博士生導師代季峰,分享其團隊近期在該領域的研究進展。
活動時間
2023年5月4日(周四)
20:00-20:40(分享)
20:40-21:00(Q&A)
分享內容
視覺與語言跨模態智能及應用概述
視覺到語言的近期技術進展
語言到視覺的近期技術進展
視覺與語言跨模態智能應用
分享嘉賓
代季峰 清華大學電子工程系副教授、博士生導師、OpenGVLab核心成員
2009年、2014年于清華大學自動化系分別獲得工學學士和博士學位,博士導師為周杰教授。2014年至2019年在微軟亞洲研究院視覺組工作,擔任首席研究員、研究經理。2019年至2022年在商湯科技研究院擔任執行研究總監。2022年7月全職加入清華大學電子工程系。
研究興趣包括計算機視覺、深度學習等,相關領域發表國際期刊、會議文章50余篇,論文總引用2.6萬余次,多篇論文成為物體識別領域里程碑式的成果,被編入世界一流大學視覺課程講義,并入選深度學習權威框架PyTorch成為標準算子。
連續兩年獲得物體識別領域權威的COCO比賽冠軍,之后歷屆冠軍系統也使用了其提出的算法,獲自動駕駛感知領域權威的Waymo 2022競賽冠軍。IJCV編委,NeurIPS 2023、ICCV 2023、CVPR 2023、CVPR 2021、ECCV 2020領域主席,ICCV 2019宣傳主席。
主持人
李亦寧 上海人工智能實驗室青年研究員
OpenMMLab多個框架負責人,香港中文大學博士。主要研究方向為 Human-Centric機器視覺,包括屬性、姿態識別,圖像生成,度量學習等。
內容詳情
通用感知模型由NLP發源,正往更多模態發展。多模態技術拓寬了AIGC技術的應用廣度,將不同模態(圖像、聲音、語言等)融合在預訓練模型中,使得預訓練模型從單一的NLP、CV發展成音視頻、語言文字、文本圖像等多模態、跨模態模型。
通用感知模型在發展中也存在諸多挑戰和困難,如:
1.網絡參數量龐大(超十億參數vs不到千萬參數):較之小網絡,訓練穩定性、收斂性、過擬合等問題面臨更大挑戰;
2.訓練流程復雜(數十億異質低質量圖片、圖文對vs千萬同質精細標注圖片):多步訓練以利用異質的多模態多任務數據,需應對流程復雜,災難性遺忘,難以定位精度問題;
3.實驗成本高(上千塊GPU并行訓練數周vs8塊GPU訓練數小時):需要研究者有敏銳的分析能力和扎實的知識功底;
4.工程挑戰多:海量數據的吞吐,大型GPU集群上的并行算法,超大參數量模型的內存管理等。
針對這些問題,代季峰教授將分享團隊近期的四個研究成果,希望帶給研究者們更多啟發。
研究進展一:多模態多任務統一預訓練
為了高效地在互聯網尺度圖像、圖文對上訓練超大規模視覺模型,團隊提出了“最大化互信息統一預訓練”,首次將現有各種預訓練算法統一在一個框架中,實現多模態多任務統一預訓練,一步完成多數據源的多模態多任務預訓練,訓練流程簡潔高效,過程易于監控排除故障。解決了已有多模態多任務訓練時流程復雜、魯棒性低,難以分析定位訓練,以及災難性遺忘、犯錯成本高等問題。
Code:https://github.com/OpenGVLab/M3I-Pretraining
研究進展二:超大規模圖像主干網絡
為了獲得高質量的圖像主干網絡,使其能適用于各種異質的視覺任務,團隊提出了InternImage大模型,以可變形卷積的方式取得了圖像領域標桿任務的最優性能,打破了Vision Transformer對視覺大模型的壟斷,超越包括微軟、Meta、谷歌等機構的視覺大模型。在超大規模圖像主干網絡的研究中,需要考慮多方面的問題:
1.大模型設計的范式:考慮網絡深度/寬度/分辨率/分組計算數量的scaling up策略、針對大網絡收斂不穩定的特征及梯度調整策略、針對大模型收斂慢的初始化策略、針對大模型容易過擬合的訓練策略等;
2.大規模加速訓練框架:PyTorch DDP、FSDP、DeepSpeed ZeROs、混合精度計算、融合算子、kernel 級別加速、梯度累加、梯度 checkpointing、高效數據讀取、數據切分、集群文件和計算系統排疑、訓練異常自動監控推送及重啟、profiler等;
3.多任務模型訓練框架:支持多網絡/多任務/多數據集/多模態的聯合訓練(設計實現高自由度模塊化的Meta Dataloader & Sampler 和 Meta Training & inference Pipeline)、數十個任務-數據集對同時高效讀取及預處理、多任務多數據集采樣、基于代理任務的自動超參搜索、多任務梯度/Loss/Acc等統計量對比監控等。
團隊提出的InternImage模型在數十個視覺任務數據集全面領先,并于2023年3月初開源。
Code:https://github.com/opengvlab/internimage
研究進展三:Uni-Perceiver通用視覺任務表征
在計算機視覺領域,不同任務的表征差異巨大。為構建視覺任務通用的解碼器網絡,實現任務級別的泛化的目標,團隊提出了Uni-Perceiver系列,該方法是通用視覺任務表征模型研究的開創者,首次將數十種視覺任務統一在一個表征框架下。其中Uni-Perceiver v2已在在物體檢測、實例分割等視覺核心問題上取得和專有模型相當的性能。
Code:https://github.com/fundamentalvision/Uni-Perceiver
研究進展四:BEV 環視自動駕駛感知
當前,工業界對相機3D感知有不同的探索路徑,大體上可以分為Image-view和BEV方法兩種。Image-view方案使用不同網絡完成感知子任務,最后通過以規則為主的融合方法對不同網絡的感知結果進行融合。區別于Image view方案,BEV方案通常采用Transformer將Image feature轉換至BEV視角進行相關感知任務。針對現階段基于視覺的3D目標檢測方法并沒有充分利用時序信息的問題,BEVFormer提出了基于可變形注意力機制(Deformable Attention)實現的一種融合多視角相機(multi-camera)和時序特征的端到端框架,適用于多種自動駕駛感知任務,檢測算法具有魯棒性。BEVFormer入選了“Top-10 most influential papers of ECCV 2022”,也在Waymo純視覺3D檢測挑戰賽中斬獲第一。
Code:https://github.com/fundamentalvision/BEVFormer
相關資料
Paper:
Su et. al., Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information. CVPR 2023.
Wang et. al., InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions. CVPR 2023.
Zhu et. al., Uni-perceiver: Pre-training unified architecture for generic perception for zero-shot and few-shot tasks. CVPR 2022.
Zhu et. al., Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs. NeurIPS 2022.
Li et. al., Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks. CVPR 2023.
Li et. al., BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. ECCV 2022.
Yang et. al., BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision. CVPR 2023.
活動組織方
指導單位:中國計算機學會高性能計算專業委員會、北京市科學技術協會
主辦單位:OpenMMLab、北京超級云計算中心
協辦單位:北京圖象圖形學學會、OpenGVLab、TechBeat人工智能社區
OpenMMLab浦視
OpenMMLab開源社區具備深度學習時代最完整的計算機視覺開源算法體系,是產學研用四位一體的開放開源算法平臺。
OpenMMLab專注于視覺深度學習領域,涵蓋30+計算機視覺方向,支持300+算法,提供2300+預訓練模型。所有的工具箱都基于統一架構,提供代碼工程組織架構優秀、擁有大量高質量算法內容的代碼庫,與提供模型訓練能力的PyTorch等深度學習框架協同互補。
OpenMMLab可以幫助使用者降低算法復現難度,方便復現算法基準并與之比較。與此同時,還可以幫助使用者解決算法落地過程產生的多樣化版本問題,提升人工智能算法的應用和部署效率。
北京超級云計算中心
北京超級云計算中心(簡稱“北京超算”),成立于2011年,是由北京市人民政府主導、院市共建的“北京超級云計算和國家重要信息化基礎平臺”,現坐落于北京市懷柔綜合性國家科學中心--懷柔科學城。自2019年起,北京超算在北京、寧夏、內蒙古等地布局了三個主算力樞紐,以構建跨域資源協同調度體系,優化算力之間的統籌聯動,提高科研生產效率,降低企業研發成本,為國家“東數西算”工程的實施做出了有力的響應。
2020年、2021年、2022年,北京超算連續三年入圍中國HPC TOP前100,連續三次獲得“通用CPU算力性能第一名”。同時在2021年AIPerf 500榜單中,北京超算10套AI算力系統上榜,獲得總量份額第一名。