忘記密碼
2月25日,上海人工智能實驗室聯合商湯科技發布通用視覺開源平臺OpenGVLab,面向學術界和產業界開放其超高效預訓練模型、超大規模公開數據集,以及業內首個針對通用視覺模型的評測基準。此舉將為全球開發者提升各類下游視覺任務模型訓練提供重要支持,推動AI技術的規模化應用落地,并促進人工智能基礎研究及生態建設的快速發展。
繼去年11月聯合商湯科技、香港中文大學和上海交通大學發布通用視覺技術體系“書生”(INTERN),上海人工智能實驗室在推動通用視覺智能技術的發展上持續發力。此次發布的通用視覺開源平臺OpenGVLab不僅包含超高效預訓練模型,同時包括千萬級精標注、十萬級標簽量的公開數據集;同步公布的評測基準則將便于開發者對不同通用視覺模型的性能進行橫向評估和持續調優。
目前OpenGVLab開源平臺(opengvlab.shlab.org.cn)已正式上線,與上海人工智能實驗室此前發布的OpenMMLab 、OpenDILab一道,共同構筑開源體系OpenXLab,助力通用人工智能的基礎研究和生態構建。
“開源是一項意義非凡的工作,人工智能技術的迅速發展離不開全球研究開發人員十余年來的開源共建,共享共用。”上海人工智能實驗室相關負責人表示,“希望通過發布OpenGVLab 開源平臺,幫助業界更好地探索和應用通用視覺方法,促進體系化解決AI 發展中數據、效率、泛化、認知和安全等諸多瓶頸問題,為推動人工智能科研創新、產業發展作出貢獻。”
當前,人工智能技術正快速發展,然而很多AI模型還局限于完成單一任務,如識別單一物體,或識別風格較為統一的照片。如果要對多種類型、風格進行識別,則需要具備足夠的通用性和泛化能力。通用視覺技術體系“書生”(INTERN),很好地解決了這一問題。通用視覺開源平臺OpenGVLab即是基于“書生”打造而成。依托“書生”在通用視覺技術上的支撐,OpenGVLab將大幅降低通用視覺模型的開發門檻,幫助開發者用更低的成本快速開發用于成百上千種視覺任務、視覺場景的算法模型,高效實現對長尾場景的覆蓋,推動AI技術的規模化應用落地。
【率先開源:千萬級精標注數據集、十萬級標簽體系】
OpenGVLab充分繼承了通用視覺技術體系“書生”的技術優勢,其開源的預訓練模型具備極高性能。相較于此前公認的最強開源模型(OpenAI于2021年發布的CLIP),OpenGVLab的模型可全面覆蓋分類、目標檢測、語義分割、深度估計四大視覺核心任務,在準確率和數據使用效率上均取得大幅提升。
OpenGVLab開源模型推理結果:上圖為輸入的圖片,下圖為識別出來的標簽
針對藝術作品,OpenGVLab預訓練模型展示出了強大的泛化能力,例如,針對這幅大熊貓畫作,模型不但“看”出了這是一張“毛筆畫”“水粉畫”,而且由于圖中的黑白色,模型還給出了“yin yang”(陰陽)的推測,這也體現了數據集標簽的豐富性。
基于同樣的下游場景數據,開源模型在分類、目標檢測、語義分割及深度估計四大任務26個數據集上,平均錯誤率分別降低了40.2%、47.3%、34.8%和9.4%;同時,在分類、檢測、分割和深度估計中,僅用10%的下游訓練數據就超過了現有其他開源模型。使用此模型,研究人員可以大幅降低下游數據采集成本,用極低的數據量即可快速滿足多場景、多任務的AI模型訓練。
同時,OpenGVLab還提供多種不同參數量、不同計算量的預訓練模型,以滿足不同場景的應用需求。在ImageNet的微調結果和推理資源、速度等方面,模型庫中列出的多個模型與之前的公開模型相比,均有不同程度的性能提升。
除了預訓練模型,以百億數據總量為基礎,上海人工智能實驗室構建了超大量級的精標注數據集。超大量級的精標注數據集不僅整合了現有開源數據集,還通過大規模數據圖像標注任務,實現了對圖像分類、目標檢測以及圖像分割等任務的覆蓋,數據總量級近七千萬。開源范圍涵蓋千萬級精標注數據集和十萬級標簽體系。目前,圖像分類任務數據集已率先開源,后續還將開源目標檢測任務等更多數據集。
同時開放的還有總標簽量級達到十萬量級的超大標簽體系,不僅幾乎覆蓋了所有現有開源數據集,還在此基礎上擴充了大量細粒度標簽,涵蓋各類圖像中的屬性、狀態等,極大豐富了圖像任務的應用場景,顯著降低下游數據的采集成本。此外,研究人員還可以通過自動化工具添加更多標簽,對數據標簽體系進行持續擴展和延伸,不斷提高標簽體系的細粒度,共同促進開源生態繁榮發展。
【業內首發:通用視覺評測基準推動產業化應用】
伴隨OpenGVLab的發布,上海人工智能實驗室還開放了業內首個針對通用視覺模型的評測基準。當前,行業中已有的評測基準主要針對單一任務、單一視覺維度而設,無法反映通用視覺模型的整體性能,難以用于橫向比較。全新的通用視覺評測基準憑借在任務、數據等層面的創新設計,可提供權威的評測結果,推動統一標準上的公平和準確評測,加快通用視覺模型的產業化應用步伐。
在任務設計上,OpenGVLab提供的通用視覺評測基準創新地引入了多任務評測體系,可從分類、目標檢測、語義分割、深度估計和行為識別等5類任務方向對模型的通用性能進行整體評估。不僅如此,該評測基準新加了僅用測試數據集10%數據量的評測設定,可以有效評估通用模型在真實數據分布下的小樣本學習能力。在測試后,評測基準還可根據模型的評測結果給出相應的總分,方便使用者對不同的模型進行橫向評測。
隨著人工智能與產業融合的不斷深入,行業對人工智能的需求逐漸從單一任務向復雜的多任務協同發展,亟需構建開源、開放的體系,以滿足趨于碎片化和長尾化的海量應用需求。2021年7月,上海人工智能實驗室發布開源平臺體系OpenXLab,涵蓋新一代OpenMMLab和決策智能平臺OpenDILab。此次上海人工智能實驗室與商湯科技聯合發布通用視覺開源平臺OpenGVLab,不僅將幫助開發者降低通用視覺模型的開發門檻,為推動通用視覺技術發展奠定基礎,也進一步完善了OpenXLab開源體系,促進人工智能的基礎研究和生態構建。
附:
1.OpenGVLab開源網址:opengvlab.shlab.org.cn
2.OpenMMLab開源網址:github.com/open-mmlab
3.OpenDILab開源網址:github.com/opendilab
4.技術報告《INTERN: A New Learning Paradigm Towards General Vision》