忘記密碼
2022世界人工智能大會(WAIC)科學前沿全體會議期間,上海人工智能實驗室重磅發布了更為通用的人工智能模型“書生2.0”。全新升級后的“書生”,不但“看圖更準”,還學會了“理解視頻”和“做翻譯”,在40多個視覺任務取得了世界領先性能,以中文為核心的大規模百語翻譯開源平臺也將在年內推出。
WAIC 2022上海人工智能實驗室發布人工智能模型“書生2.0”
發展更為通用的AI技術是人工智能的科技前沿和核心焦點問題。去年11月,上海人工智能實驗室發布“書生”,一個模型即可全面覆蓋分類、目標檢測、語義分割、深度估計四大視覺核心任務。將通用視覺技術體系命名為“書生”,意在體現其如同書生一般的特質,可通過持續學習,舉一反三,逐步實現通用視覺領域的融會貫通,最終實現靈活高效的模型部署。經過近一年的努力,“書生2.0”全新升級,可以更加精準地識別圖像,在圖像標桿任務上性能取得了顯著的提升,并在30多種視頻任務上取得了領先的性能,還可實現以中文為核心的百種語言翻譯。
新一代通用模型“書生2.0”
“實驗室正在打造以視覺和自然語言為核心的通用模型技術體系,包括基礎理論方法、數據集、模型集、下游任務和應用生態等。”上海人工智能實驗室領軍科學家喬宇表示,“面向未來,‘書生’期望實現以一個模型譜系完成上千種任務,體系化解決人工智能發展中的諸多瓶頸問題。推動人工智能從單任務單模態可用到多任務多模態安全易用,從感知智能到認知智能的躍遷。”
【視覺模型更通用、更低碳、更環保】
“書生2.0”通用圖像模型基于動態稀疏卷積網絡,可以根據不同的視覺任務自適應地調整卷積的位置以及組合方式,從而靈活準確適配不同的視覺任務。較“書生1.0”,“書生2.0”在圖像檢測等視覺標桿任務上的性能取得重大提升,在COCO物體檢測、Open Image物體檢測、Cityscapes語義分割上的平均精度提高7.7個點,其中在COCO物體檢測任務上取得64.2mAP的高分。以卷積神經網絡的方式重新取得圖像領域標桿任務的領先性能,也為圖像大模型提供了新的方向。
“書生2.0”通用視頻模型探索掩碼學習和對比學習相結合的訓練范式,突破視頻自監督學習的性能瓶頸,構建了首個具有體系化動態感知能力的視頻大模型,全面覆蓋基礎視頻識別、開放視頻感知、時空語義解析三大核心領域。在視頻識別、視頻時空檢測、視頻時序定位、視頻檢索等30多種視頻任務上精度世界領先,在視頻識別標桿基準庫Kinetics 400上首次取得超越90%的Top1準確率,達到91%。
基于“書生2.0”的通用圖像和視頻模型,可以廣泛應對多種視覺任務和多種場景。在12大類40余種視覺任務中,“書生2.0”模型支撐取得了領先性能,超越了相關領域的國際知名機構。
“書生2.0”在40多種圖像和視頻任務中取得領先性能
在達到優異性能的同時,“書生2.0”還實現了使用成本更低、更低碳、更環保的目標。相比達到谷歌的CoCa和微軟的SwinV2-G的相似效果,“書生”使用的計算量遠遠小于前兩者,據測算可累計減少碳排放量31余噸。
【推出以中文為核心的百語翻譯模型】
目前大部分開源翻譯模型在中文和其他語種之間的翻譯時錯誤率較高。針對這個痛點,“書生2.0”積累了大量中文為核心的翻譯數據,提出了異步多分枝訓練技術,構建了以中文為核心的百語通用翻譯模型,一個框架支持161種語言,推動中文自然語言處理社區的開放。
M2M和NLLB是公認開源效果領先的多語言翻譯模型。在Flores數據集上,對比M2M 120億參數量模型,“書生2.0”在多語到中文的平均翻譯性能提升了35.1%;對比NLLB 500億參數量模型,“書生2.0”在多語到中文的平均翻譯性能提升了7.1%。而相較前兩者,“書生2.0”僅需要10億的推理參數。以“書生”技術為支撐,團隊在Waymo自動駕駛等16項國際大賽和評測中取得了冠軍,發表了20余篇高質量學術論文并開源,穩步構建以視覺和自然語言為核心的更為通用的人工智能技術體系。
本次大會期間,由中國電子技術標準化研究院、上海人工智能實驗室聯合發起,多家機構共同編撰的全國信標委人工智能分委會的第一份技術文件《人工智能大規模預訓練模型 第1部分:通用要求》(TC28/SC42-001)也即將發布。該文件是模型開發者、科研機構、模型使用方、第三方評測機構共同研討的重要成果,作為我國大模型領域的一份奠基性規范文件,對推動大模型與產業深入融合、完善生態具有重要意義。
“書生”將持續學習,不斷進步,未來將持續推動通用模型技術突破,共建創新應用生態,以人工智能高水平應用促進社會、經濟高質量發展。