忘記密碼
從強化學習到 MCTS,從星際爭霸 AI 到自動駕駛,決策 AI 發揮了關鍵作用,是“弱人工智能”邁向“強人工智能”的重要突破點,它將幫助人類更好地去追尋星辰大海,探索無限可能。
“DI極客說”系列技術沙龍由上海人工智能實驗室主辦,全球高校人工智能學術聯盟承辦,商湯科技作為支持單位,AI研習社作為直播平臺,PaperWeekly作為合作媒體聯合打造。“DI極客說”將通過邀請多元化的技術專家,介紹決策AI相關領域的前沿科技成果,分享科研和產業化應用經驗,共建“知識共享”的決策AI開源技術生態。
第一期“DI極客說”將于8月14日拉開帷幕,報名成功的小伙伴們均可免費參加!高校學者、業界專家以及眾多關注AI的同行將齊聚線上,一起討論交流關于“決策AI的研究與應用”的最新前沿知識!
參與本期技術沙龍,你將收獲:
產學研界專家團的專業講解與實時互動;
掌握決策AI相關知識及前沿技術動態;
學習認證證書;
嘉賓及分享內容
喬宇博士
上海人工智能實驗室科學技術發展部部長、研究員
喬宇博士從事計算機視覺、深度學習、機器人等領域的研究開發。開發了軌跡卷積特征、時序分割模型、中心損失、多任務級聯檢測等方法,顯著提升了多類別行為檢測分類、超大規模人像識別、復雜場景識別等任務的性能,相關技術被華為、中興、騰訊、商湯等企業廣泛使用。發表學術論文200余篇,論文累計被引兩萬六千余次,h-index為64。獲授權發明專利40余項。入選萬人計劃領軍人才,科技部中青年科技創新領軍人才、中科院百人計劃等。入選AI2000人工智能全球最具影響力學者、愛思唯爾高被引學者等。十余次在ChaLearn, LSun, ActivityNet, EmotionW等國際評測中取得第一。以第一完成人獲廣東省技術發明一等獎、中科院盧嘉錫青年人才獎等,獲人工智能旗艦會議AAAI2021杰出論文獎。
俞揚博士
南京大學教授、南棲仙策創始人
俞揚博士為國家萬人計劃青年拔尖人才,主要研究領域為機器學習、強化學習,近期專注于開放環境強化學習的理論、技術與落地應用。獲2020CCF-IEEE“青年科學家獎”,入選2018年IEEE Intelligent Systems雜志評選的“國際人工智能10大新星”,獲2018亞太數據挖掘"青年成就獎”,受邀在IJCAI’18作關于強化學習的"青年亮點"報告。獲2013年全國優秀博士學位論文獎、2011年CCF優秀博士學位論文獎。
報告題目:環境模型學習——讓強化學習走出游戲
強化學習研究大多被限制在游戲環境中,尚處于“好看不好用”的境地。基于環境模型的強化學習被認為是有望解救強化學習樣本效率低下的主要途徑。一旦有了良好環境模型,強化學習的大量試錯可在環境模型中完成,從而極大的減少了在真實環境的試錯采樣的數量,使得強化學習更具可用性。然而,以往環境模型學習的理論與實驗均難以支持這一想法,使得研究主流逐漸拋棄對學習良好環境模型的期待。報告人在實踐需求中看到,環境模型具有難以替代的應用優勢,并在環境模型學習上開展了研究。本次報告將匯報環境模型學習的研究進展,及其在真實強化學習應用中的效用。
高陽博士
清華大學交叉信息研究院助理教授
高陽博士在美國加州大學伯克利分校獲得博士學位,師從Trevor Darrell教授。他還在伯克利大學與Pieter Abbeel等人合作完成了博士后工作。高陽主要研究計算機視覺與機器人學。在此之前,高陽從清華大學計算機系畢業,與朱軍教授在貝葉斯推理方面開展了研究工作。他還在2011-2012年在谷歌研究院進行了自然語言處理相關的研究工作、2016年在谷歌自動駕駛部門Waymo的相機感知團隊實習。他在2018年與VladlenKoltun博士在英特爾研究院在端到端自動駕駛方面進行了研究工作。
報告題目:Mastering Atari Games with Limited Data
Reinforcement learning has achieved great success in many applications. However, sample efficiency remains a key challenge, with prominent methods requiring millions (or even billions) of environment steps to train. Recently, there has been significant progress in sample-efficient image-based RL algorithms; however, consistent human-level performance on the Atari game benchmark remains an elusive goal. We propose a sample efficient model-based visual RL algorithmbuilt on MuZero, which we name EfficientZero. Our method achieves 180% meanhuman performance, or 84.8% median performance on the Atari 100k benchmark with only two hours of real-time game experience. This is the first time an algorithm achieves super-human mean performance on Atari games with such little data. EfficientZero's performance is also close to DQN's performance at 200million frames, however we consumes 500 times less data. EfficientZero's low sample complexity and high performance can bring RL closer to real-world applicability. Unlike previous MCTS-based RL algorithm, our algorithm can run on a single machine instead of requiring a distributed system. We implement our algorithm in an easy to understand manner, and will open-source it upon publication. We hope it will accelerate the research of MCTS-based RL algorithms in the wider community.
劉宇博士
上海人工智能實驗室青年科學家、OpenDILab開源決策智能平臺項目負責人
劉宇博士畢業于香港中文大學MMLab,研究方向為大規模深度學習優化問題和決策AI,發表人工智能領域頂會頂刊30余篇,總引用量2000+,2019年Google PhD Fellowship得主,在ImageNet2016、OpenImage2019、MMIT2019、LFR2019、ActivityNet2020等人工智能重量級世界競賽中獲得冠軍。
報告題目:從感知AI的發展理解決策AI的未來
感知與決策是通用人工智能的兩大基石。感知類 AI 諸如計算機視覺、語音識別、自然語言處理等領域在過去 10 年享受了深度學習所帶來的性能紅利,而決策 AI 隨著諸如強化學習與深度學習的結合在近年也表現出了很高的想象空間。本次分享將回顧計算機視覺在深度學習時代的發展,從 ImageNet 等單一學術問題的革命性突破到真正實現大量復雜場景可用可落地的發展過程,圍繞環境標準化、算法平臺化、模型通用化等幾大議題,分析和暢想決策類 AI 在未來大規模落地和發展可能性。
牛雅哲
上海人工智能實驗室、OpenDILab開源決策智能平臺核心研發人員
牛雅哲主要負責平臺引擎DI-engine的設計和開發,統籌研發一系列決策AI平臺底層效率優化組件,并為相關大規模分布式強化學習應用提供技術保障和支持,構建決策智能技術和系統工程結合的完整工具鏈。
報告題目:從零到一,堅持做正確的事——通用決策AI平臺的開拓創新之路
近年來,決策AI技術接連突破人類對于通用人工智能的想象,但其在各種復雜環境和計算場景上的通用性問題仍是真正實現技術變革的巨大阻礙。多模態,低信息密度的數據流,算法設計和實現邏輯高度耦合的計算模型,不斷動態變化的問題場景,AI+System的協同優化,都體現出了相關系統和平臺設計的復雜性。從零到一,設計構建通用決策智能平臺OpenDILab,優雅且高效地處理決策AI技術遇到的各種復雜性問題,為整個決策AI生態圈提供基礎技術支持。
OpenDILab(開源決策智能平臺)于 2021 年 7 月 8 日世界人工智能大會的開幕式和科學前沿全體會議上正式發布。該平臺作為上海人工智能實驗室開源平臺體系OpenXLab的重要組成部分,是國際上首個覆蓋最全學術界算法和工業級規模的決策AI平臺,具備一套完備的決策 AI 訓練與部署框架,自頂而下涵蓋了包括應用生態層,算法抽象層,異步分布式管理層和最底層的分布式執行層,適配從單機到萬 CPU/GPU 聯合訓練的全尺度調度系統優化。具體開源代碼實現詳見 GitHub:https://github.com/opendilab/