忘記密碼
2022世界人工智能大會科學前沿全體會議上,中國工程院院士、浙江大學教授潘云鶴作了題為《AI的走向:知識的登臺與升級》的演講。他認為,跨媒體智能已成為備受關注的發展方向,此技術可應用于圖像識別及視覺生成,其中知識發揮了重要作用;大數據和跨媒體智能、跨媒體知識表達相結合,將形成人工智能第四次創新方向,這一方向由數據和知識雙輪驅動。
潘云鶴院士作主題演講
很榮幸在2022世界人工智能大會上討論人工智能發展的前沿。今天,我想和各位分享的主題是“AI的走向:知識的登臺與升級” ,主要講兩個方面的內容:一是,認識人工智能發展的指向;二是,人工智能正走向數據與知識的雙輪驅動。
【人工智能發展的指向,知識再一次登上舞臺的中央】
近年來,人工智能發展熱潮形成的主動力之一來自深度學習技術提高圖像識別精度等應用發展。2016年5月,美國白宮發表的《為人工智能未來做好準備》(Preparing for the Future of Artificial Intelligence)報告提到:鑒于人工智能在醫學以及圖像語音理解方面將對社會生活起到史無前例的影響,要在美國國家科技委中設立“人工智能和機器學習委員會”,以協調指導全美各界的行動。
圖像識別為何能產生如此大的影響?因為圖像識別技術不僅推動了人臉識別、指紋識別、醫學圖像識別等的發展,還有一系列非常廣泛的應用,比如智能汽車、安全監控、機器人、無人機、智能制造等。
那么深度學習為何會興起?主要因為它在多媒體大數據智能的識別上實現了突破。要看到,這一項技術之所以在全世界產生巨大影響,因為它不僅是新模型,還在應用中填補了人工智能1.0的重要空白,就是對多媒體大數據的處理。
2020年7月,《日本經濟新聞》報道,一項可能預示著人工智能未來走向的技術亮相,這種技術被稱為“多模態人工智能”。就像人類通過五感理解周圍環境一樣,多模態人工智能可以通過圖像、聲音和文件等多種數據做出高水平判斷。在日本有企業家表示,多模態人工智能無疑是新一代人工智能的核心技術。
人工智能業內人士都知道,多模態人工智能就是多媒體人工智能,而且多媒體人工智能和人類的認知過程是吻合的,人的認知過程有多種不同的智能形式。美國IBM(美國國際商用機器公司)和MIT(麻省理工學院)設立“Watson AI Lab”,進行尖端的多模態人工智能技術研究。而中國在2017年《新一代人工智能發展規劃》中提出了大數據智能、跨媒體智能、群體智能、混合增強智能、自主智能系統等智能技術形態,其中明確指出了跨媒體智能的發展方向。
跨媒體人工智能、多媒體人工智能的應用將不僅僅局限于圖像識別,還將用于視覺生成。這次大會大家討論的中心問題——“元宇宙”,它的產生不但要涉及到大量的視覺識別問題,還涉及了大量的視覺生成問題。
元宇宙的本質是建立在互聯網上的可體驗的虛擬世界,它是在人類世界從兩元空間(人類社會和物理空間)轉向三元空間(人類社會、物理世界和信息空間)的過程中產生的。到了三元空間,就可以把物理世界和人類社會投射到信息空間中,這就是元宇宙的重要基礎。元宇宙的發展受到世界眾多國家和機構的重視,如英國、歐盟、美國等各大公司都投向這一方向的探索:英國商業、能源和工業戰略部于就元宇宙等信息物理前沿創新向社會各界咨詢意見;歐盟議會發布了題為《元宇宙:機會、風險與政策含義》的簡報;美國《時代周刊》指出國際頂尖科技公司,如蘋果、谷歌、微軟等已在積極探索元宇宙技術。
元宇宙一方面要模擬物理世界,一方面要模擬人類社會,而其中的關鍵技術是數字人。表面上數字人是有數字化外形的虛擬人,不但要表現人的外觀、人的動作、人的感知、人的認知能力,還要表現人的個性化數據。因此,數字人本身需要一個人的跨媒體知識表達。
以人體視覺知識為核心的數字人技術,必須要形成一種跨媒體的知識表達,不但要有個性化的數據結合人體形態、結構、運動的數據與知識,而且能構建結構清晰、可解釋、可推演的虛擬形象,這樣才能在元宇宙中發揮更大的作用,獲得更加廣泛的應用前景。
數字人的各類應用
目前,我們已經看到了數字人有各種各樣的應用,比如虛擬形象構建、人體數字化重建和數字人體驅動等基礎應用,以及數字主播、虛擬社交、智慧診療、人體工學等產業應用。現在各個大學也在紛紛進行數字人應用。要注意的是,數字人是AI和Graphics結合的產物,中間的橋梁就是視覺知識。
“叢林自主集群飛行機器人”演示視頻
同時,群體智能系統也呼喚視覺理解與控制。在視頻中可以看到,由浙江大學控制科學與工程學院FAST實驗室研發的“叢林自主集群飛行機器人”,可以在無GPS、無動作捕捉、無遠程計算和無預先建圖的情況下,在超低空、強密集、無規則的未知環境中實現智能性、靈巧性、協同性、魯棒性集群飛行,并且即將面向實際應用場景所涉及的大規模、高可靠、抗干擾、強適應、超感知等方向邁進。
更進一步,這些無人機如果想要對障礙物進行分辨,就需要更深入地用到視覺知識。例如,當無人機經過一根垂直障礙物的時候,想區分這是水泥桿還是竹竿,就要通過知識來判斷,比如被風吹時,竹竿是會搖動的,而水泥桿則不會搖動。
在視覺識別領域,同樣需要視覺知識。深度神經網絡依靠數據取得了巨大成績,現在也在使用視覺知識向更加智能的方向發展。從海康威視的實例效果對比可以看到,原來用數字技術做的視覺識別,往往在人表現不全的情況下,會混淆人和動物,但是在使用了視覺知識后進行的識別,就不容易發生混淆。
海康威視在視覺識別中使用知識
同樣,在停車場里也取得了很好的結果:即使在人受到較多遮擋的情況下,仍能較好地檢出漏檢。可以看到,使用了視覺知識以后,視覺識別效果提升明顯,正確率至少可以提高4.5%,而在最復雜難辨的情況下,正確率能提高12.8%。如果視覺知識能得到更好的表達,還可以進一步提高。
在停車場里人受到較多遮擋的情況下,仍能較好地檢出漏檢
【人工智能走向數據與知識的雙輪驅動】
回顧60余年來人工智能的主流核心技術,已有了三次創新:第一次創新,是上世紀五六十年代,人工智能誕生之初,由規則和邏輯驅動,典型的代表人物是Simon和Newell,目標是實現通用問題求解;第二次創新,是在上世紀六七十年代,人工智能進化到了由知識和推理驅動,知識不但使用邏輯,而且使用比邏輯更加廣泛的人類經驗,代表人物是斯坦福大學的Feigenbaum,他做了化學專家系統,然后上升為知識工程和專家系統;第三次創新,到了2006年,知識工程很快被深度神經網絡替代,人工智能進入由數據和深度神經網絡模型驅動的階段。
第三次創新到來,是由于當時只能處理符號型的人工智能,僅可以表達人類的符號知識、語言知識,而深度神經網絡的出現,實現了在視覺識別、聽覺識別、文字識別、多媒體人工智能方面的極大突破。與此同時,其諸多缺點也逐漸顯露,這就是現在大家常講的不可解釋、不可遷移使用,且大量數據依賴標識。
所以,大數據和跨媒體智能、跨媒體知識表達相結合,將是人工智能第四次創新方向,這一方向由數據和知識雙輪驅動。這其中,開路先鋒很可能就是視覺知識、文字知識等的多重表達,并且要進行對象的識別,識別之后再進行分析,接著進行模擬。
視覺知識、多重知識表達、視覺理解和DNN(深度神經網絡)、知識圖譜相結合,將生成雙輪驅動的人工智能大潮。要記住,大數據、大模型固然重要,但是大知識同樣很重要。我們要在大知識中提早布局,并且取得快速推進。
謝謝各位!