忘記密碼
在科學研究中,我們面臨的一個基本困難是對高維數據的處理能力相當有限,而機器學習為解決該問題提供了新工具。
在“2021世界人工智能大會-科學前沿全體會議“上,普林斯頓大學數學系和應用數學研究所教授、北京大數據研究院院長、中國科學院院士鄂維南作了題為《AI For Science》的演講。他認為,將機器學習引入科學建模將推動科學研究從“小農經濟“進入”安卓“模式;傳統科學領域才是人工智能更大的主戰場,AI給我們帶來的不僅僅是科學研究范式的改變,也將推動傳統行業的轉型和升級。
鄂維南教授在2021世界人工智能大會上作主題演講:AI For Science
我的題目是AI For Science,我們從科學講起。
研究科學有兩大基本目的:第一個目的是尋求基本規律,比如說行星運動的三大規律,比如說量子力學的基本方程、基本原理;第二個目的是解決實際問題,比如航空航天、生物制藥等領域的實際問題。
深度學習解救維數災難
從尋求基本規律,尤其是基本原理的角度來看,90年前,當量子力學建立以后,這個任務基本上就完成了。而這并不是徹底完成了,例如高能物理、原子核物理等領域,還有很多人在繼續探討,但是對于我們日常生活中碰到的化學、材料、生物等領域而言,量子力學就已經夠了。
下圖總結了科學,或者說理科和工科里面需要的最基本的規律:從底層的薛定諤方程,即量子力學開始,這是在凝聚態物理中用得比較多的,到材料和化學里面用得比較多的密度泛函理論以及分子動力學,再到生物、化工用得比較多的粗粒化的分子動力學,再到宏觀層面的空氣動力學等,這些基本規律都是以微分方程呈現的,而且都是非常困難的微分方程。
科學和工程領域的基本原理
薛定諤方程就是一個典型的例子。它是量子力學的基本方程,其困難在于它是一個多體問題:波函數依賴的變量的個數,即維數,是粒子個數的三倍。假設有一個量子體系有100個電子,那么這就是一個300維的微分方程問題。100個電子的體系是非常簡單的物理體系,但是300維的方程卻是非常復雜的微分方程。這就是困難的根源。
人類真正的進步,是從上世紀50年代開始的。有了電子計算機,并且在此基礎上發展了一系列的算法,人們才第一次大規模地實現了從基本原理出發來解決實際問題的目標——之前雖然有基本原理,但用它解決實際問題是非常困難、幾乎做不到的。這些算法有一個共同的出發點:我們可以用多項式來逼近一般的函數,這本質上是牛頓告訴我們的。
這一點帶來的影響非常巨大,可以說它是我們現代工業和技術賴以生存的基礎。在工科領域,用計算方法來解決問題已經成了一個主要工具,但是仍然有很多的問題沒有得到解決。例如材料的性質與設計,分子、藥物的性質及設計等問題,還遠遠沒有得到解決。基于基本原理的控制論方法也沒有得到解決。造成的后果就是,從事理論、實驗以及實際應用的三個團體之間差距非常大,例如,理論化學、實驗化學和實際工業應用的化學,他們之間的場景差距很大。
困難在哪里?這些問題都有一個共同的根源,即所謂的“維數災難”:他們依賴的變量太多了。隨著變量個數(也就是維數)的增加,計算的復雜度呈指數級增加,這就是維數災難。
從數學來講,根本的困難來自于在高維情形,多項式不是一個有效的工具。這一點正好是深度學習可以幫助我們的地方。舉個例子,圖像識別——這是深度學習里面最簡單的例子,就是一個函數。比方說,我們來看看下面這個圖像分類所代表的函數有多少個維度(自由度)。
首先,每個像素都是1個自由度,這里一共有32x32=1024個維度;此外,顏色空間有三維,所以再乘以3,我們發現每一個圖像都可以看成是3072維空間的一個點,所以Cifar10的分類問題可以看成是尋找一個3072維空間上的函數。這樣的高維函數以前我們是根本沒辦法處理的。
深度學習幫助解決“維數災難“:以圖像識別為例
第二個例子是大家都非常熟悉的AlphaGo。圍棋的最佳策略實際上是一個Bellman方程的解,AlphaGo做的事情實際上是在試圖解這樣的Bellman方程。
這兩個例子中,圖像識別是一個高維的函數,而AlphaGo是解高維超大空間的Bellman方程。還可以舉很多例子,它們的共同特點都是在處理高維空間的數學問題。我們能做到這一點,就是因為神經網絡可以幫助我們有效地表示或者逼近高維空間的函數。剛才說到多項式不行,神經網絡是一個有效的替代品,而函數是數學里最基本的工具,高等數學最基本的數學概念就是函數。所以說在最基本的層面,我們有了一個全新的、十分有效的工具,它帶來的影響是巨大的。
從科學研究的角度來說,深度學習可以帶來新的計算方法、新的科學模型和新的實驗方法。以分子動力學為例,對既定的材料或大分子,通過其每一個原子的動態軌跡來研究這個體系,這是分子動力學方法的基本思想,它是計算化學、計算材料、計算生物學的基本工具,它的基本方程就是非常簡單的牛頓方程,但是困難在于描述原子和原子之間相互作用的勢函數。
怎么解決這個問題?傳統的方法就是:猜!猜對了很有效,但是這個方法非常不可靠。
第二個方法是1985年提出的基于第一性原理的方法,它通過量子力學模型在線計算原子之間的相互作用力。這個方法非常可靠,但是只能處理很小的體系,一般的情況下,1000個原子就到頂了。
現在我們有一個新的方法:量子力學基本原理只提供數據,在數據的基礎上用機器學習方法提供模型,再用這個模型做分子動力學的計算。如果我們能夠解決其中的技術問題的話,這就會成為一個既可靠又有效的方案。下面這個例子就是我們做的“深度勢能模型”。
深度勢能模型
左上角是小分子,左下角是生物大分子,右上角是高熵合金體系,右下角是簡單的金屬體系。大家可以看到,這個模型對非常廣泛的生物體系、化學分子和材料體系,包括復雜的高熵合金都達到了量子力學模型的精度。
去年,在此基礎上,我們把該模型和高性能計算結合在一起,把基本原理精度的分子動力學計算,從原來的可以處理1000個原子提升到可以處理1億個原子。這一突破讓我們獲得了2020年的Gordon-Bell Prize(戈登貝爾獎)。更重要的是,這讓我們第一次看到,把機器學習和科學計算、高性能計算這三大最主要的工具結合在一起,可以實現多么大的突破空間!不僅是分子動力學,從量子力學到密度泛函等其他領域,同樣存在這樣的空間,所以機器學習帶來的影響是巨大的。
科學研究從“小農經濟”進入“安卓”模式
我個人認為,目前我們做科研,無論是做理論還是實驗,基本上都還處在 “小農經濟”的模式,或作坊的模式。例如,要做一個三組分合金的模擬,必須自己先做量子力學計算,在此基礎上積累數據,再去猜勢能函數,然后做分子動力學計算,整個過程基本上是自給自足,但是從頭到尾做下來要很多年。這是個效率低下的模式。
今后,科學研究將從“小農經濟”轉入“安卓”模式。也就是說,我們會有一個統一的大平臺,這個大平臺是大家一起貢獻的,它提供了最基礎的模型,例如分子動力學模型,科學家們對什么體系感興趣,只要在平臺上做簡單的應用開發就可以了。
最后我想強調,傳統科學領域,即化學、材料、電子工程、化學工程、機械工程等領域才是人工智能更大的主戰場。AI給我們帶來的不僅僅是科學研究范式的改變——我們談科學研究范式談了很多——也將推動傳統行業的轉型和升級,希望大家一起參與到這個偉大的事業中來。
謝謝大家!