新聞動態

                Dynamics

                首頁 >  新聞動態  > 詳情

                Michael Levitt:蛋白質折疊、結構預測與生物醫學 | 浦江AI評論第①期

                AI如何幫助破解生命的秘密?


                什么是“終極智能“?


                創業公司如何通過AI為人類健康作出貢獻?


                在“2021世界人工智能大會-科學前沿全體會議“上,2013年諾貝爾化學獎獲得者、斯坦福大學計算生物學教授、復旦大學復雜體系多尺度研究院榮譽院長Michael Levitt分享了他的洞察。作為一位從事生物研究超過55年的科學家,他通過AlphaFold舉例說明了開源對于科學研究的重要性——而就在他結束演講后的兩周,AlphaFold2、華盛頓大學蛋白質設計研究所的RoseTTAFold先后宣布開源。

                “我現在每天還在寫程序,感覺自己就像是一個孩子進到了玩具店一樣;AI的進步讓我感到十分興奮。“74歲的Levitt教授認為,我們應該慶幸生活在這樣一個時代。


                畫板1.png

                Michael Levitt 教授在2021世界人工智能大會上作主題演講:Protein Folding, Structure Prediction & Biomedicine


                今天我要講的主要內容是蛋白質折疊、結構預測以及生物醫學。今天我們聽到了很多經濟學、科學的內容,但是我覺得人類的健康才是我們面臨的最為關鍵的前沿問題。 


                學習,是生命的秘密

                我今天想和大家分享關于“學習”的話題,這其實是我們生命的秘密。生物學是一位“終極”老師,我們生活當中很多的東西既不是由人類的智能創造的,也不是由機器的智能創造的,而是由生物的智能創造的。在生物學中,至關重要的一點,就是蛋白質折疊以及蛋白質的結構,它在我們的系統中自我組裝。一個系統如果可以自我創建、自行發展,就可以稱之為終極版的“智能制造”了吧。而自然界已經解決了這個問題,途徑是通過氨基酸——它們不是連接在一起,而是自主地折疊成3D結構,就像造一棟樓一樣,只需要用一根線把它們連起來,接下來就可以進行自我創建了,這簡直令人贊嘆! 萬物生生不息,主要是源自于生物的“自我組裝”。

                蛋白質可以說是建筑的材料,下圖展示了一個非常小的蛋白質。它就像是組裝起來的3D拼圖,成為一個整體結構。所以研究蛋白質折疊的問題,關鍵是要了解單鏈的蛋白質是如何折疊的。如圖中所示,一個很長的單鏈如何折疊成復雜的結構。同時,我們還要研究如何預測蛋白質折疊的結構。


                畫板2.png

                蛋白質折疊使生命成為可能

                AI如何幫助破解生命的秘密?

                接下來我想介紹一下我是如何開始這方面的研究的——我從事這項研究已經有55年。雖然我不是專門研究AI的,但我從很早開始就非常關心AI的發展。我和我的幾位同事共同創立的高分子多尺度模型,在2013年獲得了認可(諾貝爾化學獎),但我們很早就認識到蛋白質折疊的重要性——那是在1975年,已經是超過45年前的事情了。在這個模型中我們寫了一個電腦程序,把蛋白質的單鏈進行折疊,當中還巧妙地運用了物理原理,如牛頓第二定律等。

                我們來看一下目前在上海開展的一些研究,例如,復旦大學馬劍鵬教授的研究成果。我們在復旦大學復雜體系多尺度研究院共同合作,他采用了一個名為“OPUS-X”的系統來折疊蛋白質。下圖展示了一個非常大的系統的一部分,其中牽涉到很多步驟和復雜的通道,通過該系統我們可以理解蛋白質是如何折疊的。這是一項了不起的工作,這項成果出自三位非常優秀的科學家。


                畫板3.png

                OPUS-X摘要

                這里有一個視頻展示了蛋白質是如何折疊的:藍色部分是已經折疊的蛋白質,紅色部分是正在折疊的部分,這個視頻模擬了蛋白質折疊的過程。  


                蛋白質折疊的過程

                馬教授在研究中大量運用了機器學習。機器學習也會產生一些問題,例如,它對資源的要求很高,包括計算資源和人員資源——我們需要很多專業的人員來解決遇到的各種問題。

                幾年前,谷歌DeepMind的人工智能程序AlphaFold在全球蛋白質結構預測競賽中奪冠,成功地預測了蛋白質折疊的三維結構。他們有一個龐大的團隊,大概有30-40人。AlphaFold的成績非常突出,得分遠遠高于第二名。第二名團隊的資源少得多,如果我們把競賽成績和投入的CPU、科學家數量進行平均再比較的話,AlphaFold的成績看上去可能就沒那么驚人了,但因為競賽是在很短的時間內進行的,所以資源量的多少就尤為重要。

                這項競賽始于上世紀90年代初,已經有30多年的歷史了。比賽的成績不斷提高,但毫無疑問AlphaFold的水平達到了一個新的高度。他們引入了神經網絡。從下圖可以看到,這里的網絡已經不是簡單的網絡結構,而是像蛋白質之間的網絡結構,他們通過調節該網絡,讓它看上去像蛋白質結構,用以幫助理解蛋白質折疊的問題。


                畫板4.png

                神經網絡的連接具有三維結構


                他們的另一個特點是研究對象——不是對蛋白質鏈,而是對一個個獨立的單元進行研究,這樣他們就擁有了更大的自由度。同時,這也意味著,對于任何不同大小的單元,都可以用同樣的方法對它進行研究和預測。

                需要強調的是,我們在這里談了很多機器學習的話題,但是相較于其他科學,機器學習更有賴于已有的研究成果,因為機器學習需要范例。比如,要進行蛋白質結構預測,它需要許多實驗人員用X射線晶體學、核磁共振和冷凍電鏡來取得結構范例,需要許多分子生物學家和生物信息學家通過測序方法來確定蛋白質序列,還需要許多理論化學家和物理學家研究出方法論并找到最佳表達……所有這些結合在一起,再加上強大的算力,才有可能取得重大的突破。所以我們必須認識到,如果沒有基礎科學的支撐,我們是沒有辦法取得現在的成果的——這好比,你自己和自己打游戲是很難提高的。

                關于AlphaFold還有一個非常有趣的點——它是開源的。他們發表了一篇關于其方法的論文,并聲稱正著手探討如何讓其他團隊更好地利用他們提出的結構預測,并準備發表一篇同行評議論文——這篇論文出自一個30人的科學家團隊。進行這項研究所需要的投入是巨大的,光是電力的成本估計就要幾百萬美元,更別提算力方面的投入,不過谷歌擁有強大的計算機網絡。因此這更讓我們認識到開源的重要性,開源的方式使得理論框架可以和AI實驗室結合起來。包括馬教授所做的項目,也是可以從中得益。


                AI創業公司開創新局面

                最后我們再來討論另一個相關話題。當我們談論AI科學,它的貢獻并不僅局限于科研成果,也可以通過創業公司來體現。我們有幸和一個初創公司英矽智能(Insilico Medicine)有所接洽,它的創始人是亞歷克斯·扎沃龍科夫 (Alex Zhavoronkov) 。這家公司要做的不僅僅是藥物開發,同時它也很好地改進了藥物發現與開發的全過程。

                就像很多AI的項目一樣,它的任務有好幾方面,它們之間是緊密相連的。如下圖中所示,最左邊一欄是疾病靶點發現,即找到身體中哪一種蛋白質需要被攻擊或抑制才能治療疾病;中間一欄的任務是生成全新分子先導化合物;最后,對臨床試驗結果進行預測。


                畫板5.png


                全集成自動化藥物發現AI管道


                這是個雄偉的項目,目前這家公司做得非常好。他們的研發周期非常短,而且成本也遠遠低于傳統的藥物研究方法。傳統的方法是先進行學術研究找到靶點,然后需要很多醫生,進行大量的測試,整個過程大概需要四五億美元。而英矽智能的研發流程大概只需要11個月,花費僅需200萬美元,所以他們得到了很多支持。就在上個月,這家公司剛剛獲得了華平投資領投的一筆2.55億美元的融資。這家公司的成功更使我們確信,AI將促進人類疾病從發現到治愈的全過程。

                AI的進步讓我感到十分興奮,每天我都非常慶幸可以生活在這樣一個時代:我們所需的所有信息就在指尖,科學不斷取得眾多重大突破。我現在每天還在寫程序,感覺自己就像是一個孩子進到了玩具店一樣,非常激動。

                感謝大家的聆聽。





                comm@pjlab.org.cn

                上海市徐匯區云錦路701號西岸國際人工智能中心37-38層

                滬ICP備2021009351號-1

                        
                        

                              拔萝卜又叫又疼原声视频