新聞動態

                Dynamics

                首頁 >  新聞動態  > 詳情

                趙國屏:生物醫學研究范式的轉變——大數據+人工智能的機遇和挑戰 | 浦江AI評論第④期

                生物醫學大數據加上人工智能,將碰撞出怎樣的“火花”,又將帶來怎樣的機遇和挑戰?

                在“2021世界人工智能大會-科學前沿全體會議”上,中科院上海營養與健康研究所生物醫學大數據中心首席科學家、中國科學院趙國屏院士從生命世界的復雜性談至生命科學研究體系之繁復,論述當代生物醫學研究及精準醫療的發展,及其與大數據時代深刻交融的機遇與挑戰并存的現實。而針對基礎性工作的前置,他提出將復雜生物醫學大數據標準化整合與大規模生成標準化定量多維研究數據相結合,構建高效開源的數據倉庫、知識圖譜和生物醫學數據信息操作系統,基于人工智能復雜系統的跨層次“功能涌現”或將實現生命科學研究與科學技術發展的有機結合,從而進一步推動人類社會邁向新的發展階段。

                今天給大家講的題目叫《生物醫學研究范式的轉變——大數據+人工智能的機遇和挑戰》。先說一說生命體系的復雜性,以及在如此復雜的體系中怎么能用好人工智能,推動生命科學、現代醫學和生物技術的發展,為人民健康提供保障。


                復雜的生命世界和復雜的生命科學

                生命科學是研究生命世界的一門自然科學。19世紀以前的歷史上,只有“生物學”而沒有“生命科學”,因為當時的人類,只能研究肉眼能夠看到的動物和植物,以及借助光學顯微鏡能夠看到的微生物,而對這些生物的研究,還基本上處于形態描述階段。典型的事例,就是瑞典博物學家林奈在18世紀中葉創立的“分類學”。當然,科學研究除了源于人類對自然規律的探索使然之外,另一個重要驅動就是為人類生存發展提供知識;譬如,李時珍的《本草綱目》就是對植物(含部分動物和大型真菌)藥用功能的經驗性/相關性的“研究”。

                19世紀,科學界對生物本質的認識有了革命性的突破:所有生物最基本的功能結構是細胞(細胞學說),所有生物的物種是變化而且在一定的自然規律下進化(進化論),所有生物都按照一定的遺傳規律代代相傳(遺傳學)。同一時期,由于合成化學的貢獻,“生命力學說”被打破,生理過程中的有機化學反應機制被逐步解析,從微生物的發酵到酶催化反應的認識,終于形成了認識新陳代謝的分子機理的學科——生物化學,這也是生物學研究走向分子(化學的傳統領域)的起步。這一系列學說及相關學科的建立,有力地將生物學推到了研究生命共同規律的新高峰——生命科學由此在20世紀登上了歷史舞臺(圖1)。

                生命科學研究讓人們對于生物體系的認識從生物形態的表象深入到理化機制的本質,從而更深刻地認識了其超越理化的復雜性。無論從空間還是時間尺度上看,生命系統既具有化學分子和物理學微觀粒子的共性,以及與地學(甚至天文學)在生態-進化宏觀尺度上的密切交集;又有其自身在不同層次上“功能涌現”的特有復雜性。雖然“理化天地生”這五門自然科學學科中,都蘊含著“數”的規律。可是,在過去的很長時期里,數學一方面為生物學的實驗工作提供了非常有力的分析工具(譬如遺傳學),另一方面,卻又像是皇冠上的寶石一樣,既讓生物學家敬仰,又不知如何發揮它的作用,更遑論“主導作用”了(圖1)。

                1.png

                圖1 復雜的生物世界和復雜的生命科學研究

                20世紀中葉,當遺傳學與快速發展的生物化學、生物物理學有了深層次結合時,一次真正的革命發生了——人們終于解析了生命體系兩個基本分子DNA和蛋白質的序列和空間結構。以此為基礎,生命運動的“中心法則”和基因表達調控等基本理論迅速形成;一系列基因操作的工具也隨之被開發應用,于是就有了分子生物學,而且在此基礎上,定量生物學、系統生物學等“理論科學”學科逐步形成,并獲得了一定的發展(圖2)。

                上世紀90年代,人類基因組計劃開始實施。由于技術的不斷突破,經過短短的10多年,該計劃于2002年基本完成。此后,不僅形成了基因組學,而且采用基因組學同樣的策略,轉錄組學、表觀遺傳組學、蛋白質組學、代謝組學及代謝物組學等各種“組學”相繼發展起來,生命科學的研究體系也逐步從還原論向系統論的方向發展,而研究的對象也越來越從“模式生物”轉向對“人”的集中,也就是說,跟醫學的關系越來越密切(圖2)。

                通過上述兩個革命,生命科學逐步從實驗科學走向理論科學甚至計算科學,即誕生了“計算生物學”。與此緊密相關,基因組學測序技術的發展以及從基因組測序一開始就采用的測序數據實時公開共享政策的實施,迅速將“數據”推向了生命科學研究重要(甚至是關鍵)的一極。在人類基因組計劃完成的本世紀初,公共數據庫的序列數據已經達到了TB級,此后,結合多組學研究以及轉化醫學研究。到2007年,生物醫學數據達到了PB級;2015年之后,生物醫學的數據量已經達到了EB級,意味著生物醫學研究已經有條件進入所謂“數據密集型研究范式”的新階段了,即進入了“大數據的時代”(圖2)。當然,這絕不意味著我們已經是在新的研究范式下開展工作了;恰恰相反,雖然我國近年來對生命科學和醫學研究資助的力度迅速增長以及在這方面研究力量的不斷增長,生物醫學數據的產出巨大;但是,我們離大數據驅動研究還有一段艱難的道路要走,因為,要將我們手中的“數據大”轉化為“大數據”,還必須做好一系列基礎性工作:要以基礎設施為基地,建立完整安全的數據管用技術體系,堅持高水平的數據積累科學活動;建設公益性的數據服務工程平臺,提供先進適用的數據鏈服務;形成研發人才和服務隊伍成長基地,培育交叉型的數據研究開發人才。

                2.png

                圖2 生命科學研究從實驗科學范式向數據驅動范式發展的路徑



                大數據時代下的生命科學研究,離不開海量數據的有效治理與共享

                生物醫學這個領域的數據復雜程度非常高,它不僅包括醫學、藥學,更包括了作為基礎的生物學、生態學、環境科學以及社會科學(如心理學和環境暴露)等方面的問題,所以它的大數據最大的特點就是如前所述的那樣——多尺度、高維度、異質性的復雜體系。而另一方面,它還難以避免由“合作與競爭”“安全與利用”等社會體系中常見的矛盾場景所帶來的“碎片化”“孤島化”和“煙囪化”等各方面的復雜的體制、機制與思想問題。面對這樣復雜的體系,我們最重要的手段,就是想辦法把其中研究型的數據,主要是系統生物醫學、比較醫學、轉化醫學和精準醫學的研究型數據和生命科學中的生物組學、生物化學、細胞生物學和遺傳學等研究的數據結合起來,成為核心的數據。如果我們能夠把核心數據整理好、整合好,再把各個方面的終端數據,即生物群體客觀世界數據和個人真實世界數據與核心數據結合起來計算分析,這樣的大數據利用效率就會提高了。

                這幾年,中國科學院開始推動國家生物信息中心的建設,在這個預研的過程中,我們正在嘗試的就是建立這樣的一個體系的雛形,其核心就是在“安全管理、信息共享、標準增值、技術創新、尊重產權”的原則指導下,利用標準化和質控手段,把數據治理為高質量的海量數據,建立以整合為導向的數據庫以及以交互使用為導向的搜索系統;同時建設適應不同應用場景的知識圖譜,為機器學習與人工智能等先進信息技術提供有效的學習集。當然,這個設施還必須有一定的快速專業計算的能力,為社會工程應用和科研知識挖掘提供支撐(圖3)。為了更好地向全社會提供開源的應用生態,還要開發生物醫學數據信息操作系統,將常用的操作軟件,建成工程化的模塊,幫助使用者采用自主的參數系統,快速進入使用狀態。

                3.png

                圖3 生物醫學大數據“三位一體”的治理服務體系


                落實到終點醫院:精準醫學和多組學研究及相關數據系統

                我們與上海交通大學胸科醫院合作,就此進行了有益的嘗試。在該醫院的HIS系統(Hospital Information System,醫院信息系統)上建立一個臨床科研數據倉庫RDR(Research Data Repository),有了這個倉庫以后就可以把病人臨床的數據和對該病人所做的多組學檢測數據進行整合,還能整合多中心研究中各個科研團隊產出的數據(圖4)。

                4.png

                圖4 利用臨床科研數據倉庫RDR整合管理免疫治療患者多組學研究數據

                利用這個系統的第一個實例,就是腫瘤免疫治療的臨床試驗。對一個一個參與試驗病人的“多組學”研究,即從基因組、轉錄組、免疫組、代謝組一直到微生物組的檢測都各有相應的團隊負責。雖然病人不是太多,但每個病人治療的各階段,都會得到各種組學的數據,因此,總體的數據量是巨大的。因此,這是一種“小樣本,大數據”的研究。因為建立了這樣一個數據系統,所有團隊能夠在數據系統上方便地協作,就不同的研究目標,整合相應的數據,經過綜合分析,挖掘規律。如此,對于免疫治療中特應性的特征譜和預測的指標以及在免疫治療中腸道微生物組的多樣性及其療效之間關系的研究,都很快產出了研究的成果。

                這個工作也發現了一些問題。那就是,我們明明建立了一個多組學研究的大數據平臺,但實際上并沒有能力把多組學的數據整合在一起進行分析和挖掘,這就是我們對人工智能的一個衷心的呼喚:希望能夠在這次會議以后和更多人工智能專家一起來發展這方面的工作。

                5.png

                圖5 定量合成生物學策略和對跨層次“功能涌現”的理解

                在此基礎上,我們將綜合傳統的與現時的兩種方法。傳統的方法,也可以稱為白箱模型(White-box Models)。就是先通過實驗來收集數據,建立唯象模型(Phenomenological Model),在唯象理論(Phenomenology)構架上建立模型,最后用工程的方法進行驗證。這些工作現在已經開展了,但是它實際上能解決的問題相對生物“功能涌現”的復雜系統而言,還是簡單了很多,而且它的效率還是比較有限。

                另外一個方法就是,也就是采用機器學習的方法。AlphaFold2的成功,給了人們很大的信心。它在端到端訓練(End-to-End Training)的模式、通過自監督(Self-supervised Learning,自監督學習)訓練的全部4000萬MSA數據大大增加可用的數據信息,以及通過數據自監督訓練更好地利用三維結構附近局域的擾動來建設模型等三個方面,都給出了很成功案例,展現了人工智能或機器學習可以自己產生更有效的數據利用方式的巨大潛力。      

                當然,基于人工智能研究復雜系統的跨層次“功能涌現”需要相應的數據和知識圖譜,而以往就是缺少這方面系統的收集。因此,只能靠我們自己來獲取。我們正在深圳先進技術研究院(Shenzhen Instutites of Advanced Technology)建立機器實驗的體系,這樣就可以快速產生大量設計過的數據,這些數據與機器學相結合,就是黑箱模型的基礎。


                6.png

                圖6 運用“白箱”與“黑箱”結合的策略實現研究力突破

                合成生物學在本世紀初誕生以來,已經過去了二十年,其本身到了向定量合成生物學發展的新起點(圖2)。而這二十年里大數據帶來的人工智能研究也正在展現其巨大的潛力。這兩個技術突破疊加,通過開源平臺的共享,將極大地推動人類能力的提升(圖6)。這就讓我想起開場時看到的科大訊飛的一句話,“生命是復雜的,因愛(AI)而能。”


                comm@pjlab.org.cn

                上海市徐匯區云錦路701號西岸國際人工智能中心37-38層

                滬ICP備2021009351號-1

                        
                        

                              拔萝卜又叫又疼原声视频