新聞動態

                Dynamics

                首頁 >  新聞動態  > 詳情

                上海人工智能實驗室與復旦科研合作獲突破:蛋白質側鏈結構預測精度顯著超越AlphaFold2

                12月16日,《Science》雜志公布了2021年的年度科學突破榜單,AlphaFold 和 RoseTTA-fold 兩種基于人工智能預測蛋白質結構的技術位列榜首。

                近日,我國科學家在該研究領域亦取得突破。復旦大學馬劍鵬教授團隊與上海人工智能實驗室合作,以《OPUS-Rota4: 一個基于梯度和深度學習的蛋白質側鏈建模框架》(“OPUS-Rota4: agradient-based protein side-chain modeling framework assisted by deeplearning-based predictors”)[1]為題在《生物信息學簡報》(Briefings in  Bioinformatics)上發表論文,展示了OPUS-Rota4蛋白質側鏈預測算法,其對側鏈結構的預測精度比AlphaFold2高出13%。

                插圖1.png

                在目前AlphaFold算法開源的情況下,OPUS-Rota4可以為任何蛋白質結構預測工作提供比AlphaFold更準確的側鏈模型,從而為蛋白質結構研究,尤其是基于蛋白結構的新藥設計工作提供了利器。


                “從芯片到藥片”加速

                人工智能大幅提升蛋白質建模精準度

                復旦大學復雜體系多尺度研究院院長馬劍鵬介紹,側鏈預測的技術難度很大,“基于高精度的自然主鏈構象來建側鏈結構,就像在靜止的船甲板上做‘金雞獨立’,站穩很不容易;基于計算機預測的非自然主鏈構象來建側鏈結構,就像在搖晃的船甲板上做‘金雞獨立’,難度更大。”

                蛋白質三維結構由主鏈和側鏈共同搭建而成,運用人工智能預測蛋白質結構的通常步驟,是先為蛋白質主鏈建模,再根據主鏈的構象為側鏈建模。自然界中的蛋白質含有20種氨基酸,它們的主鏈幾乎完全相同,而側鏈差異很大。由于藥物分子與人體蛋白質結合的位點絕大多數在氨基酸側鏈上,人工智能技術對側鏈的精準預測對新藥研發具有重要價值。這種精準預測能力還可用于解釋基因點突變、基因小片段突變的機制,為遺傳性疾病研究和治療提供寶貴思路。

                “運用人工智能對蛋白質側鏈結構進行精準預測,不僅對生命科學意義重大,同時也是計算生物學的重大突破。”馬劍鵬介紹,蛋白質由一系列氨基酸折疊而成,具有穩定的三維結構。掌握各種蛋白質的精確三維結構,對生命科學的科研人員而言,就好比有了導航地圖。用目前通用的冷凍電鏡等實驗設備測定蛋白質結構的難度很大,而且經濟成本、時間成本很高;通過運用人工智能算法則可快速、精準地預測蛋白質結構,從而使新藥研發等工作的效率得以大幅提升,使“從芯片到藥片”的研發周期和成本得以大幅縮減。

                近年來,馬劍鵬帶領團隊運用人工智能技術研發出具有自主知識產權的OPUS系列算法,用于預測蛋白質主鏈和側鏈的三維結構。其發表的最新論文顯示,基于AlphaFold2在國際蛋白質結構預測競賽上預測的多個蛋白質主鏈結構重新預測其側鏈結構,通過與實驗測定的結構比對,OPUS-Rota4對側鏈結構的預測精度比AlphaFold2高出13%。

                “這是一個了不起的突破。”諾貝爾化學獎得主、復旦大學復雜體系多尺度研究院名譽院長邁克爾·萊維特表示,研究院計劃將對AlphaFold2預測的2萬多個人類編碼基因對應的蛋白質側鏈結構重新建模,并向全球學術界開源,推動生命科學發展。


                三大模塊分工合作

                預測結果與天然構象高度重疊

                精準的蛋白質側鏈建模對蛋白質折疊和蛋白質設計至關重要。近年來的研究中,研究人員開發的側鏈建模算法大多基于抽樣,如SCWRL4、OPUS-Rota3等。其從離散的側鏈二面角轉子庫中進行抽樣,隨后根據一系列能量函數進行優化,找到能夠讓能量最低的二面角轉子即為最終結果。基于抽樣的側鏈建模算法優點是速度較快,但由于使用離散的轉子并受限于能量函數的準確性,其整體側鏈預測精度仍然有待提高。

                OPUS-Rota4引入深度學習算法,使得蛋白質側鏈建模精度得到大幅提升。論文中提出一套蛋白質側鏈建模的開源工具,包含三個模塊:OPUS-RotaNN2,用于預測蛋白質側鏈的二面角;OPUS-RotaCM,用于對不同殘基側鏈之間的距離和方向進行測量;以及由該團隊自主研發的建模框架OPUS-Fold2,運用上述兩個模塊導出的信息進行側鏈建模。

                研究人員首先使用OPUS-RotaNN2結合多種不同的提取特征得到初始的側鏈二面角預測結果,之后使用OPUS-RotaCM得到側鏈原子接觸圖,最后使用OPUS-Fold2根據接觸圖對初始側鏈二面角預測結果進行優化并輸出最終結果。

                插圖2.png

                OPUS-Rota4整體框架

                研究人員在三個天然構象測試集中進行了測試,其中CAEMO(60)包含60個測試蛋白,CASPFM(56)包含56個測試蛋白,CASP14 (15) 包含15個測試蛋白。其結果顯示,在三個測試集中,OPUS-Rota4的結果均優于其他側鏈建模算法。

                圖3.png

                在三個天然構象測試集上的RMSD結果:數值越低說明越接近天然構象,All代表全部殘基,Core代表中心殘基。全部殘基包含中心殘基和表面殘基。中心殘基位于蛋白質內部,對其生物學功能更為重要。

                圖4.png

                在CASP14 (15) 中15個蛋白的預測結構

                論文中展示的研究結果表明,OPUS-Rota4的側鏈預測結果和天然構象基本接近,尤其是對于那些位于蛋白質內部的中心殘基,預測結果與天然構象高度重疊。

                圖5.png

                OPUS-Rota4成功預測側鏈建模的例子:藍色為天然構象,紅色為預測結果,二者高度重疊。

                除了三個天然構象測試集外,研究人員還使用AlphaFold2得到了CASP14 (15) 中15個蛋白的預測結構,并根據預測主鏈結構對其側鏈用不同方法進行重新建模。其結果顯示,OPUS-Rota4的結果顯著優于其他側鏈建模方法,而且比AlphaFold2預測的側鏈更接近天然構象。

                研究人員還對幾個相對預測較差的結構進行了分析。論文中認為,預測較差的主要原因可能是這些結構中都存在較長的無序loop區域,該區域的氨基酸側鏈結構自由度較高。研究人員表示,將對蛋白質側鏈建模進行進一步研究,以期繼續提升準確率,并將探索側鏈建模在實際問題中的應用。

                 

                (復旦大學復雜體系多尺度研究院青年副研究員徐罡為論文第一作者,復旦大學復雜體系多尺度研究院院長馬劍鵬為通訊作者。)

                注釋:[1] 論文鏈接:https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab529/6461160




                復旦大學復雜體系多尺度研究院

                復雜體系多尺度研究院(MRICS)坐落于復旦大學張江校區,由上海市“高峰人才計劃”支持。MRICS 致力于發展全新而有效的、貫通微觀分子結構直至宏觀醫學成像的多尺度影像分析技術,為解析生命奧秘提供前所未有的,囊括分子、細胞、組織、器官乃至整個生物體的時空影像數據。目前 MRICS 已建造一個最先進的冷凍電鏡平臺,其中包括 FEI Titan Krios,Glacios,Talos 和 Aquilos 等。我們的團隊包括諾貝爾獎得主 Michael Levitt 教授和國際一流交叉學科專家等。

                上海人工智能實驗室

                上海人工智能實驗室是我國人工智能領域的新型科研機構,開展戰略性、原創性、前瞻性的科學研究與技術攻關,突破人工智能的重要基礎理論和關鍵核心技術,打造“突破型、引領型、平臺型”一體化的大型綜合性研究基地,支撐我國人工智能產業實現跨越式發展,目標建成國際一流的人工智能實驗室,成為享譽全球的人工智能原創理論和技術的策源地。



                comm@pjlab.org.cn

                上海市徐匯區云錦路701號西岸國際人工智能中心37-38層

                滬ICP備2021009351號-1

                        
                        

                              拔萝卜又叫又疼原声视频