忘記密碼
近日,上海人工智能實驗室與合作伙伴推出了在AI新藥研發(AIDD)領域的最新研究成果——通過自適應圖神經網絡預測未知抗體的中和性。相關論文“Predicting unseen antibodies' neutralizability via adaptive graph neural networks”刊登于國際頂級學術期刊《自然》(Nature)子刊《自然-機器智能》(Nature Machine Intelligence)。論文創新性地提出用于預測抗原-抗體中和性的DeepAAI算法模型,在多種病毒上取得了顯著性能。
《自然-機器智能》是在計算機科學、人工智能領域期刊中影響因子最高(25.898)的頂級期刊,關注對該領域具有重要影響的科研成果且評審嚴格。上海人工智能實驗室智慧醫療研究中心成果在該刊發表,為機器學習與抗體治療領域的研究做出積極貢獻,這也是中心繼10月份在《柳葉刀》子刊發表論文后,近期又一科研成果登上國際頂刊。
刊登論文截圖
抗體具有調理和中和的作用,是臨床治療病毒感染的強效生物藥物,但在進行濕實驗之前,抗體對抗原的中和能力卻無從知曉。為了解抗體的能力,傳統實驗包括噬菌體展示、酶聯免疫吸附試驗(ELISA)、假病毒試驗等,需要投入大量的資源和時間。現有方法只能通過從已知的抗原-抗體相互作用中的反向傳播誤差來學習抗體表征,不適用于缺乏相互作用實例的未知抗體。此外,盡管有用于表示抗原和抗體的各種蛋白質描述符,例如k-mer、PSSM、BlastP等,但它們的特征空間可能是高維的,并且這些特征是預先計算的、靜態的、無監督的,在訓練過程中沒有被優化,對于特定的監督學習任務可能并非最優。
為應對以上問題帶來的挑戰,研究團隊目標開發出準確、快速的計算方法進行初步篩選,以減少濕實驗的盲目性并提高濕實驗的預見性,加速發現新治療性抗體的過程。
在該研究中,團隊提出了一種基于大規模氨基酸序列的方法,建立DeepAAI的抗原-抗體相互作用預測的深度學習算法模型,專注于預測抗原-抗體中和效應。該模型通過構建兩個分別連接抗體和抗原的自適應關系圖,并在未知和已知抗體的表征中通過GCN實現拉普拉斯平滑,從而能夠從已知抗體中學習未知抗體的表征。
研究概覽和流程圖
DeepAAI應用神經網絡將原始特征投影到低維和高表達性的特征空間中,并針對下游任務動態優化,用于預測中和效應以及估計IC50值。該算法模型由AR-GCN模塊和CNN模塊組成,用于學習抗原/抗體間的全局表征和抗原/抗體內的局部表征。通過在關系圖上應用GCN半監督學習預測未知抗體的中和性,即在未知和已知抗體的表征之間應用拉普拉斯平滑進行直推式學習,利用關聯的已知的抗體的表征,去學習未知的抗體的表征,并在訓練過程中進行優化。同時,通過采用CNN模塊來學習抗原-抗體內部的局部特征,以更好地預測抗原-抗體中和作用。
AR-GCN模塊通過量化抗體之間和抗原之間的關系,自適應構建兩個關系圖,并從關系中學習抗原和抗體的表征;CNN模塊可從氨基酸序列中提取局部特征。
DeepAAI的性能在多種病毒(包括HIV、SARS-CoV2、流感和登革熱)的未知抗體上得到了驗證。通過DeepAAI自適應構造的關系圖具有豐富的可解釋性——抗體關系圖可以揭示抗體中和反應的相似性(相似的結合區域),抗原關系圖可以揭示病毒不同變體之間的關系。在此基礎上,研究人員能夠推薦針對病毒新變種的可能的廣譜抗體。
HIV未知抗體的結果。(a)抗原-抗體配對的數量和抗體的數量。(b)去除相似的抗原-抗體配對(BlastP≥90%)后,在總共27,738個抗原-抗體配對中,抗原-抗體配對兩兩之間的相似度熱圖。(c)中和預測任務的性能。(d)IC50預測任務的性能。在(c)和(d)中,在20種不同的隨機種子中進行了20次性能評價,箱線圖顯示中位數、第一、第三、最小和最大四分位數,四分位范圍的1.5倍之外的值定義為離群值,最佳模型變種與最佳基準模型之間的比較采用Mann-Whitney U檢驗(雙邊)。(e)各個模型每個epoch的運行時間。(f)倒數第二層embedding的PCA結果。(g)預測的中和概率結果的熱圖。
在新藥研發領域,DeepAAI具有重要意義和廣泛的應用價值。抗原-抗體相互作用預測的相關方法包括基于序列的方法和基于空間結構的方法,而氨基酸序列在現實世界中很容易獲得且數據豐富,相較于后者具有明顯優勢。因此,由團隊提出的這一基于序列的方法,更加便于在實際應用中推廣。生物學家可以通過DeepAAI預測抗原-抗體中和/非中和效應作為初步篩選并估算IC50值,以便進行后續的濕實驗。此外,DeepAAI還可以結合生成模型對抗體序列進行優化改良,從而提高抗體的活性或從頭生成具有活性的抗體序列。
該研究論文共同第一作者為商湯科技杜億杉和張捷,共同通訊作者為上海人工智能實驗室智慧醫療中心主任張少霆、復旦大學醫學分子病毒學教育部/衛健委重點實驗室陸路和中國科學院深圳先進技術研究院吳紅艷。
上海人工智能實驗室智慧醫療研究中心旨在通過人工智能與醫學的深度交叉融合,基于產業發展的政策推動和行業需求,為醫藥行業的技術創新與基礎研究探索前沿的技術突破與創新思路,科研成果入選 The Lancet Digital Health、Medical Image Analysis、IEEE Transactions on Medical Imaging 等國際頂刊。
如需申請加入課題組研究或了解課題組更多信息,請發郵件至zhangshaoting@pjlab.org.cn,抄送jilu@pjlab.org.cn。