新聞動態

                Dynamics

                首頁 >  新聞動態  > 詳情

                實驗室智慧醫療研究新成果:大規模合成病理數據集應用于乳腺癌細胞核檢測

                近日,上海人工智能實驗室與合作伙伴發表一項AI模型虛擬數據集方面的最新研究成果——將大規模合成病理圖像數據集應用于乳腺癌細胞核的檢測,結合深度學習,可大幅提高AI模型在不同臨床任務中的性能表現。

                數據集描述論文《A Large-scale Synthetic Pathological Dataset for Deep Learning-enabled Segmentation of Breast Cancer》發表于Nature旗下刊物Scientific Data (IF: 8.501)[1]

                12c0b44221a5a45a3450b6d35e0da7b.png

                本論文通訊作者張少霆為上海人工智能實驗室智慧醫療研究中心主任;主要作者之一周牧為實驗室智慧醫療研究中心顧問,其曾在斯坦福大學醫學院擔任研究員,研究聚焦于人工智能與醫療、生物信息、藥物研發及臨床信息化等前沿領域。

                根據世界衛生組織發布的數據,乳腺癌是女性中最常見的癌癥類型之一,僅2020年全世界約有230萬新增病例。在臨床實踐中,數字化的病理圖像可以幫助醫生捕捉到癌癥組織和細胞的分布,紋理,及幾何形態特征。其中,乳腺癌細胞核的形態特征與患者的預后表現密切相關,因而細胞核的檢測對乳腺癌的治療有著重要的臨床意義。

                近年來,人工智能中的深度學習方法被廣泛應用于細胞核自動分割,然而模型的性能大多依賴于大規模的數據量和臨床中的人工圖像標注(如圖1(a)所示)。然而醫學領域中存在著對病人隱私保護和精準數據標注等挑戰,現實中很難創建高質量且大規模的臨床數據集。為應對這些挑戰,自動化地完成細胞核數據的生成、篩選和標注將成為一種成本低、效益高的途徑。在實際應用中,通過虛擬數據的生成、開發和應用可以快速增加數據的多樣性,從而提高AI模型在不同臨床任務中的性能表現(如圖1(b)所示)。

                b14e0fd26ab33a39ca8e470b57fc11c.png

                圖1. 真實臨床數據集創建和AI模型虛擬數據集生成流程的比較

                本項研究的目標之一是生成一個大規模的虛擬化的臨床圖像數據集,同時也為生成的虛擬圖像提供了細胞核的標注標簽,該虛擬數據集被命名為“Synthetic Nuclei and annOtation Wizard (SNOW)”。SNOW數據集的開發應用了現有的圖像生成和細胞核標注模型。該數據集包含總共2萬個虛擬圖像片區和1,448,522個被帶有標注的細胞核。生成虛擬數據集的主要工作流程包括用于生成乳腺癌虛擬病理圖像的虛擬圖像生成器 (SIG) 和細胞核標注器 (NA),如圖 2 所示。圖像生成器通過在有限的真實病理數據集(例如 BreCaHAD)上進行訓練,能夠生成大量的虛擬病理圖像片區。細胞標注器旨在為虛擬圖片生成無需手動校正的細胞核標注。上述設計提供了一種高效且可復現的方法來生成配對的虛擬病理圖像樣本和細胞核標注。SNOW數據集的開發擴展了現有的病理圖像細胞核分析的數據規模,同時無需增加人工標注的工作量。

                b7bc1efbd2a0cfa6af2a12704c5e41b.png

                圖2. SNOW數據集生成流程

                該數據集生成流程中包含虛擬圖像生成器 (SIG) 和細胞核標注器 (NA) 的聯合工作流程:使用真實圖像數據訓練虛擬圖像生成器-使用真實數據集提供的圖像和細胞核標注來訓練細胞核標注器-使用細胞核標注器為虛擬圖像生成所需的細胞核標注。藍色箭頭表示虛擬圖像生成的工作流程,綠色箭頭表示細胞核標注的工作流程。

                研究人員分別使用虛擬和真實數據集(如PanNuke數據集)對細胞核分割模型進行訓練,最后使用真實數據集(TNBC數據集)對模型性能進行測試。實驗結果表明,比起使用真實數據集,在單獨使用SNOW虛擬數據進行訓練時,多種深度學習模型都可以在有監督和半監督的訓練場景下得到具有競爭力的細胞核分割結果。

                實驗發現,在有監督訓練環境下,虛擬數據訓練的細胞核分割模型的分割性能優于在真實世界數據集上訓練的模型,且后者的性能提升往往依賴于更多數據以及人工標注。相比之下,SNOW虛擬數據集上訓練的模型可以作為真實世界數據集的經濟高效的替代品。例如,在細胞核分割誤差率方面,虛擬數據訓練的模型比真實數據訓練的模型約降低了15%。此外,在SNOW虛擬數據集上進行半監督訓練的細胞核語義分割模型也將誤差率約降低了22%。這一結果得益于模型半監督學習中生成的“偽標注”使模型能夠在未遇到過的測試示例上具有良好的泛化能力。相比之下,使用真實數據集對模型進行半監督訓練時,由于訓練樣本數量的限制,模型細胞核語義分割的性能會有顯著下降。

                總體來看,本研究有效地回答了三個重要的問題:第一,能否通過利用公開訓練數據,以更少的人力成本來生成有價值并且信息豐富的虛擬樣本?第二,在使用大規模虛擬圖像進行細胞核自動分割時,需要哪種類型的模型訓練策略?第三,虛擬圖像能否作為真實世界數據集的替代品?

                研究人員發現,高質量的虛擬數據集有望成為深度學習細胞核分割的關鍵數據資源,并有效滿足計算病理學中相關訓練數據的需求。針對下游應用,SNOW數據集有望促進基于圖像的分析,例如腫瘤分期、預后和基因分子分析;還可以促進針對乳腺癌的模型預訓練和微調任務。此外,SNOW 數據集可用作訓練對抗性攻擊檢測模型的源數據,以識別醫學圖像分析中的惡意攻擊。與當前使用真實世界病理數據的模型訓練工作流程相比,SNOW為大規模虛擬數據生成、使用和分析提供了一份指南,并為自動化處理病理數據和相關分析奠定了數據和計算的基礎。


                [1] 論文《A Large-scale Synthetic Pathological Dataset for Deep Learning-enabled Segmentation of Breast Cancer》鏈接:https://www.nature.com/articles/s41597-023-02125-y


                comm@pjlab.org.cn

                上海市徐匯區云錦路701號西岸國際人工智能中心37-38層

                滬ICP備2021009351號-1

                        
                        

                              拔萝卜又叫又疼原声视频