乳腺癌是由于乳腺上皮細胞異常增殖所導致的惡性疾病,多見于女性患者,臨床上常用乳腺癌組織病理圖像進行診斷。現階段深度學習技術在醫學圖像處理領域取得突破性進展,在乳腺癌病理分類任務中效果優于傳統檢測技術。本文首先闡述了深度學習在乳腺病理圖像的應用進展,從多尺度特征提取、細胞特征分析以及分類分型三個方面進行了概述,其次歸納總結了多模態數據融合方法在乳腺病理圖像上的優勢,最后指出深度學習在乳腺癌病理圖像診斷領域面臨的挑戰并展望未來,這對推進深度學習技術在乳腺診斷中的發展具有重要的指導意義。
引用本文: 姜良, 張程, 曹慧, 姜百浩. 基于深度學習的乳腺病理圖像診斷研究進展. 生物醫學工程學雜志, 2024, 41(5): 1072-1077, 1084. doi: 10.7507/1001-5515.202311061 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
0 引言
乳腺癌的發病率位于各類腫瘤前列,嚴重威脅著女性的生命健康。2020年全球癌癥統計報告顯示,乳腺癌新發病例數為2 261 419例,其發病率在絕大多數國家中排名第一,并每年以0.5%的速率上升[1]。乳腺癌早期癥狀多以乳房腫塊、皮膚異常、乳頭溢液等為主,這些癥狀較難引起患者的注意,容易錯過最佳治療的時機。隨著癌細胞逐漸成長,腫瘤開始侵入周圍的乳腺組織,并擴散到附近的淋巴結或其他器官[2]。由于乳腺X線片法等非侵入性方法不能夠有效揭示乳腺癌的腫瘤間和腫瘤內異質性,因此乳腺病理學檢查成為診斷乳腺癌的“金標準”[3]。乳腺癌的病理表現形式復雜多樣,在臨床特征、組織形態學和基因改變方面都存在異質性,所以確定不同亞型患者的特異靶點對于治療方案選擇和預后判斷至關重要[4]。
2019年發布的《第五版WHO乳腺腫瘤分類》為乳腺癌的診斷、分子分型和靶向治療提供了明確的方案[5],指出臨床和病理形態學因素已不能充分反映乳腺癌的生物學行為,需要借助分子病理檢測技術[6]。然而,這種檢測技術不僅無法有效區分形態學特征重疊的腫瘤,而且無法實現根據特殊的基因變異位點對特殊類型乳腺癌分型。針對這些問題,人工智能技術逐漸為病理圖像診斷帶來新的解決方案,在數字病理圖像分析領域先后取得多項研究進展[7]。
傳統的機器學習方法需要依賴人工標注大量的圖像樣本來訓練模型,在處理圖像時存在一定局限性。與之不同的是,深度學習技術通過使用不同的神經網絡結構能夠自動從大量的圖像數據中學習高級特征,從而可以更高效地處理各類醫學圖像數據,并實現對復雜結構的深入分析[8]。現階段,許多學者總結了基于深度學習的乳腺病理圖像分類研究,其中包括乳腺癌良惡性分類方法,如Krithiga等[9]重點介紹各種先進模型算法、圖像預處理技術以及評估指標,強調了圖像識別技術較分子檢測技術的優越性。Rashmi等[10]總結出乳腺病理圖像在計算機輔助診斷系統開發的主要障礙,認為集中于放大倍數(例如40倍、100倍、200倍和400倍)的病理圖像進行研究,將有助于分析乳腺癌的不同亞型。
本文基于上述研究,首先介紹近年來乳腺病理圖像的特征提取方法,主要從多尺度特征融合角度進行歸納總結;在此基礎上,詳細闡述在乳腺病理圖像的細胞特征分析以及分類分型方面的診斷方法;其次表述多模態數據融合在乳腺良惡性腫瘤分類的研究進展;最后從病理圖像數據、模型可解釋性等方面歸納目前存在的問題,同時展望未來研究方向,為乳腺病理圖像診斷領域的研究學者提供新的借鑒思路。
1 基于深度學習的乳腺病理圖像診斷方法研究
1.1 乳腺病理圖像的多尺度特征提取
病理圖像存在染質稀疏、背景雜斑干擾、表觀多樣的缺陷,導致深度學習模型對復雜特征的提取效果較差,而目前多尺度特征融合能夠捕獲不同尺度下的特征信息,對于密集預測任務而言是必不可少的[11]。多尺度特征融合是通過采用相加、最大值與拼接的方法,對不同尺度下得到的特征通道權重進行融合,這種方法為乳腺病理圖像分類任務提供更精確、更具魯棒性的解決方案[12]。
目前,乳腺病理圖像存在病理區域尺寸分布分散、細節特征不明顯以及同類組織影像間的視覺差異較大等問題,越來越多專家利用多尺度特征融合的卷積神經網絡(convolutional neural network,CNN)、Transformer等深度學習模型強大的特征捕獲能力來解決上述問題以更好地滿足臨床需要[13]。表1列舉了常見深度學習模型。

CNN通過層疊的卷積操作,逐步提取圖像的局部細節與高層次語義信息,能夠有效捕捉不同尺度的特征,從細胞形態到組織結構均能進行良好的建模。例如,Sheikh等[14]基于CNN開發了一種多尺度輸入、多特征提取的網絡模型(MSI-MFNet),通過將密集連接網絡中多分辨率的分層特征圖進行融合,以學習不同尺度的乳腺病理特征,有助于提取乳腺病變區域的多樣化特征。Amin等[15]提出了一種基于特征聚合的CNN,該模型通過將網絡架構進行深層次設計,以精細地融合分層特征,從而學習到乳腺病理多尺度紋理特征,該方法在保證分類精度的同時,使模型更具輕量化。Alqahtani等[16]提出了多尺度壓縮與激勵ResNet(multiscale squeeze-and-excitation ResNet,msSE-ResNet),該模型以ResNet為基礎模型,使用不同的最大池化層來收集多尺度特征,將各尺度處學習到的特征信道權重進行融合,使得測試集上準確率達到88.87%,確保分類模型在不同倍數病理圖像上具有魯棒性。Xu等[17]提出了基于CNN的多維特征融合網絡(MDFF-Net)進行特征提取,該模型將一維特征與二維特征融合,并且設計了并行多尺度信道洗牌模塊(parallel multi-scale channel shuffling,PMS)以促進不同特征之間的交互和信息融合,有效增強了網絡從圖像中提取特征的能力,準確率達到98.86%。但該網絡整體網絡結構較大,若訓練周期較短則會丟失重要的乳腺紋理信息。Li等[18]提出的多尺度和雙自適應注意網絡(multi-scale and dual-adaptive attention network,MDAA)基于DenseNet,通過并行卷積提取多尺度特征,不同大小的卷積核捕獲圖像的多層次細節。該設計能夠有效整合不同放大倍數下的多尺度特征,強化病理圖像的上下文信息關聯,但特征整合依賴于固定的卷積核大小,使得模型應對不同尺度特征時缺乏靈活性。Karthik等[19]集成通道-空間注意力ResNet(channel and spatial attention residual network Resnet,CSAResnet)和雙重注意力多尺度CNN(dual attention multiscale convolutional neural network,DAMCNN)兩種模型的多路徑神經架構。CSAResnet基于ResNet-101骨干網絡并結合通道與空間注意力機制,能夠并行學習圖像中的跨通道與跨空間特征;DAMCNN通過結合DenseNet-201與EfficientNet-B0整合多尺度特征提取與注意力機制提煉特征。實驗結果表明,集成網絡可以提高乳腺病理細節特征的捕獲能力,但較單模型復雜度高,對計算機的性能帶來極大考驗。
Transformer通過自注意力機制建模全局像素的長距離依賴,并利用多頭自注意力捕捉不同尺度信息,能夠在多尺度特征提取中有效捕捉細胞級的局部病理特征,并精確表征組織結構的全局病變模式。例如,Wang等[20]基于Vision Transformer(ViT)提出了局部-全局Vision Transformer(local-global ViT,LGViT)模型,該模型結合了局部自注意力與全局自注意力,能夠有效捕捉乳腺病理圖像中遠距離區域的復雜關系。Sreelekshmi等[21]基于Swin Transformer,并結合深度可分離卷積,提出了一種具備多尺度特征提取能力的模型。Swin Transformer的分層結構能夠逐步捕捉不同尺度的特征,使模型既能精確解析細節,又能有效提取全局信息。
1.2 乳腺病理圖像的細胞特征分析
細胞特征分析是一項關鍵技術,涉及從顯微鏡圖像中提取和量化細胞的形狀、大小、紋理和顏色等特征[22]。這一分析過程包括圖像采集、預處理、分割、特征提取和數據分析等關鍵步驟,為藥物開發和基礎生物學研究提供了重要的量化數據。通過細胞的大小、形狀以及核與胞質的關系等特征,采用神經網絡進行學習,從而幫助病理醫生評估細胞是否發生惡變。總結現階段深度學習算法在乳腺癌病理圖像細胞特征分析的研究成果以及性能指標,如表2所示。例如,韓繼能等[22]開發的自動化膠質瘤分級系統能夠精準捕捉區域內細胞密度和細胞核異型特征。通過觀察細胞核從藍色到紅色的顏色漸變,以及粘連細胞核間紅藍顏色的突變,粘連的細胞核被不同顏色標記,證明該方法能夠清晰分辨粘連的細胞核。該系統使病理醫生能夠迅速獲得關于腫瘤高低級別的準確信息,有助于全局細胞密度的統計和局部細胞密度和異型特征的提取。此外,Shihabuddin等[23]采用DenseNet201模型提取細胞核區域的特征,特別是針對整體形態及其形態變化進行捕捉。這些特征在區分細胞分裂的各個階段(如前期、中期、后期和末期)中起到了關鍵作用。

目前,有絲分裂細胞檢測主要靠人工進行,每個高倍視野(high performance fortran,HPF)中有絲分裂細胞核密度低,導致這一過程不僅耗時間,而且對操作人員有著較高專業要求,因此基于深度學習技術實現有絲分裂自動檢測具有深刻影響[24]。針對乳腺病理圖像形態結構復雜、染色不均、細胞核粘連等問題,以及病理學家標記有絲分裂細胞時標簽的特性,利用深度學習模型在乳腺癌病理圖像上自動檢測有絲分裂已成為當前趨勢。有絲分裂活性指數是決定腫瘤大小、增殖率和侵襲性的關鍵因素,Sohail等[25]提出了基于R-CNN的多相有絲分裂檢測模型MP-MitDet,該模型應用于標記的快速細化方法和有絲分裂檢測,表現出良好的性能,測試精確度為71%,召回率為76%,F1數值為75%,精確召回曲線下面積(area under the precision-recall curve,AUC-PR)為78%,但有絲分裂活性指數在判斷腫瘤分級時可能具有誤導性,算法需要進一步針對此任務加以改進。Mahmood等[26]提出一種基于快速區域卷積神經網絡(Faster-RCNN)和深度CNN的多階段有絲分裂細胞檢測技術,由Faster-RCNN執行初始檢測,通過ResNet50和DenseNet201混合結構進行特征融合,在ICPR2012數據集上取得87.6%的精確度、84.1%的召回率和85.8%的F1數值。組織病理學圖像可能會出現提取有絲分裂細胞和非有絲分裂細胞數量不平衡的問題,Sigirci等[27]利用隨機欠采樣增強(random under-sampling boost,RUSBoost)方法來克服這個問題,開發了一款基于客戶端-服務器模式的DigiPath應用軟件作為輔助決策系統,臨床過程中精確度達96.78%,召回率與F1數值分別達79.42與86.97%。
1.3 乳腺病理圖像的分類與分型
細胞的大小和形狀變異可以指示不同類型的病理變化,目前乳腺癌病理診斷類型包括非浸潤性癌和浸潤性癌。非浸潤性癌主要是導管內癌、小葉原位癌,該類型均為未突破相應組織的基底膜,預后較好且不具備轉移能力;而浸潤性癌主要是浸潤性導管癌、浸潤性小葉癌、硬癌、髓樣癌、腺癌等,此類型分化程度較低,同時預后相對較差,并易受疾病分期等因素的影響[28]。隨著CNN在圖像分類任務上的巨大成功,為乳腺癌病理圖像的分類與分型帶來新的嘗試,促進了深度學習在乳腺病理圖像領域的發展[29]。總結現階段深度學習算法在乳腺癌病理圖像分類與分型中的研究成果以及性能指標,如表3所示。多分類模型存在分類精度低和感受野固定的局限性,導致乳腺癌多分類研究相對較少,Umer等[30]提出6B-Net模型串行ResNet-50,它具有六個并行分支,每個分支提取乳腺癌各類型的特征,利用分類器進行八分類,最終準確率高達90.10%。He等[31]提出乳腺癌組織病理學圖像分類Deconv-Transformer(DecT)模型,將組織病理學圖像顏色反卷積與深度學習模型相結合,Transformer架構較卷積層能更好地匹配顏色反卷積,同時這種串行結構混合模型能夠改善乳腺病理圖像顏色差異較大的情況,提高了模型泛化能力,在BreakHis數據集上的平均準確度為93.02%。但是,該混合結構模型也存在一些隱患,如深層次網絡容易致使模型提取病理特征的時間長且復雜程度較高。

隨著數字成像技術的快速發展,全切片圖像處理(whole slide imaging,WSI)已經成為現代病理學不可或缺的一部分。WSI允許病理醫生通過數字化的方式查看和分析整個病理切片,這不僅顯著提升了診斷的效率,還增強了圖像的可訪問性和分析的精度。例如,Jiang等[32]提出了一種空間感知快速并行卷積網絡(spatially-aware swift parallel convolution network,SPA-SPCNet),適用于處理WSI中存在的高度異質性和復雜性,旨在捕捉乳腺癌組織結構中的獨特空間分布特征,提升模型的空間感知能力。該網絡通過有效融合局部細節與全局信息,實現了對病理圖像中關鍵病變區域的精準識別。Mi等[33]設計了一種基于InceptionV3和XGBoost的乳腺病理圖像多分類結構,專門針對BACH數據集中的WSI。該模型成功區分了正常組織、良性病變、導管原位癌和乳腺浸潤性癌,實驗結果表明其良好的準確性可與人工檢測相媲美。
在全切片圖像的基礎上,圖像塊處理技術(patch)提供了一種更細致和針對性的分析方式,病理醫生能夠集中分析包含關鍵診斷信息的圖像部分。這種方法不僅優化了計算資源的使用,還提高了處理速度和診斷精度,尤其是在應用深度學習模型進行病變分類與分型時顯得尤為重要。例如,Huang等[34]提出了一種基于多視圖patch嵌入的乳腺病理圖像分類方法。該方法通過構建不同尺度的patch,并轉化為嵌入向量,實現多尺度特征的提取。這些patch嵌入通過跨尺度融合模塊整合,優化了特征間的互補性與上下文相關性,顯著增強了模型的分類能力。Kausar等[35]用Haar小波變換將輸入的高分辨率組織病理學圖像分解成小尺寸圖像,通過應用染色一體化技術將原始圖像中的染色顏色標準化,對乳腺癌組織病理學圖像進行準確分型。
1.4 乳腺病理圖像的多模態數據融合
計算機輔助診斷系統通常利用單模態數據,而單模態特征中存在噪聲會導致分類性能下降,同時很難反映個體的特異性[36],與單模態數據相比,多模態數據則可以有效提高模型精度。組學、病理圖像等數據均與乳腺癌患者的預后息息相關,多模態數據融合能夠得到乳腺癌多方面或多層次的信息,能更準確地評估疾病的全局狀況,有助于乳腺癌良惡性分類[37]。例如,Mobadersany等[38]融合組學信息和病理圖像信息進行癌癥存活預測,其結果明顯優于單獨使用任何單模態數據的方法。多模態技術對識別不同腫瘤類型也具有優勢,例如Yao等[39]證明了深度相關生存模型(DeepCorrSurv)在乳腺癌多分類的任務中效果顯著。Liu等[40]提出一種基于多模態數據的混合神經網絡模型來準確預測乳腺癌亞型,該方法融合基因表達數據、拷貝數變異(copy number variation,CNV)數據和病理圖像數據的高維抽象特征,充分考慮各模態數據異質性,在測試集中準確率和AUC分別達到88.07%和0.933 1。
電子病歷能為多模態數據給予支持,它提取的臨床信息是低維的,通常基于醫生的專業知識和長期經驗總結而成,有助于為診斷提供更豐富的指導,Yan等[41]利用結構化電子病歷(electronic health records,EHR)數據來提高病理圖像分類準確性,將原始病理圖像的高維抽象特征與EMR相結合,經過多個卷積層來提取更豐富的多層次特征,以保留局部細胞紋理組織結構信息。
多模態數據融合有利于預測個體預后,以輔助臨床實現精準治療,例如Yang等[42]首次將H&E染色組織病理學圖像用于預測乳腺癌的預后,開發出基于病理圖像和臨床信息的預測框架,以評估HER2陽性乳腺癌患者的復發和轉移風險。但是,盡管多模態數據能提供更全面的疾病信息,病理分析在臨床診斷中仍被視為“金標準”。整合額外信息時,其可信度與單一病理分析相比仍有爭議。理論上,多模態數據融合可提高診斷精度,但實際效果依賴于數據質量、特征提取的有效性及模態間的信息互補性。若數據來源異質或含較多噪聲,信息融合的可靠性則不如獨立的病理圖像分析。
2 總結與展望
現階段,乳腺癌診療技術正在不斷進步,深度學習在診斷乳腺癌上具有優勢且更貼近臨床,同時有助于乳腺癌患者的預后評估[43]。隨著發病率的逐年增加,乳腺癌會存在不同臨床表現、組織形態學、生物學行為和基因變異的一組譜系病變,致使專業型乳腺醫師更加緊缺,因此不借助人力的深度學習輔助診斷技術尤為重要[44]。乳腺病理圖像雖能為診斷提供幫助,但制作流程復雜,導致數據不足,存在一定限制[45]。組織病理圖像的多層次信息則有難以全方位顯示的問題,會增加過擬合的風險。為解決上述問題,采用跨模態數據集擴充方法,如有監督的像素到像素GAN(pixel-to-pixel generative adversarial network,Pix2PixGAN)和無監督的循環GAN(cycle generative adversarial network,CycleGAN),能合成清晰度較高的多樣性偽樣本,緩解醫學數據量緊缺的情況,并為分類、分割以及目標檢測任務提供了新的思路[46]。此外,深度學習模型可解釋性差。深度神經網絡模型通常因為黑盒特性,導致病灶提取、訓練過程以及診斷決策都存在很大的未知性,在引進醫院臨床診斷前需要較長的試用期,否則缺少公信力。為解決該問題,通過梯度加權類激活映射(gradient-weighted class activation mapping,Grad-CAM)的可視化技術制作熱力圖,此圖會指出病理圖像分類時的乳腺癌病灶特征的重點分布情況,從而使得神經網絡模型的決策過程更具可解釋性,有助于可視化分析[47]。
未來的發展將聚焦于WSI、patch和細胞分析三個層級。在全切片圖像處理方面,應優先開發更大規模的權威數據集,以支持模型訓練和驗證,同時采用無監督學習[48]等訓練策略,減少對大規模標注數據的依賴,從而有效應對數據需求挑戰。此外,未來研究還應重點關注多模態數據融合[49],整合影像、基因組及臨床信息,以提升WSI診斷的整體準確性與臨床適用性。在patch層面,小樣本學習[50]和自監督學習[51]等新方法為圖像分析開辟了新途徑,有助于從少量標注數據中提取關鍵特征,增強模型在多種乳腺癌亞型上的泛化能力。同時,為了更有效地進行不同分辨率和尺度下的特征提取,應探索更高效的多尺度深度學習網絡結構,充分利用圖像局部與全局信息。在細胞分析層面,未來需增強模型可解釋性與透明度,以提升臨床應用中的信任感。通過Grad-CAM等可視化技術進行模型解釋,生成病灶區域的熱力圖,展示模型決策依據,有助于病理學家更清晰地理解深度學習模型的工作機制。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:姜良負責資料收集、文章撰寫以及修改;張程、曹慧、姜百浩對文章框架與標題提供了指導性的建議以及進行了論文的審閱。
0 引言
乳腺癌的發病率位于各類腫瘤前列,嚴重威脅著女性的生命健康。2020年全球癌癥統計報告顯示,乳腺癌新發病例數為2 261 419例,其發病率在絕大多數國家中排名第一,并每年以0.5%的速率上升[1]。乳腺癌早期癥狀多以乳房腫塊、皮膚異常、乳頭溢液等為主,這些癥狀較難引起患者的注意,容易錯過最佳治療的時機。隨著癌細胞逐漸成長,腫瘤開始侵入周圍的乳腺組織,并擴散到附近的淋巴結或其他器官[2]。由于乳腺X線片法等非侵入性方法不能夠有效揭示乳腺癌的腫瘤間和腫瘤內異質性,因此乳腺病理學檢查成為診斷乳腺癌的“金標準”[3]。乳腺癌的病理表現形式復雜多樣,在臨床特征、組織形態學和基因改變方面都存在異質性,所以確定不同亞型患者的特異靶點對于治療方案選擇和預后判斷至關重要[4]。
2019年發布的《第五版WHO乳腺腫瘤分類》為乳腺癌的診斷、分子分型和靶向治療提供了明確的方案[5],指出臨床和病理形態學因素已不能充分反映乳腺癌的生物學行為,需要借助分子病理檢測技術[6]。然而,這種檢測技術不僅無法有效區分形態學特征重疊的腫瘤,而且無法實現根據特殊的基因變異位點對特殊類型乳腺癌分型。針對這些問題,人工智能技術逐漸為病理圖像診斷帶來新的解決方案,在數字病理圖像分析領域先后取得多項研究進展[7]。
傳統的機器學習方法需要依賴人工標注大量的圖像樣本來訓練模型,在處理圖像時存在一定局限性。與之不同的是,深度學習技術通過使用不同的神經網絡結構能夠自動從大量的圖像數據中學習高級特征,從而可以更高效地處理各類醫學圖像數據,并實現對復雜結構的深入分析[8]。現階段,許多學者總結了基于深度學習的乳腺病理圖像分類研究,其中包括乳腺癌良惡性分類方法,如Krithiga等[9]重點介紹各種先進模型算法、圖像預處理技術以及評估指標,強調了圖像識別技術較分子檢測技術的優越性。Rashmi等[10]總結出乳腺病理圖像在計算機輔助診斷系統開發的主要障礙,認為集中于放大倍數(例如40倍、100倍、200倍和400倍)的病理圖像進行研究,將有助于分析乳腺癌的不同亞型。
本文基于上述研究,首先介紹近年來乳腺病理圖像的特征提取方法,主要從多尺度特征融合角度進行歸納總結;在此基礎上,詳細闡述在乳腺病理圖像的細胞特征分析以及分類分型方面的診斷方法;其次表述多模態數據融合在乳腺良惡性腫瘤分類的研究進展;最后從病理圖像數據、模型可解釋性等方面歸納目前存在的問題,同時展望未來研究方向,為乳腺病理圖像診斷領域的研究學者提供新的借鑒思路。
1 基于深度學習的乳腺病理圖像診斷方法研究
1.1 乳腺病理圖像的多尺度特征提取
病理圖像存在染質稀疏、背景雜斑干擾、表觀多樣的缺陷,導致深度學習模型對復雜特征的提取效果較差,而目前多尺度特征融合能夠捕獲不同尺度下的特征信息,對于密集預測任務而言是必不可少的[11]。多尺度特征融合是通過采用相加、最大值與拼接的方法,對不同尺度下得到的特征通道權重進行融合,這種方法為乳腺病理圖像分類任務提供更精確、更具魯棒性的解決方案[12]。
目前,乳腺病理圖像存在病理區域尺寸分布分散、細節特征不明顯以及同類組織影像間的視覺差異較大等問題,越來越多專家利用多尺度特征融合的卷積神經網絡(convolutional neural network,CNN)、Transformer等深度學習模型強大的特征捕獲能力來解決上述問題以更好地滿足臨床需要[13]。表1列舉了常見深度學習模型。

CNN通過層疊的卷積操作,逐步提取圖像的局部細節與高層次語義信息,能夠有效捕捉不同尺度的特征,從細胞形態到組織結構均能進行良好的建模。例如,Sheikh等[14]基于CNN開發了一種多尺度輸入、多特征提取的網絡模型(MSI-MFNet),通過將密集連接網絡中多分辨率的分層特征圖進行融合,以學習不同尺度的乳腺病理特征,有助于提取乳腺病變區域的多樣化特征。Amin等[15]提出了一種基于特征聚合的CNN,該模型通過將網絡架構進行深層次設計,以精細地融合分層特征,從而學習到乳腺病理多尺度紋理特征,該方法在保證分類精度的同時,使模型更具輕量化。Alqahtani等[16]提出了多尺度壓縮與激勵ResNet(multiscale squeeze-and-excitation ResNet,msSE-ResNet),該模型以ResNet為基礎模型,使用不同的最大池化層來收集多尺度特征,將各尺度處學習到的特征信道權重進行融合,使得測試集上準確率達到88.87%,確保分類模型在不同倍數病理圖像上具有魯棒性。Xu等[17]提出了基于CNN的多維特征融合網絡(MDFF-Net)進行特征提取,該模型將一維特征與二維特征融合,并且設計了并行多尺度信道洗牌模塊(parallel multi-scale channel shuffling,PMS)以促進不同特征之間的交互和信息融合,有效增強了網絡從圖像中提取特征的能力,準確率達到98.86%。但該網絡整體網絡結構較大,若訓練周期較短則會丟失重要的乳腺紋理信息。Li等[18]提出的多尺度和雙自適應注意網絡(multi-scale and dual-adaptive attention network,MDAA)基于DenseNet,通過并行卷積提取多尺度特征,不同大小的卷積核捕獲圖像的多層次細節。該設計能夠有效整合不同放大倍數下的多尺度特征,強化病理圖像的上下文信息關聯,但特征整合依賴于固定的卷積核大小,使得模型應對不同尺度特征時缺乏靈活性。Karthik等[19]集成通道-空間注意力ResNet(channel and spatial attention residual network Resnet,CSAResnet)和雙重注意力多尺度CNN(dual attention multiscale convolutional neural network,DAMCNN)兩種模型的多路徑神經架構。CSAResnet基于ResNet-101骨干網絡并結合通道與空間注意力機制,能夠并行學習圖像中的跨通道與跨空間特征;DAMCNN通過結合DenseNet-201與EfficientNet-B0整合多尺度特征提取與注意力機制提煉特征。實驗結果表明,集成網絡可以提高乳腺病理細節特征的捕獲能力,但較單模型復雜度高,對計算機的性能帶來極大考驗。
Transformer通過自注意力機制建模全局像素的長距離依賴,并利用多頭自注意力捕捉不同尺度信息,能夠在多尺度特征提取中有效捕捉細胞級的局部病理特征,并精確表征組織結構的全局病變模式。例如,Wang等[20]基于Vision Transformer(ViT)提出了局部-全局Vision Transformer(local-global ViT,LGViT)模型,該模型結合了局部自注意力與全局自注意力,能夠有效捕捉乳腺病理圖像中遠距離區域的復雜關系。Sreelekshmi等[21]基于Swin Transformer,并結合深度可分離卷積,提出了一種具備多尺度特征提取能力的模型。Swin Transformer的分層結構能夠逐步捕捉不同尺度的特征,使模型既能精確解析細節,又能有效提取全局信息。
1.2 乳腺病理圖像的細胞特征分析
細胞特征分析是一項關鍵技術,涉及從顯微鏡圖像中提取和量化細胞的形狀、大小、紋理和顏色等特征[22]。這一分析過程包括圖像采集、預處理、分割、特征提取和數據分析等關鍵步驟,為藥物開發和基礎生物學研究提供了重要的量化數據。通過細胞的大小、形狀以及核與胞質的關系等特征,采用神經網絡進行學習,從而幫助病理醫生評估細胞是否發生惡變。總結現階段深度學習算法在乳腺癌病理圖像細胞特征分析的研究成果以及性能指標,如表2所示。例如,韓繼能等[22]開發的自動化膠質瘤分級系統能夠精準捕捉區域內細胞密度和細胞核異型特征。通過觀察細胞核從藍色到紅色的顏色漸變,以及粘連細胞核間紅藍顏色的突變,粘連的細胞核被不同顏色標記,證明該方法能夠清晰分辨粘連的細胞核。該系統使病理醫生能夠迅速獲得關于腫瘤高低級別的準確信息,有助于全局細胞密度的統計和局部細胞密度和異型特征的提取。此外,Shihabuddin等[23]采用DenseNet201模型提取細胞核區域的特征,特別是針對整體形態及其形態變化進行捕捉。這些特征在區分細胞分裂的各個階段(如前期、中期、后期和末期)中起到了關鍵作用。

目前,有絲分裂細胞檢測主要靠人工進行,每個高倍視野(high performance fortran,HPF)中有絲分裂細胞核密度低,導致這一過程不僅耗時間,而且對操作人員有著較高專業要求,因此基于深度學習技術實現有絲分裂自動檢測具有深刻影響[24]。針對乳腺病理圖像形態結構復雜、染色不均、細胞核粘連等問題,以及病理學家標記有絲分裂細胞時標簽的特性,利用深度學習模型在乳腺癌病理圖像上自動檢測有絲分裂已成為當前趨勢。有絲分裂活性指數是決定腫瘤大小、增殖率和侵襲性的關鍵因素,Sohail等[25]提出了基于R-CNN的多相有絲分裂檢測模型MP-MitDet,該模型應用于標記的快速細化方法和有絲分裂檢測,表現出良好的性能,測試精確度為71%,召回率為76%,F1數值為75%,精確召回曲線下面積(area under the precision-recall curve,AUC-PR)為78%,但有絲分裂活性指數在判斷腫瘤分級時可能具有誤導性,算法需要進一步針對此任務加以改進。Mahmood等[26]提出一種基于快速區域卷積神經網絡(Faster-RCNN)和深度CNN的多階段有絲分裂細胞檢測技術,由Faster-RCNN執行初始檢測,通過ResNet50和DenseNet201混合結構進行特征融合,在ICPR2012數據集上取得87.6%的精確度、84.1%的召回率和85.8%的F1數值。組織病理學圖像可能會出現提取有絲分裂細胞和非有絲分裂細胞數量不平衡的問題,Sigirci等[27]利用隨機欠采樣增強(random under-sampling boost,RUSBoost)方法來克服這個問題,開發了一款基于客戶端-服務器模式的DigiPath應用軟件作為輔助決策系統,臨床過程中精確度達96.78%,召回率與F1數值分別達79.42與86.97%。
1.3 乳腺病理圖像的分類與分型
細胞的大小和形狀變異可以指示不同類型的病理變化,目前乳腺癌病理診斷類型包括非浸潤性癌和浸潤性癌。非浸潤性癌主要是導管內癌、小葉原位癌,該類型均為未突破相應組織的基底膜,預后較好且不具備轉移能力;而浸潤性癌主要是浸潤性導管癌、浸潤性小葉癌、硬癌、髓樣癌、腺癌等,此類型分化程度較低,同時預后相對較差,并易受疾病分期等因素的影響[28]。隨著CNN在圖像分類任務上的巨大成功,為乳腺癌病理圖像的分類與分型帶來新的嘗試,促進了深度學習在乳腺病理圖像領域的發展[29]。總結現階段深度學習算法在乳腺癌病理圖像分類與分型中的研究成果以及性能指標,如表3所示。多分類模型存在分類精度低和感受野固定的局限性,導致乳腺癌多分類研究相對較少,Umer等[30]提出6B-Net模型串行ResNet-50,它具有六個并行分支,每個分支提取乳腺癌各類型的特征,利用分類器進行八分類,最終準確率高達90.10%。He等[31]提出乳腺癌組織病理學圖像分類Deconv-Transformer(DecT)模型,將組織病理學圖像顏色反卷積與深度學習模型相結合,Transformer架構較卷積層能更好地匹配顏色反卷積,同時這種串行結構混合模型能夠改善乳腺病理圖像顏色差異較大的情況,提高了模型泛化能力,在BreakHis數據集上的平均準確度為93.02%。但是,該混合結構模型也存在一些隱患,如深層次網絡容易致使模型提取病理特征的時間長且復雜程度較高。

隨著數字成像技術的快速發展,全切片圖像處理(whole slide imaging,WSI)已經成為現代病理學不可或缺的一部分。WSI允許病理醫生通過數字化的方式查看和分析整個病理切片,這不僅顯著提升了診斷的效率,還增強了圖像的可訪問性和分析的精度。例如,Jiang等[32]提出了一種空間感知快速并行卷積網絡(spatially-aware swift parallel convolution network,SPA-SPCNet),適用于處理WSI中存在的高度異質性和復雜性,旨在捕捉乳腺癌組織結構中的獨特空間分布特征,提升模型的空間感知能力。該網絡通過有效融合局部細節與全局信息,實現了對病理圖像中關鍵病變區域的精準識別。Mi等[33]設計了一種基于InceptionV3和XGBoost的乳腺病理圖像多分類結構,專門針對BACH數據集中的WSI。該模型成功區分了正常組織、良性病變、導管原位癌和乳腺浸潤性癌,實驗結果表明其良好的準確性可與人工檢測相媲美。
在全切片圖像的基礎上,圖像塊處理技術(patch)提供了一種更細致和針對性的分析方式,病理醫生能夠集中分析包含關鍵診斷信息的圖像部分。這種方法不僅優化了計算資源的使用,還提高了處理速度和診斷精度,尤其是在應用深度學習模型進行病變分類與分型時顯得尤為重要。例如,Huang等[34]提出了一種基于多視圖patch嵌入的乳腺病理圖像分類方法。該方法通過構建不同尺度的patch,并轉化為嵌入向量,實現多尺度特征的提取。這些patch嵌入通過跨尺度融合模塊整合,優化了特征間的互補性與上下文相關性,顯著增強了模型的分類能力。Kausar等[35]用Haar小波變換將輸入的高分辨率組織病理學圖像分解成小尺寸圖像,通過應用染色一體化技術將原始圖像中的染色顏色標準化,對乳腺癌組織病理學圖像進行準確分型。
1.4 乳腺病理圖像的多模態數據融合
計算機輔助診斷系統通常利用單模態數據,而單模態特征中存在噪聲會導致分類性能下降,同時很難反映個體的特異性[36],與單模態數據相比,多模態數據則可以有效提高模型精度。組學、病理圖像等數據均與乳腺癌患者的預后息息相關,多模態數據融合能夠得到乳腺癌多方面或多層次的信息,能更準確地評估疾病的全局狀況,有助于乳腺癌良惡性分類[37]。例如,Mobadersany等[38]融合組學信息和病理圖像信息進行癌癥存活預測,其結果明顯優于單獨使用任何單模態數據的方法。多模態技術對識別不同腫瘤類型也具有優勢,例如Yao等[39]證明了深度相關生存模型(DeepCorrSurv)在乳腺癌多分類的任務中效果顯著。Liu等[40]提出一種基于多模態數據的混合神經網絡模型來準確預測乳腺癌亞型,該方法融合基因表達數據、拷貝數變異(copy number variation,CNV)數據和病理圖像數據的高維抽象特征,充分考慮各模態數據異質性,在測試集中準確率和AUC分別達到88.07%和0.933 1。
電子病歷能為多模態數據給予支持,它提取的臨床信息是低維的,通常基于醫生的專業知識和長期經驗總結而成,有助于為診斷提供更豐富的指導,Yan等[41]利用結構化電子病歷(electronic health records,EHR)數據來提高病理圖像分類準確性,將原始病理圖像的高維抽象特征與EMR相結合,經過多個卷積層來提取更豐富的多層次特征,以保留局部細胞紋理組織結構信息。
多模態數據融合有利于預測個體預后,以輔助臨床實現精準治療,例如Yang等[42]首次將H&E染色組織病理學圖像用于預測乳腺癌的預后,開發出基于病理圖像和臨床信息的預測框架,以評估HER2陽性乳腺癌患者的復發和轉移風險。但是,盡管多模態數據能提供更全面的疾病信息,病理分析在臨床診斷中仍被視為“金標準”。整合額外信息時,其可信度與單一病理分析相比仍有爭議。理論上,多模態數據融合可提高診斷精度,但實際效果依賴于數據質量、特征提取的有效性及模態間的信息互補性。若數據來源異質或含較多噪聲,信息融合的可靠性則不如獨立的病理圖像分析。
2 總結與展望
現階段,乳腺癌診療技術正在不斷進步,深度學習在診斷乳腺癌上具有優勢且更貼近臨床,同時有助于乳腺癌患者的預后評估[43]。隨著發病率的逐年增加,乳腺癌會存在不同臨床表現、組織形態學、生物學行為和基因變異的一組譜系病變,致使專業型乳腺醫師更加緊缺,因此不借助人力的深度學習輔助診斷技術尤為重要[44]。乳腺病理圖像雖能為診斷提供幫助,但制作流程復雜,導致數據不足,存在一定限制[45]。組織病理圖像的多層次信息則有難以全方位顯示的問題,會增加過擬合的風險。為解決上述問題,采用跨模態數據集擴充方法,如有監督的像素到像素GAN(pixel-to-pixel generative adversarial network,Pix2PixGAN)和無監督的循環GAN(cycle generative adversarial network,CycleGAN),能合成清晰度較高的多樣性偽樣本,緩解醫學數據量緊缺的情況,并為分類、分割以及目標檢測任務提供了新的思路[46]。此外,深度學習模型可解釋性差。深度神經網絡模型通常因為黑盒特性,導致病灶提取、訓練過程以及診斷決策都存在很大的未知性,在引進醫院臨床診斷前需要較長的試用期,否則缺少公信力。為解決該問題,通過梯度加權類激活映射(gradient-weighted class activation mapping,Grad-CAM)的可視化技術制作熱力圖,此圖會指出病理圖像分類時的乳腺癌病灶特征的重點分布情況,從而使得神經網絡模型的決策過程更具可解釋性,有助于可視化分析[47]。
未來的發展將聚焦于WSI、patch和細胞分析三個層級。在全切片圖像處理方面,應優先開發更大規模的權威數據集,以支持模型訓練和驗證,同時采用無監督學習[48]等訓練策略,減少對大規模標注數據的依賴,從而有效應對數據需求挑戰。此外,未來研究還應重點關注多模態數據融合[49],整合影像、基因組及臨床信息,以提升WSI診斷的整體準確性與臨床適用性。在patch層面,小樣本學習[50]和自監督學習[51]等新方法為圖像分析開辟了新途徑,有助于從少量標注數據中提取關鍵特征,增強模型在多種乳腺癌亞型上的泛化能力。同時,為了更有效地進行不同分辨率和尺度下的特征提取,應探索更高效的多尺度深度學習網絡結構,充分利用圖像局部與全局信息。在細胞分析層面,未來需增強模型可解釋性與透明度,以提升臨床應用中的信任感。通過Grad-CAM等可視化技術進行模型解釋,生成病灶區域的熱力圖,展示模型決策依據,有助于病理學家更清晰地理解深度學習模型的工作機制。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:姜良負責資料收集、文章撰寫以及修改;張程、曹慧、姜百浩對文章框架與標題提供了指導性的建議以及進行了論文的審閱。