胃腫瘤是發生在胃部的腫瘤病變,對人體健康構成重大威脅。胃癌是胃腫瘤的惡性形態,早發現早治療對于患者康復具有重要意義。內窺鏡檢查是胃腫瘤診斷的主要方式,深度學習方法能自動提取內窺鏡圖像的特征并進行分析,有效提高了胃癌的檢出概率,已成為輔助診斷的重要工具。本文梳理了近幾年的相關文獻,介紹了深度學習方法在胃腫瘤內窺鏡圖像分類、目標檢測和分割方面的應用。此外,本文還總結了幾種胃腫瘤相關的計算機輔助診斷(CAD)系統和多模態算法,并指出當前已有的深度學習方法存在的問題,以及對未來發展方向進行了展望,以期促進深度學習方法在胃腫瘤內窺鏡圖像臨床診斷中的應用。
引用本文: 高原, 魏國輝. 基于深度學習的胃腫瘤內窺鏡圖像診斷研究進展. 生物醫學工程學雜志, 2024, 41(6): 1293-1300. doi: 10.7507/1001-5515.202404004 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
0 引言
胃腫瘤是指發生在胃部的腫瘤性疾病,包括胃良性腫瘤和胃惡性腫瘤。胃癌是一種胃惡性腫瘤,是癌癥相關死亡的第三大常見原因,同時也是發病率最高的腔器官癌癥。根據2022年全球癌癥統計數據顯示,全球胃癌新增和死亡病例分別占全球癌癥新增和死亡病例總數的4.9%和6.8%,其發病率和死亡率在全球常見癌癥中均排名第五[1]。內窺鏡檢查是早期檢測胃腫瘤的主要手段[2],然而由于醫師經驗水平參差不齊,檢查結果常受到醫生個人的主觀性影響。有報告顯示,傳統內窺鏡檢查的檢測診斷率僅為69%~79%[3],面對這樣的困境,亟需尋找新的解決方案。隨著人工智能(artificial intelligent,AI)的發展,計算機輔助診斷(computer aided diagnosis,CAD)為提高內窺鏡檢測診斷率帶來了新希望。
近年來,深度學習方法在醫學圖像處理領域取得了顯著進展,它能夠有效模仿人類視覺處理過程,將圖像從低層次特征逐層映射到高層次語義信息,實現對圖像內容的理解[4]。因此,在對內窺鏡圖像的處理中,深度學習方法可以對圖像進行多層次的特征提取,通過高精度檢測胃黏膜細胞微環境的變化來提高胃腫瘤的檢測準確率[5],并精確定位病灶區域,輔助醫生進行胃腫瘤的診斷和篩查。此外,深度學習方法還有強大的泛化能力,能夠處理多種類型的醫學圖像。盡管深度學習方法在內窺鏡圖像診斷中展現出巨大的應用潛力,但由于其自身的可解釋性差以及醫學圖像的復雜性高等原因[6],其在臨床應用中仍面臨諸多挑戰。
本文整理了近幾年胃腫瘤相關文獻,重點介紹了深度學習方法在胃腫瘤內窺鏡圖像分類、目標檢測和分割這三大任務中的應用,并對其研究方向和方法性能進行概述。同時,歸納總結了幾種相關的CAD系統和多模態算法,針對當前已有的深度學習方法在胃腫瘤診斷過程中存在的問題,本文進行了系統分析,并提出了相應的優化思路,旨在為胃腫瘤CAD的進一步研究和應用提供參考。
1 基于深度學習的胃腫瘤內窺鏡圖像診斷技術研究
1.1 基于深度學習的胃腫瘤內窺鏡圖像分類
胃腫瘤可分為良性和惡性兩類。良性腫瘤包括胃腺瘤性息肉、胃增生性息肉和胃平滑肌瘤等。這類腫瘤通常局限于黏膜或黏膜下層,不具備浸潤性,病情進展緩慢,且通常無轉移能力,內窺鏡下切除即可有效治療。但胃腺瘤性息肉作為癌前病變,若不及時處理,可能演變為胃腺癌。惡性胃腫瘤包括胃腺癌、胃腸道間質瘤和原發性胃淋巴瘤。胃腺癌是最常見的惡性腫瘤,根據組織學特征分為腸型和彌漫型,可突破黏膜擴展至胃壁深處并轉移至其他器官;胃腸道間質瘤起源于間質細胞,惡性程度各異;而原發性胃淋巴瘤通常與幽門螺桿菌感染相關。基于內窺鏡圖像的深度學習方法可自動識別這些腫瘤,輔助醫生做出精準診斷。本文總結了現階段深度學習方法在胃腫瘤內窺鏡圖像分類中的研究成果以及性能指標,如表1 所示。

卷積神經網絡(convolutional neural network,CNN)是深度學習方法中最常用的網絡架構,它可以有效地提取和表達更高層次的特征,因此在胃腫瘤內窺鏡圖像分類領域極具應用前景。CNN中的啟發式(Inception)網絡和極端Inception(extreme Inception,Xception)網絡在胃腫瘤內窺鏡圖像分類中被廣泛應用。Inception系列網絡通過大小不同的卷積核,能有效捕捉圖像在不同尺度上的特征信息。例如,Sakai等[7]提出一種基于遷移學習的CNN算法,使用第一代Inception(Inception version 1,Inception-v1)系列模型,又稱谷歌網絡(GoogleNet),自動檢測內窺鏡中的早期胃癌(early gastric cancer,EGC),分類準確率為87.60%,成功檢測到了形狀特征較差的EGC。但當目標區域較深或失焦時,容易發生漏檢。Li等[8]開發了一個基于第三代Inception(Inception version 3,Inception-v3)系列模型的系統,用于分析放大窄帶成像(magnifying-narrow band imaging,M-NBI)內鏡下的胃黏膜病變,該系統診斷EGC的準確率、靈敏度和特異性分別為90.91%、91.18%和90.64%,其中靈敏度明顯高于臨床專業人員的辨識結果。Xception是一種基于Inception的高級CNN架構,通過完全采用深度可分離卷積優化網絡結構,將標準卷積操作分為:使用深度卷積單獨處理每個輸入通道特征和使用逐點卷積整合所有通道特征兩個部分。Klang等[9]使用Xception在區分良惡性胃潰瘍方面實現了92.00%的靈敏度和75.00%的特異性。Liu等[10]將Xception和殘差注意力機制結合,以此來增強網絡對有意義特征的關注,且抑制無意義特征,此網絡可以在數據缺乏的情況下有效訓練;該模型對胃潰瘍良惡性的分類準確率為81.40%、F1分數(F1 score,F1)為81.80%。但是,該模型的網絡層次很深,進一步加深網絡層次可能會導致梯度消失或梯度爆炸。
CNN中的殘差網絡(residual network,ResNet)也常被應用于胃腫瘤內窺鏡圖像分類中,相比于Inception,ResNet中引入了殘差連接,允許特征在層間直接傳遞,有效緩解了深層網絡在訓練時梯度消失和梯度爆炸的問題。Wu等[11]在研究中,針對胃食管十二指腸鏡檢查過程中EGC無盲點檢測的問題,創新性地將50層ResNet(ResNet50)和視覺幾何組16(visual geometry group 16,VGG16)相結合,此網絡通過預訓練和遷移學習提高訓練效率,在測試中準確率達到92.50%。雖然模型融合提高了分類準確率,但同時也增加了過擬合的風險。Zhang等[12]采用34層ResNet(ResNet34)和第三代深度實驗室(deeplab version 3,DeepLab-v3)網絡構建了一個CNN診斷系統。該網絡在像素分割的基礎上對胃腫瘤和正常胃黏膜進行分類,通過多尺度擴張卷積和空洞空間金字塔模塊,提高了網絡對不同尺寸和形狀的病變區域的適應能力。測試結果表明,CNN的診斷準確率與內窺鏡醫生相當,而在EGC和高級別上皮內瘤變的診斷中,其特異性高于內窺鏡醫生。此外,還有研究者探究了其它結構的CNN在胃腫瘤內窺鏡圖像分類中的應用。例如,Qiu等[13]構建改良的U型網絡(U-Net)對不同類型的胃癌和胃病變進行分類,準確率為94.10%,但由于該網絡層數的問題,訓練過程中容易出現過擬合。
盡管,CNN在圖像識別任務中取得良好成效,但由于其卷積操作的局限性,使它無法學習到圖像的全局信息,導致模型在捕捉長期依賴關系方面存在不足。因此,Chae等[14]使用視覺轉換器(vision transformer,ViT)模型對健康組織、胃病變和胃癌進行分類,并提出多濾波自動增強(multi-filter automatic enhancement,MFAA)技術,在數據量較少的情況下提高了模型的分類準確率。但由于轉換器(Transformer)依賴自注意力機制,需要計算每個位置與其他位置的關系,導致計算成本較高。Maashi等[15]提出的基于深度學習的胃癌分類綠頭鴨優化器(anas platyrhynchos optimizer,APO)算法,借助神經架構搜索網絡(neural architecture search network,NASNet)優化特征提取過程,從而生成特征向量集合,并且使用APO算法調整超參數來減少過擬合,最后利用深度置信網絡(deep belief network,DBN)執行分類,其最佳分類準確率可達99.67%,但DBN的復雜性增加了模型訓練的難度和時長。
1.2 基于深度學習的胃腫瘤內窺鏡圖像目標檢測
胃腫瘤的目標檢測是指在胃部內窺鏡圖像中自動識別和定位胃腫瘤。基于深度學習的目標檢測方法,包括:單階段目標檢測和雙階段目標檢測。單階段目標檢測,直接在輸入圖像中預測目標的位置和類別,無需生成候選區域,通常具有較高的檢測速度。雙階段目標檢測,首先生成候選目標區域,然后對每個候選區域進行特征提取和分類。在胃腫瘤內窺鏡圖像目標檢測任務中常用的深度學習方法有三種,分別是“你只看一次”(you only look once,YOLO)、單發多框檢測器(single shot multibox detector,SSD)和有CNN特征的區域(region with CNN feature,R-CNN)。本文總結了現階段深度學習方法在胃腫瘤內窺鏡圖像目標檢測中的研究成果以及性能指標,如表2所示。

YOLO是一種單階段目標檢測算法,它能夠在復雜的背景下準確地檢測出目標。近年來,研究者對不同版本的YOLO進行改進,在胃腫瘤內窺鏡圖像目標檢測中取得了顯著效果。例如,Durak等[16]通過對比試驗驗證了第四版YOLO(YOLO version 4,YOLO-v4)在息肉檢測任務中的優越性,其平均精度均值(mean average precision,mAP)為87.95%。Li等[17]在 YOLO-v4 的基礎上提出了一種特征層融合的 EGC 檢測方法,用于處理EGC中一些特征邊緣不足的小病灶,并保存EGC的紋理和輪廓信息。該方法結合卷積塊注意力模塊(convolutional block attention module,CBAM),增強了癌癥靶點在通道和空間上的特征表達,提高了網絡對形狀不規則和邊界不明顯區域的檢測能力,平均準確率達到了94.16%,比YOLO-v4有所提高,但此方法在實時視頻檢測中仍有改進空間。Yao等[18]開發了基于第三版YOLO(YOLO version 3,YOLO-v3)的EGC診斷系統,通過設計特定的損失函數和初始化策略,優化了網絡的收斂速度,并在兩組EGC檢測試驗中分別達到了85.15%和84.41%的準確率。此外,該系統還支持在一張圖像中同時識別和定位多個可疑病變。Ahmad等[19]對第七版 YOLO(YOLO version 7,YOLO-v7)進行了改進,引入壓縮激勵(squeeze and excitation,SE)注意力模塊,優化了對小型胃病變的檢測能力。SE注意力模塊在捕獲了通道關系的基礎上重新權衡了每個通道的貢獻,從而實現了對小型胃病變區域的檢測。該模型的mAP和F1分數均達到71.00%,運行速率為63幀/s,具備實時檢測能力。但該模型是基于私人數據集設計的,其泛化能力還需進一步驗證。Wu等[20]在第五版YOLO(YOLO version 5,YOLO-v5)的基礎上,提出了一種相位感知令牌混合模塊YOLO(phase-aware token mixing module YOLO,PATM-YOLO)息肉檢測模型,包括小目標檢測頭、自適應空間特征融合(adaptively spatial feature fusion,ASFF)模塊和滑動窗口轉換器模塊。其中,小目標檢測頭增加了網絡對小息肉的關注度,ASFF模塊增加了網絡的特征豐富性,滑動窗口轉換器模塊確保了檢測精度的最大化。此方法在公共數據集上實現了95.60%的準確率,但由于模型較為復雜,對計算資源要求較高。
SSD也是一種經典的單階段目標檢測算法,相比于YOLO,SSD采用多尺度特征圖檢測目標,對大小不同的目標有較好的適應性。例如,Hirasawa等[21]使用SSD在內窺鏡圖像中檢測胃癌,該算法的總體靈敏度為92.20%,在直徑為6 mm或以上的病灶中,檢測準確率高達98.60%。但該研究所使用的數據集圖像質量單一,并不能覆蓋所有的臨床情況。Pan等[22]構建了一種基于特征增強的SSD網絡,該網絡使用更深—更淺的特征增強模塊和自上而下的路徑特征融合模塊增強了特征融合效果,提高了網絡檢測能力,在兩個公開數據集上的F1分數分別為90.63%和63.34%,相比基線均有提高,但由于該網絡參數數量較多,其在臨床應用中的實用性受到限制。盡管SSD在目標檢測領域表現出色,但由于不同語義特征圖之間難以充分融合,同時在融合過程中不可避免地存在語義差距,因此其在處理多尺度目標時仍面臨一定的挑戰。為此,Liu等[23]改進SSD框架,增加了遞歸特征金字塔網絡來促進不同語義特征之間的融合,并在SSD中引入語義分割分支來輔助小病變的檢測,提高了對胃癌的辨別能力,與原始SSD相比,mAP有所提高。Mushtaq等[24]將SSD與特征提取器VGG16結合,構建了基于注意力的胃息肉SSD模型,提高了對小息肉的檢測能力。該模型將由注意力級聯和特征圖級連組成的精細映射塊集成到SSD高分辨率特征圖中,從而在獲取更多語義信息的同時,顯著降低了計算的復雜度。此模型在兩個公共數據集進上的mAP分別為94.20%和76.90%,但該模型的訓練需要大量標記良好的訓練數據,數據收集和處理所需成本過高。
在胃腫瘤的兩階段目標檢測領域,Mo等[25]首次使用快速區域CNN(faster region-based CNN,Faster R-CNN)框架檢測息肉,這是一種完全端到端的方式。該系統在測試階段具有較低的誤報率,并且在效率和準確率之間實現了良好的平衡。然而,該系統更容易定位大息肉,在定位小息肉時表現出較高的假陽性率。Teramoto等[26]提出一種基于U-Net區域CNN(U-Net region-based CNN,U-Net R-CNN)的新型目標檢測模型。該方法首先利用U-Net獲取胃癌的候選區域和邊界框,然后使用稠密卷積網絡169(dense convolutional network 169,DenseNet169)進行進一步分類。在EGC的檢測中,該方法獲得了98.00%的靈敏度,有效減少了假陽性的出現,但由于檢測過程中需要對收集的健康圖像進行處理,因此計算成本較高。Jin等[27]使用掩碼區域CNN(mask region-based CNN,Mask R-CNN) 檢測EGC,并將實驗結果與專家檢查結果進行比較;結果顯示,此方法的總體準確率高于專家。Cui等[28]在Mask R-CNN中引入雙向特征金字塔,增強了跨尺度特征融合,提升了模型的EGC檢測能力,在精確標記的胃鏡數據集中靈敏度和特異性分別達到了91.67%和88.95%。盡管該方法在處理表面腫脹的病變類型中展現了出優異的檢測效果,但在遇到血管不規則或缺乏明顯邊緣的微結構病變時表現較差。
1.3 基于深度學習的胃腫瘤內窺鏡圖像分割
基于深度學習的胃腫瘤內窺鏡圖像分割是指利用深度學習方法,從圖像背景中精確分離胃腫瘤。相比于目標檢測,分割可以更準確地勾畫出病變的位置和形狀。具體來說,比如對于EGC無淋巴轉移的患者,通過內鏡下黏膜剝離術(endoscopic submucosal dissection,ESD)可以實現病灶的整體切除,因此準確標識并勾畫腫瘤邊緣是內鏡下根治性切除的關鍵。本文總結了現階段深度學習方法在胃腫瘤內窺鏡圖像分割中的研究成果以及性能指標,如表3所示。

CNN中的U-Net和U-Net變體在胃腫瘤內窺鏡圖像分割任務中展現出卓越的適用性和靈活性。例如,Qiu等[29]利用基于VGG16的U-Net,對放大內鏡窄帶成像(magnification endoscopy-narrow band imaging,ME-NBI)圖像中的腫瘤病變區域進行分割。該方法通過在編碼層中引入注意力金字塔結構,有效集成了深淺層特征信息,緩解了因深層卷積操作導致的淺層顏色和紋理信息丟失問題,F1分數達到96.00%,但該網絡只提取了特定的病變類型,因此泛化能力較差。Du等[30]利用同一病灶的多個胃鏡圖像的相關信息,提出一種基于空間注意力和通道注意力的三分支殘差U-Net (co-spatial attention and channel attention based triple-branch residual U-Net,CSA-CA-TB-ResUnet)。該模型利用圖像間的相關性精準定位了病灶的空間位置,并提取病灶的細微特征。此方法的像素級準確率為91.18%,平均骰子相似系數(Dice similarity coefficient,DSC)為91.08%,效果優于初級專家,且具有強大的泛化能力。然而,與其他先進方法相比,該模型的圖像推理時間較長。盡管以上改進的U-Net提升了胃腫瘤圖像的分割性能,但由于胃腫瘤病變類型多樣、胃部環境復雜以及胃腫瘤病灶邊界不清晰等問題,分割準確率仍難以達到滿意效果。為此,Zhang等[31]提出一種基于深度可分離卷積和改進的空洞空間金字塔池化(improved atrous spatial pyramid pooling,I-ASPP)的U-Net網絡,用于胃癌圖像病灶區域分割。該網絡采用不同膨脹率的卷積來獲取多尺度特征,并引入邊界特征計算分支,以改善邊緣細節丟失的問題,進而細化分割邊緣。這些改進使得網絡的準確率提高到91.30%,平均骰子(Dice)系數達到84.90%。然而,該網絡并不能很好地識別具有多個病變區域的胃癌圖像。雖然改進的U-Net方法已被證明非常有效,但由于CNN的固有局限性,它無法有效建模遠程關系。為了解決這個問題,He等[32]利用Transformer和U-Net構建雙分支混合網絡,使用混合網絡學習圖像的局部和全局信息。網絡中的深度特征聚合解碼器(deep feature aggregation decoder,DFA)對深度特征進行聚合,在提取顯著病變特征的同時降低了模型復雜度,該方法的準確率、Dice和交并比(intersection over union,IOU)分別為94.00%、89.50%和81.30%。然而,該模型在邊界位置的學習能力較差。
2 基于深度學習的胃腫瘤內窺鏡圖像檢測CAD系統
為了加強CAD在臨床實踐中的應用,學者們開始研究能夠執行胃腫瘤檢測和區域邊緣劃分的系統。Ling等[33]建立了一個用于識別內窺鏡圖像中EGC的分化狀態和劃分腫瘤邊緣的系統,系統由兩部分組成:VGG16負責識別EGC的分化狀態,增強版U-Net(U-Net++)用于劃分腫瘤邊緣。該系統在分化狀態識別任務中的準確率為83.30%,在分割任務中的準確率為82.70%。為了更符合實際的診斷流程,降低訓練過程中的計算成本,Teramoto等[34]設計了一種級聯深度學習系統,使用CNN和U-Net兩種不同任務的級聯結構,實現了對內窺鏡圖像中胃癌的自動檢測、分類和分割。該系統的總體性能表現優異,其靈敏度和特異性分別高達97.00%和99.40%;尤其是在基于案例的評估中,檢測靈敏度和特異性高達到100.00%。然而,盡管訓練效果顯著,但如果應用于臨床,還需進一步驗證和評估其提取重要侵襲區域的能力。Liu等[35]開發了一套新系統,用于 ME-NBI 圖像中的胃腫瘤病變的診斷和分割。為獲得更好的特征提取結果,該系統采用基于第2型高效網絡(EfficientNetB2)的YOLO-v3進行診斷,采用基于VGG16的U-Net進行分割,并在分割網絡中引入特征金字塔網絡和注意力模塊以提高特征提取能力。該系統測試的準確率、靈敏度分別為90.80%、92.50%,但該系統為離線系統,僅支持輸入ME-NBI圖像進行診斷和分割。Liang等[36]結合提出的ResNet多尺度提取(ResNet multiscale extraction,ResMSE)網絡和不同權重特征融合(different weights feature fusion,DWFF )網絡,設計了一個基于Mask R-CNN的CAD系統,用于對EGC病變區域進行檢測和分割。其中,ResMSE網絡通過具有不同感受野的多個分支同時提取特征,DWFF 網絡則在特征融合過程中實現對不同權重的特征融合。在測試中,該系統的準確率和mAP分別達到了67.74%和45.37%,但該系統在檢測和定位面積較小或與背景非常相似的病變區域時存在一定困難。Zhang等[37]對Mask R-CNN進行改進,提出“雙向特征提取和融合模塊”和“特征通道和空間凈化模塊”,實現了低級特征的空間信息與高級特征的語義信息的充分融合。這一改進后的系統在測試中表現優異,準確率、特異性和F1分數分別為93.90%、92.50%和94.10%,優于原始的Mask R-CNN。為了解決在分割過程中因為假陽性數量較多而導致的計算成本高的問題,Haq等[38]對GoogleNet和ViT模型進行了改進,將內窺鏡圖像分為正常、EGC和晚期胃癌三個類別;基于分類結果,使用Faster R-CNN對胃癌區域進行識別,實現了對胃腫瘤的檢測和區域劃分。該系統在分類和分割任務中的準確率分別為97.40%和96.70%,展現出在內窺鏡圖像分析領域的巨大應用潛力。
3 基于深度學習的胃腫瘤多模態數據研究
在胃腫瘤診斷過程中,多模態數據被廣泛應用。與單模態數據相比,多模態數據能更好地表達圖像信息,彌補單模態數據中可能存在的信息缺失和不足,提高篩查的準確率[39]。Ding等[40]設計了一種基于分層注意機制和多模態語義融合的胃癌篩選智能決策方法(intelligent decision-making method for gastric cancer screening,ID-GCS)。該方法使用兩個網絡分別提取胃鏡檢查報告中的文本和圖像信息,并利用分層注意力機制,將語義級和特征級注意力模式融合,以整合跨尺度語義信息,篩選準確率達到94.43%。然而,該方法的視覺語義提取網絡整體表現低于文本語義提取網絡,未來還有很大的改進空間。Lu等[41]同樣利用胃鏡報告中的文本和圖像多模態數據進行EGC篩選。他們提出了一種多模態雙線性融合方法,可以捕捉圖像特征向量和文本特征向量的內在聯系,在EGC篩查方面取得了較高的準確率和F1分數,優于單模態、簡單融合、多模態語義融合和平均融合方法。然而,當其中一種模態數據缺失時,該方法將不再適用,限制了其應用范圍。此外,Du等[42]使用白光和弱放大內窺鏡的多模態數據,開發了一種胃腫瘤實時診斷系統。通過實驗對比,特征級別的多模態融合在該系統中實現了最佳的診斷效果,準確率達到93.55%。
4 總結與展望
近年來,胃腫瘤診斷技術取得了長足進展。然而,由于內鏡醫師技能水平的差異,診斷結果可能存在主觀性偏差,從而影響患者的治療效果和預后。隨著深度學習方法的快速發展,其在胃腫瘤診斷中的輔助作用日益凸顯。這些方法不僅能提高診斷的準確率和效率,還為臨床提供了客觀的第二意見,已成為胃腫瘤診斷與治療的重要輔助手段。然而,這些方法也存在一定的局限性。① 深度學習模型的訓練嚴重依賴于大量高質量標注數據,但現階段胃腫瘤內窺鏡圖像數據相對稀缺且圖像質量參差不齊,這會影響模型預測的準確率。針對這些問題,可采用預訓練網絡結合遷移學習技術,在小數據集上微調模型[43];同時,通過幾何變換和生成對抗網絡(generative adversarial network,GAN)生成更多高質量醫學圖像[44-45],從而緩解數據集不足的問題。② 目前,用于胃腫瘤內窺鏡圖像診斷的深度學習方法仍較為簡單。大多數對胃腫瘤的分類研究僅限于二分類或三分類,這些簡單分類難以滿足臨床的多樣化需求。③ 由于胃腫瘤內窺鏡圖像分辨率較高,對其進行處理時需要的計算資源較大。這種高計算負載提高了模型的訓練成本,并在一定程度上降低了訓練效率。④ 深度學習模型的“黑盒”性質使它的可解釋性較差,這限制了其在臨床中的應用。為提高模型的透明度和信任度,可以通過可視化技術展示模型在決策過程中關注的區域。例如結合模型蒸餾、注意力機制和熱圖模塊等方法,幫助解釋模型的決策過程,從而增強模型的可信度和可解釋性。
未來的研究應從數據收集、網絡優化、訓練范式創新、多模態數據整合及臨床驗證五個方面入手,全面提升基于深度學習的胃腫瘤內窺鏡圖像診斷模型的性能。首先,需收集并共享高質量的胃腫瘤內窺鏡圖像數據,構建大規模公共數據集,為模型開發奠定數據基礎。其次,通過神經架構搜索技術優化網絡架構,減少對先驗知識的依賴,提升模型的效率與性能。然后,在訓練方法上,通過自監督學習在未標注數據上進行預訓練,提取有效特征,降低對標注數據的需求,并增強模型的泛化能力與魯棒性。此外,應探索多模態數據的整合,結合影像、基因組和臨床文本等多維信息,開發更全面的診斷模型。最后,通過臨床試驗驗證,將模型預測結果與實際臨床數據交叉驗證,進一步提高診斷的準確率與可靠性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:高原負責文獻資料的收集、整理、分析、初稿的撰寫及修改,魏國輝負責對論文的框架與標題提出指導性意見。
0 引言
胃腫瘤是指發生在胃部的腫瘤性疾病,包括胃良性腫瘤和胃惡性腫瘤。胃癌是一種胃惡性腫瘤,是癌癥相關死亡的第三大常見原因,同時也是發病率最高的腔器官癌癥。根據2022年全球癌癥統計數據顯示,全球胃癌新增和死亡病例分別占全球癌癥新增和死亡病例總數的4.9%和6.8%,其發病率和死亡率在全球常見癌癥中均排名第五[1]。內窺鏡檢查是早期檢測胃腫瘤的主要手段[2],然而由于醫師經驗水平參差不齊,檢查結果常受到醫生個人的主觀性影響。有報告顯示,傳統內窺鏡檢查的檢測診斷率僅為69%~79%[3],面對這樣的困境,亟需尋找新的解決方案。隨著人工智能(artificial intelligent,AI)的發展,計算機輔助診斷(computer aided diagnosis,CAD)為提高內窺鏡檢測診斷率帶來了新希望。
近年來,深度學習方法在醫學圖像處理領域取得了顯著進展,它能夠有效模仿人類視覺處理過程,將圖像從低層次特征逐層映射到高層次語義信息,實現對圖像內容的理解[4]。因此,在對內窺鏡圖像的處理中,深度學習方法可以對圖像進行多層次的特征提取,通過高精度檢測胃黏膜細胞微環境的變化來提高胃腫瘤的檢測準確率[5],并精確定位病灶區域,輔助醫生進行胃腫瘤的診斷和篩查。此外,深度學習方法還有強大的泛化能力,能夠處理多種類型的醫學圖像。盡管深度學習方法在內窺鏡圖像診斷中展現出巨大的應用潛力,但由于其自身的可解釋性差以及醫學圖像的復雜性高等原因[6],其在臨床應用中仍面臨諸多挑戰。
本文整理了近幾年胃腫瘤相關文獻,重點介紹了深度學習方法在胃腫瘤內窺鏡圖像分類、目標檢測和分割這三大任務中的應用,并對其研究方向和方法性能進行概述。同時,歸納總結了幾種相關的CAD系統和多模態算法,針對當前已有的深度學習方法在胃腫瘤診斷過程中存在的問題,本文進行了系統分析,并提出了相應的優化思路,旨在為胃腫瘤CAD的進一步研究和應用提供參考。
1 基于深度學習的胃腫瘤內窺鏡圖像診斷技術研究
1.1 基于深度學習的胃腫瘤內窺鏡圖像分類
胃腫瘤可分為良性和惡性兩類。良性腫瘤包括胃腺瘤性息肉、胃增生性息肉和胃平滑肌瘤等。這類腫瘤通常局限于黏膜或黏膜下層,不具備浸潤性,病情進展緩慢,且通常無轉移能力,內窺鏡下切除即可有效治療。但胃腺瘤性息肉作為癌前病變,若不及時處理,可能演變為胃腺癌。惡性胃腫瘤包括胃腺癌、胃腸道間質瘤和原發性胃淋巴瘤。胃腺癌是最常見的惡性腫瘤,根據組織學特征分為腸型和彌漫型,可突破黏膜擴展至胃壁深處并轉移至其他器官;胃腸道間質瘤起源于間質細胞,惡性程度各異;而原發性胃淋巴瘤通常與幽門螺桿菌感染相關。基于內窺鏡圖像的深度學習方法可自動識別這些腫瘤,輔助醫生做出精準診斷。本文總結了現階段深度學習方法在胃腫瘤內窺鏡圖像分類中的研究成果以及性能指標,如表1 所示。

卷積神經網絡(convolutional neural network,CNN)是深度學習方法中最常用的網絡架構,它可以有效地提取和表達更高層次的特征,因此在胃腫瘤內窺鏡圖像分類領域極具應用前景。CNN中的啟發式(Inception)網絡和極端Inception(extreme Inception,Xception)網絡在胃腫瘤內窺鏡圖像分類中被廣泛應用。Inception系列網絡通過大小不同的卷積核,能有效捕捉圖像在不同尺度上的特征信息。例如,Sakai等[7]提出一種基于遷移學習的CNN算法,使用第一代Inception(Inception version 1,Inception-v1)系列模型,又稱谷歌網絡(GoogleNet),自動檢測內窺鏡中的早期胃癌(early gastric cancer,EGC),分類準確率為87.60%,成功檢測到了形狀特征較差的EGC。但當目標區域較深或失焦時,容易發生漏檢。Li等[8]開發了一個基于第三代Inception(Inception version 3,Inception-v3)系列模型的系統,用于分析放大窄帶成像(magnifying-narrow band imaging,M-NBI)內鏡下的胃黏膜病變,該系統診斷EGC的準確率、靈敏度和特異性分別為90.91%、91.18%和90.64%,其中靈敏度明顯高于臨床專業人員的辨識結果。Xception是一種基于Inception的高級CNN架構,通過完全采用深度可分離卷積優化網絡結構,將標準卷積操作分為:使用深度卷積單獨處理每個輸入通道特征和使用逐點卷積整合所有通道特征兩個部分。Klang等[9]使用Xception在區分良惡性胃潰瘍方面實現了92.00%的靈敏度和75.00%的特異性。Liu等[10]將Xception和殘差注意力機制結合,以此來增強網絡對有意義特征的關注,且抑制無意義特征,此網絡可以在數據缺乏的情況下有效訓練;該模型對胃潰瘍良惡性的分類準確率為81.40%、F1分數(F1 score,F1)為81.80%。但是,該模型的網絡層次很深,進一步加深網絡層次可能會導致梯度消失或梯度爆炸。
CNN中的殘差網絡(residual network,ResNet)也常被應用于胃腫瘤內窺鏡圖像分類中,相比于Inception,ResNet中引入了殘差連接,允許特征在層間直接傳遞,有效緩解了深層網絡在訓練時梯度消失和梯度爆炸的問題。Wu等[11]在研究中,針對胃食管十二指腸鏡檢查過程中EGC無盲點檢測的問題,創新性地將50層ResNet(ResNet50)和視覺幾何組16(visual geometry group 16,VGG16)相結合,此網絡通過預訓練和遷移學習提高訓練效率,在測試中準確率達到92.50%。雖然模型融合提高了分類準確率,但同時也增加了過擬合的風險。Zhang等[12]采用34層ResNet(ResNet34)和第三代深度實驗室(deeplab version 3,DeepLab-v3)網絡構建了一個CNN診斷系統。該網絡在像素分割的基礎上對胃腫瘤和正常胃黏膜進行分類,通過多尺度擴張卷積和空洞空間金字塔模塊,提高了網絡對不同尺寸和形狀的病變區域的適應能力。測試結果表明,CNN的診斷準確率與內窺鏡醫生相當,而在EGC和高級別上皮內瘤變的診斷中,其特異性高于內窺鏡醫生。此外,還有研究者探究了其它結構的CNN在胃腫瘤內窺鏡圖像分類中的應用。例如,Qiu等[13]構建改良的U型網絡(U-Net)對不同類型的胃癌和胃病變進行分類,準確率為94.10%,但由于該網絡層數的問題,訓練過程中容易出現過擬合。
盡管,CNN在圖像識別任務中取得良好成效,但由于其卷積操作的局限性,使它無法學習到圖像的全局信息,導致模型在捕捉長期依賴關系方面存在不足。因此,Chae等[14]使用視覺轉換器(vision transformer,ViT)模型對健康組織、胃病變和胃癌進行分類,并提出多濾波自動增強(multi-filter automatic enhancement,MFAA)技術,在數據量較少的情況下提高了模型的分類準確率。但由于轉換器(Transformer)依賴自注意力機制,需要計算每個位置與其他位置的關系,導致計算成本較高。Maashi等[15]提出的基于深度學習的胃癌分類綠頭鴨優化器(anas platyrhynchos optimizer,APO)算法,借助神經架構搜索網絡(neural architecture search network,NASNet)優化特征提取過程,從而生成特征向量集合,并且使用APO算法調整超參數來減少過擬合,最后利用深度置信網絡(deep belief network,DBN)執行分類,其最佳分類準確率可達99.67%,但DBN的復雜性增加了模型訓練的難度和時長。
1.2 基于深度學習的胃腫瘤內窺鏡圖像目標檢測
胃腫瘤的目標檢測是指在胃部內窺鏡圖像中自動識別和定位胃腫瘤。基于深度學習的目標檢測方法,包括:單階段目標檢測和雙階段目標檢測。單階段目標檢測,直接在輸入圖像中預測目標的位置和類別,無需生成候選區域,通常具有較高的檢測速度。雙階段目標檢測,首先生成候選目標區域,然后對每個候選區域進行特征提取和分類。在胃腫瘤內窺鏡圖像目標檢測任務中常用的深度學習方法有三種,分別是“你只看一次”(you only look once,YOLO)、單發多框檢測器(single shot multibox detector,SSD)和有CNN特征的區域(region with CNN feature,R-CNN)。本文總結了現階段深度學習方法在胃腫瘤內窺鏡圖像目標檢測中的研究成果以及性能指標,如表2所示。

YOLO是一種單階段目標檢測算法,它能夠在復雜的背景下準確地檢測出目標。近年來,研究者對不同版本的YOLO進行改進,在胃腫瘤內窺鏡圖像目標檢測中取得了顯著效果。例如,Durak等[16]通過對比試驗驗證了第四版YOLO(YOLO version 4,YOLO-v4)在息肉檢測任務中的優越性,其平均精度均值(mean average precision,mAP)為87.95%。Li等[17]在 YOLO-v4 的基礎上提出了一種特征層融合的 EGC 檢測方法,用于處理EGC中一些特征邊緣不足的小病灶,并保存EGC的紋理和輪廓信息。該方法結合卷積塊注意力模塊(convolutional block attention module,CBAM),增強了癌癥靶點在通道和空間上的特征表達,提高了網絡對形狀不規則和邊界不明顯區域的檢測能力,平均準確率達到了94.16%,比YOLO-v4有所提高,但此方法在實時視頻檢測中仍有改進空間。Yao等[18]開發了基于第三版YOLO(YOLO version 3,YOLO-v3)的EGC診斷系統,通過設計特定的損失函數和初始化策略,優化了網絡的收斂速度,并在兩組EGC檢測試驗中分別達到了85.15%和84.41%的準確率。此外,該系統還支持在一張圖像中同時識別和定位多個可疑病變。Ahmad等[19]對第七版 YOLO(YOLO version 7,YOLO-v7)進行了改進,引入壓縮激勵(squeeze and excitation,SE)注意力模塊,優化了對小型胃病變的檢測能力。SE注意力模塊在捕獲了通道關系的基礎上重新權衡了每個通道的貢獻,從而實現了對小型胃病變區域的檢測。該模型的mAP和F1分數均達到71.00%,運行速率為63幀/s,具備實時檢測能力。但該模型是基于私人數據集設計的,其泛化能力還需進一步驗證。Wu等[20]在第五版YOLO(YOLO version 5,YOLO-v5)的基礎上,提出了一種相位感知令牌混合模塊YOLO(phase-aware token mixing module YOLO,PATM-YOLO)息肉檢測模型,包括小目標檢測頭、自適應空間特征融合(adaptively spatial feature fusion,ASFF)模塊和滑動窗口轉換器模塊。其中,小目標檢測頭增加了網絡對小息肉的關注度,ASFF模塊增加了網絡的特征豐富性,滑動窗口轉換器模塊確保了檢測精度的最大化。此方法在公共數據集上實現了95.60%的準確率,但由于模型較為復雜,對計算資源要求較高。
SSD也是一種經典的單階段目標檢測算法,相比于YOLO,SSD采用多尺度特征圖檢測目標,對大小不同的目標有較好的適應性。例如,Hirasawa等[21]使用SSD在內窺鏡圖像中檢測胃癌,該算法的總體靈敏度為92.20%,在直徑為6 mm或以上的病灶中,檢測準確率高達98.60%。但該研究所使用的數據集圖像質量單一,并不能覆蓋所有的臨床情況。Pan等[22]構建了一種基于特征增強的SSD網絡,該網絡使用更深—更淺的特征增強模塊和自上而下的路徑特征融合模塊增強了特征融合效果,提高了網絡檢測能力,在兩個公開數據集上的F1分數分別為90.63%和63.34%,相比基線均有提高,但由于該網絡參數數量較多,其在臨床應用中的實用性受到限制。盡管SSD在目標檢測領域表現出色,但由于不同語義特征圖之間難以充分融合,同時在融合過程中不可避免地存在語義差距,因此其在處理多尺度目標時仍面臨一定的挑戰。為此,Liu等[23]改進SSD框架,增加了遞歸特征金字塔網絡來促進不同語義特征之間的融合,并在SSD中引入語義分割分支來輔助小病變的檢測,提高了對胃癌的辨別能力,與原始SSD相比,mAP有所提高。Mushtaq等[24]將SSD與特征提取器VGG16結合,構建了基于注意力的胃息肉SSD模型,提高了對小息肉的檢測能力。該模型將由注意力級聯和特征圖級連組成的精細映射塊集成到SSD高分辨率特征圖中,從而在獲取更多語義信息的同時,顯著降低了計算的復雜度。此模型在兩個公共數據集進上的mAP分別為94.20%和76.90%,但該模型的訓練需要大量標記良好的訓練數據,數據收集和處理所需成本過高。
在胃腫瘤的兩階段目標檢測領域,Mo等[25]首次使用快速區域CNN(faster region-based CNN,Faster R-CNN)框架檢測息肉,這是一種完全端到端的方式。該系統在測試階段具有較低的誤報率,并且在效率和準確率之間實現了良好的平衡。然而,該系統更容易定位大息肉,在定位小息肉時表現出較高的假陽性率。Teramoto等[26]提出一種基于U-Net區域CNN(U-Net region-based CNN,U-Net R-CNN)的新型目標檢測模型。該方法首先利用U-Net獲取胃癌的候選區域和邊界框,然后使用稠密卷積網絡169(dense convolutional network 169,DenseNet169)進行進一步分類。在EGC的檢測中,該方法獲得了98.00%的靈敏度,有效減少了假陽性的出現,但由于檢測過程中需要對收集的健康圖像進行處理,因此計算成本較高。Jin等[27]使用掩碼區域CNN(mask region-based CNN,Mask R-CNN) 檢測EGC,并將實驗結果與專家檢查結果進行比較;結果顯示,此方法的總體準確率高于專家。Cui等[28]在Mask R-CNN中引入雙向特征金字塔,增強了跨尺度特征融合,提升了模型的EGC檢測能力,在精確標記的胃鏡數據集中靈敏度和特異性分別達到了91.67%和88.95%。盡管該方法在處理表面腫脹的病變類型中展現了出優異的檢測效果,但在遇到血管不規則或缺乏明顯邊緣的微結構病變時表現較差。
1.3 基于深度學習的胃腫瘤內窺鏡圖像分割
基于深度學習的胃腫瘤內窺鏡圖像分割是指利用深度學習方法,從圖像背景中精確分離胃腫瘤。相比于目標檢測,分割可以更準確地勾畫出病變的位置和形狀。具體來說,比如對于EGC無淋巴轉移的患者,通過內鏡下黏膜剝離術(endoscopic submucosal dissection,ESD)可以實現病灶的整體切除,因此準確標識并勾畫腫瘤邊緣是內鏡下根治性切除的關鍵。本文總結了現階段深度學習方法在胃腫瘤內窺鏡圖像分割中的研究成果以及性能指標,如表3所示。

CNN中的U-Net和U-Net變體在胃腫瘤內窺鏡圖像分割任務中展現出卓越的適用性和靈活性。例如,Qiu等[29]利用基于VGG16的U-Net,對放大內鏡窄帶成像(magnification endoscopy-narrow band imaging,ME-NBI)圖像中的腫瘤病變區域進行分割。該方法通過在編碼層中引入注意力金字塔結構,有效集成了深淺層特征信息,緩解了因深層卷積操作導致的淺層顏色和紋理信息丟失問題,F1分數達到96.00%,但該網絡只提取了特定的病變類型,因此泛化能力較差。Du等[30]利用同一病灶的多個胃鏡圖像的相關信息,提出一種基于空間注意力和通道注意力的三分支殘差U-Net (co-spatial attention and channel attention based triple-branch residual U-Net,CSA-CA-TB-ResUnet)。該模型利用圖像間的相關性精準定位了病灶的空間位置,并提取病灶的細微特征。此方法的像素級準確率為91.18%,平均骰子相似系數(Dice similarity coefficient,DSC)為91.08%,效果優于初級專家,且具有強大的泛化能力。然而,與其他先進方法相比,該模型的圖像推理時間較長。盡管以上改進的U-Net提升了胃腫瘤圖像的分割性能,但由于胃腫瘤病變類型多樣、胃部環境復雜以及胃腫瘤病灶邊界不清晰等問題,分割準確率仍難以達到滿意效果。為此,Zhang等[31]提出一種基于深度可分離卷積和改進的空洞空間金字塔池化(improved atrous spatial pyramid pooling,I-ASPP)的U-Net網絡,用于胃癌圖像病灶區域分割。該網絡采用不同膨脹率的卷積來獲取多尺度特征,并引入邊界特征計算分支,以改善邊緣細節丟失的問題,進而細化分割邊緣。這些改進使得網絡的準確率提高到91.30%,平均骰子(Dice)系數達到84.90%。然而,該網絡并不能很好地識別具有多個病變區域的胃癌圖像。雖然改進的U-Net方法已被證明非常有效,但由于CNN的固有局限性,它無法有效建模遠程關系。為了解決這個問題,He等[32]利用Transformer和U-Net構建雙分支混合網絡,使用混合網絡學習圖像的局部和全局信息。網絡中的深度特征聚合解碼器(deep feature aggregation decoder,DFA)對深度特征進行聚合,在提取顯著病變特征的同時降低了模型復雜度,該方法的準確率、Dice和交并比(intersection over union,IOU)分別為94.00%、89.50%和81.30%。然而,該模型在邊界位置的學習能力較差。
2 基于深度學習的胃腫瘤內窺鏡圖像檢測CAD系統
為了加強CAD在臨床實踐中的應用,學者們開始研究能夠執行胃腫瘤檢測和區域邊緣劃分的系統。Ling等[33]建立了一個用于識別內窺鏡圖像中EGC的分化狀態和劃分腫瘤邊緣的系統,系統由兩部分組成:VGG16負責識別EGC的分化狀態,增強版U-Net(U-Net++)用于劃分腫瘤邊緣。該系統在分化狀態識別任務中的準確率為83.30%,在分割任務中的準確率為82.70%。為了更符合實際的診斷流程,降低訓練過程中的計算成本,Teramoto等[34]設計了一種級聯深度學習系統,使用CNN和U-Net兩種不同任務的級聯結構,實現了對內窺鏡圖像中胃癌的自動檢測、分類和分割。該系統的總體性能表現優異,其靈敏度和特異性分別高達97.00%和99.40%;尤其是在基于案例的評估中,檢測靈敏度和特異性高達到100.00%。然而,盡管訓練效果顯著,但如果應用于臨床,還需進一步驗證和評估其提取重要侵襲區域的能力。Liu等[35]開發了一套新系統,用于 ME-NBI 圖像中的胃腫瘤病變的診斷和分割。為獲得更好的特征提取結果,該系統采用基于第2型高效網絡(EfficientNetB2)的YOLO-v3進行診斷,采用基于VGG16的U-Net進行分割,并在分割網絡中引入特征金字塔網絡和注意力模塊以提高特征提取能力。該系統測試的準確率、靈敏度分別為90.80%、92.50%,但該系統為離線系統,僅支持輸入ME-NBI圖像進行診斷和分割。Liang等[36]結合提出的ResNet多尺度提取(ResNet multiscale extraction,ResMSE)網絡和不同權重特征融合(different weights feature fusion,DWFF )網絡,設計了一個基于Mask R-CNN的CAD系統,用于對EGC病變區域進行檢測和分割。其中,ResMSE網絡通過具有不同感受野的多個分支同時提取特征,DWFF 網絡則在特征融合過程中實現對不同權重的特征融合。在測試中,該系統的準確率和mAP分別達到了67.74%和45.37%,但該系統在檢測和定位面積較小或與背景非常相似的病變區域時存在一定困難。Zhang等[37]對Mask R-CNN進行改進,提出“雙向特征提取和融合模塊”和“特征通道和空間凈化模塊”,實現了低級特征的空間信息與高級特征的語義信息的充分融合。這一改進后的系統在測試中表現優異,準確率、特異性和F1分數分別為93.90%、92.50%和94.10%,優于原始的Mask R-CNN。為了解決在分割過程中因為假陽性數量較多而導致的計算成本高的問題,Haq等[38]對GoogleNet和ViT模型進行了改進,將內窺鏡圖像分為正常、EGC和晚期胃癌三個類別;基于分類結果,使用Faster R-CNN對胃癌區域進行識別,實現了對胃腫瘤的檢測和區域劃分。該系統在分類和分割任務中的準確率分別為97.40%和96.70%,展現出在內窺鏡圖像分析領域的巨大應用潛力。
3 基于深度學習的胃腫瘤多模態數據研究
在胃腫瘤診斷過程中,多模態數據被廣泛應用。與單模態數據相比,多模態數據能更好地表達圖像信息,彌補單模態數據中可能存在的信息缺失和不足,提高篩查的準確率[39]。Ding等[40]設計了一種基于分層注意機制和多模態語義融合的胃癌篩選智能決策方法(intelligent decision-making method for gastric cancer screening,ID-GCS)。該方法使用兩個網絡分別提取胃鏡檢查報告中的文本和圖像信息,并利用分層注意力機制,將語義級和特征級注意力模式融合,以整合跨尺度語義信息,篩選準確率達到94.43%。然而,該方法的視覺語義提取網絡整體表現低于文本語義提取網絡,未來還有很大的改進空間。Lu等[41]同樣利用胃鏡報告中的文本和圖像多模態數據進行EGC篩選。他們提出了一種多模態雙線性融合方法,可以捕捉圖像特征向量和文本特征向量的內在聯系,在EGC篩查方面取得了較高的準確率和F1分數,優于單模態、簡單融合、多模態語義融合和平均融合方法。然而,當其中一種模態數據缺失時,該方法將不再適用,限制了其應用范圍。此外,Du等[42]使用白光和弱放大內窺鏡的多模態數據,開發了一種胃腫瘤實時診斷系統。通過實驗對比,特征級別的多模態融合在該系統中實現了最佳的診斷效果,準確率達到93.55%。
4 總結與展望
近年來,胃腫瘤診斷技術取得了長足進展。然而,由于內鏡醫師技能水平的差異,診斷結果可能存在主觀性偏差,從而影響患者的治療效果和預后。隨著深度學習方法的快速發展,其在胃腫瘤診斷中的輔助作用日益凸顯。這些方法不僅能提高診斷的準確率和效率,還為臨床提供了客觀的第二意見,已成為胃腫瘤診斷與治療的重要輔助手段。然而,這些方法也存在一定的局限性。① 深度學習模型的訓練嚴重依賴于大量高質量標注數據,但現階段胃腫瘤內窺鏡圖像數據相對稀缺且圖像質量參差不齊,這會影響模型預測的準確率。針對這些問題,可采用預訓練網絡結合遷移學習技術,在小數據集上微調模型[43];同時,通過幾何變換和生成對抗網絡(generative adversarial network,GAN)生成更多高質量醫學圖像[44-45],從而緩解數據集不足的問題。② 目前,用于胃腫瘤內窺鏡圖像診斷的深度學習方法仍較為簡單。大多數對胃腫瘤的分類研究僅限于二分類或三分類,這些簡單分類難以滿足臨床的多樣化需求。③ 由于胃腫瘤內窺鏡圖像分辨率較高,對其進行處理時需要的計算資源較大。這種高計算負載提高了模型的訓練成本,并在一定程度上降低了訓練效率。④ 深度學習模型的“黑盒”性質使它的可解釋性較差,這限制了其在臨床中的應用。為提高模型的透明度和信任度,可以通過可視化技術展示模型在決策過程中關注的區域。例如結合模型蒸餾、注意力機制和熱圖模塊等方法,幫助解釋模型的決策過程,從而增強模型的可信度和可解釋性。
未來的研究應從數據收集、網絡優化、訓練范式創新、多模態數據整合及臨床驗證五個方面入手,全面提升基于深度學習的胃腫瘤內窺鏡圖像診斷模型的性能。首先,需收集并共享高質量的胃腫瘤內窺鏡圖像數據,構建大規模公共數據集,為模型開發奠定數據基礎。其次,通過神經架構搜索技術優化網絡架構,減少對先驗知識的依賴,提升模型的效率與性能。然后,在訓練方法上,通過自監督學習在未標注數據上進行預訓練,提取有效特征,降低對標注數據的需求,并增強模型的泛化能力與魯棒性。此外,應探索多模態數據的整合,結合影像、基因組和臨床文本等多維信息,開發更全面的診斷模型。最后,通過臨床試驗驗證,將模型預測結果與實際臨床數據交叉驗證,進一步提高診斷的準確率與可靠性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:高原負責文獻資料的收集、整理、分析、初稿的撰寫及修改,魏國輝負責對論文的框架與標題提出指導性意見。