結直腸癌是一種常見的胃腸道惡性腫瘤,嚴重威脅人類健康。由于結直腸癌區邊界模糊,使得對結直腸癌的準確識別存在很大挑戰。隨著卷積神經網絡在圖像處理領域應用的普及,利用卷積神經網絡進行結直腸癌的自動分類與分割,在提高結直腸癌識別效率、降低癌癥治療成本方面具有很大潛力。本文論述了卷積神經網絡在結直腸癌臨床診斷中應用的必要性;詳細介紹了目前卷積神經網絡及其改進型在結直腸癌分類和分割兩個部分中的研究進展;總結了對于網絡性能優化的思路和常用方法,并討論了卷積神經網絡應用在結直腸癌分類與分割中所面對的挑戰和未來的發展趨勢,以促進卷積神經網絡在結直腸癌臨床診斷中的應用。
引用本文: 潘興亮, 童珂, 鄢成東, 羅金龍, 楊華, 丁菊容. 基于卷積神經網絡的結直腸癌識別研究進展. 生物醫學工程學雜志, 2024, 41(4): 854-860. doi: 10.7507/1001-5515.202310027 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
0 引言
結直腸癌(colorectal cancer,CRC)高發于經常吸煙、喝酒、飲食偏好低纖維高脂肪的人群和有CRC家族病史的人群。許多CRC是由結直腸息肉惡變引起的[1],具有很高的致病率和死亡率。據統計,2020年全世界有193萬人被確診為CRC,占全部癌癥確診患者數量的10%,同年CRC死亡病例高達93.5萬,占癌癥死亡總人數的9.7%[2-3]。CRC患者的生存情況與其腫瘤分期高度相關,若能在早期篩查到結直腸中惡變的息肉,確定息肉的區域,就可以盡早地采取干預措施,以阻止它變成惡性腫瘤。
CRC的篩查途徑分為腸鏡檢查、病理學診斷和影像學診斷[1]。腸鏡圖像和病理學圖像多用于對癌變組織的分類或檢測;影像學圖像包括計算機斷層掃描(computed tomography,CT)圖像和磁共振成像(magnetic resonance imaging,MRI)圖像,多用于癌變區域的精確分割,可為預后分析劃定感興趣區域(region of interest,ROI)。在上述診斷流程當中,人工分類和分割的過程不僅費時費力,而且容易錯過微小的病灶,最終結果還受到來自觀察者自身和不同觀察者之間的可變性因素干擾。近十年來,深度學習方法在醫學圖像處理領域的應用越來越廣泛,且都取得了比較優良的成效。深度學習方法能夠對圖像進行端到端的學習,靈活性強,能夠提取到圖像中的低級和高級的特征信息,捕捉到人眼難以聚焦的細節。在醫學圖像處理過程中,細節信息的完整程度對識別病變組織的效果具有顯著的影響。因此,將深度學習方法應用于醫學圖像處理,不僅可以在很大程度上縮短診斷時間,降低對醫生的精力的消耗,而且能排除主觀因素影響,識別到由細節信息所表征出的細微病變,提高診斷的準確率。在有關深度學習方法的研究中,現有研究主要采用了卷積神經網絡(convolutional neural network,CNN)對CRC進行分類和分割[4]。本文針對CNN在CRC分類和分割當中的應用進行了綜述,梳理了近幾年在此領域中所取得的相關成果。
1 方法概述
目前,基于深度學習的醫學圖像分析方法已有多類,主要包含CNN、視覺變換器(vision transformer,ViT)、基于區域的CNN(region-based CNN,R-CNN)和“你只看一次”(you only look once,YOLO)系列網絡。其中,CNN具有歸納偏置特性[5],其網絡結構靈活多變。ViT是變換器(transformer)在圖像處理領域的分支,含自注意力機制,對目標的全局特征和長距離相關性具有良好的建模能力,與CNN具有較強的互補性[5];但ViT的復雜度較高,需要使用數量龐大的數據集進行訓練才能達到與CNN相持平的性能。R-CNN會先產生特征候選框以實現對目標的初步定位,再由CNN配合機器學習分類器對候選框進行分類和糾正,屬于兩步型檢測算法,其內存占用量大且速度很慢,后續的快速R-CNN(faster R-CNN)對此有所改進。YOLO系列網絡則將目標的定位和分類一步完成,屬于單步型算法,具有較快的檢測速度,卻對細節信息的提取表現較差。由于受到相關醫學數據數量的限制和對精確度的剛性需求,在實際應用過程中,基于CNN的醫學圖像分析方法最為常見,也能達到比較均衡的效果。許多研究者通過實驗證明了CNN在識別不同模態的醫學圖像時的精度優于其它現有的深度學習方法[6-9];Tsai 等[10]探究了在CRC識別任務中訓練CNN的高效策略。
2 圖像預處理
在CRC的自動識別任務中,圖像預處理是改善模型性能的重要手段,包含數據增強和圖像信息增強。數據增強包括使用翻轉、裁剪、高斯模糊[11]、條件生成對抗網絡[12]等方法增加指定類別的腸鏡圖像或者病理圖像的數量,以應對因數據量短缺造成的類不平衡或模型訓練不足等情況。圖像信息增強包括圖像灰度化[13]、歸一化[14]、對比度增強[13]、超分辨率映射[15]以及色度轉換[16],能夠有針對性地強化圖像的主體信息,突出息肉或癌變組織的關鍵特征,加速網絡收斂。在現有研究當中,相關的圖像預處理方法在腸鏡分類任務中的應用遠多于病理圖像分類任務。目前,已有研究測試并分析了不同的圖像預處理方法對于分類結果的影響,證明了圖像預處理對于提升CRC分類效率的有效性[17]。
3 基于卷積神經網絡的結直腸癌分類
CRC分類任務是根據輸出結果的類型進行劃分的,而基于CNN的分類方法主要包含兩種應用類型:① 組織的分類與分級,主要內容為病理圖像的多分類和腸鏡圖像的二分類,其結果只有類別文本;② 癌變組織的檢測,主要內容為檢測腸鏡圖像、視頻中的目標,最終會在圖像、視頻中展示目標的位置和類別信息。
3.1 組織的分類與分級
用于組織分類的CNN方法因其相對簡單有效而被廣泛研究和使用,如視覺幾何組網絡(visual geometry group network,VGGNet)、殘差網絡(residual network,ResNet)、啟發式網絡(inception network,InceptionNet)等。然而,這些基礎網絡在分類表現和網絡復雜度(參數復雜度—參數量、計算復雜度—計算量)兩個方面無法同時兼顧。以VGGNet為例,雖然其分類表現更好,但是涉及的參數量過億。因此,眾多研究均以復雜度較低的網絡為起點,通過結合其它方法(如注意力機制、遷移學習等)來獲得高性能的模型。目前,研究者們分別構建了包含多級注意力機制的網絡[18-20],實現了對病理組織多分類結果的優化。這類卷積注意力機制屬于局部注意力機制,雖然可以加強網絡對多尺度局部特征的捕獲能力,但是其使用效果與目標本身客觀特征的突出程度密切相關。與之不同的是,自注意力機制更有利于全局特征的提取,能夠自主性地關注目標,從而提升模型的魯棒性。鑒于局部注意力機制與自注意力機制的交替使用能夠進一步提升網絡的分類能力,Zeid等[21]保留了ViT中的自注意力機制,配合卷積層進行病理圖像的分塊與編碼。Ma等[22]在ViT中加入了空間注意力機制使得網絡能夠兼顧腸鏡圖像中的全局和局部信息。實際上,自注意力機制的復雜度遠高于局部注意力機制,導致該方法所需要的訓練量與數據量較大,因此這類方法的應用對實際條件有特定的要求。
在網絡復雜度偏高、數據量偏少的情況下,結合遷移學習方法可以提高網絡的學習效率和泛化能力。為此,Chang等[23]使用自注意力機制結合遷移學習來提升模型的性能,以分析微衛星不穩定性,測試結果證明了所提方法的有效性。有研究者對經過預訓練的深度CNN進行參數校正和選擇性微調[24-25],得到了更優的分類結果。此外,為了改善由樣本的類不平衡引起的訓練效率低下等狀況,Chen等[18]和Yao等[26]分別通過錯誤標注和自適應排序的方式來輔助模型訓練,以處理分類難度大的樣本。
在分類表現相近的前提下,輕量化的網絡會具有更好的應用前景。由于CNN的參數主要集中在末尾的全連接層,在數據量較少的情況下,模型的分類能力會因全連接層訓練不足而下降。為了改善這種情況,研究者們首先借助CNN的特征提取層來提取癌變組織或息肉的特征信息,然后使用機器學習分類器代替全連接層進行分類輸出[27-28]。這類方法雖然解決了CNN中全連接層訓練不足的問題,但是其魯棒性明顯下降。Kumar等[29]通過研究新的濾波器數量在CNN層級之間的變化規律,極大幅度地降低了網絡整體的參數復雜度和計算復雜度,所保留的全連接層也保證了模型具有較好的魯棒性。這個輕量化的網絡雖然在多分類任務中的表現略微低于VGGNet,但是其參數復雜度僅為VGGNet的2.7%。
3.2 癌變組織的檢測
癌變組織的檢測屬于一種特殊的分類任務,算法需要提前產生若干個特征候選框,再對每個候選框進行分類,最終得到最優的候選框,因而其結果包含癌變組織在圖中的具體位置。在檢測CRC的方法中,faster R-CNN和YOLO系列網絡的使用頻率最高。faster R-CNN作為兩步型算法雖然具有較高檢測精度,但是在檢測速度方面仍存在較大的提升空間。因此,faster R-CNN多用于檢測圖像中的癌變組織;相反地,YOLO系列網絡則以其較高的檢測速度而常被用于腸鏡視頻的息肉檢測任務。研究者們根據這兩種算法的實際應用效果對模型做出了一系列改進,主要從如下兩個方面進行:
(1)設計新的網絡層或輔助機制。例如,Chen等[30]在faster R-CNN中結合了自注意力機制,使網絡能充分利用全局信息來檢測圖像中同時出現的多個息肉。Ma等[31]在YOLO系列網絡中融合了transformer和時序信息融合模塊,提升了對腸鏡視頻中息肉的檢測精確度和靈敏度。Nogueira-Rodríguez等[32]添加了目標跟蹤算法來捕獲幀間相似度,有效提高了CRC檢測的特異性。
(2)使用強化訓練策略,如遷移學習、錯誤樣本再學習等。Bian等[33]指出了腸鏡數據稀缺的現狀,通過在6個數據庫之間進行遷移學習得到了性能優異的檢測模型。Xu等[34]將檢測結果中的假陽性樣本進行注釋之后重新編入訓練樣本,使得最終模型的精確度和靈敏度得到了進一步提升。
實際上,由于腸鏡數據集的數量較少,相關模型中的自注意力機制等可能未得到充分的訓練,這或許限制了模型的性能。因此,額外補充帶標注的數據或者同時使用多種方法進行數據增強將是進一步優化模型性能的基石。
4 基于卷積神經網絡的結直腸癌分割
近年來,基于CNN開發出的U型網絡(U-Net)在CRC分割任務中成為了研究熱點。研究者們使用U-Net分別實現了對MRI圖像、病理圖像和腸鏡圖像的自動分割[35-38],證明了U-Net在多模態圖像的分割任務中具有優越性。到目前為止,CRC分割的對象主要包含腸鏡圖像、CT和MRI的二維以及三維圖像,分割的主要挑戰在于癌變區域邊界的模糊性。在圖像中,正常組織與癌變區域之間的低對比度差異極易導致錯誤分割,因此研究者們提出了一系列的改進方法,主要從以下幾個途徑提升分割性能:
(1)建立多階段處理策略,如預處理之后再進行分割、遷移學習等。比如,Panic等[39]通過圖像預處理和模糊聚類突出了二維MRI圖像中的腫瘤區域,然后再使用CNN進行分割。Zhang等[40]分別提取了病理圖像中的形態學輪廓和染色分量信息,再經過三個階段(由粗粒度到細粒度)完成了腺體分割,緩解了因腺體相互附著而產生的錯誤分割問題。在實際應用中,圖像預處理的方法類型和參數設置需要針對相應數據進行多次調試方能產生較好的效果。除此之外,基于遷移學習的多階段學習框架可以連續完成對相同模態的圖像的分類與分割,將分類任務中提取到的特征信息共享至分割網絡的編碼器,避免了重復學習[26, 41]。多階段學習的方法目前僅在息肉分割任務和腺體分割任務當中有所應用,最終模型對目標的分割效果優于單一階段訓練出的分割模型。
(2)使用多尺度信息的提取與融合策略,包括使用不同感受野的卷積塊并行、兩組編碼器并行以及殘差結構等。捕獲多尺度感受野的卷積塊可以由不同尺寸或者不同空洞率的卷積核組成。例如,Shah等[42]和賈立新等[43]分別借助空洞卷積和改進的ResNet——殘差分解網絡(residual resolution network,Res2Net)中的濾波器組強化了U-Net的編碼器,以提取不同尺度感受野下的信息。Huang等[44]在編碼器末端使用了三路空洞卷積來定位ROI,但是該模型無法對圖像中同時存在的多個腫瘤進行精確地分割。Zidan等[45]利用帶有移動窗口的ViT替換了U-Net的編碼器,使模型能同時從全局和局部的角度關注病理圖像中的不同區域。此外,有研究者構建了并行的編碼器來捕獲更豐富的特征信息,從而改善不完整分割和錯誤分割的狀況。比如,Wang等[46]使用了并行U-Net分別學習病理組織的分化特征和形態學信息,以實現兩次分割,可應對腺體形變的情況,提高了分割的完整性。另外兩個研究團隊構建了由transformer與CNN并行編碼的網絡[47-48],通過同時提取全局與局部信息,進一步優化了分割結果的準確性。除了多尺度信息的提取之外,多尺度信息的融合也是提升分割性能的關鍵。殘差結構不僅可以緩解深度網絡中的梯度消失問題,而且能夠以疊加或拼接的方式融合不同感受野下的特征。Akilandeswari等[49]和González-Bueno Puyal等[50]分別針對二維CT圖像和腸鏡圖像構建了包含殘差結構的深度分割網絡。Zheng等[51]使用了雙通道卷積和殘差連接在U-Net的同一編碼層中進行特征融合。Li等[52]融合了每個解碼器的輸出,并結合并行預測模塊實現了CRC的內容分割和輪廓預測。
(3)引入混合損失函數,如二元交叉熵(binary cross entropy,BCE)損失分別與骰子(Dice)損失和交并比(intersection over union,IOU)損失混合,特沃斯基(Tversky)損失與焦點(focal)損失混合等。例如,Zhang等[48]以BCE損失與Dice損失的加權和作為最終損失,解決了目標與背景之間的類內不平衡問題。Yue等[53]將BCE損失與IOU損失相結合,提升了息肉分割結果的完整性。Yeung等[54]通過混合Tversky損失與focal損失的方式緩解了小息肉分割時存在的類間不平衡問題。
在現有的三個改進途徑中,關于多尺度信息的提取與融合策略方面的研究最為廣泛,結果表明這類方法能夠更有效地提升模型的性能。最近的研究都偏向于將transformer與CNN并行結合以優化分割效果,后續可以以此為基點開發更為高效的多尺度信息提取與融合方法。與此同時,如何降低參數復雜度和計算復雜度也是未來值得討論的問題。
5 結直腸癌識別的挑戰與發展方向
基于CNN的CRC自動識別方法已廣泛應用于病理圖像、腸鏡圖像、腸鏡視頻以及影像學圖像等多個模態的醫學圖像處理任務當中。雖然眾多研究均以臨床應用為目的,但是僅有極少部分方法能進入臨床領域。鑒于臨床診斷對模型的準確率和可信度等有著較高的要求,現有研究依舊面臨著許多問題和挑戰,主要包含如下幾個方面:
(1)缺少帶標注的數據集。現存的病理圖像數據庫中缺少用于病理組織檢測的公共數據集,導致眾多研究集中于病理組織的多分類任務。多分類任務使用的圖像塊由于經過了低分辨率(如224 px × 224 px)的采樣,在很大程度上已經遺失了組織在原圖中的空間信息。因此,醫生無法根據某個圖像塊對應的文本輸出快速地定位到該圖像塊在原圖像中的具體位置。在實際應用中,如Lu等[55]提出的腫瘤萌芽檢測方法,在CRC病理圖像中捕獲癌變組織并準確定位,能夠更高效地輔助醫生完成診斷任務。因此,在普通計算機的容納能力范圍內,基于更高分辨率(如2 000 px × 2 000 px)的采樣,制作附帶邊界框和對應類別標注的CRC病理圖像數據集,是推動CNN自動識別方法應用于臨床的有效途徑。
(2)模型具有特定性。已有研究所提出的方法大多都存在特定性,一個方法只在對特定醫院、規格的數據測試時有優異的性能。例如,針對MRI圖像的不同序列進行CRC分割時,許多研究會根據圖像的灰度級、亮度等差異有針對性地設計預處理方法,這會導致模型在面對新數據時表現不佳,模型的泛化能力不足。因此,后續可以引入一些新的圖像預處理方法,以更高效地消除同種模態不同序列的圖像之間的無關差異(如灰度級、亮度等),或者如Kumar等[29]選擇不同色調、規格的數據集進行測試以及遷移學習。其次,模型進行自動識別的過程具有黑箱性質,難以確定其決策結果是否存在偶然性,因此針對模型的可靠性進行置信度校準[56]是非常有必要的。
(3)模型的復雜度高。眾多研究構造出的CRC自動識別模型雖然在識別效率方面能夠接近或等同于人工識別速度,但是參數復雜度和計算復雜度依然普遍偏高,甚至存在計算支出與性能收益極度不平衡的情況。例如,有研究者開發出了CRC輔助分類系統[57],該系統使用了數個CNN模型并行,擁有非常龐大的計算量和參數量,這限制了系統自身對于計算平臺的普遍適用性。因此,在CRC自動識別領域,網絡輕量化是需考慮的一個重要方面。例如,調整網絡的層級種類(如深度可分離卷積等)、深度和寬度等;基于輕量級的網絡構建更高效的注意力機制和多尺度信息提取與融合策略,實現以單個的、輕量化的模型快速、準確地識別CRC。
(4)息肉邊界分割的精確度不足。由于腸鏡中息肉的邊界非常模糊且形狀各異,僅依靠常見的圖像預處理方法難以應對錯誤分割和不完整分割的情況。最近的相關研究都聚焦于捕捉息肉的邊界[53-54],雖然最終模型的分割效果均有所提升,但是在面對不規則的息肉時,這些模型分割出的息肉的邊界與標準結果之間依然存在明顯差距。此類問題可能是一個僅依靠卷積運算無法完成的挑戰,或許需要研究者和醫生之間的深入交流與合作,在CNN當中融合與息肉邊界相關的先驗信息,才能使模型的分割效果得到顯著的提升。
6 結束語
本文回顧了最近幾年基于CNN的CRC自動識別的相關研究,考察了比較常用的改進網絡的方法,比如融合注意力機制和自注意力機制、構建并行多分支網絡或串行殘差連接結構等,這些方法能夠增強網絡對多尺度信息的提取與融合能力。其次,綜述了訓練過程中的優化方法,如采用自步學習算法、錯誤標注、錯誤再學習的方法以及混合損失函數能緩解樣本類不平衡導致的分類困難和錯誤分割等問題,以提高模型的訓練效率和擬合程度。最后,闡述了基于CNN的CRC自動識別方法所存在的問題,主要集中在數據集的稀缺性和模型的復雜度兩個方面。數據集的稀缺性直接影響了模型的性能和泛化能力,故而建議研究者們應該基于公共數據集將遷移學習方法普遍化;過度復雜的模型會造成計算資源的浪費,從而降低模型自身的實用性,因此在未來應該充分考慮網絡輕量化的問題。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:潘興亮主要負責文獻收集、整理、分析,以及論文撰寫、修改;童珂主要負責文獻資料的整理、分析;鄢成東主要負責資料整理、分析;羅金龍、楊華主要負責論文修改、指導。丁菊容主要負責文獻分析、論文撰寫、修改、指導和審校。
0 引言
結直腸癌(colorectal cancer,CRC)高發于經常吸煙、喝酒、飲食偏好低纖維高脂肪的人群和有CRC家族病史的人群。許多CRC是由結直腸息肉惡變引起的[1],具有很高的致病率和死亡率。據統計,2020年全世界有193萬人被確診為CRC,占全部癌癥確診患者數量的10%,同年CRC死亡病例高達93.5萬,占癌癥死亡總人數的9.7%[2-3]。CRC患者的生存情況與其腫瘤分期高度相關,若能在早期篩查到結直腸中惡變的息肉,確定息肉的區域,就可以盡早地采取干預措施,以阻止它變成惡性腫瘤。
CRC的篩查途徑分為腸鏡檢查、病理學診斷和影像學診斷[1]。腸鏡圖像和病理學圖像多用于對癌變組織的分類或檢測;影像學圖像包括計算機斷層掃描(computed tomography,CT)圖像和磁共振成像(magnetic resonance imaging,MRI)圖像,多用于癌變區域的精確分割,可為預后分析劃定感興趣區域(region of interest,ROI)。在上述診斷流程當中,人工分類和分割的過程不僅費時費力,而且容易錯過微小的病灶,最終結果還受到來自觀察者自身和不同觀察者之間的可變性因素干擾。近十年來,深度學習方法在醫學圖像處理領域的應用越來越廣泛,且都取得了比較優良的成效。深度學習方法能夠對圖像進行端到端的學習,靈活性強,能夠提取到圖像中的低級和高級的特征信息,捕捉到人眼難以聚焦的細節。在醫學圖像處理過程中,細節信息的完整程度對識別病變組織的效果具有顯著的影響。因此,將深度學習方法應用于醫學圖像處理,不僅可以在很大程度上縮短診斷時間,降低對醫生的精力的消耗,而且能排除主觀因素影響,識別到由細節信息所表征出的細微病變,提高診斷的準確率。在有關深度學習方法的研究中,現有研究主要采用了卷積神經網絡(convolutional neural network,CNN)對CRC進行分類和分割[4]。本文針對CNN在CRC分類和分割當中的應用進行了綜述,梳理了近幾年在此領域中所取得的相關成果。
1 方法概述
目前,基于深度學習的醫學圖像分析方法已有多類,主要包含CNN、視覺變換器(vision transformer,ViT)、基于區域的CNN(region-based CNN,R-CNN)和“你只看一次”(you only look once,YOLO)系列網絡。其中,CNN具有歸納偏置特性[5],其網絡結構靈活多變。ViT是變換器(transformer)在圖像處理領域的分支,含自注意力機制,對目標的全局特征和長距離相關性具有良好的建模能力,與CNN具有較強的互補性[5];但ViT的復雜度較高,需要使用數量龐大的數據集進行訓練才能達到與CNN相持平的性能。R-CNN會先產生特征候選框以實現對目標的初步定位,再由CNN配合機器學習分類器對候選框進行分類和糾正,屬于兩步型檢測算法,其內存占用量大且速度很慢,后續的快速R-CNN(faster R-CNN)對此有所改進。YOLO系列網絡則將目標的定位和分類一步完成,屬于單步型算法,具有較快的檢測速度,卻對細節信息的提取表現較差。由于受到相關醫學數據數量的限制和對精確度的剛性需求,在實際應用過程中,基于CNN的醫學圖像分析方法最為常見,也能達到比較均衡的效果。許多研究者通過實驗證明了CNN在識別不同模態的醫學圖像時的精度優于其它現有的深度學習方法[6-9];Tsai 等[10]探究了在CRC識別任務中訓練CNN的高效策略。
2 圖像預處理
在CRC的自動識別任務中,圖像預處理是改善模型性能的重要手段,包含數據增強和圖像信息增強。數據增強包括使用翻轉、裁剪、高斯模糊[11]、條件生成對抗網絡[12]等方法增加指定類別的腸鏡圖像或者病理圖像的數量,以應對因數據量短缺造成的類不平衡或模型訓練不足等情況。圖像信息增強包括圖像灰度化[13]、歸一化[14]、對比度增強[13]、超分辨率映射[15]以及色度轉換[16],能夠有針對性地強化圖像的主體信息,突出息肉或癌變組織的關鍵特征,加速網絡收斂。在現有研究當中,相關的圖像預處理方法在腸鏡分類任務中的應用遠多于病理圖像分類任務。目前,已有研究測試并分析了不同的圖像預處理方法對于分類結果的影響,證明了圖像預處理對于提升CRC分類效率的有效性[17]。
3 基于卷積神經網絡的結直腸癌分類
CRC分類任務是根據輸出結果的類型進行劃分的,而基于CNN的分類方法主要包含兩種應用類型:① 組織的分類與分級,主要內容為病理圖像的多分類和腸鏡圖像的二分類,其結果只有類別文本;② 癌變組織的檢測,主要內容為檢測腸鏡圖像、視頻中的目標,最終會在圖像、視頻中展示目標的位置和類別信息。
3.1 組織的分類與分級
用于組織分類的CNN方法因其相對簡單有效而被廣泛研究和使用,如視覺幾何組網絡(visual geometry group network,VGGNet)、殘差網絡(residual network,ResNet)、啟發式網絡(inception network,InceptionNet)等。然而,這些基礎網絡在分類表現和網絡復雜度(參數復雜度—參數量、計算復雜度—計算量)兩個方面無法同時兼顧。以VGGNet為例,雖然其分類表現更好,但是涉及的參數量過億。因此,眾多研究均以復雜度較低的網絡為起點,通過結合其它方法(如注意力機制、遷移學習等)來獲得高性能的模型。目前,研究者們分別構建了包含多級注意力機制的網絡[18-20],實現了對病理組織多分類結果的優化。這類卷積注意力機制屬于局部注意力機制,雖然可以加強網絡對多尺度局部特征的捕獲能力,但是其使用效果與目標本身客觀特征的突出程度密切相關。與之不同的是,自注意力機制更有利于全局特征的提取,能夠自主性地關注目標,從而提升模型的魯棒性。鑒于局部注意力機制與自注意力機制的交替使用能夠進一步提升網絡的分類能力,Zeid等[21]保留了ViT中的自注意力機制,配合卷積層進行病理圖像的分塊與編碼。Ma等[22]在ViT中加入了空間注意力機制使得網絡能夠兼顧腸鏡圖像中的全局和局部信息。實際上,自注意力機制的復雜度遠高于局部注意力機制,導致該方法所需要的訓練量與數據量較大,因此這類方法的應用對實際條件有特定的要求。
在網絡復雜度偏高、數據量偏少的情況下,結合遷移學習方法可以提高網絡的學習效率和泛化能力。為此,Chang等[23]使用自注意力機制結合遷移學習來提升模型的性能,以分析微衛星不穩定性,測試結果證明了所提方法的有效性。有研究者對經過預訓練的深度CNN進行參數校正和選擇性微調[24-25],得到了更優的分類結果。此外,為了改善由樣本的類不平衡引起的訓練效率低下等狀況,Chen等[18]和Yao等[26]分別通過錯誤標注和自適應排序的方式來輔助模型訓練,以處理分類難度大的樣本。
在分類表現相近的前提下,輕量化的網絡會具有更好的應用前景。由于CNN的參數主要集中在末尾的全連接層,在數據量較少的情況下,模型的分類能力會因全連接層訓練不足而下降。為了改善這種情況,研究者們首先借助CNN的特征提取層來提取癌變組織或息肉的特征信息,然后使用機器學習分類器代替全連接層進行分類輸出[27-28]。這類方法雖然解決了CNN中全連接層訓練不足的問題,但是其魯棒性明顯下降。Kumar等[29]通過研究新的濾波器數量在CNN層級之間的變化規律,極大幅度地降低了網絡整體的參數復雜度和計算復雜度,所保留的全連接層也保證了模型具有較好的魯棒性。這個輕量化的網絡雖然在多分類任務中的表現略微低于VGGNet,但是其參數復雜度僅為VGGNet的2.7%。
3.2 癌變組織的檢測
癌變組織的檢測屬于一種特殊的分類任務,算法需要提前產生若干個特征候選框,再對每個候選框進行分類,最終得到最優的候選框,因而其結果包含癌變組織在圖中的具體位置。在檢測CRC的方法中,faster R-CNN和YOLO系列網絡的使用頻率最高。faster R-CNN作為兩步型算法雖然具有較高檢測精度,但是在檢測速度方面仍存在較大的提升空間。因此,faster R-CNN多用于檢測圖像中的癌變組織;相反地,YOLO系列網絡則以其較高的檢測速度而常被用于腸鏡視頻的息肉檢測任務。研究者們根據這兩種算法的實際應用效果對模型做出了一系列改進,主要從如下兩個方面進行:
(1)設計新的網絡層或輔助機制。例如,Chen等[30]在faster R-CNN中結合了自注意力機制,使網絡能充分利用全局信息來檢測圖像中同時出現的多個息肉。Ma等[31]在YOLO系列網絡中融合了transformer和時序信息融合模塊,提升了對腸鏡視頻中息肉的檢測精確度和靈敏度。Nogueira-Rodríguez等[32]添加了目標跟蹤算法來捕獲幀間相似度,有效提高了CRC檢測的特異性。
(2)使用強化訓練策略,如遷移學習、錯誤樣本再學習等。Bian等[33]指出了腸鏡數據稀缺的現狀,通過在6個數據庫之間進行遷移學習得到了性能優異的檢測模型。Xu等[34]將檢測結果中的假陽性樣本進行注釋之后重新編入訓練樣本,使得最終模型的精確度和靈敏度得到了進一步提升。
實際上,由于腸鏡數據集的數量較少,相關模型中的自注意力機制等可能未得到充分的訓練,這或許限制了模型的性能。因此,額外補充帶標注的數據或者同時使用多種方法進行數據增強將是進一步優化模型性能的基石。
4 基于卷積神經網絡的結直腸癌分割
近年來,基于CNN開發出的U型網絡(U-Net)在CRC分割任務中成為了研究熱點。研究者們使用U-Net分別實現了對MRI圖像、病理圖像和腸鏡圖像的自動分割[35-38],證明了U-Net在多模態圖像的分割任務中具有優越性。到目前為止,CRC分割的對象主要包含腸鏡圖像、CT和MRI的二維以及三維圖像,分割的主要挑戰在于癌變區域邊界的模糊性。在圖像中,正常組織與癌變區域之間的低對比度差異極易導致錯誤分割,因此研究者們提出了一系列的改進方法,主要從以下幾個途徑提升分割性能:
(1)建立多階段處理策略,如預處理之后再進行分割、遷移學習等。比如,Panic等[39]通過圖像預處理和模糊聚類突出了二維MRI圖像中的腫瘤區域,然后再使用CNN進行分割。Zhang等[40]分別提取了病理圖像中的形態學輪廓和染色分量信息,再經過三個階段(由粗粒度到細粒度)完成了腺體分割,緩解了因腺體相互附著而產生的錯誤分割問題。在實際應用中,圖像預處理的方法類型和參數設置需要針對相應數據進行多次調試方能產生較好的效果。除此之外,基于遷移學習的多階段學習框架可以連續完成對相同模態的圖像的分類與分割,將分類任務中提取到的特征信息共享至分割網絡的編碼器,避免了重復學習[26, 41]。多階段學習的方法目前僅在息肉分割任務和腺體分割任務當中有所應用,最終模型對目標的分割效果優于單一階段訓練出的分割模型。
(2)使用多尺度信息的提取與融合策略,包括使用不同感受野的卷積塊并行、兩組編碼器并行以及殘差結構等。捕獲多尺度感受野的卷積塊可以由不同尺寸或者不同空洞率的卷積核組成。例如,Shah等[42]和賈立新等[43]分別借助空洞卷積和改進的ResNet——殘差分解網絡(residual resolution network,Res2Net)中的濾波器組強化了U-Net的編碼器,以提取不同尺度感受野下的信息。Huang等[44]在編碼器末端使用了三路空洞卷積來定位ROI,但是該模型無法對圖像中同時存在的多個腫瘤進行精確地分割。Zidan等[45]利用帶有移動窗口的ViT替換了U-Net的編碼器,使模型能同時從全局和局部的角度關注病理圖像中的不同區域。此外,有研究者構建了并行的編碼器來捕獲更豐富的特征信息,從而改善不完整分割和錯誤分割的狀況。比如,Wang等[46]使用了并行U-Net分別學習病理組織的分化特征和形態學信息,以實現兩次分割,可應對腺體形變的情況,提高了分割的完整性。另外兩個研究團隊構建了由transformer與CNN并行編碼的網絡[47-48],通過同時提取全局與局部信息,進一步優化了分割結果的準確性。除了多尺度信息的提取之外,多尺度信息的融合也是提升分割性能的關鍵。殘差結構不僅可以緩解深度網絡中的梯度消失問題,而且能夠以疊加或拼接的方式融合不同感受野下的特征。Akilandeswari等[49]和González-Bueno Puyal等[50]分別針對二維CT圖像和腸鏡圖像構建了包含殘差結構的深度分割網絡。Zheng等[51]使用了雙通道卷積和殘差連接在U-Net的同一編碼層中進行特征融合。Li等[52]融合了每個解碼器的輸出,并結合并行預測模塊實現了CRC的內容分割和輪廓預測。
(3)引入混合損失函數,如二元交叉熵(binary cross entropy,BCE)損失分別與骰子(Dice)損失和交并比(intersection over union,IOU)損失混合,特沃斯基(Tversky)損失與焦點(focal)損失混合等。例如,Zhang等[48]以BCE損失與Dice損失的加權和作為最終損失,解決了目標與背景之間的類內不平衡問題。Yue等[53]將BCE損失與IOU損失相結合,提升了息肉分割結果的完整性。Yeung等[54]通過混合Tversky損失與focal損失的方式緩解了小息肉分割時存在的類間不平衡問題。
在現有的三個改進途徑中,關于多尺度信息的提取與融合策略方面的研究最為廣泛,結果表明這類方法能夠更有效地提升模型的性能。最近的研究都偏向于將transformer與CNN并行結合以優化分割效果,后續可以以此為基點開發更為高效的多尺度信息提取與融合方法。與此同時,如何降低參數復雜度和計算復雜度也是未來值得討論的問題。
5 結直腸癌識別的挑戰與發展方向
基于CNN的CRC自動識別方法已廣泛應用于病理圖像、腸鏡圖像、腸鏡視頻以及影像學圖像等多個模態的醫學圖像處理任務當中。雖然眾多研究均以臨床應用為目的,但是僅有極少部分方法能進入臨床領域。鑒于臨床診斷對模型的準確率和可信度等有著較高的要求,現有研究依舊面臨著許多問題和挑戰,主要包含如下幾個方面:
(1)缺少帶標注的數據集。現存的病理圖像數據庫中缺少用于病理組織檢測的公共數據集,導致眾多研究集中于病理組織的多分類任務。多分類任務使用的圖像塊由于經過了低分辨率(如224 px × 224 px)的采樣,在很大程度上已經遺失了組織在原圖中的空間信息。因此,醫生無法根據某個圖像塊對應的文本輸出快速地定位到該圖像塊在原圖像中的具體位置。在實際應用中,如Lu等[55]提出的腫瘤萌芽檢測方法,在CRC病理圖像中捕獲癌變組織并準確定位,能夠更高效地輔助醫生完成診斷任務。因此,在普通計算機的容納能力范圍內,基于更高分辨率(如2 000 px × 2 000 px)的采樣,制作附帶邊界框和對應類別標注的CRC病理圖像數據集,是推動CNN自動識別方法應用于臨床的有效途徑。
(2)模型具有特定性。已有研究所提出的方法大多都存在特定性,一個方法只在對特定醫院、規格的數據測試時有優異的性能。例如,針對MRI圖像的不同序列進行CRC分割時,許多研究會根據圖像的灰度級、亮度等差異有針對性地設計預處理方法,這會導致模型在面對新數據時表現不佳,模型的泛化能力不足。因此,后續可以引入一些新的圖像預處理方法,以更高效地消除同種模態不同序列的圖像之間的無關差異(如灰度級、亮度等),或者如Kumar等[29]選擇不同色調、規格的數據集進行測試以及遷移學習。其次,模型進行自動識別的過程具有黑箱性質,難以確定其決策結果是否存在偶然性,因此針對模型的可靠性進行置信度校準[56]是非常有必要的。
(3)模型的復雜度高。眾多研究構造出的CRC自動識別模型雖然在識別效率方面能夠接近或等同于人工識別速度,但是參數復雜度和計算復雜度依然普遍偏高,甚至存在計算支出與性能收益極度不平衡的情況。例如,有研究者開發出了CRC輔助分類系統[57],該系統使用了數個CNN模型并行,擁有非常龐大的計算量和參數量,這限制了系統自身對于計算平臺的普遍適用性。因此,在CRC自動識別領域,網絡輕量化是需考慮的一個重要方面。例如,調整網絡的層級種類(如深度可分離卷積等)、深度和寬度等;基于輕量級的網絡構建更高效的注意力機制和多尺度信息提取與融合策略,實現以單個的、輕量化的模型快速、準確地識別CRC。
(4)息肉邊界分割的精確度不足。由于腸鏡中息肉的邊界非常模糊且形狀各異,僅依靠常見的圖像預處理方法難以應對錯誤分割和不完整分割的情況。最近的相關研究都聚焦于捕捉息肉的邊界[53-54],雖然最終模型的分割效果均有所提升,但是在面對不規則的息肉時,這些模型分割出的息肉的邊界與標準結果之間依然存在明顯差距。此類問題可能是一個僅依靠卷積運算無法完成的挑戰,或許需要研究者和醫生之間的深入交流與合作,在CNN當中融合與息肉邊界相關的先驗信息,才能使模型的分割效果得到顯著的提升。
6 結束語
本文回顧了最近幾年基于CNN的CRC自動識別的相關研究,考察了比較常用的改進網絡的方法,比如融合注意力機制和自注意力機制、構建并行多分支網絡或串行殘差連接結構等,這些方法能夠增強網絡對多尺度信息的提取與融合能力。其次,綜述了訓練過程中的優化方法,如采用自步學習算法、錯誤標注、錯誤再學習的方法以及混合損失函數能緩解樣本類不平衡導致的分類困難和錯誤分割等問題,以提高模型的訓練效率和擬合程度。最后,闡述了基于CNN的CRC自動識別方法所存在的問題,主要集中在數據集的稀缺性和模型的復雜度兩個方面。數據集的稀缺性直接影響了模型的性能和泛化能力,故而建議研究者們應該基于公共數據集將遷移學習方法普遍化;過度復雜的模型會造成計算資源的浪費,從而降低模型自身的實用性,因此在未來應該充分考慮網絡輕量化的問題。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:潘興亮主要負責文獻收集、整理、分析,以及論文撰寫、修改;童珂主要負責文獻資料的整理、分析;鄢成東主要負責資料整理、分析;羅金龍、楊華主要負責論文修改、指導。丁菊容主要負責文獻分析、論文撰寫、修改、指導和審校。