正電子發射斷層顯像/X線計算機體層成像(PET/CT)肺部圖像中存在病灶區域特征像素信息少、形狀復雜多樣,病變與周圍組織界限模糊等問題,導致模型對腫瘤病變特征提取不充分。針對上述問題,本文提出基于密集交互式融合Mask RCNN(DIF-Mask RCNN)實例分割模型。首先設計具有跨尺度主輔結構的特征提取網絡,提取出不同尺度病灶特征;然后設計密集交互式增強輔助網絡(DIFEN),通過將最淺層病變特征以密集連接形式與鄰近特征、當前特征進行交互融合,增強深層特征圖中病灶細節信息;最后構建密集交互式融合金字塔網絡(DIF-FPN),在自下而上路徑中將淺層信息逐個以密集連接方式補充到深層特征中,進一步加強模型對病變區域的微弱特征感知力。在臨床PET/CT肺部圖像數據集上進行消融實驗和對比實驗,結果表明所提模型對于病變區域實例分割的APdet、APseg、APdet_s、APseg_s指標分別為67.16%、68.12%、34.97%、37.68%,與Mask RCNN(ResNet50)相比在APdet和APseg指標上分別提升7.11%、5.14%。DIF-Mask RCNN模型能夠有效檢測分割腫瘤病變,為肺癌輔助診斷提供重要的參考價值與評估依據。
引用本文: 周濤, 趙雅楠, 陸惠玲, 王亞星, 支力佳. 基于密集交互式融合Mask RCNN的肺部PET/CT圖像實例分割. 生物醫學工程學雜志, 2024, 41(3): 527-534. doi: 10.7507/1001-5515.202309026 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
0 引言
肺癌是全球發病率和死亡率最高的惡性腫瘤[1],是肺部細胞異常生長并聚集形成腫瘤的疾病。肺癌在早期階段表現為結節,肺結節是直徑≤3 cm的肺內圓形或不規則的病變,呈現密度增高并伴有陰影的影像學表現,早期癥狀微弱不明顯,在晚期確診后會呈現出迅速惡化的趨勢,致使患者的生存率明顯降低。因此,肺部病變的識別檢測對于早期發現和診斷肺癌至關重要。
醫學影像可以提供直觀準確的病理病變信息,是臨床診斷和評估疾病的重要手段[2],可為肺癌患者分期和制定治療策略提供有價值的信息。目前計算機斷層掃描(computed tomography,CT)和正電子發射斷層掃描(positron emission tomography,PET)的影像分析是肺癌的主要臨床診斷方式。其中,CT圖像屬于解剖顯像,可以觀察人體內局部組織的形態學變化,能夠清楚地顯示解剖形態和病灶形態特點;PET圖像屬于功能顯像,通過利用放射性核素來標記參與人體細胞的代謝過程,最終呈現出腫瘤組織與正常組織之間細胞代謝的差異。鑒于PET和CT影像中病變區域成像特點有較明顯差異,PET/CT能夠有效結合兩種模態實現對肺部腫瘤的精確定量,因此PET/CT作為腫瘤學研究的首選[3]。此外,臨床工作中需要依靠醫生個人經驗以逐層方式對連續圖像手動勾畫標記,耗時耗力且具有主觀性和低重復性。傳統的圖像分割方法不能動態處理不同的輸入信息,且其表征能力有限,對于形狀復雜多樣的肺部腫瘤的處理效率和分割精度較低。因此研究以自動化方式識別和定位PET/CT影像中肺部腫瘤區域至關重要。
近年來深度學習方法在醫學領域中應用廣泛,如將Vision Transformer[4](VIT)應用于病灶分類,將YOLO[5]改進為CCGL-YOLOV5[6],將M3YOLOv5[7]應用于病灶檢測,以及將U-Net[8]改進為Teeth U-Net[9]應用于病灶分割。實例分割是一種結合目標檢測和語義分割的技術,在實例級別上進行目標檢測任務,在像素級別上進行語義分割任務,為屬于同一類別的不同實例提供標簽[10]。Mask RCNN[11]、Cascade RCNN[12]、Mask Scoring RCNN[13]、YOLACT[14]等實例分割模型證明了卷積神經網絡不僅可以在像素級別取得較好效果,而且可以實現實例級別的學習。2022年,Qiu等[15]提出語義級聯Mask RCNN(semantic cascade Mask RCNN,SC Mask-RCNN)模型用于骨髓瘤細胞的檢測分割,由特征提取模塊、實例分割框架以及語義分割分支三部分組成,設計特征選擇金字塔網絡(feature selection pyramid network,FSPN)、語義分割分支和掩碼聚合模塊。其中,利用FSPN將主干網絡輸出的多尺度特征生成金字塔特征映射,并采用通道選擇模塊和空間選擇模塊以增強對不同形狀大小骨髓瘤細胞的分割;利用實例掩碼聚合模塊來動態選擇高確定性和高質量的掩碼預測。2023年,Fatemeh Hoorali等[16]提出URCNN,該模型在Mask RCNN預測頭部分設計U型掩膜分支以解決基于全卷積網絡的掩膜預測頭缺失細節信息的問題,此外在特征金字塔網絡(feature pyramid network,FPN)中集成擠壓激勵模塊以提高實例的定位精度。2023年,Zhao等[17]利用Mask RCNN在口腔全景X線圖像中對牙齒和下頜神經管進行識別與分割。2023年,Varadharajan Indumathi等[18]提出混合Mask RCNN-BiDLSTM框架以預測肺部疾病,采用crystal算法優化Mask RCNN架構,以從胸部X線圖像中分割出肺部疾病區域。盡管研究者已經對實例分割展開大量相關工作,但是目前實例分割在醫學圖像處理領域中的應用仍不多。此外,肺癌的病理分型較多且不同類型病癥的形態學征象各不相同,其腫塊結節輪廓不規則,常呈分葉狀、毛刺狀等特點,肺癌結節內部還可能有血管穿過,中央型肺癌病變與周圍器官存在相鄰關系,小細胞肺癌與正常組織之間邊界模糊,在肺部圖像中病變相較于整幅圖像其特征較弱。由于上述情況的存在,肺部腫瘤的影像學表現存在邊緣不清晰、形狀復雜多樣、樣本數量不均衡等問題,使得模型對病灶區域特征的提取鑒別能力較為欠缺,且現有模型對低層細節信息利用不充分,缺乏對病變細粒度特征的關注程度。
針對上述問題,本文提出密集交互式融合Mask RCNN模型用于肺部PET/CT圖像實例分割,旨在增強對肺部圖像中病變關鍵特征的鑒別能力。其主要思路是:將主干網絡提取的多層次特征采用跨層語義增強模塊(cross layer context enhancement module,CLCEM)進行匯聚,依次將最淺層特征以密集連接方式與當前特征和鄰近特征進行聚合,不斷將病灶細節特征補充到深層特征圖中,并對其賦予相應權重以加強對肺部圖像中少量病灶像素信息的敏感程度,進一步提升模型對腫瘤病變的提取識別能力。其次,在不同尺度特征之間建立密集連接關系,將低層特征信息以密集傳遞形式逐個嵌入到高層特征圖中,通過融合多階段特征間豐富的上下文相關信息以實現對病灶區域的精確定位和精準分割,促使模型加強對腫瘤病變的特征鑒別能力。
1 DIF-Mask RCNN模型
1.1 模型整體結構
本文提出的DIF-Mask RCNN模型整體結構如圖1所示。主要工作有:① 設計具有主、輔結構的特征提取網絡,在主干網絡中有五個階段,分別提取不同尺度病灶特征;在輔助網絡中,采用密集交互式增強輔助網絡(dense interactive feature enhancement network,DIFEN)將淺層細節信息不斷聚合到深層特征圖中,利用CLCEM對不同層級病變特征進一步聚焦;② 在特征融合部分,構建密集交互式融合FPN網絡(dense interactive feature fusion fpn network,DIF-FPN)將不同階段低層特征以密集連接方式依次與高層特征進行匯聚,以二次密集方式加強對病灶區域的細粒度特征表示;③ 在特征建議網絡中,對錨框中的前景與背景進行分類和回歸坐標點偏移量;④ 在特征預測頭部分,利用預測分支對PET/CT肺部圖像中病灶區域的類別、邊界框以及實例級掩膜進行預測輸出。

a. 主干網絡;b. 輔助網絡;c. DIF-FPN;d. 自上而下路徑;e. 自下而上路徑
Figure1. Structure of DIF-Mask RCNN modela. backbone network; b. auxiliary network; c. DIF-FPN; d. up-down path; e. down-up path
1.2 密集交互式增強輔助網絡
為了使模型有效提取PET/CT肺部圖像中的腫瘤病變特征,本文提出DIFEN將主干網絡提取的最淺層特征映射以密集連接方式與后面所有高層特征進行逐一聚合,并嵌入CLCEM來增強病灶特征表示,采用主輔網絡提取跨尺度注意上下文病灶特征,提高模型對肺部腫瘤的細粒度信息表示。DIF-Mask RCNN模型的特征提取網絡是由主干網絡ResNet50和DIFEN構成,共包括五個階段(Stage 1-Stage 5)。ResNet50主干網絡由具有殘差連接的多個瓶頸塊構成,如圖1所示。首先將PET/CT圖像輸入到主干網絡中提取出C1~C5不同尺度的病灶特征,然后在DIFEN輔助網絡中采用密集連接路徑將第一階段(Stage 1)特征層C1逐步集成到Stage 2-Stage 5特征圖中,如圖2所示,其次將各階段高層特征依次與C1進行匯聚,最大程度上使低層細節特征在模型各個特征層間傳遞流動。最后通過充分學習不同尺度病灶特征以減少上下文語義差距。

CLCEM是輔助網絡的核心部分,通過利用最淺層特征、當前特征以及相鄰上一層特征所富含的跨尺度信息來指導深層次病灶特征的提取和識別,有效對各階段的病變細節進行細化和補充,提高模型提取PET/CT肺部腫瘤圖像中細粒度細節信息和粗粒度語義信息的能力。DIFEN利用CLCEM來聚合不同階段不同尺度的病灶特征,不斷增強關鍵病灶特征的提取和鑒別能力,如圖3所示。

CLCEM具體過程如下:首先將第一階段(Stage 1)特征圖C1經過1 × 1卷積操作調整通道數和尺寸大小后與當前層的相鄰上一層特征圖Ci–1進行元素級相加融合,然后將融合結果經過1 × 1卷積處理與當前階段特征圖Ci相加融合后作為SimAM模塊的輸入,最終將跨尺度融合特征以殘差連接方式添加到輸出中,進一步增強病變特征表示,減輕模型加深帶來的梯度消失問題。其中,當i – 1 = 1時,CLCEM1的輸入只有第一階段特征層C1和第二階段特征層C2;當i–1 ≥ 2時,CLCEM2至CLCEM4的輸入還包括當前相鄰上一層特征信息。為了使模型能夠同時考慮通道和空間維度的有效病變信息且不增加任何參數量,文獻[19]基于神經科學理論提出通過優化能量函數來發現每個神經元的重要性,以此從當前神經元來推斷出特征圖的三維注意力權重關注權重,即綜合利用不同通道和不同位置特征的關注程度來輔助模型對肺部圖像中病變信息的選擇,接著進一步求解能量函數的快速解析解。本文將SimAM添加至DIFEN中的CLCEM模塊末端,在跨層特征圖語義信息交互過程之后,如圖3右部分所示。具體過程是將集成的跨尺度腫瘤病變信息輸入到注意力計算單元中,通過將中間特征張量進行轉換,輸出與張量相同大小且具有較強特征表征能力的特征圖,最后利用殘差連接將特征信息直接傳遞至更深一層激活結點,保留梯度的空間結構,有效增強主輔網絡對病灶區域的提煉程度,提高模型對肺癌病變像素和正常組織像素之間的特征區分能力。
1.3 密集交互式融合FPN網絡
實例分割是區分出同一類別病變的不同個體,實現對象級識別和分割任務,因而實例分割需精確地關注肺部圖像中腫瘤病變的像素信息,但FPN[20]中只存在自上向下的信息融合路徑,低層邊緣形狀信息不能有效影響高層特征。因此,本文設計DIF-FPN對自下而上路徑采用密集連接思想,通過最大化網絡中所有特征層之間的信息傳遞使模型對病變區域的實例分割能力增強,DIF-FPN中密集連接路徑如圖4所示。

DIF-FPN包括自上而下和自下而上兩條路徑。在自上而下路徑中,將DIFEN輸出的C2~C5作為輸入,首先分別經過1 × 1卷積調整通道數,然后再將C3~C5經過反卷積操作調整尺寸大小,其次將C5特征層經過上采樣后與經過反卷積的C4進行元素級相加融合,融合結果經過上采樣與經過反卷積后的C3進行相加融合,融合結果與C2進行融合;在自下而上路徑中,首先將中間融合結果都經過3 × 3卷積處理后分別得到C2’、C3’、C4’、C5’,然后將富含病灶細節特征的C2’、C3’、C4’、C5’依次采用密集連接方式不斷疊加到較高層特征圖中,通過特征重用方式實現對不同層特征圖的連接,以進一步加強腫瘤病變輪廓、細節、位置等低層級信息在較深層特征圖中的傳播利用。
2 實驗結果與分析
2.1 數據集及數據預處理
本文實驗選用2018年1月至2020年6月寧夏醫科大學總醫院提供的肺癌患者原始PET/CT檢查圖以及包括年齡、性別、醫囑及臨床診斷文本等相關數據。PET/CT模態圖像數據集樣本數為1 052張,其中訓練集有946張圖像,測試集有106張圖像,且全部帶有腫瘤病灶。該數據集最初是DICOM格式,本文用算法將數據讀取后轉換為JPG格式,然后在專業放射科醫生指導下利用Labelme軟件完成對病灶輪廓的標注。在標注類別時,需要對檢測和分割的病灶類別賦予掩膜標簽,并生成相應的JSON文件,包括病灶的分割標簽、標注點坐標值、圖像寬度和高度以及圖像路徑等信息,輸入到網絡中進行訓練。
2.2 實驗環境與參數環境
采用基于Pytorch的深度學習框架實現本文提出的DIF-Mask RCNN模型,實驗環境配置為服務器Intel(R) Xeon(R) Gold 6154 CPU,內存256 GB,顯卡NVIDIA TITAN V,python 3.7,PyTorch 1.7.0,CUDA版本為11.1.106。網絡訓練過程中設置訓練周期為300,初始化學習率為0.000 1,批處理大小(batch size)為2,采用隨機梯度下降算法作為優化器對模型進行優化,其中參數動量為0.9,權值衰減系數為1 × 10?4。
2.3 性能評價指標
為全面客觀評估DIF-Mask RCNN模型性能,本文使用交并比(intersection over union,IoU)、平均精度(average precision,AP)、平均召回率(average recall,AR)作為評價標準來評估模型實例分割性能。在肺部腫瘤的檢測和分割任務中,真陽性(true positive,TP)表示模型正確識別出病灶區域;假陽性(false positive,FP)表示模型將正常組織區域誤診為病灶區域;假陰性(false negative,FN)表示模型將病灶區域漏診為正常組織區域;真陰性(true negative,TN)表示模型正確識別出正常組織區域。評價指標的定義和公式如表1所示。

2.4 結果與分析
為了驗證DIF-Mask RCNN模型的實例分割性能,本文通過三組實驗說明整體模型和組成模塊的先進性和有效性。第一組實驗是驗證各子模塊對該模型檢測分割性能的影響;第二組實驗是探索不同特征提取網絡對Mask RCNN模型性能的影響;第三組實驗是將該模型與不同實例分割網絡作比較來說明DIF-Mask RCNN的先進性。三組實驗均在相同的PET/CT模態圖像數據集上進行評估驗證。
2.4.1 消融實驗
本組實驗驗證本文提出的DIFEN、CLCEM以及DIF-FPN對模型性能的影響,在以ResNet50作為主干網絡的Mask RCNN基礎上,共進行五次消融實驗:實驗一,Mask RCNN(ResNet50),采用ResNet50作為主干的Mask RCNN;實驗二,DIFEN(add)-Mask RCNN,在特征提取部分增加將淺層特征圖的空間細節信息逐步疊加到深層特征圖的路徑;實驗三,DIFEN(CLCEM)-Mask RCNN,在實驗二的基礎上將逐像素相加操作替換為CLCEM來實現依次集成最淺層特征、相鄰上一層特征以及當前特征;實驗四,DIFEN(add) + (DIF-FPN)-Mask RCNN,在實驗二的基礎上采用DIF-FPN,在特征融合部分增加從低層向高層的密集連接路徑;實驗五,DIF-Mask RCNN,在實驗三的基礎上采用DIF-FPN。表2為本文所提模型不同改進模塊的消融結果,其中APdet、ARdet是檢測的評價指標,APseg、ARseg是分割的評價指標,IoU = 0.50表示IoU閾值為0.50時計算精度或召回率,IoU = 0.50:0.95表示IoU閾值在[0.50, 0.95]區間上每隔0.05計算一次精度或召回率。

本文所提模型DIF-Mask RCNN是采用主輔網絡方式,引入DIFEN、DIF-FPN。由表2可見,DIF-Mask RCNN的APdet、APseg、ARdet、ARseg指標分別達到67.16%、68.12%、47.03%、51.51%,該模型對肺部圖像中腫瘤病變的檢測和分割效果相比于其他四種組合結構模型更為優良。
2.4.2 不同特征提取網絡對比實驗
為驗證不同特征提取網絡對模型檢測和分割性能的影響,本文將DIF-Mask RCNN模型與Mask RCNN (ResNet50)和Mask RCNN (ResNet101)進行對比,檢測分割對比結果分別如表3、表4所示,其中APdet、ARdet、AR1det、AR10det是檢測的評價指標,APseg、ARseg、AR1seg、AR10seg是分割的評價指標,AR1是檢測1次的平均召回率,AR10是檢測10次的平均召回率。


由表3可以看出,本文所提模型DIF-Mask RCNN的APdet (IoU = 0.50∶0.95)、APdet (IoU = 0.50)、AR1det、AR10det指標值分別為33.90%、67.16%、43.96%和47.03%,與Mask RCNN (ResNet101)對比,分別提高了6.53%、5.94%、7.12%和3.40%,表明該模型通過在特征提取部分采用主輔網絡結構可以提取更多有利于識別出病灶的特征信息,從而在復雜背景下提升模型對病灶區域的檢測精確率。
由表4可以看出,本文所提模型DIF-Mask RCNN的APseg (IoU = 0.50∶0.95)、APseg (IoU = 0.50)、AR1seg、AR10seg指標值分別為39.16%、68.12%、48.16%和51.51%,與Mask RCNN (ResNet101)對比,分別提高了7.03%、5.07%、9.2%和6.42%,表明該模型通過在特征提取部分設計DIFEN能夠將主干網絡提取的病灶特征進一步細化和增強,有效提升模型對肺部圖像中腫瘤病變的檢測和分割準確率。
2.4.3 不同實例分割網絡對比實驗
為驗證DIF-Mask RCNN的先進性,將本文模型與不同實例分割網絡采用相同訓練參數訓練進行對比,整體上做兩類六個實驗,第一類是兩階段實例分割網絡:Mask RCNN (ResNet50)、Mask RCNN (ResNet101)、Cascade RCNN、Mask Scoring RCNN,第二類是單階段實例分割網絡:YOLACT。除Mask RCNN (ResNet101)以外,其余對比網絡均以ResNet50作為特征提取主干網絡。DIF-Mask RCNN與其他先進網絡的對比結果如表5所示,其中APdet_s是小目標檢測指標,APseg_s是小目標分割指標。

由表5可見,本文提出的DIF-Mask RCNN實例分割模型的各項指標均優于其他網絡,APdet和APseg分別達到67.16%和68.12%,相比Mask RCNN (ResNet50)網絡提高7.11%和5.14%;APdet_s、APseg_s分別達到34.97%和37.68%。實驗結果表明,DIF-Mask RCNN模型性能整體優于其他實例分割網絡,模型結構設計具有合理性與先進性。
3 結論
準確識別醫學圖像中的病灶區域是診斷肺癌的重要前提。為充分利用PET/CT肺部醫學圖像提供的病變影像學特征信息,本文提出了DIF-Mask RCNN模型,首先利用主輔網絡提取不同尺度的病灶特征;其次設計DIFEN,采用密集連接思想將最低層富含的細節位置信息補充到后面的高層特征中,通過設計CLCEM將鄰近的上下文信息進行交互,增強對病變區域的細粒度特征鑒別能力;然后設計DIF-FPN,在自下而上路徑中采用密集連接方式使每一層都接收前面所有淺層特征層作為輸入,通過特征重用讓病灶細節信息融合到高層特征中。在臨床數據集上對本文模型進行驗證,DIF-Mask RCNN模型的APdet、APseg分別為67.16%、68.12%,相較于Mask RCNN (ResNet50)分別提升7.11%和5.14%。通過消融實驗分別證明了所提模型各個模塊的合理性;通過不同特征提取網絡和不同實例分割網絡的對比實驗證明了DIF-Mask RCNN模型的有效性。該模型能夠對肺部圖像中病灶區域取得良好的實例分割結果,可為臨床肺癌計算機輔助診斷提供有效幫助與參考價值。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:周濤教授制定整體的研究目標,提供研究儀器與計算資源,監督和領導研究活動的執行,評判性評論和審閱論文;趙雅楠負責提出實驗思路,設計算法程序設計、結果記錄分析以及論文撰寫;陸惠玲負責本文工作的數據收集和數據分析;王亞星負責輔助算法程序設計與論文審閱修訂;支力佳負責論文審閱修訂與總體指導。
倫理聲明:本研究通過了北方民族大學實驗動物福利與倫理審查委員會的審批(批文文號:北民大倫理第202417號)
0 引言
肺癌是全球發病率和死亡率最高的惡性腫瘤[1],是肺部細胞異常生長并聚集形成腫瘤的疾病。肺癌在早期階段表現為結節,肺結節是直徑≤3 cm的肺內圓形或不規則的病變,呈現密度增高并伴有陰影的影像學表現,早期癥狀微弱不明顯,在晚期確診后會呈現出迅速惡化的趨勢,致使患者的生存率明顯降低。因此,肺部病變的識別檢測對于早期發現和診斷肺癌至關重要。
醫學影像可以提供直觀準確的病理病變信息,是臨床診斷和評估疾病的重要手段[2],可為肺癌患者分期和制定治療策略提供有價值的信息。目前計算機斷層掃描(computed tomography,CT)和正電子發射斷層掃描(positron emission tomography,PET)的影像分析是肺癌的主要臨床診斷方式。其中,CT圖像屬于解剖顯像,可以觀察人體內局部組織的形態學變化,能夠清楚地顯示解剖形態和病灶形態特點;PET圖像屬于功能顯像,通過利用放射性核素來標記參與人體細胞的代謝過程,最終呈現出腫瘤組織與正常組織之間細胞代謝的差異。鑒于PET和CT影像中病變區域成像特點有較明顯差異,PET/CT能夠有效結合兩種模態實現對肺部腫瘤的精確定量,因此PET/CT作為腫瘤學研究的首選[3]。此外,臨床工作中需要依靠醫生個人經驗以逐層方式對連續圖像手動勾畫標記,耗時耗力且具有主觀性和低重復性。傳統的圖像分割方法不能動態處理不同的輸入信息,且其表征能力有限,對于形狀復雜多樣的肺部腫瘤的處理效率和分割精度較低。因此研究以自動化方式識別和定位PET/CT影像中肺部腫瘤區域至關重要。
近年來深度學習方法在醫學領域中應用廣泛,如將Vision Transformer[4](VIT)應用于病灶分類,將YOLO[5]改進為CCGL-YOLOV5[6],將M3YOLOv5[7]應用于病灶檢測,以及將U-Net[8]改進為Teeth U-Net[9]應用于病灶分割。實例分割是一種結合目標檢測和語義分割的技術,在實例級別上進行目標檢測任務,在像素級別上進行語義分割任務,為屬于同一類別的不同實例提供標簽[10]。Mask RCNN[11]、Cascade RCNN[12]、Mask Scoring RCNN[13]、YOLACT[14]等實例分割模型證明了卷積神經網絡不僅可以在像素級別取得較好效果,而且可以實現實例級別的學習。2022年,Qiu等[15]提出語義級聯Mask RCNN(semantic cascade Mask RCNN,SC Mask-RCNN)模型用于骨髓瘤細胞的檢測分割,由特征提取模塊、實例分割框架以及語義分割分支三部分組成,設計特征選擇金字塔網絡(feature selection pyramid network,FSPN)、語義分割分支和掩碼聚合模塊。其中,利用FSPN將主干網絡輸出的多尺度特征生成金字塔特征映射,并采用通道選擇模塊和空間選擇模塊以增強對不同形狀大小骨髓瘤細胞的分割;利用實例掩碼聚合模塊來動態選擇高確定性和高質量的掩碼預測。2023年,Fatemeh Hoorali等[16]提出URCNN,該模型在Mask RCNN預測頭部分設計U型掩膜分支以解決基于全卷積網絡的掩膜預測頭缺失細節信息的問題,此外在特征金字塔網絡(feature pyramid network,FPN)中集成擠壓激勵模塊以提高實例的定位精度。2023年,Zhao等[17]利用Mask RCNN在口腔全景X線圖像中對牙齒和下頜神經管進行識別與分割。2023年,Varadharajan Indumathi等[18]提出混合Mask RCNN-BiDLSTM框架以預測肺部疾病,采用crystal算法優化Mask RCNN架構,以從胸部X線圖像中分割出肺部疾病區域。盡管研究者已經對實例分割展開大量相關工作,但是目前實例分割在醫學圖像處理領域中的應用仍不多。此外,肺癌的病理分型較多且不同類型病癥的形態學征象各不相同,其腫塊結節輪廓不規則,常呈分葉狀、毛刺狀等特點,肺癌結節內部還可能有血管穿過,中央型肺癌病變與周圍器官存在相鄰關系,小細胞肺癌與正常組織之間邊界模糊,在肺部圖像中病變相較于整幅圖像其特征較弱。由于上述情況的存在,肺部腫瘤的影像學表現存在邊緣不清晰、形狀復雜多樣、樣本數量不均衡等問題,使得模型對病灶區域特征的提取鑒別能力較為欠缺,且現有模型對低層細節信息利用不充分,缺乏對病變細粒度特征的關注程度。
針對上述問題,本文提出密集交互式融合Mask RCNN模型用于肺部PET/CT圖像實例分割,旨在增強對肺部圖像中病變關鍵特征的鑒別能力。其主要思路是:將主干網絡提取的多層次特征采用跨層語義增強模塊(cross layer context enhancement module,CLCEM)進行匯聚,依次將最淺層特征以密集連接方式與當前特征和鄰近特征進行聚合,不斷將病灶細節特征補充到深層特征圖中,并對其賦予相應權重以加強對肺部圖像中少量病灶像素信息的敏感程度,進一步提升模型對腫瘤病變的提取識別能力。其次,在不同尺度特征之間建立密集連接關系,將低層特征信息以密集傳遞形式逐個嵌入到高層特征圖中,通過融合多階段特征間豐富的上下文相關信息以實現對病灶區域的精確定位和精準分割,促使模型加強對腫瘤病變的特征鑒別能力。
1 DIF-Mask RCNN模型
1.1 模型整體結構
本文提出的DIF-Mask RCNN模型整體結構如圖1所示。主要工作有:① 設計具有主、輔結構的特征提取網絡,在主干網絡中有五個階段,分別提取不同尺度病灶特征;在輔助網絡中,采用密集交互式增強輔助網絡(dense interactive feature enhancement network,DIFEN)將淺層細節信息不斷聚合到深層特征圖中,利用CLCEM對不同層級病變特征進一步聚焦;② 在特征融合部分,構建密集交互式融合FPN網絡(dense interactive feature fusion fpn network,DIF-FPN)將不同階段低層特征以密集連接方式依次與高層特征進行匯聚,以二次密集方式加強對病灶區域的細粒度特征表示;③ 在特征建議網絡中,對錨框中的前景與背景進行分類和回歸坐標點偏移量;④ 在特征預測頭部分,利用預測分支對PET/CT肺部圖像中病灶區域的類別、邊界框以及實例級掩膜進行預測輸出。

a. 主干網絡;b. 輔助網絡;c. DIF-FPN;d. 自上而下路徑;e. 自下而上路徑
Figure1. Structure of DIF-Mask RCNN modela. backbone network; b. auxiliary network; c. DIF-FPN; d. up-down path; e. down-up path
1.2 密集交互式增強輔助網絡
為了使模型有效提取PET/CT肺部圖像中的腫瘤病變特征,本文提出DIFEN將主干網絡提取的最淺層特征映射以密集連接方式與后面所有高層特征進行逐一聚合,并嵌入CLCEM來增強病灶特征表示,采用主輔網絡提取跨尺度注意上下文病灶特征,提高模型對肺部腫瘤的細粒度信息表示。DIF-Mask RCNN模型的特征提取網絡是由主干網絡ResNet50和DIFEN構成,共包括五個階段(Stage 1-Stage 5)。ResNet50主干網絡由具有殘差連接的多個瓶頸塊構成,如圖1所示。首先將PET/CT圖像輸入到主干網絡中提取出C1~C5不同尺度的病灶特征,然后在DIFEN輔助網絡中采用密集連接路徑將第一階段(Stage 1)特征層C1逐步集成到Stage 2-Stage 5特征圖中,如圖2所示,其次將各階段高層特征依次與C1進行匯聚,最大程度上使低層細節特征在模型各個特征層間傳遞流動。最后通過充分學習不同尺度病灶特征以減少上下文語義差距。

CLCEM是輔助網絡的核心部分,通過利用最淺層特征、當前特征以及相鄰上一層特征所富含的跨尺度信息來指導深層次病灶特征的提取和識別,有效對各階段的病變細節進行細化和補充,提高模型提取PET/CT肺部腫瘤圖像中細粒度細節信息和粗粒度語義信息的能力。DIFEN利用CLCEM來聚合不同階段不同尺度的病灶特征,不斷增強關鍵病灶特征的提取和鑒別能力,如圖3所示。

CLCEM具體過程如下:首先將第一階段(Stage 1)特征圖C1經過1 × 1卷積操作調整通道數和尺寸大小后與當前層的相鄰上一層特征圖Ci–1進行元素級相加融合,然后將融合結果經過1 × 1卷積處理與當前階段特征圖Ci相加融合后作為SimAM模塊的輸入,最終將跨尺度融合特征以殘差連接方式添加到輸出中,進一步增強病變特征表示,減輕模型加深帶來的梯度消失問題。其中,當i – 1 = 1時,CLCEM1的輸入只有第一階段特征層C1和第二階段特征層C2;當i–1 ≥ 2時,CLCEM2至CLCEM4的輸入還包括當前相鄰上一層特征信息。為了使模型能夠同時考慮通道和空間維度的有效病變信息且不增加任何參數量,文獻[19]基于神經科學理論提出通過優化能量函數來發現每個神經元的重要性,以此從當前神經元來推斷出特征圖的三維注意力權重關注權重,即綜合利用不同通道和不同位置特征的關注程度來輔助模型對肺部圖像中病變信息的選擇,接著進一步求解能量函數的快速解析解。本文將SimAM添加至DIFEN中的CLCEM模塊末端,在跨層特征圖語義信息交互過程之后,如圖3右部分所示。具體過程是將集成的跨尺度腫瘤病變信息輸入到注意力計算單元中,通過將中間特征張量進行轉換,輸出與張量相同大小且具有較強特征表征能力的特征圖,最后利用殘差連接將特征信息直接傳遞至更深一層激活結點,保留梯度的空間結構,有效增強主輔網絡對病灶區域的提煉程度,提高模型對肺癌病變像素和正常組織像素之間的特征區分能力。
1.3 密集交互式融合FPN網絡
實例分割是區分出同一類別病變的不同個體,實現對象級識別和分割任務,因而實例分割需精確地關注肺部圖像中腫瘤病變的像素信息,但FPN[20]中只存在自上向下的信息融合路徑,低層邊緣形狀信息不能有效影響高層特征。因此,本文設計DIF-FPN對自下而上路徑采用密集連接思想,通過最大化網絡中所有特征層之間的信息傳遞使模型對病變區域的實例分割能力增強,DIF-FPN中密集連接路徑如圖4所示。

DIF-FPN包括自上而下和自下而上兩條路徑。在自上而下路徑中,將DIFEN輸出的C2~C5作為輸入,首先分別經過1 × 1卷積調整通道數,然后再將C3~C5經過反卷積操作調整尺寸大小,其次將C5特征層經過上采樣后與經過反卷積的C4進行元素級相加融合,融合結果經過上采樣與經過反卷積后的C3進行相加融合,融合結果與C2進行融合;在自下而上路徑中,首先將中間融合結果都經過3 × 3卷積處理后分別得到C2’、C3’、C4’、C5’,然后將富含病灶細節特征的C2’、C3’、C4’、C5’依次采用密集連接方式不斷疊加到較高層特征圖中,通過特征重用方式實現對不同層特征圖的連接,以進一步加強腫瘤病變輪廓、細節、位置等低層級信息在較深層特征圖中的傳播利用。
2 實驗結果與分析
2.1 數據集及數據預處理
本文實驗選用2018年1月至2020年6月寧夏醫科大學總醫院提供的肺癌患者原始PET/CT檢查圖以及包括年齡、性別、醫囑及臨床診斷文本等相關數據。PET/CT模態圖像數據集樣本數為1 052張,其中訓練集有946張圖像,測試集有106張圖像,且全部帶有腫瘤病灶。該數據集最初是DICOM格式,本文用算法將數據讀取后轉換為JPG格式,然后在專業放射科醫生指導下利用Labelme軟件完成對病灶輪廓的標注。在標注類別時,需要對檢測和分割的病灶類別賦予掩膜標簽,并生成相應的JSON文件,包括病灶的分割標簽、標注點坐標值、圖像寬度和高度以及圖像路徑等信息,輸入到網絡中進行訓練。
2.2 實驗環境與參數環境
采用基于Pytorch的深度學習框架實現本文提出的DIF-Mask RCNN模型,實驗環境配置為服務器Intel(R) Xeon(R) Gold 6154 CPU,內存256 GB,顯卡NVIDIA TITAN V,python 3.7,PyTorch 1.7.0,CUDA版本為11.1.106。網絡訓練過程中設置訓練周期為300,初始化學習率為0.000 1,批處理大小(batch size)為2,采用隨機梯度下降算法作為優化器對模型進行優化,其中參數動量為0.9,權值衰減系數為1 × 10?4。
2.3 性能評價指標
為全面客觀評估DIF-Mask RCNN模型性能,本文使用交并比(intersection over union,IoU)、平均精度(average precision,AP)、平均召回率(average recall,AR)作為評價標準來評估模型實例分割性能。在肺部腫瘤的檢測和分割任務中,真陽性(true positive,TP)表示模型正確識別出病灶區域;假陽性(false positive,FP)表示模型將正常組織區域誤診為病灶區域;假陰性(false negative,FN)表示模型將病灶區域漏診為正常組織區域;真陰性(true negative,TN)表示模型正確識別出正常組織區域。評價指標的定義和公式如表1所示。

2.4 結果與分析
為了驗證DIF-Mask RCNN模型的實例分割性能,本文通過三組實驗說明整體模型和組成模塊的先進性和有效性。第一組實驗是驗證各子模塊對該模型檢測分割性能的影響;第二組實驗是探索不同特征提取網絡對Mask RCNN模型性能的影響;第三組實驗是將該模型與不同實例分割網絡作比較來說明DIF-Mask RCNN的先進性。三組實驗均在相同的PET/CT模態圖像數據集上進行評估驗證。
2.4.1 消融實驗
本組實驗驗證本文提出的DIFEN、CLCEM以及DIF-FPN對模型性能的影響,在以ResNet50作為主干網絡的Mask RCNN基礎上,共進行五次消融實驗:實驗一,Mask RCNN(ResNet50),采用ResNet50作為主干的Mask RCNN;實驗二,DIFEN(add)-Mask RCNN,在特征提取部分增加將淺層特征圖的空間細節信息逐步疊加到深層特征圖的路徑;實驗三,DIFEN(CLCEM)-Mask RCNN,在實驗二的基礎上將逐像素相加操作替換為CLCEM來實現依次集成最淺層特征、相鄰上一層特征以及當前特征;實驗四,DIFEN(add) + (DIF-FPN)-Mask RCNN,在實驗二的基礎上采用DIF-FPN,在特征融合部分增加從低層向高層的密集連接路徑;實驗五,DIF-Mask RCNN,在實驗三的基礎上采用DIF-FPN。表2為本文所提模型不同改進模塊的消融結果,其中APdet、ARdet是檢測的評價指標,APseg、ARseg是分割的評價指標,IoU = 0.50表示IoU閾值為0.50時計算精度或召回率,IoU = 0.50:0.95表示IoU閾值在[0.50, 0.95]區間上每隔0.05計算一次精度或召回率。

本文所提模型DIF-Mask RCNN是采用主輔網絡方式,引入DIFEN、DIF-FPN。由表2可見,DIF-Mask RCNN的APdet、APseg、ARdet、ARseg指標分別達到67.16%、68.12%、47.03%、51.51%,該模型對肺部圖像中腫瘤病變的檢測和分割效果相比于其他四種組合結構模型更為優良。
2.4.2 不同特征提取網絡對比實驗
為驗證不同特征提取網絡對模型檢測和分割性能的影響,本文將DIF-Mask RCNN模型與Mask RCNN (ResNet50)和Mask RCNN (ResNet101)進行對比,檢測分割對比結果分別如表3、表4所示,其中APdet、ARdet、AR1det、AR10det是檢測的評價指標,APseg、ARseg、AR1seg、AR10seg是分割的評價指標,AR1是檢測1次的平均召回率,AR10是檢測10次的平均召回率。


由表3可以看出,本文所提模型DIF-Mask RCNN的APdet (IoU = 0.50∶0.95)、APdet (IoU = 0.50)、AR1det、AR10det指標值分別為33.90%、67.16%、43.96%和47.03%,與Mask RCNN (ResNet101)對比,分別提高了6.53%、5.94%、7.12%和3.40%,表明該模型通過在特征提取部分采用主輔網絡結構可以提取更多有利于識別出病灶的特征信息,從而在復雜背景下提升模型對病灶區域的檢測精確率。
由表4可以看出,本文所提模型DIF-Mask RCNN的APseg (IoU = 0.50∶0.95)、APseg (IoU = 0.50)、AR1seg、AR10seg指標值分別為39.16%、68.12%、48.16%和51.51%,與Mask RCNN (ResNet101)對比,分別提高了7.03%、5.07%、9.2%和6.42%,表明該模型通過在特征提取部分設計DIFEN能夠將主干網絡提取的病灶特征進一步細化和增強,有效提升模型對肺部圖像中腫瘤病變的檢測和分割準確率。
2.4.3 不同實例分割網絡對比實驗
為驗證DIF-Mask RCNN的先進性,將本文模型與不同實例分割網絡采用相同訓練參數訓練進行對比,整體上做兩類六個實驗,第一類是兩階段實例分割網絡:Mask RCNN (ResNet50)、Mask RCNN (ResNet101)、Cascade RCNN、Mask Scoring RCNN,第二類是單階段實例分割網絡:YOLACT。除Mask RCNN (ResNet101)以外,其余對比網絡均以ResNet50作為特征提取主干網絡。DIF-Mask RCNN與其他先進網絡的對比結果如表5所示,其中APdet_s是小目標檢測指標,APseg_s是小目標分割指標。

由表5可見,本文提出的DIF-Mask RCNN實例分割模型的各項指標均優于其他網絡,APdet和APseg分別達到67.16%和68.12%,相比Mask RCNN (ResNet50)網絡提高7.11%和5.14%;APdet_s、APseg_s分別達到34.97%和37.68%。實驗結果表明,DIF-Mask RCNN模型性能整體優于其他實例分割網絡,模型結構設計具有合理性與先進性。
3 結論
準確識別醫學圖像中的病灶區域是診斷肺癌的重要前提。為充分利用PET/CT肺部醫學圖像提供的病變影像學特征信息,本文提出了DIF-Mask RCNN模型,首先利用主輔網絡提取不同尺度的病灶特征;其次設計DIFEN,采用密集連接思想將最低層富含的細節位置信息補充到后面的高層特征中,通過設計CLCEM將鄰近的上下文信息進行交互,增強對病變區域的細粒度特征鑒別能力;然后設計DIF-FPN,在自下而上路徑中采用密集連接方式使每一層都接收前面所有淺層特征層作為輸入,通過特征重用讓病灶細節信息融合到高層特征中。在臨床數據集上對本文模型進行驗證,DIF-Mask RCNN模型的APdet、APseg分別為67.16%、68.12%,相較于Mask RCNN (ResNet50)分別提升7.11%和5.14%。通過消融實驗分別證明了所提模型各個模塊的合理性;通過不同特征提取網絡和不同實例分割網絡的對比實驗證明了DIF-Mask RCNN模型的有效性。該模型能夠對肺部圖像中病灶區域取得良好的實例分割結果,可為臨床肺癌計算機輔助診斷提供有效幫助與參考價值。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:周濤教授制定整體的研究目標,提供研究儀器與計算資源,監督和領導研究活動的執行,評判性評論和審閱論文;趙雅楠負責提出實驗思路,設計算法程序設計、結果記錄分析以及論文撰寫;陸惠玲負責本文工作的數據收集和數據分析;王亞星負責輔助算法程序設計與論文審閱修訂;支力佳負責論文審閱修訂與總體指導。
倫理聲明:本研究通過了北方民族大學實驗動物福利與倫理審查委員會的審批(批文文號:北民大倫理第202417號)