針對計算機斷層掃描血管造影(CTA)圖像的冠狀動脈人工手動分割效率低下,而現有深度學習分割模型在冠狀動脈圖像上分割準確率較低的問題,受Transformer的啟發,本文提出了一種雙并行分支編碼器的分割模型——DUNETR。該網絡以Transformer和卷積神經網絡(CNN)作為雙編碼器,Transformer編碼器負責將三維(3D)冠狀動脈數據轉變成一維(1D)序列問題進行學習并捕獲其有效的全局多尺度特征信息,CNN編碼器則提取3D冠狀動脈的局部特征,二者所提取到的不同特征信息通過噪聲降低的特征融合(NRFF)模塊的拼接融合后連接到解碼器。在公開數據集上的實驗結果表明,提出的DUNETR網絡結構模型在Dice相似性系數方面達到了81.19%,召回率達到了80.18%,相比對比實驗中次好結果模型有0.49%和0.46%的提升,超越了其他常規深度學習方法。將Transformer和CNN作為雙編碼器而共同提取到的豐富特征信息,會有助于進一步提升3D冠狀動脈分割的效果。同時,該模型也為其他血管狀器官分割提供了新思路。
引用本文: 潘丹, 駱根強, 曾安. 基于Transformer和卷積神經網絡雙并行分支編碼器神經網絡的冠狀動脈分割. 生物醫學工程學雜志, 2024, 41(6): 1195-1203, 1212. doi: 10.7507/1001-5515.202403058 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
0 引言
心血管疾病(cardiovascular disease,CVD)是全球范圍內導致非傳染性疾病相關死亡的主要原因。據世界衛生組織統計,CVD占全球死亡人數的31%,其中一半的女性和四分之三的男性因此過早死亡[1]。CVD主要由冠狀動脈狹窄或堵塞引起。這就會導致血液無法正常流向心臟,因此心臟缺氧引發心肌組織壞死。臨床上,冠狀動脈分割在CVD的預測、診斷和治療中起著重要作用。然而,目前分割過程主要依賴醫師手動操作,這樣既耗時又容易產生誤差,且結果存在主觀性差異。因此,開發針對計算機斷層掃描血管造影(computed tomography angiography,CTA)圖像的冠狀動脈分割技術至關重要。
傳統的冠狀動脈分割依賴邊緣和區域的圖像處理算法,比如區域生長法[2-3]、水平集方法[4-5]、閾值法[6]、圖割方法[7-8]。盡管這些方法在分割中表現良好,但仍需人工干預且步驟復雜[9-10]。
近年來,隨著人工智能迅速發展,深度學習在醫學圖像分割中的應用呈爆發式增長,并在分割精度上超越了傳統算法。以全卷積神經網絡(fully convolutional networks,FCN)[11]、“U”形卷積神經網絡(u-shaped architecture convolutional networks,U-Net)[12]和三維(three dimensional,3D)U-Net[13]為代表的分割方法取得了較好的分割準確率[14]。
Shen等[15]針對冠狀主動脈和上行主動脈分割,將注意力機制門[16](attention gate,AG)引入到3D FCN網絡結構中以增強血管區域并抑制無關區域,最后利用水平集函數來完成分割的后期處理。Huang等[17]使用3D U-Net對利用中心線標注過的冠狀動脈數據進行訓練,主要將圖像分解成若干個體素塊,然后對這些體素塊進行分割,最后再重構成3D冠狀動脈的結果。Chen等[18]使用Frangi濾波[19]以增強冠狀動脈的血管特征,然后再進行體素塊的分割與重構。Kong等[20]考慮到冠狀動脈是樹結構因此使用預分割網絡3D U-Net提取粗分割的中心線,再與原圖像構造成樹結構數據,最后送入帶卷積門控遞歸單元層(convolutional gated recurrent unit,ConvGRU)的U-Net中進行細分割處理。Pan等[21]在3D U-Net中的編碼器中加入dense模塊,以改善冠狀動脈特征信息的傳輸,實現了比3D U-Net更高的分割精度。Zhou等[22]提出一種多尺度特征融合框架來獲取圖像中的不同分辨率下的特征信息,以此提高小物體的分割精度,其思想也被Huang等[23]借鑒了。
然而,準確分割3D冠狀動脈需要豐富的上下文信息以消除歧義,而現有方法未能充分利用這些信息。為此,Dosovitskiy等[24]首次將Transformer[25]自然語言處理引入圖像處理領域,提出的視覺變壓器(vision transformer,VIT)模型推動了后續將Transformer與卷積神經網絡(convolution neural networks,CNN)結合的研究。Chen等[26]在U-Net編碼器最后一層引入Transformer block,提出Transformer強化U-Net編碼器的神經網絡(TransUNet),彌補了全局信息的丟失。Zhang等[27]提出融合Transformer和CNN的神經網絡(TransFuse),通過通道和空間注意力融合Transformer與CNN的分割結果,提升了特征表達能力。Hatamizadeh等[28]提出的Transformer編碼器的“U”型神經網絡(UNEt TRansformers,UNETR),使用Transformer作為編碼器,無需依賴CNN,能夠捕捉圖像的全局多尺度信息。Wang等[29]提出基于自蒸餾TransUNet的3D醫學圖像分割模型(3D medical image segmentation via self-distilling transunet,MISSU),通過在TransUNet中加入自蒸餾技術,從編碼器的跳躍連接中提煉出醫學圖像的細粒度細節。Dong等[30]提出的冠狀動脈分割網絡(coronary artery segmentation networks,CAS-Net),使用注意引導特征融合模塊,專為冠狀動脈血管分割設計。
盡管基于Transformer的網絡結構在醫學語義分割任務中表現良好,但對于像3D CTA冠狀動脈這樣分支多且細小、前景與背景嚴重不平衡的管狀組織分割,分割精度仍然存在不足。為了解決上述問題,本文提出了一種基于Transformer和CNN雙并行分支編碼器的分割模型,通過雙編碼器共同工作充分獲取全局與局部特征信息,實現分割精度的提升。
1 方法
1.1 網絡設計
為了更關注冠狀動脈的全局與局部特征,本研究為冠狀動脈CTA分割設計出了一種基于Transformer和CNN的雙并行分支編碼器的分割模型,稱之為DUNETR,如圖1所示。

該網絡能夠更全面地獲取冠狀動脈的全局特征信息與局部特征信息。網絡是基于雙編碼器和單解碼器結構實現的,雙編碼器由Transformer和CNN共同組成,左側的Transformer編碼器將3D CTA冠狀動脈分割任務分解成為一維序列到序列預測問題,從分解的圖像塊中學習上下文信息;而右側的CNN編碼器則負責提取冠狀動脈的細節特征。這樣的雙編碼器結構安排能學習到更多的全局語義表示和血管分支細節特征,為提高分割精度準備了條件。接著,我們進一步提出了一種降低噪聲的特征融合模塊(noise reduction feature fusion,NRFF)來取代傳統的跳躍連接。這樣不僅能最大程度地保留全局與局部信息,而且能抑制Transformer與CNN結合不好而帶來的背景噪聲。
1.2 網絡框架
本文提出的基于Transformer和CNN的雙并行編碼器的DUNETR網絡模型如圖2所示,它能夠突出細節并捕獲3D冠狀動脈的遠程依賴關系。

在Transformer編碼器當中,我們會將輸入的3D完整冠狀動脈數據平均分割展開成互不相重疊的N個圖像塊
。此時的冠狀動脈已從3D 數據的(C,H,W,D)切割成了序列長度為
一維序列(N,S),然后通過線性層
將此序列投影到K維空間進行轉換后再加上位置編碼
(實驗中設置參數為K = 768),再經過歸一化層[31],本實驗采用的歸一化為
。
![]() |
經過歸一化處理得到的特征信息,再送入多頭注意力模塊(multi-head self-attention,MSA)[32]當中。多頭注意力層由n個并行自注意力頭構成,它通過
的Q以及對應的K和V的映射關系來計算鍵值對間的相似性來獲得注意力的權重。在進入多頭之前,使用3個線性層
來取代單一線性層
以完成(Q,K,V)單獨計算,以減少彼此影響。
![]() |
![]() |
![]() |
最后送入到多層感知機當中去,如式(5)所示。
![]() |
其中C為輸入圖像的通道數,(H,W,D)為輸入圖像的分辨率大小;(P1,P2,P3)為每個像素塊的分辨率;圖像塊數;
為歸一化的系數;
是縮放比例系數。
為了彌補注意力機制細節特征捕獲能力不足的缺點,我們額外添加了新的CNN編碼器。其中采用(5,5,5)卷積核、步長為(2,2,2)的空洞卷積在增加感受野的基礎下進行下采樣操作,利用連續卷積
、
、標準歸一化層
和LeakyReLU激活函數
共同組成殘差模塊,對輸入的3D冠狀動脈數據
進行卷積上的編碼操作。
![]() |
![]() |
![]() |
式子中代表卷積操作,
代表連續操作,i代表CNN編碼器中的第幾個模塊(在本研究中共使用了4個
模塊,即i = 4)。
為了更好地將Transformer提取到的特征信息與CNN提取到的細節
融合,并消除兩種特征融合產生的噪聲,我們提出一種NRFF模塊。模塊中將Transformer提取到的特征序列
(L代表層數參數,本研究中參數L = 12)重新變換拆分成
(為了對標CNN編碼器的4次下采樣,這里提取Transformer編碼器第3、6、9和12層輸出的序列特征),使用反卷積
放縮分辨率后與
互相拼接,最后使用一個殘差卷積模塊
進行降噪操作以減少噪聲產生。
![]() |
![]() |
式中表示連接拼接,
表示會使用帶上采樣的
模塊幾次,次數極限是直至達到原始分辨率,i表示從CNN編碼器第幾個輸出的特征信息。NRFF模塊會在Transformer與CNN特征融合過程中重復使用。經過NRFF模塊加工融合后的特征信息通過跳躍連接到解碼器,最終輸出對冠狀動脈血管的分割預測。
1.3 Loss函數
由于在冠狀動脈分割任務中冠狀動脈的體素占比較低,為了確保更好地分割小分支血管,我們使用了適合小目標分割的損失函數Dice相似系數(dice similarity coefficient,DSC)[33]。
![]() |
式(11)中p和g分別代表輸出的預測結果和真實樣本,N表示體素數,是拉普拉斯平滑因子,目的是不讓分母出現為零的情況,以加速訓練過程的收斂(在本實驗中設置的系數為
= 1)。該系數可以衡量兩個樣本之間的重疊程度,DSC值越高表示預測結果與標簽樣本重疊相似度越高,反之亦然。
2 實驗
2.1 冠狀動脈數據集
本文使用的3D冠狀動脈數據來自于廣東省人民醫院提供的公開數據集[34]。由兩位放射科專業醫師互相獨立地對掃描圖像中的左冠狀動脈和右冠狀動脈進行標記,標記完后進行交叉驗證。若標記中存在差異,再由第三位放射科醫師單獨進行標記注釋,最后的標注需要基于共識,以此減少主觀差異性。節選的標注結果如圖3所示。

2.2 實驗設置
本文實驗總共使用了480個數據樣本,其中80個數據樣本為單獨的測試樣本,不參與訓練與驗證以防止測試時數據泄露。實驗過程嚴格采用五折交叉驗證,比例為320∶80,即320例數據作為訓練集,剩下80例為驗證樣本。五折交叉驗證的所有實驗模型在驗證集上損失均已達到收斂狀態。
本研究使用目前主流的5種醫學圖像分割網絡FCN[11]、3D U-net[13]、UNETR[28]、MISSU[29]、CAS-Net[30]作為方法對比。共分為三組,第一組是經典分割網絡:FCN、3D U-net;第二組是最新提出的基于Transformer的非專用于冠狀動脈分割的3D網絡模型,包括UNETR、MISSU;最后一組是明確設計用于冠狀動脈分割的網絡模型,包括CAS-Net。
為了進行公平的數據比較并消除偶然的差異性,我們對所有的對比實驗都使用相同的數據預處理和相同的學習策略進行模型訓練,以確保獲得最佳的模型性能。
2.3 參數設置
所有實驗均在PyTorch框架中使用Tesla P100 PCIe 12GB的GPU平臺完成,網絡參數通過Adm Optimizer優化器[35]進行優化,學習率為1 × 10?3,權值衰減為2 × 10?4;為了讓網絡更能充分地學習到冠狀動脈的走向分布規律,epochs設置為200,當且僅當驗證集上損失值下降到小于等于0.10或者達到200 epoch時停機。分割模型大體流程框架如圖4所示。

2.4 評估指標
在本實驗中,我們使用3個經典指標——DSC、召回率(Recall)和精確度(Precision)作為評判分割準確性的指標。召回率表示的是預測分割的結果占實際真實結果的比例;精確度代表的是真正預測分割成功的結果占總預測結果的比例;DSC則綜合了召回率與精確度,是衡量預測分割結果與真實值之間的重疊程度。這些指標取值范圍均在(0,1),相似度與重合度越高數值越高,反之則越低。計算公式如下所示。
![]() |
![]() |
![]() |
其中TP表示的是真陽性(true positive,TP),正確分割的血管體素數;FP表示的是假陽性(false positive,FP),錯誤標記為血管體素的背景體素數;FN表示的是假陰性(false negative,FN),錯誤標記為背景體素的血管體素數量。
2.5 定量分析
表1展示了DUNETR和其他5種對比模型在冠狀動脈CTA數據集[34]上的性能。實驗結果表明,本文提出的網絡模型在冠狀動脈分割上優于其他網絡。本文方法平均DSC為81.19%,平均Recall為80.18%,平均Precision為82.10%,在所有方法中,本文方法的DSC和Recall都是最好的。
具體來說,我們的方法與冠狀動脈分割常用的經典網絡FCN與3D U-Net相比,DSC分別提升了8.75%和4.73%。另外,在其他三個基于Transformer的方法中,表現最好的是CAS-Net,依次是UNETR和MISSU。本文提出的模型相較于上述三種方法,DSC分別提升了0.49%、4.33%和6.73%。這表明本文方法的分割性能優于這些基于Transformer的方法。
2.6 定性分析
冠狀動脈分割的定性分析如圖5和圖6所示。我們使用醫學可視化工具將冠狀動脈的分割結果3D可視化、切片進行直觀比較,并將可視化結果與放大補丁進行定性比較。

2 ~ 4行圖片為首行圖片對應顏色框的放大圖像
Figure5. Comparison results of different models2-4 lines correspond to the enlarged version of the first line image

淺紅色代表標簽,深紅表示網絡預測錯誤的假陰性,綠色是假陽性,藍色是正確分割
Figure6. Comparison of image slice transverse views of 4 different samples using different methodslight red represents labels, deep red represents false negatives due to network prediction errors, green represents false positives, and blue represents correct segmentation
從圖5中可以看出,對比算法分割的結果往往會出現截斷現象,特別是在黃色與綠色所表示的分支放大區域,而DUNETR顯示出了更佳的冠狀動脈分割效果。與其他對比方法相比,DUNETR能夠更準確地分割分支部位,減少不連續現象,從而使得血管結構表現出更好的連通性,保留了較完整的血管細節。
圖6展示了對4個不同樣本的切片對比視圖。由圖6可見,本文所提出的方法在大多數切片中具有較高的真陽性,擁有與真實標簽最為相近的分割邊界。具體來說,我們的模型在血管的細粒度細節方面表現得更好,比其他模型產生的誤報更少。
通過上述實驗結果的定量和定性分析,可以看出本文提出的基于Transformer和CNN作為雙主編碼的網絡結構與NRFF模塊發揮出良好的作用,明顯提升了冠狀動脈分割效果。這些結果表明,我們提出的DUNETR在解決冠狀動脈的復雜結構和錯亂分支等方面是有效的。
2.7 消融實驗
為了進一步驗證所提出的DUNETR方法中基于Transformer和CNN的雙編碼器網絡結構與NRFF模塊在冠狀動脈分割中分別發揮的作用,我們進行了以下兩組消融實驗研究:① NRFF模塊的有效性:為了對比,使用傳統的跳躍連接來取代NRFF模塊實現Transformer與CNN提取到的特征與解碼器之間的連接,即model 1。② 雙分支編碼器的有效性:為了驗證所提出結構的有效性,我們以UNETR和3D U-net為基準來進行消融和對比。
消融對比實驗結果表明,相較于單編碼器,Transformer和CNN作為雙編碼器的網絡在評估指標方面取得了實質性的提升,如表2所示。

由圖7可看出,缺少NRFF模塊的model 1,雖精確度能達到80.92%,但其周圍仍存在一些背景噪點,而DUNETR分割出的血管更加光滑完整。這證明了Transformer和CNN作為雙主編碼器的結構與NRFF模塊之間的無縫融合產生了協同效應,在抑制背景噪聲的同時,能夠捕捉到較為完整的拓撲結構。

3 結論
本文根據冠狀動脈分割任務,設計出了一種新的基于Transformer和CNN作為雙主編碼器的3D網絡模型——DUNETR。DUNETR模型的Transformer主編碼器將3D CTA圖像轉變為一維序列到序列的預測問題進行學習,并捕獲其中有效的全局多尺度特征信息;CNN主編碼器則利用卷積層來提取3D冠狀動脈的局部特征。同時,兩個編碼器所提取到的特征信息通過NRFF模塊進行融合以抑制背景噪聲。定量結果表明,冠狀動脈分割的DSC為81.19%,召回率為80.18%,精確度為82.10%,證明我們提出的DUNETR在3D CTA冠狀動脈分割上是有效的,并且該網絡展示出具有同時捕獲醫學圖像中遠程依賴關系和關鍵細節的能力。該模型方法也為3D醫學圖像中其他血管類器官分割提供了有益的思路和方法。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:潘丹主要負責論文總體構思、實驗流程、實驗指導、論文撰寫;駱根強負責算法程序設計、數據記錄與分析;曾安負責實驗數據分析指導、論文審閱修訂。
文章開源代碼:
0 引言
心血管疾病(cardiovascular disease,CVD)是全球范圍內導致非傳染性疾病相關死亡的主要原因。據世界衛生組織統計,CVD占全球死亡人數的31%,其中一半的女性和四分之三的男性因此過早死亡[1]。CVD主要由冠狀動脈狹窄或堵塞引起。這就會導致血液無法正常流向心臟,因此心臟缺氧引發心肌組織壞死。臨床上,冠狀動脈分割在CVD的預測、診斷和治療中起著重要作用。然而,目前分割過程主要依賴醫師手動操作,這樣既耗時又容易產生誤差,且結果存在主觀性差異。因此,開發針對計算機斷層掃描血管造影(computed tomography angiography,CTA)圖像的冠狀動脈分割技術至關重要。
傳統的冠狀動脈分割依賴邊緣和區域的圖像處理算法,比如區域生長法[2-3]、水平集方法[4-5]、閾值法[6]、圖割方法[7-8]。盡管這些方法在分割中表現良好,但仍需人工干預且步驟復雜[9-10]。
近年來,隨著人工智能迅速發展,深度學習在醫學圖像分割中的應用呈爆發式增長,并在分割精度上超越了傳統算法。以全卷積神經網絡(fully convolutional networks,FCN)[11]、“U”形卷積神經網絡(u-shaped architecture convolutional networks,U-Net)[12]和三維(three dimensional,3D)U-Net[13]為代表的分割方法取得了較好的分割準確率[14]。
Shen等[15]針對冠狀主動脈和上行主動脈分割,將注意力機制門[16](attention gate,AG)引入到3D FCN網絡結構中以增強血管區域并抑制無關區域,最后利用水平集函數來完成分割的后期處理。Huang等[17]使用3D U-Net對利用中心線標注過的冠狀動脈數據進行訓練,主要將圖像分解成若干個體素塊,然后對這些體素塊進行分割,最后再重構成3D冠狀動脈的結果。Chen等[18]使用Frangi濾波[19]以增強冠狀動脈的血管特征,然后再進行體素塊的分割與重構。Kong等[20]考慮到冠狀動脈是樹結構因此使用預分割網絡3D U-Net提取粗分割的中心線,再與原圖像構造成樹結構數據,最后送入帶卷積門控遞歸單元層(convolutional gated recurrent unit,ConvGRU)的U-Net中進行細分割處理。Pan等[21]在3D U-Net中的編碼器中加入dense模塊,以改善冠狀動脈特征信息的傳輸,實現了比3D U-Net更高的分割精度。Zhou等[22]提出一種多尺度特征融合框架來獲取圖像中的不同分辨率下的特征信息,以此提高小物體的分割精度,其思想也被Huang等[23]借鑒了。
然而,準確分割3D冠狀動脈需要豐富的上下文信息以消除歧義,而現有方法未能充分利用這些信息。為此,Dosovitskiy等[24]首次將Transformer[25]自然語言處理引入圖像處理領域,提出的視覺變壓器(vision transformer,VIT)模型推動了后續將Transformer與卷積神經網絡(convolution neural networks,CNN)結合的研究。Chen等[26]在U-Net編碼器最后一層引入Transformer block,提出Transformer強化U-Net編碼器的神經網絡(TransUNet),彌補了全局信息的丟失。Zhang等[27]提出融合Transformer和CNN的神經網絡(TransFuse),通過通道和空間注意力融合Transformer與CNN的分割結果,提升了特征表達能力。Hatamizadeh等[28]提出的Transformer編碼器的“U”型神經網絡(UNEt TRansformers,UNETR),使用Transformer作為編碼器,無需依賴CNN,能夠捕捉圖像的全局多尺度信息。Wang等[29]提出基于自蒸餾TransUNet的3D醫學圖像分割模型(3D medical image segmentation via self-distilling transunet,MISSU),通過在TransUNet中加入自蒸餾技術,從編碼器的跳躍連接中提煉出醫學圖像的細粒度細節。Dong等[30]提出的冠狀動脈分割網絡(coronary artery segmentation networks,CAS-Net),使用注意引導特征融合模塊,專為冠狀動脈血管分割設計。
盡管基于Transformer的網絡結構在醫學語義分割任務中表現良好,但對于像3D CTA冠狀動脈這樣分支多且細小、前景與背景嚴重不平衡的管狀組織分割,分割精度仍然存在不足。為了解決上述問題,本文提出了一種基于Transformer和CNN雙并行分支編碼器的分割模型,通過雙編碼器共同工作充分獲取全局與局部特征信息,實現分割精度的提升。
1 方法
1.1 網絡設計
為了更關注冠狀動脈的全局與局部特征,本研究為冠狀動脈CTA分割設計出了一種基于Transformer和CNN的雙并行分支編碼器的分割模型,稱之為DUNETR,如圖1所示。

該網絡能夠更全面地獲取冠狀動脈的全局特征信息與局部特征信息。網絡是基于雙編碼器和單解碼器結構實現的,雙編碼器由Transformer和CNN共同組成,左側的Transformer編碼器將3D CTA冠狀動脈分割任務分解成為一維序列到序列預測問題,從分解的圖像塊中學習上下文信息;而右側的CNN編碼器則負責提取冠狀動脈的細節特征。這樣的雙編碼器結構安排能學習到更多的全局語義表示和血管分支細節特征,為提高分割精度準備了條件。接著,我們進一步提出了一種降低噪聲的特征融合模塊(noise reduction feature fusion,NRFF)來取代傳統的跳躍連接。這樣不僅能最大程度地保留全局與局部信息,而且能抑制Transformer與CNN結合不好而帶來的背景噪聲。
1.2 網絡框架
本文提出的基于Transformer和CNN的雙并行編碼器的DUNETR網絡模型如圖2所示,它能夠突出細節并捕獲3D冠狀動脈的遠程依賴關系。

在Transformer編碼器當中,我們會將輸入的3D完整冠狀動脈數據平均分割展開成互不相重疊的N個圖像塊
。此時的冠狀動脈已從3D 數據的(C,H,W,D)切割成了序列長度為
一維序列(N,S),然后通過線性層
將此序列投影到K維空間進行轉換后再加上位置編碼
(實驗中設置參數為K = 768),再經過歸一化層[31],本實驗采用的歸一化為
。
![]() |
經過歸一化處理得到的特征信息,再送入多頭注意力模塊(multi-head self-attention,MSA)[32]當中。多頭注意力層由n個并行自注意力頭構成,它通過
的Q以及對應的K和V的映射關系來計算鍵值對間的相似性來獲得注意力的權重。在進入多頭之前,使用3個線性層
來取代單一線性層
以完成(Q,K,V)單獨計算,以減少彼此影響。
![]() |
![]() |
![]() |
最后送入到多層感知機當中去,如式(5)所示。
![]() |
其中C為輸入圖像的通道數,(H,W,D)為輸入圖像的分辨率大小;(P1,P2,P3)為每個像素塊的分辨率;圖像塊數;
為歸一化的系數;
是縮放比例系數。
為了彌補注意力機制細節特征捕獲能力不足的缺點,我們額外添加了新的CNN編碼器。其中采用(5,5,5)卷積核、步長為(2,2,2)的空洞卷積在增加感受野的基礎下進行下采樣操作,利用連續卷積
、
、標準歸一化層
和LeakyReLU激活函數
共同組成殘差模塊,對輸入的3D冠狀動脈數據
進行卷積上的編碼操作。
![]() |
![]() |
![]() |
式子中代表卷積操作,
代表連續操作,i代表CNN編碼器中的第幾個模塊(在本研究中共使用了4個
模塊,即i = 4)。
為了更好地將Transformer提取到的特征信息與CNN提取到的細節
融合,并消除兩種特征融合產生的噪聲,我們提出一種NRFF模塊。模塊中將Transformer提取到的特征序列
(L代表層數參數,本研究中參數L = 12)重新變換拆分成
(為了對標CNN編碼器的4次下采樣,這里提取Transformer編碼器第3、6、9和12層輸出的序列特征),使用反卷積
放縮分辨率后與
互相拼接,最后使用一個殘差卷積模塊
進行降噪操作以減少噪聲產生。
![]() |
![]() |
式中表示連接拼接,
表示會使用帶上采樣的
模塊幾次,次數極限是直至達到原始分辨率,i表示從CNN編碼器第幾個輸出的特征信息。NRFF模塊會在Transformer與CNN特征融合過程中重復使用。經過NRFF模塊加工融合后的特征信息通過跳躍連接到解碼器,最終輸出對冠狀動脈血管的分割預測。
1.3 Loss函數
由于在冠狀動脈分割任務中冠狀動脈的體素占比較低,為了確保更好地分割小分支血管,我們使用了適合小目標分割的損失函數Dice相似系數(dice similarity coefficient,DSC)[33]。
![]() |
式(11)中p和g分別代表輸出的預測結果和真實樣本,N表示體素數,是拉普拉斯平滑因子,目的是不讓分母出現為零的情況,以加速訓練過程的收斂(在本實驗中設置的系數為
= 1)。該系數可以衡量兩個樣本之間的重疊程度,DSC值越高表示預測結果與標簽樣本重疊相似度越高,反之亦然。
2 實驗
2.1 冠狀動脈數據集
本文使用的3D冠狀動脈數據來自于廣東省人民醫院提供的公開數據集[34]。由兩位放射科專業醫師互相獨立地對掃描圖像中的左冠狀動脈和右冠狀動脈進行標記,標記完后進行交叉驗證。若標記中存在差異,再由第三位放射科醫師單獨進行標記注釋,最后的標注需要基于共識,以此減少主觀差異性。節選的標注結果如圖3所示。

2.2 實驗設置
本文實驗總共使用了480個數據樣本,其中80個數據樣本為單獨的測試樣本,不參與訓練與驗證以防止測試時數據泄露。實驗過程嚴格采用五折交叉驗證,比例為320∶80,即320例數據作為訓練集,剩下80例為驗證樣本。五折交叉驗證的所有實驗模型在驗證集上損失均已達到收斂狀態。
本研究使用目前主流的5種醫學圖像分割網絡FCN[11]、3D U-net[13]、UNETR[28]、MISSU[29]、CAS-Net[30]作為方法對比。共分為三組,第一組是經典分割網絡:FCN、3D U-net;第二組是最新提出的基于Transformer的非專用于冠狀動脈分割的3D網絡模型,包括UNETR、MISSU;最后一組是明確設計用于冠狀動脈分割的網絡模型,包括CAS-Net。
為了進行公平的數據比較并消除偶然的差異性,我們對所有的對比實驗都使用相同的數據預處理和相同的學習策略進行模型訓練,以確保獲得最佳的模型性能。
2.3 參數設置
所有實驗均在PyTorch框架中使用Tesla P100 PCIe 12GB的GPU平臺完成,網絡參數通過Adm Optimizer優化器[35]進行優化,學習率為1 × 10?3,權值衰減為2 × 10?4;為了讓網絡更能充分地學習到冠狀動脈的走向分布規律,epochs設置為200,當且僅當驗證集上損失值下降到小于等于0.10或者達到200 epoch時停機。分割模型大體流程框架如圖4所示。

2.4 評估指標
在本實驗中,我們使用3個經典指標——DSC、召回率(Recall)和精確度(Precision)作為評判分割準確性的指標。召回率表示的是預測分割的結果占實際真實結果的比例;精確度代表的是真正預測分割成功的結果占總預測結果的比例;DSC則綜合了召回率與精確度,是衡量預測分割結果與真實值之間的重疊程度。這些指標取值范圍均在(0,1),相似度與重合度越高數值越高,反之則越低。計算公式如下所示。
![]() |
![]() |
![]() |
其中TP表示的是真陽性(true positive,TP),正確分割的血管體素數;FP表示的是假陽性(false positive,FP),錯誤標記為血管體素的背景體素數;FN表示的是假陰性(false negative,FN),錯誤標記為背景體素的血管體素數量。
2.5 定量分析
表1展示了DUNETR和其他5種對比模型在冠狀動脈CTA數據集[34]上的性能。實驗結果表明,本文提出的網絡模型在冠狀動脈分割上優于其他網絡。本文方法平均DSC為81.19%,平均Recall為80.18%,平均Precision為82.10%,在所有方法中,本文方法的DSC和Recall都是最好的。
具體來說,我們的方法與冠狀動脈分割常用的經典網絡FCN與3D U-Net相比,DSC分別提升了8.75%和4.73%。另外,在其他三個基于Transformer的方法中,表現最好的是CAS-Net,依次是UNETR和MISSU。本文提出的模型相較于上述三種方法,DSC分別提升了0.49%、4.33%和6.73%。這表明本文方法的分割性能優于這些基于Transformer的方法。
2.6 定性分析
冠狀動脈分割的定性分析如圖5和圖6所示。我們使用醫學可視化工具將冠狀動脈的分割結果3D可視化、切片進行直觀比較,并將可視化結果與放大補丁進行定性比較。

2 ~ 4行圖片為首行圖片對應顏色框的放大圖像
Figure5. Comparison results of different models2-4 lines correspond to the enlarged version of the first line image

淺紅色代表標簽,深紅表示網絡預測錯誤的假陰性,綠色是假陽性,藍色是正確分割
Figure6. Comparison of image slice transverse views of 4 different samples using different methodslight red represents labels, deep red represents false negatives due to network prediction errors, green represents false positives, and blue represents correct segmentation
從圖5中可以看出,對比算法分割的結果往往會出現截斷現象,特別是在黃色與綠色所表示的分支放大區域,而DUNETR顯示出了更佳的冠狀動脈分割效果。與其他對比方法相比,DUNETR能夠更準確地分割分支部位,減少不連續現象,從而使得血管結構表現出更好的連通性,保留了較完整的血管細節。
圖6展示了對4個不同樣本的切片對比視圖。由圖6可見,本文所提出的方法在大多數切片中具有較高的真陽性,擁有與真實標簽最為相近的分割邊界。具體來說,我們的模型在血管的細粒度細節方面表現得更好,比其他模型產生的誤報更少。
通過上述實驗結果的定量和定性分析,可以看出本文提出的基于Transformer和CNN作為雙主編碼的網絡結構與NRFF模塊發揮出良好的作用,明顯提升了冠狀動脈分割效果。這些結果表明,我們提出的DUNETR在解決冠狀動脈的復雜結構和錯亂分支等方面是有效的。
2.7 消融實驗
為了進一步驗證所提出的DUNETR方法中基于Transformer和CNN的雙編碼器網絡結構與NRFF模塊在冠狀動脈分割中分別發揮的作用,我們進行了以下兩組消融實驗研究:① NRFF模塊的有效性:為了對比,使用傳統的跳躍連接來取代NRFF模塊實現Transformer與CNN提取到的特征與解碼器之間的連接,即model 1。② 雙分支編碼器的有效性:為了驗證所提出結構的有效性,我們以UNETR和3D U-net為基準來進行消融和對比。
消融對比實驗結果表明,相較于單編碼器,Transformer和CNN作為雙編碼器的網絡在評估指標方面取得了實質性的提升,如表2所示。

由圖7可看出,缺少NRFF模塊的model 1,雖精確度能達到80.92%,但其周圍仍存在一些背景噪點,而DUNETR分割出的血管更加光滑完整。這證明了Transformer和CNN作為雙主編碼器的結構與NRFF模塊之間的無縫融合產生了協同效應,在抑制背景噪聲的同時,能夠捕捉到較為完整的拓撲結構。

3 結論
本文根據冠狀動脈分割任務,設計出了一種新的基于Transformer和CNN作為雙主編碼器的3D網絡模型——DUNETR。DUNETR模型的Transformer主編碼器將3D CTA圖像轉變為一維序列到序列的預測問題進行學習,并捕獲其中有效的全局多尺度特征信息;CNN主編碼器則利用卷積層來提取3D冠狀動脈的局部特征。同時,兩個編碼器所提取到的特征信息通過NRFF模塊進行融合以抑制背景噪聲。定量結果表明,冠狀動脈分割的DSC為81.19%,召回率為80.18%,精確度為82.10%,證明我們提出的DUNETR在3D CTA冠狀動脈分割上是有效的,并且該網絡展示出具有同時捕獲醫學圖像中遠程依賴關系和關鍵細節的能力。該模型方法也為3D醫學圖像中其他血管類器官分割提供了有益的思路和方法。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:潘丹主要負責論文總體構思、實驗流程、實驗指導、論文撰寫;駱根強負責算法程序設計、數據記錄與分析;曾安負責實驗數據分析指導、論文審閱修訂。
文章開源代碼: