磁共振成像(MRI)在缺血性腦卒中的診斷中扮演著重要的角色,準確分割梗死病灶對于介入治療方法的選擇以及評估患者預后效果有著重要的意義。針對現有分割方法對于多尺度腦卒中梗死病灶分割精度較差的問題,本文提出了一種新型的基于深度可分離卷積的編碼器—解碼器結構網絡。首先,該網絡將U型網絡(U-Net)原有的卷積層模塊替換為重新設計的深度可分離卷積模塊;其次,引入改進型空洞空間金字塔池化(MASPP),擴大感受野,以加強多尺度特征的提取;再次,在網絡的跳躍連接處加入注意力門(AG)模塊,進一步增強網絡對于多尺度目標的分割精度;最后使用缺血性腦卒中梗死分割2022年挑戰賽(ISLES2022)數據集進行實驗,本文算法在該數據集上的戴斯相似系數(DSC)、豪斯多夫距離(HD)、敏感度(SEN)、準確度(PRE)分別為0.816 5、3.668 1、0.889 2、0.894 6,優于其他主流分割算法。實驗結果表明,本文方法能有效地提高梗死病灶的分割效果,有望為臨床診斷和治療提供可靠輔助。
引用本文: 金毅東, 王孟飛, 陳晶晶, 李躍華. 基于深度可分離卷積的缺血性腦卒中多模態磁共振圖像梗死分割模型研究. 生物醫學工程學雜志, 2024, 41(3): 535-543. doi: 10.7507/1001-5515.202308001 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
0 引言
根據2019年全球疾病負擔(Global burden of disease,GBD)研究調查結果顯示,腦卒中是全球第二大死亡原因,每年因其死亡人數占全球總死亡人數的11.6%,也是導致患者殘疾的第一大原因[1]。近年來,隨著人口老齡化和城市化進程加速,我國腦卒中的發病率和死亡率逐年增高,已成為全球腦卒中發病率和死亡率最高的國家之一,給社會經濟帶來了巨大的負擔[2-3]。如果能在腦卒中發生的早期及時地對患者進行評估和治療,就能有效地降低患者的殘疾率和死亡率,提高患者預后生活質量。
磁共振成像(magnetic resonance imaging,MRI)作為一種無創影像在缺血性腦卒中的診斷中發揮著重要的作用。在進行腦卒中診斷時,需要先將梗死病灶區域從MRI圖像中分割出來,進而得到其位置和大小等信息,然后再通過這些信息選擇合適的治療方法或對預后的效果進行評估[4-5]。然而,腦卒中梗死病灶分割通常是手工進行的,這是一個耗時耗力的過程,并且分割的質量因評估者的不同而具有觀察者間差異[6-7]。因此,如何準確和高效地分割梗死病灶區域成為急需解決的問題。
在過去十幾年間,許多傳統圖像分割方法被陸續提出,該類方法主要通過對圖像的紋理、邊緣、像素值等信息的提取來分割病灶區域。例如,Anbumozhi[8]利用灰度共生矩陣(gray-level co-occurrence matrix,GLCM)分割病灶區域,首先從GLCM中學習病灶區域和正常區域的二階紋理特征,再通過聚類算法對像素點進行分類來實現分割,但該方法受限于機器學習流程,需手動提取特征,無法實現端到端的圖像分割。Mokin等[9]提取腦部十個感興趣區域(region of interesting,ROI),利用大腦兩側圖像的像素值差異來識別大腦中動脈缺血性腦卒中病灶的改變,由于腦卒中通常只發生在大腦一側且大腦是對稱結構,通過計算大腦兩側對稱ROI的像素值差異就可以定位病灶區域,但該方法需要自行勾畫ROI區域且無法準確地分割出病灶區域。
近年來,隨著深度學習的迅速發展,人們已開始將其運用于各種醫學圖像分割任務。Long等[10]首先提出了一種端到端的全卷積神經網絡(fully convolutional network,FCN),該網絡的思想是對圖像上的每個像素點做分類,不同種類的物體從圖像上得以區分,從而達到分割的目的。U型網絡(U-Net)是一種編碼器—解碼器結構的FCN[11],其在FCN基礎上設計了一個完全對稱的編碼器路徑和解碼器路徑,同時采用跳躍連接融合淺層的位置信息和深層的語義信息,實現了醫學圖像的精準分割,在各項醫學圖像分割任務中都表現優異[12-16]。針對腦卒中梗死病灶分割任務,現已提出多種基于U-Net網絡的算法,例如Tomita等[17]使用加入了殘差連接[18]的U-Net(residual U-Net,Res-UNet)網絡分割T1加權圖像上的慢性期腦卒中梗死病灶,殘差連接減少了特征丟失,也避免了網絡加深后可能出現的梯度消失問題[19],實現了端到端的三維梗死病灶分割,但該方法為了提高分割準確性,先將多尺度病灶按大小分為了大病灶和小病灶,然后再分別訓練網絡,沒有實現完全的端到端分割。Aboudi等[20]使用二維 Res-UNet[21]在多模態MRI上分割亞急性期腦卒中梗死病灶,將不同模態的二維圖像在通道維度上拼接后再輸入網絡,結果表明多模態圖像之間的信息可以互補,實現了更準確的分割結果,但該方法只能分割二維圖像,不能進行三維圖像分割。Karthik等[22]在多模態MRI上使用改進型的U-Net分割亞急性期腦卒中梗死病灶,通過在編碼器最后兩層引入滲漏線性整流函數(leaky linear rectification function,Leaky ReLU)來更好地保留反向傳播中偏導為負數的高維信息,也得到了較好的結果,該方法雖然通過重新設計激活函數提高了分割精度,但仍然只能分割二維圖像。Clèrigues等[23]通過引入醫學先驗知識使網絡能學習到大腦兩側信息的差異,從而準確定位病灶位置;同時為了解決正負類不均衡的問題,引入了混合損失函數和平衡取樣切塊處理,極大地提高了分割精度。該方法雖然能夠分割多尺度病灶,但對于輔助臨床診斷,仍需提高其分割精度。
針對上述問題,本文提出了一種基于深度可分離卷積(depthwise separable convolution,DepSep Conv)的編碼器—解碼器網絡。首先,使用重新設計的DepSep Conv模塊來替代普通卷積模塊,在保留普通卷積的局部特征提取能力的同時,有效解決了普通卷積對于全局特征提取不足的問題;其次,在瓶頸層引入了改進型空洞空間金字塔池化(modified atrous spatial pyramid pooling,MASPP)模塊,擴大了感受野,加強了網絡對于多尺度目標的特征提取;再次,在跳躍連接處引入注意力門(attention gate,AG)模塊,給予網絡學習病灶特征的能力,實現更為精準的病灶定位分割;最后,通過搭建的模型在腦卒中分割數據集上進行算法研究,以期實現端到端的三維圖像分割,達到提高腦卒中病灶分割精度的目的,進而為臨床診斷提供可靠的輔助。
1 算法描述
本文以U-Net的編碼器—解碼器結構為基礎,通過引入DepSep Conv、注意力機制、空洞卷積等思想提出了全新的基于DepSep Conv的U-Net(DepSep Conv-U-Net,DSCU-Net),模型的整體結構如圖1所示,為了更好地利用醫學圖像的三維空間信息,本文使用三維圖像作為輸入,對于多模態的圖像數據,本文采用早期融合策略在輸入網絡前把多模態的圖像在通道維度進行拼接。圖像輸入網絡后,首先會經過一個1 × 1 × 1的卷積層,該層的作用有兩個,一是調整輸入圖像的通道數;二是通過該層初步提取兩種模態的特征并進行一個非線性的融合。之后依次經過四次下采樣和上采樣,每經過一次下采樣后圖像大小減半,通道數翻倍,上采樣反之亦然,上采樣和下采樣輸出通道數依次為32、64、128、256、128、64、32,最后經過一個1 × 1 × 1的卷積層和S型生長曲線(sigmoid)激活函數得到網絡預測的分割模板圖。在上、下采樣的瓶頸層,加入了新設計的MASPP模塊,進一步提升網絡對于多尺度目標的提取能力。在跳躍連接處引入AG模塊,使得網絡的編碼器層和解碼器層的信息在融合時關注病灶區域,提升網絡對于邊界的分割精度。

1.1 編碼器模塊
傳統卷積受到感受野大小和歸納偏置的限制,使得其對于圖像中的局部信息提取能力很強但對于全局信息的提取能力不足,受到DepSep Conv思想[24]的啟發,本文基于DepSep Conv重新設計了卷積模塊,如圖2所示,其卷積過程可以分為3步。第1步為逐通道卷積(depthwise convolution, DW Conv),每一個3 × 3 × 3的卷積核只負責一個通道,經過卷積后的通道數和卷積前完全相同。第2步為逐點卷積(pointwise convolution,PW Conv),通過1 × 1 × 1大小的卷積來對不同通道特征進行加權組合生成新的特征圖,同時擴充原有特征的通道數,使其為輸入通道數的兩倍。第3步為通道壓縮卷積(channel-squeeze convolution,CS Conv),通過1 × 1 × 1大小的卷積來將擴張后不同通道的特征進行組合壓縮,使其通道數和輸入通道數相同,同時也避免了因通道擴張帶來的網絡參數量急劇增加。

相對于傳統卷積,本文設計的卷積有著更少的參數,對于一個核大小為K,輸入通道數C1,輸出通道數C2的普通卷積核(standard convolution,STD Conv)來說,它的參數量理論大小(以符號NSTD表示)如式(1)所示:
![]() |
對同等大小的本文設計的卷積來說,它的參數量由3部分組成,其中DW Conv的參數量理論大小(以符號NDW表示)如式(2)所示:
![]() |
PW Conv的參數量理論大小(以符號Npw表示)如式(3)所示:
![]() |
CS Conv的參數量理論大小(以符號NCS表示)如式(4)所示:
![]() |
本文卷積總的參數量理論大小(以符號NDEP表示)如式(5)所示:
![]() |
由式(1)和式(5)可知,同樣大小的卷積,普通卷積的參數量是本文卷積的數倍之多,所以在相同的網絡結構下,使用本文的卷積可以大幅減少網絡的參數量,這對于訓練數據量稀少的醫學圖像分割任務來說有著重要的意義,極大地降低了網絡在訓練過程中過擬合的風險。同時,逐通道卷積對每個通道單獨做卷積的特性和變換器(Transformer)[25]中的自注意力機制(self-attention)很相似,都是在單個通道內做空間信息的加權,故而其擁有良好的全局上下文信息捕捉能力,彌補了普通卷積對于全局信息提取能力不足的問題[26]。
1.2 空洞空間金字塔池化
在深度卷積神經網絡中,感受野的大小至關重要,通常來說感受野越大,網絡接受的特征信息越多,對于全局信息的捕捉就更好;反之來說,感受野越小,網絡接受的特征信息越少,對于局部信息的捕捉就更好。對于本文的分割任務來說,局部信息和全局信息都很重要,增強局部信息可以使分割的邊緣更為準確,增強全局信息可以使網絡更準確定位病灶的區域和大小。目前,廣泛使用的多尺度特征提取模塊為空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)[27]。雖然ASPP能較好地提取多尺度語義信息,但其不足之處是其在特征軸上的分辨率密集程度不夠,感受野還不夠大,導致其對于多尺度語義信息的提取還不夠完善。針對上述不足本文提出了一種MASPP模塊,其結構如圖3所示。該結構把多尺度目標語義信息提取分兩步來進行,進一步加強了對多尺度語義信息的提取。其中,第一步,先使用三種不同的空洞卷積來并行提取多尺度局部信息,如圖3所示。d代表了空洞卷積的空洞率(dilation rate),對于卷積核大小為K,空洞率為d的空洞卷積來說,其感受野理論大小(以符號Kd表示)如式(6)所示:

![]() |
擴張系數選擇1、3、5,則空洞卷積對應的感受野大小為3、7、11,分別負責小、中、大目標的語義信息的提取。不同分支提取出的特征圖相加后和原特征圖進行殘差連接,以防止梯度消失和加強特征復用。第二步,對第一步特征圖使用不同大小的池化操作來進一步編碼多尺度目標的語義信息。每個池化操作的步距(stride)都保持和池化窗口大小一致,以保證不重疊地編碼每一塊區域的語義信息。經過池化操作后,再通過上采樣將特征圖恢復到原圖像大小,并在通道維度上拼接。為保持輸出的通道數和輸入的通道數一致,在其后使用一個1 × 1 × 1的卷積,改變通道數的同時也融合了不同分支提取的多尺度目標語義信息。
1.3 注意力機制
受限于MRI圖像病灶區域和背景區域之間的邊界模糊,網絡在進行分割的時候就難以準確地分割出病灶的邊界區域,為此本文在網絡跳躍連接處加入AG模塊[28],可以使網絡能集中關注病灶區域而忽略掉大量不相關的背景區域。AG模塊使用的是軟注意力機制,可以在訓練過程中進行參數更新,使得網絡能從數據集中學習到需要關注區域的特征。具體過程如圖4所示,x為上一層的編碼層特征圖,g為下一層的解碼層特征圖,它們分別經過一個1 × 1 × 1的卷積層后相加,然后依次經過線性整流函數(linear rectification function,ReLU)、1 × 1 × 1的卷積層和sigmoid激活函數,最后通過重采樣(resample)恢復到與輸入的編碼層特征圖同樣大小的注意力權重α。注意力權重α為0~1之間的值。將注意力權重和輸入的編碼層特征圖相乘即可得到最終輸出的特征圖xg。

2 實驗結果與分析
2.1 模型訓練
本文實驗軟硬件環境為:深度學習平臺pytorch1.8(Meta Inc.,美國)、操作系統ubuntu16.04(Canonical Inc.,美國)、中央處理器(Intel(R) Xeon(R) Gold 6132 @ 2.60 GHz,Intel Inc.,美國)、圖像處理器(NVIDIA Tesla A10,NVIDIA Inc,美國)、編程語言python3.8(Centrum Wiskunde & Informatica,荷蘭)。初始學習率設置為0.001,批處理大小設置為2,訓練迭代周期(epoch)設置為300。實驗采用自適應矩估計(adaptive moment estimation,Adam)優化算法,為了防止模型訓練過程中發生過擬合采用早停機制(early stopping),其會跟蹤訓練過程中每一個epoch中驗證集的損失,而如果損失在連續N個epoch中停止下降就停止訓練。當N選擇過小時,模型還處于前期抖動階段就停止訓練會導致對訓練集欠擬合;當N選擇過大時,模型在已經收斂的情況下繼續訓練就會導致對訓練集過擬合,根據經驗一般選擇總epoch數的10%作為N的取值較為合適,故而本文的N取30。
本文的分割任務中,相較于要分割出的梗死核心區域,背景所占的比例較大,如果采用二元交叉熵損失函數(binary cross entropy loss function,BCE-Loss)(以符號BCE表示),雖然能提高正樣本預測的精準度,但分割結果會受到圖像中占比較大的負樣本影響;而使用戴斯損失函數(Dice loss function,Dice-Loss)(以符號Dice表示),雖然不受正負樣本不平衡的影響,但Dice-Loss在訓練過程中容易達到“優化瓶頸”使得訓練過程不穩定。因此模型訓練采用BCE-Loss和Dice-Loss加權的混合損失函數(以符號Loss表示),其數學定義式如式(7)所示:
![]() |
式中,為真實值,
為預測值,本次實驗
和
都取0.5。而Dice-Loss的公式如式(8)所示,BCE-Loss的公式如式(9)所示:
![]() |
![]() |
式中 ,n為批處理的個數,σ代表sigmoid函數。
2.2 數據集和實驗設置
本文的數據集來源為國際醫學圖像計算和計算機輔助干預協會組織的缺血性腦卒中梗死分割2022年挑戰賽(ischemic stroke lesion segmentation challenge 2022,ISLES2022)中提供的免費公開使用的數據集[29]。該數據集包含250例患有缺血性腦卒中患者的液體衰減反轉恢復成像(fluid attenuated inversion recovery,FLAIR)、擴散加權成像(diffusion weighted imaging,DWI)和表觀彌散系數成像(apparent diffusion coefficient,ADC)的多模態MRI圖像。不同模態的圖像已經預先經過了配準并由醫生進行了手動標注,所有的標注作為金標準,都由專家進行了二次確認以確保分割結果的準確性。本文選取其中的DWI和ADC兩種模態的圖像進行實驗。由于數據集圖像分辨率大小不一,且腦部圖像中存在大面積的背景區域,為方便訓練和測試,本文將所有的圖像都重采樣到128 × 128 × 64。為了擴增數據集圖像的數量,本文使用了在線數據增強的方法,在數據被送入網絡前,使用隨機翻轉、隨機平移、隨機角度旋轉、隨機縮放、隨機像素值縮放、隨機噪聲等增強方法對圖像進行處理。數據集按7:1:2隨機劃分為訓練集、驗證集和測試集。
2.3 評價指標
本文通過戴斯相似系數(Dice similarity coefficient,DSC)、豪斯多夫距離(Hausdorff distance,HD)、敏感度(sensitivity,SEN)和準確度(precision,PRE)來衡量網絡的性能。各指標的數學定義如式(10)~式(13)所示:
![]() |
![]() |
![]() |
![]() |
式中,真陽性(true positive,TP)為預測結果中正確分割病灶區域的像素點數;假陽性(false positive,FP)為預測結果中將背景錯誤分割為病灶區域的像素點數;假陰性(false negative,FN)為預測結果中將病灶區域誤分為背景的像素點數;表示集合AB所有像素點對之間的最大值;a、b分別表示集合A、集合B中的像素點。
以上指標中,DSC衡量了模型分割區域和金標準區域的相似度;HD衡量了模型分割區域和金標準區域邊界的相似度;SEN表示分割結果中正確分類為前景的像素占金標準中所有前景像素的比例,其衡量了模型對于前景像素點的漏檢率;PRE表示分割結果中正確分類為前景的像素占分割結果中所有前景像素的比例,其衡量了模型對于前景像素點的錯檢率。上述指標中,DSC、SEN和PRE越接近1,HD越接近0,則分割效果越好。
2.4 對比實驗結果
為了驗證本文模型的優劣,本文使用ISLES2022數據集分別在U-Net[11]、V型網絡(V-Net)[30]、注意力U-Net(attention U-Net,At-Unet)[28]、變換U-Net(U-Net Transformers,UNETR)[31]、移動窗口層次化UNETR(Swin UNETR,Swin-UNETR)[32]和本文模型上進行了訓練,所有訓練參數均保持一致,然后在相同的測試集上計算評價指標,結果如表1所示,最優指標加粗表示。

表1中,U-Net、V-Net和At-Unet使用的是傳統卷積來提取特征。V-Net相對于U-Net加入了殘差連接,能更好地學習深層的語義信息,提高分割精度,因此其DSC和SEN值相對于U-Net有了提升,但由于傳統卷積無法很好地提取全局特征,在提高分割精度的同時勢必會增加錯誤分類為病灶的區域,導致其HD值上升和PRE值下降。At-Unet通過在跳躍連接處加入注意力機制來突出重要區域信息,但對于多尺度的病灶分割,由于其不能很好地提取全局特征,注意力機制不能準確地突出病灶區域,反而降低了分割性能。可以看到,At-Unet的四個評價指標相較于U-Net都有了性能下降。UNETR和Swin-UNETR使用的是類似Transform網絡的全局注意力模塊。相較于卷積網絡,這兩種網絡結構的參數量成倍的增加,而本文使用的數據集數據量相對較小,因此可以看到UNETR出現了比較嚴重的過擬合,在幾個指標上相較于U-Net均大幅下降;而Swin-UNETR在UNETR的基礎上做了改進,使用了窗口化的計算方式,這有效地減少了網絡的參數量,同時因其有了一定的全局特征提取能力,其DSC、SEN和PRE相較于U-Net有了一定的提升,但也受限于窗口化的計算方式,其對于病灶邊界的分割精度不夠,HD值反而增加。本文網絡結合了卷積和Transformer兩種網絡的優點,同時提取全局和局部特征,大幅提高了分割精度,并且結合注意力機制加強了網絡對于病灶邊緣的精細分割,使得網絡在各個指標上都優于其他網絡。
為了更加直觀地對比不同網絡在測試集上的表現,本文給出了不同網絡在測試集上的部分分割結果圖,如圖5所示。由圖5可以看出,對于病灶區域單一且大小相對較大的圖像(如圖5第三行),所有網絡都能取得不錯的分割效果。對于病灶區域分布不一且大小比較小的圖像(如圖5第二行),U-Net、V-Net和At-Unet都誤將背景分割為病灶區域,夸大了病灶區域,其原因可能是卷積網絡的感受野有限,模型難以學到有效的上下文信息,因此對于小尺度的病灶不能很好地進行分割。其中,UNETR因為嚴重的過擬合,導致其分割結果完全偏離實際圖像;Swin-UNETR相對UNETR的分割結果有了很大的提升,但其同樣存在誤將背景分割為病灶區域的問題。對于病灶區域分布不一且大小也不一的圖像(如圖5第一行、第四行、第五行),U-Net、V-Net、At-Unet、UNETR和Swin-UNETR都存在誤將背景分割為病灶區域,或誤將病灶區域分割為背景區域的問題,甚至出現如第五行這種完全漏檢的情況,這在實際診療中是不可接受的。相比之下,無論病灶的區域和大小如何變化,本文網絡都能做到精準分割,基本沒有發生錯檢漏檢的問題,進一步表明了本文網絡的優越性。

2.5 不同模態分割效果對比
相較于單一模態圖像,多模態圖像能給予臨床醫生更為豐富的信息,且不同模態的信息能夠互補,進而幫助醫生做出更準確的診斷決策。在腦卒中診療中,通常會使用多模態MRI進行診斷,如常規的T1加權和T2加權圖像用于急性小梗死灶和后循環缺血性腦卒中的診斷,而DWI圖像通過反映水分子的擴散情況,可以在腦卒中發生數分鐘之內就確定其位置和大小,是目前臨床中敏感性最高的早期缺血性腦卒中檢測方法[5],故而又被稱為“腦卒中序列”。但由于DWI圖像的信號強度是由T2權重和彌散權重共同決定的,T2權重中的透過效應或暗化效應會影響醫生對于DWI圖像信號的判讀,造成錯檢和漏檢,因此需要通過對DWI圖像進行后處理得到ADC圖像,并綜合DWI和ADC圖像的結果來判定是否真的出現了缺血性腦卒中。若DWI圖像上出現高信號區域且對應的ADC圖像區域為低信號,則可以確定為缺血性腦卒中。因此,應用不同模態的圖像進行分割可以提高分割精度和診斷準確性。
為探究單一模態和多模態圖像對于分割性能的影響,本文分別使用單一模態和多模態圖像對本文網絡進行實驗,實驗結果如表2所示,最優值加粗表示。表2中,使用多模態圖像的DSC、HD、SEN和PRE值都優于使用DWI圖像或ADC圖像,這表明多模態圖像可以加強信息的互補以提高分割精度。使用DWI圖像的DSC、HD、SEN和PRE值優于使用ADC圖像的結果,其原因可能是病灶區域在DWI圖像上是高信號征,而在ADC圖像上是低信號征,高信號征和周圍背景區域的對比度相對較高,更好區分,使得模型對于DWI圖像上的分割更為精準。

2.6 消融實驗
為探究不同模塊組合對模型分割性能的影響,本文進行了消融實驗,實驗結果如表3所示,最優值加粗表示。表3中,第一行,為不加入任何模塊的標準U-Net網絡;第二行,為僅修改編碼器的網絡模型;可以看到各個指標都有一個顯著提升,表明了本文設計的卷積相較于普通卷積能有效地提高網絡對梗死病灶的分割性能。第三、四行分別為加入MASPP和AG模塊的模型,可以看到各個指標均有所增長,這表明不同模塊的組合可以有效地提升網絡的性能,證明了本文所提出的模塊是有效的。

3 結論
本文提出了一種基于DepSep Conv的多尺度腦卒中梗死病灶分割方法,設計了三個新的模塊:編碼器模塊、MASPP模塊和AG模塊。首先編碼器模塊對圖像提取全局和局部特征,接著利用MASPP擴大感受野獲取多尺度目標特征以準確定位病灶區域,最后加入AG模塊關注病灶區域使得分割更為精準。本文先通過四個評價指標和其他網絡進行性能對比,驗證了本文網絡分割性能優于其他網絡;接著探究了不同模態圖像對于網絡分割精度的影響,證明了多模態圖像有助于提升分割精度;最后通過消融實驗探究了各個模塊的有效性,依次加入各個模塊后,各個指標均有所提升。綜上所述,本文提出的方法有效地提高了多尺度梗死病灶的分割精度,有望為醫生診斷提供輔助。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:金毅東負責本文實驗設計、算法實現、數據分析和論文撰寫,王孟飛負責數據整理和部分論文的撰寫,陳晶晶負責論文醫學理論的指導,李躍華負責論文的審核和指導。
0 引言
根據2019年全球疾病負擔(Global burden of disease,GBD)研究調查結果顯示,腦卒中是全球第二大死亡原因,每年因其死亡人數占全球總死亡人數的11.6%,也是導致患者殘疾的第一大原因[1]。近年來,隨著人口老齡化和城市化進程加速,我國腦卒中的發病率和死亡率逐年增高,已成為全球腦卒中發病率和死亡率最高的國家之一,給社會經濟帶來了巨大的負擔[2-3]。如果能在腦卒中發生的早期及時地對患者進行評估和治療,就能有效地降低患者的殘疾率和死亡率,提高患者預后生活質量。
磁共振成像(magnetic resonance imaging,MRI)作為一種無創影像在缺血性腦卒中的診斷中發揮著重要的作用。在進行腦卒中診斷時,需要先將梗死病灶區域從MRI圖像中分割出來,進而得到其位置和大小等信息,然后再通過這些信息選擇合適的治療方法或對預后的效果進行評估[4-5]。然而,腦卒中梗死病灶分割通常是手工進行的,這是一個耗時耗力的過程,并且分割的質量因評估者的不同而具有觀察者間差異[6-7]。因此,如何準確和高效地分割梗死病灶區域成為急需解決的問題。
在過去十幾年間,許多傳統圖像分割方法被陸續提出,該類方法主要通過對圖像的紋理、邊緣、像素值等信息的提取來分割病灶區域。例如,Anbumozhi[8]利用灰度共生矩陣(gray-level co-occurrence matrix,GLCM)分割病灶區域,首先從GLCM中學習病灶區域和正常區域的二階紋理特征,再通過聚類算法對像素點進行分類來實現分割,但該方法受限于機器學習流程,需手動提取特征,無法實現端到端的圖像分割。Mokin等[9]提取腦部十個感興趣區域(region of interesting,ROI),利用大腦兩側圖像的像素值差異來識別大腦中動脈缺血性腦卒中病灶的改變,由于腦卒中通常只發生在大腦一側且大腦是對稱結構,通過計算大腦兩側對稱ROI的像素值差異就可以定位病灶區域,但該方法需要自行勾畫ROI區域且無法準確地分割出病灶區域。
近年來,隨著深度學習的迅速發展,人們已開始將其運用于各種醫學圖像分割任務。Long等[10]首先提出了一種端到端的全卷積神經網絡(fully convolutional network,FCN),該網絡的思想是對圖像上的每個像素點做分類,不同種類的物體從圖像上得以區分,從而達到分割的目的。U型網絡(U-Net)是一種編碼器—解碼器結構的FCN[11],其在FCN基礎上設計了一個完全對稱的編碼器路徑和解碼器路徑,同時采用跳躍連接融合淺層的位置信息和深層的語義信息,實現了醫學圖像的精準分割,在各項醫學圖像分割任務中都表現優異[12-16]。針對腦卒中梗死病灶分割任務,現已提出多種基于U-Net網絡的算法,例如Tomita等[17]使用加入了殘差連接[18]的U-Net(residual U-Net,Res-UNet)網絡分割T1加權圖像上的慢性期腦卒中梗死病灶,殘差連接減少了特征丟失,也避免了網絡加深后可能出現的梯度消失問題[19],實現了端到端的三維梗死病灶分割,但該方法為了提高分割準確性,先將多尺度病灶按大小分為了大病灶和小病灶,然后再分別訓練網絡,沒有實現完全的端到端分割。Aboudi等[20]使用二維 Res-UNet[21]在多模態MRI上分割亞急性期腦卒中梗死病灶,將不同模態的二維圖像在通道維度上拼接后再輸入網絡,結果表明多模態圖像之間的信息可以互補,實現了更準確的分割結果,但該方法只能分割二維圖像,不能進行三維圖像分割。Karthik等[22]在多模態MRI上使用改進型的U-Net分割亞急性期腦卒中梗死病灶,通過在編碼器最后兩層引入滲漏線性整流函數(leaky linear rectification function,Leaky ReLU)來更好地保留反向傳播中偏導為負數的高維信息,也得到了較好的結果,該方法雖然通過重新設計激活函數提高了分割精度,但仍然只能分割二維圖像。Clèrigues等[23]通過引入醫學先驗知識使網絡能學習到大腦兩側信息的差異,從而準確定位病灶位置;同時為了解決正負類不均衡的問題,引入了混合損失函數和平衡取樣切塊處理,極大地提高了分割精度。該方法雖然能夠分割多尺度病灶,但對于輔助臨床診斷,仍需提高其分割精度。
針對上述問題,本文提出了一種基于深度可分離卷積(depthwise separable convolution,DepSep Conv)的編碼器—解碼器網絡。首先,使用重新設計的DepSep Conv模塊來替代普通卷積模塊,在保留普通卷積的局部特征提取能力的同時,有效解決了普通卷積對于全局特征提取不足的問題;其次,在瓶頸層引入了改進型空洞空間金字塔池化(modified atrous spatial pyramid pooling,MASPP)模塊,擴大了感受野,加強了網絡對于多尺度目標的特征提取;再次,在跳躍連接處引入注意力門(attention gate,AG)模塊,給予網絡學習病灶特征的能力,實現更為精準的病灶定位分割;最后,通過搭建的模型在腦卒中分割數據集上進行算法研究,以期實現端到端的三維圖像分割,達到提高腦卒中病灶分割精度的目的,進而為臨床診斷提供可靠的輔助。
1 算法描述
本文以U-Net的編碼器—解碼器結構為基礎,通過引入DepSep Conv、注意力機制、空洞卷積等思想提出了全新的基于DepSep Conv的U-Net(DepSep Conv-U-Net,DSCU-Net),模型的整體結構如圖1所示,為了更好地利用醫學圖像的三維空間信息,本文使用三維圖像作為輸入,對于多模態的圖像數據,本文采用早期融合策略在輸入網絡前把多模態的圖像在通道維度進行拼接。圖像輸入網絡后,首先會經過一個1 × 1 × 1的卷積層,該層的作用有兩個,一是調整輸入圖像的通道數;二是通過該層初步提取兩種模態的特征并進行一個非線性的融合。之后依次經過四次下采樣和上采樣,每經過一次下采樣后圖像大小減半,通道數翻倍,上采樣反之亦然,上采樣和下采樣輸出通道數依次為32、64、128、256、128、64、32,最后經過一個1 × 1 × 1的卷積層和S型生長曲線(sigmoid)激活函數得到網絡預測的分割模板圖。在上、下采樣的瓶頸層,加入了新設計的MASPP模塊,進一步提升網絡對于多尺度目標的提取能力。在跳躍連接處引入AG模塊,使得網絡的編碼器層和解碼器層的信息在融合時關注病灶區域,提升網絡對于邊界的分割精度。

1.1 編碼器模塊
傳統卷積受到感受野大小和歸納偏置的限制,使得其對于圖像中的局部信息提取能力很強但對于全局信息的提取能力不足,受到DepSep Conv思想[24]的啟發,本文基于DepSep Conv重新設計了卷積模塊,如圖2所示,其卷積過程可以分為3步。第1步為逐通道卷積(depthwise convolution, DW Conv),每一個3 × 3 × 3的卷積核只負責一個通道,經過卷積后的通道數和卷積前完全相同。第2步為逐點卷積(pointwise convolution,PW Conv),通過1 × 1 × 1大小的卷積來對不同通道特征進行加權組合生成新的特征圖,同時擴充原有特征的通道數,使其為輸入通道數的兩倍。第3步為通道壓縮卷積(channel-squeeze convolution,CS Conv),通過1 × 1 × 1大小的卷積來將擴張后不同通道的特征進行組合壓縮,使其通道數和輸入通道數相同,同時也避免了因通道擴張帶來的網絡參數量急劇增加。

相對于傳統卷積,本文設計的卷積有著更少的參數,對于一個核大小為K,輸入通道數C1,輸出通道數C2的普通卷積核(standard convolution,STD Conv)來說,它的參數量理論大小(以符號NSTD表示)如式(1)所示:
![]() |
對同等大小的本文設計的卷積來說,它的參數量由3部分組成,其中DW Conv的參數量理論大小(以符號NDW表示)如式(2)所示:
![]() |
PW Conv的參數量理論大小(以符號Npw表示)如式(3)所示:
![]() |
CS Conv的參數量理論大小(以符號NCS表示)如式(4)所示:
![]() |
本文卷積總的參數量理論大小(以符號NDEP表示)如式(5)所示:
![]() |
由式(1)和式(5)可知,同樣大小的卷積,普通卷積的參數量是本文卷積的數倍之多,所以在相同的網絡結構下,使用本文的卷積可以大幅減少網絡的參數量,這對于訓練數據量稀少的醫學圖像分割任務來說有著重要的意義,極大地降低了網絡在訓練過程中過擬合的風險。同時,逐通道卷積對每個通道單獨做卷積的特性和變換器(Transformer)[25]中的自注意力機制(self-attention)很相似,都是在單個通道內做空間信息的加權,故而其擁有良好的全局上下文信息捕捉能力,彌補了普通卷積對于全局信息提取能力不足的問題[26]。
1.2 空洞空間金字塔池化
在深度卷積神經網絡中,感受野的大小至關重要,通常來說感受野越大,網絡接受的特征信息越多,對于全局信息的捕捉就更好;反之來說,感受野越小,網絡接受的特征信息越少,對于局部信息的捕捉就更好。對于本文的分割任務來說,局部信息和全局信息都很重要,增強局部信息可以使分割的邊緣更為準確,增強全局信息可以使網絡更準確定位病灶的區域和大小。目前,廣泛使用的多尺度特征提取模塊為空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)[27]。雖然ASPP能較好地提取多尺度語義信息,但其不足之處是其在特征軸上的分辨率密集程度不夠,感受野還不夠大,導致其對于多尺度語義信息的提取還不夠完善。針對上述不足本文提出了一種MASPP模塊,其結構如圖3所示。該結構把多尺度目標語義信息提取分兩步來進行,進一步加強了對多尺度語義信息的提取。其中,第一步,先使用三種不同的空洞卷積來并行提取多尺度局部信息,如圖3所示。d代表了空洞卷積的空洞率(dilation rate),對于卷積核大小為K,空洞率為d的空洞卷積來說,其感受野理論大小(以符號Kd表示)如式(6)所示:

![]() |
擴張系數選擇1、3、5,則空洞卷積對應的感受野大小為3、7、11,分別負責小、中、大目標的語義信息的提取。不同分支提取出的特征圖相加后和原特征圖進行殘差連接,以防止梯度消失和加強特征復用。第二步,對第一步特征圖使用不同大小的池化操作來進一步編碼多尺度目標的語義信息。每個池化操作的步距(stride)都保持和池化窗口大小一致,以保證不重疊地編碼每一塊區域的語義信息。經過池化操作后,再通過上采樣將特征圖恢復到原圖像大小,并在通道維度上拼接。為保持輸出的通道數和輸入的通道數一致,在其后使用一個1 × 1 × 1的卷積,改變通道數的同時也融合了不同分支提取的多尺度目標語義信息。
1.3 注意力機制
受限于MRI圖像病灶區域和背景區域之間的邊界模糊,網絡在進行分割的時候就難以準確地分割出病灶的邊界區域,為此本文在網絡跳躍連接處加入AG模塊[28],可以使網絡能集中關注病灶區域而忽略掉大量不相關的背景區域。AG模塊使用的是軟注意力機制,可以在訓練過程中進行參數更新,使得網絡能從數據集中學習到需要關注區域的特征。具體過程如圖4所示,x為上一層的編碼層特征圖,g為下一層的解碼層特征圖,它們分別經過一個1 × 1 × 1的卷積層后相加,然后依次經過線性整流函數(linear rectification function,ReLU)、1 × 1 × 1的卷積層和sigmoid激活函數,最后通過重采樣(resample)恢復到與輸入的編碼層特征圖同樣大小的注意力權重α。注意力權重α為0~1之間的值。將注意力權重和輸入的編碼層特征圖相乘即可得到最終輸出的特征圖xg。

2 實驗結果與分析
2.1 模型訓練
本文實驗軟硬件環境為:深度學習平臺pytorch1.8(Meta Inc.,美國)、操作系統ubuntu16.04(Canonical Inc.,美國)、中央處理器(Intel(R) Xeon(R) Gold 6132 @ 2.60 GHz,Intel Inc.,美國)、圖像處理器(NVIDIA Tesla A10,NVIDIA Inc,美國)、編程語言python3.8(Centrum Wiskunde & Informatica,荷蘭)。初始學習率設置為0.001,批處理大小設置為2,訓練迭代周期(epoch)設置為300。實驗采用自適應矩估計(adaptive moment estimation,Adam)優化算法,為了防止模型訓練過程中發生過擬合采用早停機制(early stopping),其會跟蹤訓練過程中每一個epoch中驗證集的損失,而如果損失在連續N個epoch中停止下降就停止訓練。當N選擇過小時,模型還處于前期抖動階段就停止訓練會導致對訓練集欠擬合;當N選擇過大時,模型在已經收斂的情況下繼續訓練就會導致對訓練集過擬合,根據經驗一般選擇總epoch數的10%作為N的取值較為合適,故而本文的N取30。
本文的分割任務中,相較于要分割出的梗死核心區域,背景所占的比例較大,如果采用二元交叉熵損失函數(binary cross entropy loss function,BCE-Loss)(以符號BCE表示),雖然能提高正樣本預測的精準度,但分割結果會受到圖像中占比較大的負樣本影響;而使用戴斯損失函數(Dice loss function,Dice-Loss)(以符號Dice表示),雖然不受正負樣本不平衡的影響,但Dice-Loss在訓練過程中容易達到“優化瓶頸”使得訓練過程不穩定。因此模型訓練采用BCE-Loss和Dice-Loss加權的混合損失函數(以符號Loss表示),其數學定義式如式(7)所示:
![]() |
式中,為真實值,
為預測值,本次實驗
和
都取0.5。而Dice-Loss的公式如式(8)所示,BCE-Loss的公式如式(9)所示:
![]() |
![]() |
式中 ,n為批處理的個數,σ代表sigmoid函數。
2.2 數據集和實驗設置
本文的數據集來源為國際醫學圖像計算和計算機輔助干預協會組織的缺血性腦卒中梗死分割2022年挑戰賽(ischemic stroke lesion segmentation challenge 2022,ISLES2022)中提供的免費公開使用的數據集[29]。該數據集包含250例患有缺血性腦卒中患者的液體衰減反轉恢復成像(fluid attenuated inversion recovery,FLAIR)、擴散加權成像(diffusion weighted imaging,DWI)和表觀彌散系數成像(apparent diffusion coefficient,ADC)的多模態MRI圖像。不同模態的圖像已經預先經過了配準并由醫生進行了手動標注,所有的標注作為金標準,都由專家進行了二次確認以確保分割結果的準確性。本文選取其中的DWI和ADC兩種模態的圖像進行實驗。由于數據集圖像分辨率大小不一,且腦部圖像中存在大面積的背景區域,為方便訓練和測試,本文將所有的圖像都重采樣到128 × 128 × 64。為了擴增數據集圖像的數量,本文使用了在線數據增強的方法,在數據被送入網絡前,使用隨機翻轉、隨機平移、隨機角度旋轉、隨機縮放、隨機像素值縮放、隨機噪聲等增強方法對圖像進行處理。數據集按7:1:2隨機劃分為訓練集、驗證集和測試集。
2.3 評價指標
本文通過戴斯相似系數(Dice similarity coefficient,DSC)、豪斯多夫距離(Hausdorff distance,HD)、敏感度(sensitivity,SEN)和準確度(precision,PRE)來衡量網絡的性能。各指標的數學定義如式(10)~式(13)所示:
![]() |
![]() |
![]() |
![]() |
式中,真陽性(true positive,TP)為預測結果中正確分割病灶區域的像素點數;假陽性(false positive,FP)為預測結果中將背景錯誤分割為病灶區域的像素點數;假陰性(false negative,FN)為預測結果中將病灶區域誤分為背景的像素點數;表示集合AB所有像素點對之間的最大值;a、b分別表示集合A、集合B中的像素點。
以上指標中,DSC衡量了模型分割區域和金標準區域的相似度;HD衡量了模型分割區域和金標準區域邊界的相似度;SEN表示分割結果中正確分類為前景的像素占金標準中所有前景像素的比例,其衡量了模型對于前景像素點的漏檢率;PRE表示分割結果中正確分類為前景的像素占分割結果中所有前景像素的比例,其衡量了模型對于前景像素點的錯檢率。上述指標中,DSC、SEN和PRE越接近1,HD越接近0,則分割效果越好。
2.4 對比實驗結果
為了驗證本文模型的優劣,本文使用ISLES2022數據集分別在U-Net[11]、V型網絡(V-Net)[30]、注意力U-Net(attention U-Net,At-Unet)[28]、變換U-Net(U-Net Transformers,UNETR)[31]、移動窗口層次化UNETR(Swin UNETR,Swin-UNETR)[32]和本文模型上進行了訓練,所有訓練參數均保持一致,然后在相同的測試集上計算評價指標,結果如表1所示,最優指標加粗表示。

表1中,U-Net、V-Net和At-Unet使用的是傳統卷積來提取特征。V-Net相對于U-Net加入了殘差連接,能更好地學習深層的語義信息,提高分割精度,因此其DSC和SEN值相對于U-Net有了提升,但由于傳統卷積無法很好地提取全局特征,在提高分割精度的同時勢必會增加錯誤分類為病灶的區域,導致其HD值上升和PRE值下降。At-Unet通過在跳躍連接處加入注意力機制來突出重要區域信息,但對于多尺度的病灶分割,由于其不能很好地提取全局特征,注意力機制不能準確地突出病灶區域,反而降低了分割性能。可以看到,At-Unet的四個評價指標相較于U-Net都有了性能下降。UNETR和Swin-UNETR使用的是類似Transform網絡的全局注意力模塊。相較于卷積網絡,這兩種網絡結構的參數量成倍的增加,而本文使用的數據集數據量相對較小,因此可以看到UNETR出現了比較嚴重的過擬合,在幾個指標上相較于U-Net均大幅下降;而Swin-UNETR在UNETR的基礎上做了改進,使用了窗口化的計算方式,這有效地減少了網絡的參數量,同時因其有了一定的全局特征提取能力,其DSC、SEN和PRE相較于U-Net有了一定的提升,但也受限于窗口化的計算方式,其對于病灶邊界的分割精度不夠,HD值反而增加。本文網絡結合了卷積和Transformer兩種網絡的優點,同時提取全局和局部特征,大幅提高了分割精度,并且結合注意力機制加強了網絡對于病灶邊緣的精細分割,使得網絡在各個指標上都優于其他網絡。
為了更加直觀地對比不同網絡在測試集上的表現,本文給出了不同網絡在測試集上的部分分割結果圖,如圖5所示。由圖5可以看出,對于病灶區域單一且大小相對較大的圖像(如圖5第三行),所有網絡都能取得不錯的分割效果。對于病灶區域分布不一且大小比較小的圖像(如圖5第二行),U-Net、V-Net和At-Unet都誤將背景分割為病灶區域,夸大了病灶區域,其原因可能是卷積網絡的感受野有限,模型難以學到有效的上下文信息,因此對于小尺度的病灶不能很好地進行分割。其中,UNETR因為嚴重的過擬合,導致其分割結果完全偏離實際圖像;Swin-UNETR相對UNETR的分割結果有了很大的提升,但其同樣存在誤將背景分割為病灶區域的問題。對于病灶區域分布不一且大小也不一的圖像(如圖5第一行、第四行、第五行),U-Net、V-Net、At-Unet、UNETR和Swin-UNETR都存在誤將背景分割為病灶區域,或誤將病灶區域分割為背景區域的問題,甚至出現如第五行這種完全漏檢的情況,這在實際診療中是不可接受的。相比之下,無論病灶的區域和大小如何變化,本文網絡都能做到精準分割,基本沒有發生錯檢漏檢的問題,進一步表明了本文網絡的優越性。

2.5 不同模態分割效果對比
相較于單一模態圖像,多模態圖像能給予臨床醫生更為豐富的信息,且不同模態的信息能夠互補,進而幫助醫生做出更準確的診斷決策。在腦卒中診療中,通常會使用多模態MRI進行診斷,如常規的T1加權和T2加權圖像用于急性小梗死灶和后循環缺血性腦卒中的診斷,而DWI圖像通過反映水分子的擴散情況,可以在腦卒中發生數分鐘之內就確定其位置和大小,是目前臨床中敏感性最高的早期缺血性腦卒中檢測方法[5],故而又被稱為“腦卒中序列”。但由于DWI圖像的信號強度是由T2權重和彌散權重共同決定的,T2權重中的透過效應或暗化效應會影響醫生對于DWI圖像信號的判讀,造成錯檢和漏檢,因此需要通過對DWI圖像進行后處理得到ADC圖像,并綜合DWI和ADC圖像的結果來判定是否真的出現了缺血性腦卒中。若DWI圖像上出現高信號區域且對應的ADC圖像區域為低信號,則可以確定為缺血性腦卒中。因此,應用不同模態的圖像進行分割可以提高分割精度和診斷準確性。
為探究單一模態和多模態圖像對于分割性能的影響,本文分別使用單一模態和多模態圖像對本文網絡進行實驗,實驗結果如表2所示,最優值加粗表示。表2中,使用多模態圖像的DSC、HD、SEN和PRE值都優于使用DWI圖像或ADC圖像,這表明多模態圖像可以加強信息的互補以提高分割精度。使用DWI圖像的DSC、HD、SEN和PRE值優于使用ADC圖像的結果,其原因可能是病灶區域在DWI圖像上是高信號征,而在ADC圖像上是低信號征,高信號征和周圍背景區域的對比度相對較高,更好區分,使得模型對于DWI圖像上的分割更為精準。

2.6 消融實驗
為探究不同模塊組合對模型分割性能的影響,本文進行了消融實驗,實驗結果如表3所示,最優值加粗表示。表3中,第一行,為不加入任何模塊的標準U-Net網絡;第二行,為僅修改編碼器的網絡模型;可以看到各個指標都有一個顯著提升,表明了本文設計的卷積相較于普通卷積能有效地提高網絡對梗死病灶的分割性能。第三、四行分別為加入MASPP和AG模塊的模型,可以看到各個指標均有所增長,這表明不同模塊的組合可以有效地提升網絡的性能,證明了本文所提出的模塊是有效的。

3 結論
本文提出了一種基于DepSep Conv的多尺度腦卒中梗死病灶分割方法,設計了三個新的模塊:編碼器模塊、MASPP模塊和AG模塊。首先編碼器模塊對圖像提取全局和局部特征,接著利用MASPP擴大感受野獲取多尺度目標特征以準確定位病灶區域,最后加入AG模塊關注病灶區域使得分割更為精準。本文先通過四個評價指標和其他網絡進行性能對比,驗證了本文網絡分割性能優于其他網絡;接著探究了不同模態圖像對于網絡分割精度的影響,證明了多模態圖像有助于提升分割精度;最后通過消融實驗探究了各個模塊的有效性,依次加入各個模塊后,各個指標均有所提升。綜上所述,本文提出的方法有效地提高了多尺度梗死病灶的分割精度,有望為醫生診斷提供輔助。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:金毅東負責本文實驗設計、算法實現、數據分析和論文撰寫,王孟飛負責數據整理和部分論文的撰寫,陳晶晶負責論文醫學理論的指導,李躍華負責論文的審核和指導。