高級別漿液性卵巢癌惡性程度高,檢出時易發生周圍軟組織浸潤、腹腔與淋巴結轉移、腹膜種植和遠處轉移,是否復發成為該疾病手術計劃與治療手段的重要參考依據。目前的復發預測模型未考慮整個卵巢內部組織之間的潛在病理關系,通常使用較為復雜的卷積神經網絡提取局部區域特征進行判斷,準確率不高且成本開銷大。針對此問題,本文提出了一種新的面向高級別漿液性卵巢癌復發預測的輕量級深度算法模型。該模型先使用鬼影卷積(Ghost Conv)和坐標注意力(CA)建立鬼影倒殘差模塊(SCblock)提取圖像的局部特征信息,然后通過提出的分層融合變換器(Transformer)模塊(STblock)進行全局信息的捕捉與多層次信息的融合,提升不同層之間的交互能力;Transformer模塊則通過先展開特征圖使其對應區域塊進行計算,再折疊還原,以此降低計算成本開銷。最后,將每個STblock模塊進行深淺層的深度信息融合,并加入患者的臨床元數據共同進行復發預測。實驗結果表明,相較于主流的輕量級移動視覺Transformer網絡(MobileViT),本文提出的切片視覺Transformer網絡(SlicerViT)在準確率、精確率、靈敏度、F1分數上均有提高,計算量僅為其1/6,參數量降低1/2。本文研究證實了所提算法模型在高級別漿液性卵巢癌的復發預測上更加精確高效,未來可作為一種輔助診斷技術提高患者生存率,并有利于將模型應用于嵌入式設備。
引用本文: 崔少國, 唐藝菠, 萬皓明, 王銳, 劉麗麗. 基于分層變換器融合元數據的高級別漿液性卵巢癌輕量級復發預測模型. 生物醫學工程學雜志, 2024, 41(4): 807-817. doi: 10.7507/1001-5515.202308009 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
0 引言
卵巢癌是女性最常見的惡性腫瘤之一,全球發病率和死亡率均較高[1]。其中,高級別漿液性卵巢癌(high grade serous ovarian cancer,HGSOC)惡性程度高,幾乎占據了死亡病例的70% [2-3],被視為高度侵襲性癌癥亞型。通常初期HGSOC患者接受切除手術和鉑類化療[4-5],約80%患者受益,然而該疾病容易早期轉移和復發[6]。因此,術前進行HGSOC復發預測有助于輔助臨床醫生選擇治療藥物、制定手術方案,從而提高患者預后和生存率。磁共振成像(magnetic resonance imaging,MRI)可以通過多平面、多序列成像技術顯示病灶,是HGSOC常見的輔助診斷手段。但人工閱片主觀性強、個體差異性大,難以客觀準確判斷HGSOC的復發可能性,易導致誤診,錯過最佳治療時機[7];且人工長時間閱片易疲勞,導致診斷效率降低。因此,基于人工智能技術研發客觀高效的HGSOC術后復發預測模型具有重要意義。
目前,部分學者運用機器學習方法基于不同影像模態和算法模型對HGSOC患者術后復發進行了初步研究。Li等[8]提出了一種基于MRI和臨床信息的放射組學模型,用于評估117名HGSOC患者的復發風險。該研究使用患者的T1加權成像(T1 weighted image,T1WI)和T2加權成像(T2 weighted image,T2WI)序列,由經驗豐富的放射科醫生手動分割腫瘤區域,然后用拉普拉斯濾波提取得到1 064個放射組學特征。再使用最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)回歸篩選特征,用支持向量機(support vector machine,SVM)構建分類模型,通過集成預測分數,綜合兩個序列和臨床信息,得到85%的曲線下面積(area under curve,AUC)值。Chen等[9]從256名HGSOC患者的電子計算機斷層掃描(computed tomography,CT)圖像中手動分割腫瘤,每個區域提取696個放射組學特征,分別建立了放射組學、臨床和組合三個預測模型。在組合模型中,該研究使用SVM提取與復發高度相關的7個相關放射組學特征與臨床信息融合;通過比例風險回歸模型(proportional hazards model,PHM)分析得到76.9%的AUC分數,優于其他兩個模型,進一步驗證了放射組學特征在HGSOC復發診斷中的價值。
在深度學習方面,Wang等[10]構建了一個包括編碼器和解碼器卷積神經網絡模型,用于預測HGSOC患者的復發情況。此研究由5年以上經驗的放射科醫生手動勾畫HGSOC患者術前CT圖像中腫瘤區域,并使用8 917張圖像訓練其所構建的模型。該模型采用了類似密集連接卷積網絡(densely connected convolutional networks,DenseNet)的密集連接結構,通過卷積(convolution,Conv)和反Conv操作來重建圖像,提取腫瘤內在特征;然后,使用編碼器輸出的16個高維特征與臨床信息融合,用PHM分析建立復發與特征的關系,實現了79%的準確率(accuracy,Acc)。Saida等[11]使用多種MRI序列對卵巢癌患者進行了圖像分析。在包含146名非惡性腫瘤患者和219名惡性腫瘤患者的數據集中,他們訓練了基于卷積神經網絡的模型,測試了48名惡性腫瘤患者和53名非惡性腫瘤患者的圖像。在每個序列中,模型Acc達到了81%~87%。與經驗豐富的放射科醫生相比,卷積神經網絡提供的診斷性能表現更佳,證實了基于端到端的卷積神經網絡在卵巢癌診斷中的優越性。Liu等[12]利用185名HGSOC患者的MRI數據,構建了卷積神經網絡模型,包括特征學習、圖像恢復和融合預測三個部分;特征學習中,使用了殘差網絡(residual network,ResNet)和通道空間注意力模塊(convolutional block attention module,CBAM)[13]來提取相關特征;圖像恢復部分,通過反Conv操作增強特征提取;在融合預測中,將圖像特征與臨床信息在全連接層進行決策級融合,用于預測HGSOC患者的復發風險。該研究的融合策略取得了良好效果,為個性化治療和干預提供了重要輔助工具。
盡管上述工作在HGSOC復發預測方面取得了一定的進步,但忽略了卵巢內部病理組織之間的潛在全局位置關系,使用卷積神經網絡僅提取局部區域特征,無法對長距離特征之間的相關性進行建模,忽略了腫瘤早期轉移的可能性,且上述方法前期沒有考慮模型參數量和輕量化問題。視覺變換器(vision transformer,ViT)[14]架構和鬼影Conv(Ghost Conv)[15]的出現為HGSOC復發的精確高效預測提供了新思路。然而,ViT模型網絡通常具有龐大的參數量和計算量,往往在算力強、顯存大的圖形處理器(graphics processing unit,GPU)上才能運行。因此,本文研究旨在探索一種輕量級改進的分層變換器(Transformer)模型,通過融合圖像的多層次全局特征并引入9種臨床多模態信息,提高HGSOC患者復發預測的準確性和高效性。該模型以MRI的T1WI序列圖像和臨床元數據作為輸入,以期為臨床醫生提供一種便捷、高效的工具,輔助其對HGSOC患者復發進行精確預測,并為個性化治療提供決策依據。
1 方法
1.1 模型總述
本文提出的用于HGSOC復發風險預測的切片ViT網絡(SlicerViT)結構示意圖如圖1所示,主要由分層融合Transformer模塊(slicervit transformer block,STblock)、鬼影倒殘差模塊(slicervit Conv block,SCblock)和編碼器模塊(embedding)三個部分組成。模型的輸入為256 × 256 × 3大小的MRI影像切片,先通過一個大小為3 × 3的Conv進行初步特征的提取,隨后采用3個SCblock模塊,用于提取局部特征,當SCblock模塊中的Ghost Conv步長為2時,調整特征圖尺寸的大小以實現下采樣。然后,通過底部尺寸大小為3 × 3的最大池化層(max pooling layer,MaxPooling),以保留SCblock模塊提取的主要局部特征信息,接著經過3個STblock模塊,以捕捉圖像全局的語義信息并學習多層次信息。為了模擬臨床醫生的診斷過程,將3個深淺不一的STblock模塊提取的各8 192個全局特征進行深度信息融合,再與通過embedding模塊后的9個臨床元數據,共同在最后一層進行聚合。最后,通過全連接層將這些特征映射到兩個分類結果,從而判斷當前輸入的HGSOC患者圖像是否存在復發的可能性。

1.2 SCblock模塊
SCblock模塊的設計應用了經典的倒殘差結構,以應對網絡訓練時的梯度消失問題。普通的倒殘差結構如圖2所示,用尺寸為1 × 1的Conv使特征通道經歷升維和降維的變換以拓展和壓縮特征空間。該策略將特征圖映射到更高維度的空間中,以提取更加豐富的圖像特征信息。普通倒殘差結構使用的深度可分離卷積(depthwise separable convolution,Dwise Conv)盡管具有高效的計算特性,但其特征提取能力相對于傳統通用Conv較為有限。因此,SCblock模塊引入了尺寸大小同樣為3×3的輕量級Ghost Conv以替代Dwise Conv提高模型的特征提取能力,如圖2所示。同時,在Ghost Conv后引入了坐標注意力(coordinate attention,CA)[16],相較于經典的通道注意力擠壓和激勵(squeeze and excitation,SE)模型[17]和CBAM,CA機制能夠在不同方向上同時保存精確的位置信息,并捕捉長距離的依賴關系,避免將空間信息完全壓縮到通道中,以此來抑制無用信息對模型的干擾。

SCblock結構圖中最后一步的操作表示為跳躍連接的相加操作(add),在CA機制中,殘差模塊(residual)表示為原特征圖,重新加權(re-weight)則表示經過CA機制re-weight的特征圖,限制最大輸出為6的線性整流函數(linear rectification function,ReLu6)為激活函數。CA機制首先對輸入特征圖C × H × W分別在X和Y方向上進行平均池化(average pooling,Avg Pool)后再拼接(concat)在一起,然后通過一個大小為1 × 1的二維Conv操作(Conv2d)進行變換,經過批歸一化(batch normalization,BatchNorm)和非線性(Non-linear)處理后進行分裂張量操作(split),變換為兩個張量,再分別通過大小為1 × 1的Conv 2d,將兩個張量變換到和輸入相同的通道數C,最后通過S型非線性激活函數(Sigmoid)激活后,對原輸入特征圖分別在X和Y方向進行加權。
1.3 STblock模塊
本文提出的STblock模塊如圖3所示,在提取圖像全局特征的同時學習多層次的特征。盡管Transformer模型可以通過堆疊層來擴大感受野,但在多層次信息處理方面存在一些不足,因此基于分層計算的思想設計層次化的Transformer單元。

首先,輸入特征圖被均勻分成r組,并對每組進行獨立的Transformer層計算,以學習不同層次的特征。除第一層以外,往后每一層Transformer的輸入,均融合了上一層Transformer計算過后的輸出,以此來作為當前Transformer層的輸入。通過這種把不同層次的特征圖拼接在一起的方式,能夠增加模型的感受野,學習到多層次的特征,這進一步加強了全局信息與局部信息的融合效果。如果輸入特征圖的尺寸為C × H × W,經過均分后每組的尺寸為C/r × H × W。除第一層Transformer模塊以外,每層的輸入與上一層的輸出拼接,接收上一個層次提取的全局特征,然后將各個層的輸出進行拼接,最后通過一個Conv 1×1進行一個通道收縮,以避免STblock模塊大規模堆疊后增加模型的參數量和計算量。
對于全局特征的提取,采用了移動ViT(MobileViT)網絡[18]的展開與折疊計算方式,通過使用Transformer計算相同區域的特征塊,不僅能夠捕捉圖像全局信息,同時也能節約模型的計算成本開銷,計算過程如圖4所示。這種計算方式與單純ViT的區別在于不需要額外的位置編碼來添加位置信息。

首先,將特征圖C × H × W劃分為n個大小相同的特征塊XC,每個塊包含P個像素點。然后,將每個特征塊展開為一組特征序列,將n個特征塊中每個像素e∈{1, ···, P}通過L組Transformer來進行建模計算,Transformer使用多頭注意力(multi-head attention,MHA)[19]進行多次自注意力計算,以此來學習不同子空間的序列和位置信息,得到XU,如式(1)所示:
![]() |
其中,XU(e)表示經過Tranformer計算后的特征圖,XC(e)表示每個特征塊所有像素點,e表示像素點個數;P = W × H,W和H是預設好的每個特征塊的大小,默認大小為2 × 2,所以n的計算如式(2)所示:
![]() |
這種計算方式不僅有效避免了傳統的使用每個特征塊和其他所有特征塊進行自注意力計算所帶來冗余信息情況,也大大降低了模型中Transformer的計算成本開銷。
2 實驗和討論
2.1 數據集和實驗環境
本文HGSOC患者數據來自2013年1月—2019年12月在重慶醫科大學附屬第一醫院接受骨盆MRI檢查的181名患者,經手術和病理檢查確診患有HGSOC,其中包括106名術后復發患者和75名術后無復發患者。所有參與研究的患者均簽署了知情同意書。本研究通過了重慶醫科大學第一附屬醫院人類倫理委員會批準(批準編號:2022-K564),且獲得重慶醫科大學附屬第一醫院批準,可以使用相關數據。本文選取上述數據中的T1WI序列MRI檢查數據。
本文將每個MRI文件轉換為便攜式網絡圖形(portable network graphics,PNG)格式的圖像切片,并由經驗豐富的放射科醫師剔除不包含病灶區域的切片,共計4 211張有效圖片,如圖5所示,其卵巢腫瘤病灶區域由專業放射科醫生進行勾畫展示。將數據按照患者數以7:2:1的比例隨機劃分為訓練集、驗證集和測試集。

本次實驗環境的硬件條件為圖形處理單元RTX 3 060(NVIDIA Inc.,美國)和16 GB內存,軟件條件為編程軟件Python3.8(Python software foundation,美國)和深度學習框架PyTorch(1.12.0,Facebook,美國)。
模型的訓練迭代次數為100個周期,使用適應性矩估計(adaptive moment estimation,Adam)優化器更新模型的權重參數,學習率設為0.000 1,損失函數采用交叉熵損失,批處理大小設置為8,數據增強采用隨機水平或垂直翻轉等方法進行。
2.2 評價指標
為準確評估算法在分類中的表現,本次實驗選擇總體Acc來評價分類性能,由于HGSOC患者數量不平衡,Acc可能會被主類別扭曲。因此,靈敏度(sensitivity,Sens)、特異度(specificity,Spec)、精確率(precision,Pre)和F1分數也一并作為衡量模型性能和有效性的指標。其計算公式如式(3)~式(7)所示:
![]() |
![]() |
![]() |
![]() |
![]() |
其中,真陽性(true positive,TP)表示正類別中正確分類樣本的數量;真陰性(true negative, TN)表示負類別中正確分類樣本的數量;假陽性(false positive,FP)表示正類別中錯誤分類樣本的數量;假陰性(false negative,FN)是負類別中錯誤分類樣本的數量。
輕量級指標通過計算模型的參數量和計算量來衡量,計算量為模型運行一次所需要進行浮點運算的次數,一般來講計算量越大推理時間越長,參數量表示模型文件的大小,影響著模型訓練和推斷時對內存的占用量。模型的參數量和計算量的值均通過操作計數器庫(torch opcounter,THOP)函數進行計算。
2.3 患者臨床指標
所有HGSOC患者分為復發組與無復發組分別進行臨床統計,并計算每個臨床指標的P值。其中,年齡、術前癌抗原、人附睪蛋白4和最大腫瘤直徑這4個臨床指標通過均值方差進行計算表示;腫瘤位置(分為單邊和雙邊類型)、婦科腫瘤國際聯合會分期(分為Ⅲ和Ⅳ類型)、淋巴結轉移和孕激素受體通過統計患者個數進行表示,核抗原Ki-67因值為百分比,所以僅計算P值表示,如表1所示。

在輸入網絡之前,所有臨床指標的值都通過embedding層歸一化到[0,1]的范圍,以便模型更好地進行訓練。其中,歸一化的計算如式(8)所示:
![]() |
其中,x表示為某個臨床指標,i表示為某個患者,xi’表示HGSOC患者歸一化后的臨床指標值,xmax表示臨床指標的最大值,xmin表示臨床指標最小值,表示自然整數。
為了驗證臨床元數據與HGSOC患者的復發是否相關,對所有臨床數據進行了相關性分析如圖6所示。其中顏色越深相關系數數值越大,表示相關性越高。圖6中可以看到,各項臨床指標與患者標簽類別均存在一定的正向關聯,最大正相關系數數值為0.39,最小為0.04,這也證實了每位HGSOC患者的9個臨床數據指標對模型的復發預測均有一定的貢獻。雖然個別臨床指標之間存在負相關,最大負相關系數數值為? 0.16,最小為? 0.01,但本文所提出的模型在最后一層只計算預測類別與各臨床指標之間的權重值,因此并不會影響模型的預測性能。

2.4 消融實驗和分析
為了評估本文提出的網絡中設計的模塊的有效性,首先進行STblock模塊層次數量的實驗,確定模型最佳STblock層數,然后通過最優分層模型進行模塊化的消融實驗以及對比實驗。
消融實驗結果如表2和表3所示。從表2中的結果可以觀察到,模型的分層數量并不是越多越好,過多的分層反而會導致模型性能下降,其中粗體字表示當列指標所有對比最優數,未引入層次信息的STblock-1層其Acc都低于STblock-2層、STblock-3層和STblock-4層。在STblock-2層的情況下,模型性能達到最佳,相較于STblock-1層,Acc、Pre、Spec、F1分數均有所提高。這驗證了本文提出的STblock模塊分層架構具有良好的性能。雖然在STblock-2層的Sens有所下降,但Spec具有較大提升,并且其他各項指標都有一定的提升,充分說明了STblock模塊學習到的層次信息與患者的病理信息存在一定的關聯,能更好地辨別HGSOC患者是否存在復發的可能性,對于HGSOC患者的復發預測具有一定的意義。


使用分層數量為2的最優STblock模塊作為SlicerViT的結構標準,再對SlicerViT進行模塊化消融實驗,以驗證本文所提出的SlicerViT各模塊有效性,結果如表3所示。將基于經典倒殘差結構的卷積神經網絡作為基礎模型,首先逐步添加Ghost Conv和CA機制來驗證SCblock模塊的性能,然后再引入STblock模塊、STblock模塊深淺信息融合和臨床元數據融合決策。可以看出,用Ghost Conv代替Dwise Conv后,各項指標有所改善,同時基礎模型參數量略微減少,并且模型Acc有所提高,這證明了SCblock模塊的設計相較于經典倒殘差結構的優勢,也驗證了本文所引入的Ghost Conv具有良好的特征提取性能。在加入CA以后,雖然模型參數量略微增加,但提高了模型Acc,說明CA模塊能較好地提升模型局部特征提取能力,有效抑制無用特征干擾的同時只增加非常小的開銷。加入STblock模塊后,模型具有了全局信息的捕捉能力,Acc有較大提高,通過對STblock模塊進行深淺信息的深度融合,為模型的判斷提供了更多的依據,再次提高了模型的預測Acc,這充分驗證了STblock模塊的有效性能。最后將3個STblock的輸出拼接后進行一維展平,再融合每位患者臨床指標共同進行分類決策,最終SlicerViT的Acc達到了90.66%,這也體現了臨床數據對于HGSOC復發風險預測的重要性。
2.5 對比實驗和分析
將SlicerViT模型與本文選取的7個模型進行了對比實驗,為保證實驗的嚴謹性,實驗結果均為本文數據所劃分的測試集上的指標。本文選取了一些經典的輕量級卷積神經網絡如:移動網絡2(mobile network version 2,MobileNetV2)[20]、高效網絡(EfficientNet)[21]、鬼影網絡(GhostNet)[14]以及快速網絡(FasterNet)[22]、MobileViT[18]和快速ViT(LeViT)網絡[23],同時還有非輕量級的純卷積網絡(ConvNeXt)[24]作為對比,以體現出輕量級、非輕量級之間的差異性,實驗結果如表4所示。

從表4可見,帶有Transformer模塊的輕量級模型SlicerViT、MobileViT和LeViT在HGSOC患者復發預測方面表現優于其他基于卷積神經網絡的模型,證實了HGSOC患者MRI切片圖像的全局信息對于復發預測的重要性。其中,本文所提出的SlicerViT預測性能最佳,Acc最高。與MobileViT相比,SlicerViT在Acc、Pre、Sens和F1分數上均有所提高。因為STblock模塊使SlicerViT學習到了更多層次信息,所以模型的綜合性能更好,且參數量僅為MobileViT的1/2,計算量為其1/6。在所有模型中,SlicerViT的參數量和計算量最低,相較于ConvNeXt,不僅Acc更高,而且計算量和參數量均大幅減少。SlicerViT僅Spec略低于EfficientNet,但Acc遠高出EfficientNet,并且其他指標在所有對比模型中均最優。經對比實驗證明,SlicerViT更能兼顧輕量級與高性能的特點,也充分體現了本文所設計網絡的優勢。
為了更加直觀地體現各個對比模型的綜合性能,首先繪制了各對比模型的接收者操作特征曲線,如圖7所示。橫坐標假陽性率表示所有真實類別為陰性,模型預測為陽性的比例,縱坐標真陽性率則相反。右下角為各模型的AUC值,越接近1,模型性能越好。可以看出SlicerViT具有更好的綜合性能,在所有對比模型中AUC分數值最高。

2.5.1 熱力圖可視化對比
隨機選取4名HGSOC患者的原切片圖像進行模型的熱力圖可視化展示,如圖8所示,其中包括兩名復發患者和兩名不復發患者。熱力圖中顏色越紅區域表示模型的占比權重越重。

可以觀察到,有Transformer注意力機制的SlicerViT、MobileViT以及LeViT模型對整個卵巢癌組織都進行了關注,從直觀的角度上也驗證了全局信息對于復發預測的重要性,說明了卵巢癌各組織之間的潛在病理關系與HGSOC的復發風險預測存在一定的聯系。本文提出的SlicerViT關注區域幾乎覆蓋了整個卵巢組織,因此性能更優。其它的卷積神經網絡由于模型缺乏捕捉圖像全局信息的能力,所以僅關注圖像部分區域,預測Acc不高。
2.5.2 混淆矩陣對比
實驗的各個模型混淆矩陣圖如圖9所示。各個模型識別的假陽性HGSOC患者數量分別為:31、45、53、64、68、52、80、54名,其中SlicerViT模型識別假陽數最低,這也驗證了SlicerViT對于HGSOC患者的復發風險預測有良好的判斷性,相較于其他對比模型,能更好地識別出具有復發可能的HGSOC患者。

3 結束語
本文提出的HGSOC復發預測模型有效地解決了當前高級別漿液性卵巢癌復發預測模型計算成本高且未考慮卵巢內部組織之間的潛在病理關系的問題。本文先通過提出的SCblock模塊對圖像的局部特征進行建模;再使用STblock模塊來捕捉圖像所包含的全局信息,并通過獨特的分層設計使模型學習到了額外的多層次信息,加強了模型的表達能力;然后引入展開折疊的Transformer計算方式也有效降低了模型的計算成本開銷;最后融合HGSOC患者的臨床數據來共同決策復發風險類別,大大提高了模型的Acc。經實驗證明,SlicerVit不僅具有輕量級的特點而且同時具備能夠捕獲卵巢各組織之間潛在關系的高性能,不僅為HGSOC的復發風險預測提供了更多的思路,也進一步推動了其輔助診斷技術部署在邊緣設備上的發展。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:崔少國負責論文指導和審閱;唐藝菠負責算法和實驗設計、論文寫作與修改;萬皓明負責數據處理與分析;王銳負責實驗監察與分析;劉麗麗負責論文醫學相關知識指導。
倫理聲明:本研究通過了重慶醫科大學第一附屬醫院人類倫理委員會審批(批準編號:2022-K564)。
0 引言
卵巢癌是女性最常見的惡性腫瘤之一,全球發病率和死亡率均較高[1]。其中,高級別漿液性卵巢癌(high grade serous ovarian cancer,HGSOC)惡性程度高,幾乎占據了死亡病例的70% [2-3],被視為高度侵襲性癌癥亞型。通常初期HGSOC患者接受切除手術和鉑類化療[4-5],約80%患者受益,然而該疾病容易早期轉移和復發[6]。因此,術前進行HGSOC復發預測有助于輔助臨床醫生選擇治療藥物、制定手術方案,從而提高患者預后和生存率。磁共振成像(magnetic resonance imaging,MRI)可以通過多平面、多序列成像技術顯示病灶,是HGSOC常見的輔助診斷手段。但人工閱片主觀性強、個體差異性大,難以客觀準確判斷HGSOC的復發可能性,易導致誤診,錯過最佳治療時機[7];且人工長時間閱片易疲勞,導致診斷效率降低。因此,基于人工智能技術研發客觀高效的HGSOC術后復發預測模型具有重要意義。
目前,部分學者運用機器學習方法基于不同影像模態和算法模型對HGSOC患者術后復發進行了初步研究。Li等[8]提出了一種基于MRI和臨床信息的放射組學模型,用于評估117名HGSOC患者的復發風險。該研究使用患者的T1加權成像(T1 weighted image,T1WI)和T2加權成像(T2 weighted image,T2WI)序列,由經驗豐富的放射科醫生手動分割腫瘤區域,然后用拉普拉斯濾波提取得到1 064個放射組學特征。再使用最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)回歸篩選特征,用支持向量機(support vector machine,SVM)構建分類模型,通過集成預測分數,綜合兩個序列和臨床信息,得到85%的曲線下面積(area under curve,AUC)值。Chen等[9]從256名HGSOC患者的電子計算機斷層掃描(computed tomography,CT)圖像中手動分割腫瘤,每個區域提取696個放射組學特征,分別建立了放射組學、臨床和組合三個預測模型。在組合模型中,該研究使用SVM提取與復發高度相關的7個相關放射組學特征與臨床信息融合;通過比例風險回歸模型(proportional hazards model,PHM)分析得到76.9%的AUC分數,優于其他兩個模型,進一步驗證了放射組學特征在HGSOC復發診斷中的價值。
在深度學習方面,Wang等[10]構建了一個包括編碼器和解碼器卷積神經網絡模型,用于預測HGSOC患者的復發情況。此研究由5年以上經驗的放射科醫生手動勾畫HGSOC患者術前CT圖像中腫瘤區域,并使用8 917張圖像訓練其所構建的模型。該模型采用了類似密集連接卷積網絡(densely connected convolutional networks,DenseNet)的密集連接結構,通過卷積(convolution,Conv)和反Conv操作來重建圖像,提取腫瘤內在特征;然后,使用編碼器輸出的16個高維特征與臨床信息融合,用PHM分析建立復發與特征的關系,實現了79%的準確率(accuracy,Acc)。Saida等[11]使用多種MRI序列對卵巢癌患者進行了圖像分析。在包含146名非惡性腫瘤患者和219名惡性腫瘤患者的數據集中,他們訓練了基于卷積神經網絡的模型,測試了48名惡性腫瘤患者和53名非惡性腫瘤患者的圖像。在每個序列中,模型Acc達到了81%~87%。與經驗豐富的放射科醫生相比,卷積神經網絡提供的診斷性能表現更佳,證實了基于端到端的卷積神經網絡在卵巢癌診斷中的優越性。Liu等[12]利用185名HGSOC患者的MRI數據,構建了卷積神經網絡模型,包括特征學習、圖像恢復和融合預測三個部分;特征學習中,使用了殘差網絡(residual network,ResNet)和通道空間注意力模塊(convolutional block attention module,CBAM)[13]來提取相關特征;圖像恢復部分,通過反Conv操作增強特征提取;在融合預測中,將圖像特征與臨床信息在全連接層進行決策級融合,用于預測HGSOC患者的復發風險。該研究的融合策略取得了良好效果,為個性化治療和干預提供了重要輔助工具。
盡管上述工作在HGSOC復發預測方面取得了一定的進步,但忽略了卵巢內部病理組織之間的潛在全局位置關系,使用卷積神經網絡僅提取局部區域特征,無法對長距離特征之間的相關性進行建模,忽略了腫瘤早期轉移的可能性,且上述方法前期沒有考慮模型參數量和輕量化問題。視覺變換器(vision transformer,ViT)[14]架構和鬼影Conv(Ghost Conv)[15]的出現為HGSOC復發的精確高效預測提供了新思路。然而,ViT模型網絡通常具有龐大的參數量和計算量,往往在算力強、顯存大的圖形處理器(graphics processing unit,GPU)上才能運行。因此,本文研究旨在探索一種輕量級改進的分層變換器(Transformer)模型,通過融合圖像的多層次全局特征并引入9種臨床多模態信息,提高HGSOC患者復發預測的準確性和高效性。該模型以MRI的T1WI序列圖像和臨床元數據作為輸入,以期為臨床醫生提供一種便捷、高效的工具,輔助其對HGSOC患者復發進行精確預測,并為個性化治療提供決策依據。
1 方法
1.1 模型總述
本文提出的用于HGSOC復發風險預測的切片ViT網絡(SlicerViT)結構示意圖如圖1所示,主要由分層融合Transformer模塊(slicervit transformer block,STblock)、鬼影倒殘差模塊(slicervit Conv block,SCblock)和編碼器模塊(embedding)三個部分組成。模型的輸入為256 × 256 × 3大小的MRI影像切片,先通過一個大小為3 × 3的Conv進行初步特征的提取,隨后采用3個SCblock模塊,用于提取局部特征,當SCblock模塊中的Ghost Conv步長為2時,調整特征圖尺寸的大小以實現下采樣。然后,通過底部尺寸大小為3 × 3的最大池化層(max pooling layer,MaxPooling),以保留SCblock模塊提取的主要局部特征信息,接著經過3個STblock模塊,以捕捉圖像全局的語義信息并學習多層次信息。為了模擬臨床醫生的診斷過程,將3個深淺不一的STblock模塊提取的各8 192個全局特征進行深度信息融合,再與通過embedding模塊后的9個臨床元數據,共同在最后一層進行聚合。最后,通過全連接層將這些特征映射到兩個分類結果,從而判斷當前輸入的HGSOC患者圖像是否存在復發的可能性。

1.2 SCblock模塊
SCblock模塊的設計應用了經典的倒殘差結構,以應對網絡訓練時的梯度消失問題。普通的倒殘差結構如圖2所示,用尺寸為1 × 1的Conv使特征通道經歷升維和降維的變換以拓展和壓縮特征空間。該策略將特征圖映射到更高維度的空間中,以提取更加豐富的圖像特征信息。普通倒殘差結構使用的深度可分離卷積(depthwise separable convolution,Dwise Conv)盡管具有高效的計算特性,但其特征提取能力相對于傳統通用Conv較為有限。因此,SCblock模塊引入了尺寸大小同樣為3×3的輕量級Ghost Conv以替代Dwise Conv提高模型的特征提取能力,如圖2所示。同時,在Ghost Conv后引入了坐標注意力(coordinate attention,CA)[16],相較于經典的通道注意力擠壓和激勵(squeeze and excitation,SE)模型[17]和CBAM,CA機制能夠在不同方向上同時保存精確的位置信息,并捕捉長距離的依賴關系,避免將空間信息完全壓縮到通道中,以此來抑制無用信息對模型的干擾。

SCblock結構圖中最后一步的操作表示為跳躍連接的相加操作(add),在CA機制中,殘差模塊(residual)表示為原特征圖,重新加權(re-weight)則表示經過CA機制re-weight的特征圖,限制最大輸出為6的線性整流函數(linear rectification function,ReLu6)為激活函數。CA機制首先對輸入特征圖C × H × W分別在X和Y方向上進行平均池化(average pooling,Avg Pool)后再拼接(concat)在一起,然后通過一個大小為1 × 1的二維Conv操作(Conv2d)進行變換,經過批歸一化(batch normalization,BatchNorm)和非線性(Non-linear)處理后進行分裂張量操作(split),變換為兩個張量,再分別通過大小為1 × 1的Conv 2d,將兩個張量變換到和輸入相同的通道數C,最后通過S型非線性激活函數(Sigmoid)激活后,對原輸入特征圖分別在X和Y方向進行加權。
1.3 STblock模塊
本文提出的STblock模塊如圖3所示,在提取圖像全局特征的同時學習多層次的特征。盡管Transformer模型可以通過堆疊層來擴大感受野,但在多層次信息處理方面存在一些不足,因此基于分層計算的思想設計層次化的Transformer單元。

首先,輸入特征圖被均勻分成r組,并對每組進行獨立的Transformer層計算,以學習不同層次的特征。除第一層以外,往后每一層Transformer的輸入,均融合了上一層Transformer計算過后的輸出,以此來作為當前Transformer層的輸入。通過這種把不同層次的特征圖拼接在一起的方式,能夠增加模型的感受野,學習到多層次的特征,這進一步加強了全局信息與局部信息的融合效果。如果輸入特征圖的尺寸為C × H × W,經過均分后每組的尺寸為C/r × H × W。除第一層Transformer模塊以外,每層的輸入與上一層的輸出拼接,接收上一個層次提取的全局特征,然后將各個層的輸出進行拼接,最后通過一個Conv 1×1進行一個通道收縮,以避免STblock模塊大規模堆疊后增加模型的參數量和計算量。
對于全局特征的提取,采用了移動ViT(MobileViT)網絡[18]的展開與折疊計算方式,通過使用Transformer計算相同區域的特征塊,不僅能夠捕捉圖像全局信息,同時也能節約模型的計算成本開銷,計算過程如圖4所示。這種計算方式與單純ViT的區別在于不需要額外的位置編碼來添加位置信息。

首先,將特征圖C × H × W劃分為n個大小相同的特征塊XC,每個塊包含P個像素點。然后,將每個特征塊展開為一組特征序列,將n個特征塊中每個像素e∈{1, ···, P}通過L組Transformer來進行建模計算,Transformer使用多頭注意力(multi-head attention,MHA)[19]進行多次自注意力計算,以此來學習不同子空間的序列和位置信息,得到XU,如式(1)所示:
![]() |
其中,XU(e)表示經過Tranformer計算后的特征圖,XC(e)表示每個特征塊所有像素點,e表示像素點個數;P = W × H,W和H是預設好的每個特征塊的大小,默認大小為2 × 2,所以n的計算如式(2)所示:
![]() |
這種計算方式不僅有效避免了傳統的使用每個特征塊和其他所有特征塊進行自注意力計算所帶來冗余信息情況,也大大降低了模型中Transformer的計算成本開銷。
2 實驗和討論
2.1 數據集和實驗環境
本文HGSOC患者數據來自2013年1月—2019年12月在重慶醫科大學附屬第一醫院接受骨盆MRI檢查的181名患者,經手術和病理檢查確診患有HGSOC,其中包括106名術后復發患者和75名術后無復發患者。所有參與研究的患者均簽署了知情同意書。本研究通過了重慶醫科大學第一附屬醫院人類倫理委員會批準(批準編號:2022-K564),且獲得重慶醫科大學附屬第一醫院批準,可以使用相關數據。本文選取上述數據中的T1WI序列MRI檢查數據。
本文將每個MRI文件轉換為便攜式網絡圖形(portable network graphics,PNG)格式的圖像切片,并由經驗豐富的放射科醫師剔除不包含病灶區域的切片,共計4 211張有效圖片,如圖5所示,其卵巢腫瘤病灶區域由專業放射科醫生進行勾畫展示。將數據按照患者數以7:2:1的比例隨機劃分為訓練集、驗證集和測試集。

本次實驗環境的硬件條件為圖形處理單元RTX 3 060(NVIDIA Inc.,美國)和16 GB內存,軟件條件為編程軟件Python3.8(Python software foundation,美國)和深度學習框架PyTorch(1.12.0,Facebook,美國)。
模型的訓練迭代次數為100個周期,使用適應性矩估計(adaptive moment estimation,Adam)優化器更新模型的權重參數,學習率設為0.000 1,損失函數采用交叉熵損失,批處理大小設置為8,數據增強采用隨機水平或垂直翻轉等方法進行。
2.2 評價指標
為準確評估算法在分類中的表現,本次實驗選擇總體Acc來評價分類性能,由于HGSOC患者數量不平衡,Acc可能會被主類別扭曲。因此,靈敏度(sensitivity,Sens)、特異度(specificity,Spec)、精確率(precision,Pre)和F1分數也一并作為衡量模型性能和有效性的指標。其計算公式如式(3)~式(7)所示:
![]() |
![]() |
![]() |
![]() |
![]() |
其中,真陽性(true positive,TP)表示正類別中正確分類樣本的數量;真陰性(true negative, TN)表示負類別中正確分類樣本的數量;假陽性(false positive,FP)表示正類別中錯誤分類樣本的數量;假陰性(false negative,FN)是負類別中錯誤分類樣本的數量。
輕量級指標通過計算模型的參數量和計算量來衡量,計算量為模型運行一次所需要進行浮點運算的次數,一般來講計算量越大推理時間越長,參數量表示模型文件的大小,影響著模型訓練和推斷時對內存的占用量。模型的參數量和計算量的值均通過操作計數器庫(torch opcounter,THOP)函數進行計算。
2.3 患者臨床指標
所有HGSOC患者分為復發組與無復發組分別進行臨床統計,并計算每個臨床指標的P值。其中,年齡、術前癌抗原、人附睪蛋白4和最大腫瘤直徑這4個臨床指標通過均值方差進行計算表示;腫瘤位置(分為單邊和雙邊類型)、婦科腫瘤國際聯合會分期(分為Ⅲ和Ⅳ類型)、淋巴結轉移和孕激素受體通過統計患者個數進行表示,核抗原Ki-67因值為百分比,所以僅計算P值表示,如表1所示。

在輸入網絡之前,所有臨床指標的值都通過embedding層歸一化到[0,1]的范圍,以便模型更好地進行訓練。其中,歸一化的計算如式(8)所示:
![]() |
其中,x表示為某個臨床指標,i表示為某個患者,xi’表示HGSOC患者歸一化后的臨床指標值,xmax表示臨床指標的最大值,xmin表示臨床指標最小值,表示自然整數。
為了驗證臨床元數據與HGSOC患者的復發是否相關,對所有臨床數據進行了相關性分析如圖6所示。其中顏色越深相關系數數值越大,表示相關性越高。圖6中可以看到,各項臨床指標與患者標簽類別均存在一定的正向關聯,最大正相關系數數值為0.39,最小為0.04,這也證實了每位HGSOC患者的9個臨床數據指標對模型的復發預測均有一定的貢獻。雖然個別臨床指標之間存在負相關,最大負相關系數數值為? 0.16,最小為? 0.01,但本文所提出的模型在最后一層只計算預測類別與各臨床指標之間的權重值,因此并不會影響模型的預測性能。

2.4 消融實驗和分析
為了評估本文提出的網絡中設計的模塊的有效性,首先進行STblock模塊層次數量的實驗,確定模型最佳STblock層數,然后通過最優分層模型進行模塊化的消融實驗以及對比實驗。
消融實驗結果如表2和表3所示。從表2中的結果可以觀察到,模型的分層數量并不是越多越好,過多的分層反而會導致模型性能下降,其中粗體字表示當列指標所有對比最優數,未引入層次信息的STblock-1層其Acc都低于STblock-2層、STblock-3層和STblock-4層。在STblock-2層的情況下,模型性能達到最佳,相較于STblock-1層,Acc、Pre、Spec、F1分數均有所提高。這驗證了本文提出的STblock模塊分層架構具有良好的性能。雖然在STblock-2層的Sens有所下降,但Spec具有較大提升,并且其他各項指標都有一定的提升,充分說明了STblock模塊學習到的層次信息與患者的病理信息存在一定的關聯,能更好地辨別HGSOC患者是否存在復發的可能性,對于HGSOC患者的復發預測具有一定的意義。


使用分層數量為2的最優STblock模塊作為SlicerViT的結構標準,再對SlicerViT進行模塊化消融實驗,以驗證本文所提出的SlicerViT各模塊有效性,結果如表3所示。將基于經典倒殘差結構的卷積神經網絡作為基礎模型,首先逐步添加Ghost Conv和CA機制來驗證SCblock模塊的性能,然后再引入STblock模塊、STblock模塊深淺信息融合和臨床元數據融合決策。可以看出,用Ghost Conv代替Dwise Conv后,各項指標有所改善,同時基礎模型參數量略微減少,并且模型Acc有所提高,這證明了SCblock模塊的設計相較于經典倒殘差結構的優勢,也驗證了本文所引入的Ghost Conv具有良好的特征提取性能。在加入CA以后,雖然模型參數量略微增加,但提高了模型Acc,說明CA模塊能較好地提升模型局部特征提取能力,有效抑制無用特征干擾的同時只增加非常小的開銷。加入STblock模塊后,模型具有了全局信息的捕捉能力,Acc有較大提高,通過對STblock模塊進行深淺信息的深度融合,為模型的判斷提供了更多的依據,再次提高了模型的預測Acc,這充分驗證了STblock模塊的有效性能。最后將3個STblock的輸出拼接后進行一維展平,再融合每位患者臨床指標共同進行分類決策,最終SlicerViT的Acc達到了90.66%,這也體現了臨床數據對于HGSOC復發風險預測的重要性。
2.5 對比實驗和分析
將SlicerViT模型與本文選取的7個模型進行了對比實驗,為保證實驗的嚴謹性,實驗結果均為本文數據所劃分的測試集上的指標。本文選取了一些經典的輕量級卷積神經網絡如:移動網絡2(mobile network version 2,MobileNetV2)[20]、高效網絡(EfficientNet)[21]、鬼影網絡(GhostNet)[14]以及快速網絡(FasterNet)[22]、MobileViT[18]和快速ViT(LeViT)網絡[23],同時還有非輕量級的純卷積網絡(ConvNeXt)[24]作為對比,以體現出輕量級、非輕量級之間的差異性,實驗結果如表4所示。

從表4可見,帶有Transformer模塊的輕量級模型SlicerViT、MobileViT和LeViT在HGSOC患者復發預測方面表現優于其他基于卷積神經網絡的模型,證實了HGSOC患者MRI切片圖像的全局信息對于復發預測的重要性。其中,本文所提出的SlicerViT預測性能最佳,Acc最高。與MobileViT相比,SlicerViT在Acc、Pre、Sens和F1分數上均有所提高。因為STblock模塊使SlicerViT學習到了更多層次信息,所以模型的綜合性能更好,且參數量僅為MobileViT的1/2,計算量為其1/6。在所有模型中,SlicerViT的參數量和計算量最低,相較于ConvNeXt,不僅Acc更高,而且計算量和參數量均大幅減少。SlicerViT僅Spec略低于EfficientNet,但Acc遠高出EfficientNet,并且其他指標在所有對比模型中均最優。經對比實驗證明,SlicerViT更能兼顧輕量級與高性能的特點,也充分體現了本文所設計網絡的優勢。
為了更加直觀地體現各個對比模型的綜合性能,首先繪制了各對比模型的接收者操作特征曲線,如圖7所示。橫坐標假陽性率表示所有真實類別為陰性,模型預測為陽性的比例,縱坐標真陽性率則相反。右下角為各模型的AUC值,越接近1,模型性能越好。可以看出SlicerViT具有更好的綜合性能,在所有對比模型中AUC分數值最高。

2.5.1 熱力圖可視化對比
隨機選取4名HGSOC患者的原切片圖像進行模型的熱力圖可視化展示,如圖8所示,其中包括兩名復發患者和兩名不復發患者。熱力圖中顏色越紅區域表示模型的占比權重越重。

可以觀察到,有Transformer注意力機制的SlicerViT、MobileViT以及LeViT模型對整個卵巢癌組織都進行了關注,從直觀的角度上也驗證了全局信息對于復發預測的重要性,說明了卵巢癌各組織之間的潛在病理關系與HGSOC的復發風險預測存在一定的聯系。本文提出的SlicerViT關注區域幾乎覆蓋了整個卵巢組織,因此性能更優。其它的卷積神經網絡由于模型缺乏捕捉圖像全局信息的能力,所以僅關注圖像部分區域,預測Acc不高。
2.5.2 混淆矩陣對比
實驗的各個模型混淆矩陣圖如圖9所示。各個模型識別的假陽性HGSOC患者數量分別為:31、45、53、64、68、52、80、54名,其中SlicerViT模型識別假陽數最低,這也驗證了SlicerViT對于HGSOC患者的復發風險預測有良好的判斷性,相較于其他對比模型,能更好地識別出具有復發可能的HGSOC患者。

3 結束語
本文提出的HGSOC復發預測模型有效地解決了當前高級別漿液性卵巢癌復發預測模型計算成本高且未考慮卵巢內部組織之間的潛在病理關系的問題。本文先通過提出的SCblock模塊對圖像的局部特征進行建模;再使用STblock模塊來捕捉圖像所包含的全局信息,并通過獨特的分層設計使模型學習到了額外的多層次信息,加強了模型的表達能力;然后引入展開折疊的Transformer計算方式也有效降低了模型的計算成本開銷;最后融合HGSOC患者的臨床數據來共同決策復發風險類別,大大提高了模型的Acc。經實驗證明,SlicerVit不僅具有輕量級的特點而且同時具備能夠捕獲卵巢各組織之間潛在關系的高性能,不僅為HGSOC的復發風險預測提供了更多的思路,也進一步推動了其輔助診斷技術部署在邊緣設備上的發展。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:崔少國負責論文指導和審閱;唐藝菠負責算法和實驗設計、論文寫作與修改;萬皓明負責數據處理與分析;王銳負責實驗監察與分析;劉麗麗負責論文醫學相關知識指導。
倫理聲明:本研究通過了重慶醫科大學第一附屬醫院人類倫理委員會審批(批準編號:2022-K564)。