目前,術前腎結石的種類主要依靠人工進行識別,這種依賴人工知識的方式將直接導致分類準確率不高以及診斷結果不統一的問題。對此,本文提出了一種基于放射組學與深度學習相結合的腎結石種類識別框架,以期在高準確率的基礎上實現自動化的術前腎結石種類識別。首先,該框架使用放射組學方法提取三維(3D)卷積神經網絡淺層輸出的放射組學特征,并將提取的放射組學特征與卷積神經網絡中的深層特征相融合。然后,將融合特征經過正則化以及最小絕對值收斂和選擇算子(LASSO)處理。最后,利用輕量級梯度提升機(LightGBM)進行感染性和非感染性腎結石的識別。實驗結果表明,本文提出框架的術前腎結石種類識別準確率達到了84.5%。該框架可以有效地識別出感染性腎結石與非感染性腎結石,并為術前腎結石治療方案的制定和術后患者的康復提供有效幫助。
引用本文: 孫超, 倪軍, 劉建和, 李華鋒, 陶大鵬. 深度學習結合放射組學特征的腎結石種類識別. 生物醫學工程學雜志, 2024, 41(6): 1213-1220. doi: 10.7507/1001-5515.202310043 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
0 引言
腎結石病作為一種常見且多發的泌尿系統疾病[1],其發病率和流行率每年都在持續上升。患者即使在治療完成6~7年后仍有著高復發風險,給患者生活帶來了很多不便[2]。一般來說,若能提前明確患者體內的腎結石種類(包括:感染性腎結石和非感染性腎結石),將有助于醫生更好地制定術前治療措施并降低患者的復發風險,因此研究意義重大。目前,術前的腎結石種類判別通常依賴于醫生對患者的計算機斷層掃描(computed tomography,CT)影像的主觀解讀。然而,由于臨床經驗的差異,不同的醫生對同一個患者可能給出不同的腎結石種類判斷,從而影響最終治療效果。因此,設計一個客觀、精準的腎結石種類識別方法顯得尤為重要。
放射組學是一種醫學影像數據分析技術。它通過對CT、磁共振成像(magnetic resonance imaging,MRI)等醫學影像進行深入分析,可以提取出反映病理狀態的特征,從而為疾病的診斷和治療提供準確的依據[3-4]。近年來,放射組學在醫學影像領域得到了越來越廣泛的應用,并取得了顯著的成果[5-6]。例如,Huynh等[7]利用放射組學分析肺癌患者的治療情況。李瓊等[8]使用放射組學的方法對糖尿病性視網膜圖像進行分類。Zheng等[9]針對目前無法在體外檢測尿路結石成份這一臨床問題,采用放射組學技術在體外對尿路結石成份進行預測。雖然上述方法使用放射組學技術對腎結石特征進行了提取,但是未能夠充分地捕獲腎結石感染性和非感染性之間的病理特征差異,導致在后續的實驗中不能夠十分有效地區分出腎結石的種類。
近年來,由于能夠有效地從醫學數據中提取到高級的病理特征,深度學習模型逐漸成為了醫學領域的研究熱點[10-13]。對于醫學影像的病理診斷,深度學習模型中的卷積神經網絡由于能夠在短時間內對大量的醫學圖像進行分析并提取圖像的隱式特征,成為了一種十分有效的醫學影像分析方法。例如,何雪英等[14]采用卷積神經網絡實現了乳腺癌病理圖像的自動分類。Billones等[15]使用卷積神經網絡檢測阿爾茨海默病。Gao等[16]使用卷積神經網絡對大腦CT影像進行分類。但是,深度學習要達到較好的效果往往需要數千甚至數萬級的數據支持。而醫學影像數據集由于受到數據規范、個人隱私、采集系統差異等問題的限制,通常數據量不足千例。因而,直接使用卷積神經網絡對腎結石影像進行分類難以達到較高的準確率。
綜上所述,本文結合放射組學特征提取與深度學習二者的優勢,提出一種深度學習結合放射組學特征的腎結石種類識別框架。它能夠在有限的訓練數據下學習并提取出醫學影像中一定量的病理特征,進而獲得更加豐富的特征信息來輔助腎結石的種類識別。具體來說,本文所提框架使用放射組學的方法提取卷積神經網絡中淺層輸出的放射組學特征,并將其與卷積神經網絡深層語義特征融合。在此基礎上,結合最小絕對值收斂和選擇算子(least absolute shrinkage and selection operator,LASSO)特征篩選和輕量級梯度提升機(light gradient boosting machine,LightGBM)分類器的方法構建了腎結石種類識別框架[17-18]。本文利用該框架將放射組學特征與深度學習特征相融合,增加特征的豐富程度,以此來提高腎結石種類識別的效率。
1 數據集
1.1 數據來源
本文使用的數據集來自于昆明醫科大學第二附屬醫院提供的私有尿路結石專病數據庫,本文課題組已獲授權可以使用該數據集相關數據。該數據集覆蓋了從2016年01月—2021年12月期間采集的患者數據,在去除造影劑殘留和不便于進行標注的數據后,共獲得514例腎結石患者的術前非增強CT影像。在術后,通過傅里葉變換紅外光譜檢測結石成份,將其分為兩類:感染性腎結石165例,非感染性腎結石349例。本文將感染性腎結石與非感染性腎結石分別標注為1和0,作為一個二分類問題進行處理。另外,該數據集也包含了與原始CT影像一一對應的結石大小與位置的分割標注數據,當像素屬于結石分類時,對應的分割數據標注數值1,反之則為0。部分腎結石CT影像的示例如圖1所示。

1.2 數據預處理
考慮到CT影像中腎結石的形態和位置具有不確定性及標注偏差,本文將數據輸入到卷積神經網絡之前對數據進行預處理。本文使用的腎結石CT影像由多個二維(two-dimentional,2D)切片組成,其數據的維度大小為H × W × D。其中,H和W是CT切片的長和高,本文中取固定數值,均為512個像素;D是切片數量,數值范圍為89~846。由于切片數量不一致且切片中包含很多與分類無關的背景信息,因此在確定數據集所有腎結石的位置和大小后,將CT影像統一裁剪為136 × 118 × 110的三維(three-dimentional,3D)數據,并且原始數據經過裁剪后的每一個切片都包括完整的腎結石數據。其中,切片數量統一調整為110,當切片大小和數量不夠時,使用0填充數據。本文的數據裁剪過程如圖2所示。

2 方法
為充分利用放射組學和深度學習方法的協同優勢來提高腎結石種類識別的準確率,本文構建了一種放射組學結合深度學習的腎結石種類識別框架,整體結構如圖3所示。具體來說,首先構建一個用于分類的3D卷積神經網絡,利用該網絡提取腎結石CT影像中的深度學習特征,與此同時,在另一個并行的放射組學模塊中獲取3D卷積神經網絡淺層特征圖的形態特征、一階統計特征以及紋理特征;然后,將放射組學特征與卷積神經網絡中的深層特征相融合,再對融合后的特征進行正則化和特征篩選并送入LightGBM分類器中,以實現腎結石種類的識別。

2.1 特征提取網絡
2.1.1 卷積神經網絡構建
3D卷積神經網絡可以提取圖像中(如紋理等)的局部特征,通過整合這些特征可以得到更高級的局部特征或者全局特征,從而實現對圖像的識別。3D卷積神經網絡主要由3D卷積(3D convolution,Conv3D)運算組成,運算過程如圖4所示,一次3D卷積運算結果s的計算方式如式(1)所示:

![]() |
式中,M為3D特征圖,K為3D卷積核,i為3D卷積核長度方向上的索引,j為3D卷積核寬度方向上的索引,k為3D卷積核深度方向上的索引,l為3D卷積核的長度,m為3D卷積核的寬度,n為3D卷積核的深度。經過3D卷積運算后輸出維度為D0、H0、W0,如式(2)所示:
![]() |
式中,Di、Hi、Wi表示輸入數據的維度,表示填補參數,
表示卷積核大小,
表示卷積步長。
由于使用3D卷積能夠在保留腎結石信息完整性的基礎上有效地提取腎結石CT影像切片之間的關聯信息,因此本文構建了一個3D卷積神經網絡來提取腎結石CT影像的多層級深度特征。3D卷積神經網絡的具體參數如表1所示,表1中網絡結構包含的操作包括:3D卷積、批歸一化(batch normalization,BatchNorm)、3D最大池化(MaxPooling3D)、3D平均池化(AveragePooling3D)、展平(flatten,Fla)、全連接(full connection,FC)、丟棄(dropout)。

該卷積神經網絡包含15層。網絡的輸入維度是136 × 118 × 110 × 1,其中136 × 118 × 110表示每個樣本輸入時的大小,1表示通道數。樣本輸入后經過一個3D卷積、一個批歸一化和一個3D最大池化,以此提取腎結石CT影像的淺層特征。在圖像深層特征提取的過程中,本文使用了3組殘差模塊來解決網絡梯度消失的問題。同時,在每個殘差模塊后跟隨了一個池化層來降低特征輸出維度,以此提高訓練效率。之后,將二維特征展平并降維到一維矢量特征來對齊全連接層從而實現分類任務。其中,本文采用2個全連接層對特征進行降維,分別輸出64維和512維的特征,這樣可以有效地解決展平后特征數量過多的問題。同時,為了應對網絡在訓練過程中出現的過擬合問題,還設置了網絡隨機棄置率,通過隨機丟棄網絡中的部分神經元來增強模型的泛化能力。最終通過全連接層和柔性最大(softmax)激活函數得到2 × 1的概率張量來獲得分類結果。網絡訓練使用二分類交叉熵損失函數進行訓練,損失函數loss如式(3)所示:
![]() |
式中,n表示樣本數量,表示網絡預測概率,
表示真實標簽。
2.1.2 卷積神經網絡特征提取
隨著網絡層數的加深,卷積神經網絡能夠提取到CT影像中更高級的語義特征,這些特征中隱含著用于識別腎結石種類的關鍵信息。通過將這些高級語義特征與放射組學特征相結合,能夠有效提升模型對腎結石的分類準確率。在特征提取部分,本文將卷積神經網絡中全連接層1和全連接層2的輸出作為代表腎結石CT影像深層語義的深度學習特征,并與通過網絡淺層輸出得到的放射組學特征相融合。通過卷積神經網絡提取到的深度學習特征Fdl表示如式(4)所示:
![]() |
式中, Concat表示拼接,Fdl-1表示表1中全連接層1輸出的特征,Fdl-2表示表1中全連接層2輸出的特征,如式(5)所示:
![]() |
式中,X表示樣本輸入,3DConNetP表示3D卷積神經網絡平均池化層的輸出,Fla表示展平,FC表示全連接。
2.2 放射組學特征提取
放射組學的特征提取方法能夠有效地將高通量的醫學影像自動轉化為可挖掘的特征數據。通過放射組學方法獲取的病理信息特征,在病情診斷與分析中可以發揮重要的作用。在實際應用中,小波變換和拉普拉斯變換是放射組學中常用的特征提取方法。其中,小波變換擁有比較完善的重構能力,在對圖像分解和重組過程中基本上沒有信息損失和冗余。而拉普拉斯變換通過計算圖像空間上的二階導數并使用拉普拉斯算子對圖像進行濾波,強調圖像中灰度變化的區域,灰度變化越大,數值越大。
本文將卷積神經網絡中的第一個池化層的淺層特征圖通過通道維度平均化操作處理后,作為放射組學方法的輸入。其中,淺層特征圖的維度為57 × 53 × 66 × 64,其中,64表示通道數量,經過通道維度上的平均操作之后,得到維度為57 × 53 × 66的放射組學的輸入圖像。值得注意的是,本文使用放射組學方法提取特征時,先將輸入圖像經過小波變換和拉普拉斯變換得到對應的變換圖像。然后,分別提取出原始輸入圖像、小波變換圖像和拉普拉斯濾波圖像中的形態特征、一階統計特征和紋理特征,具體流程如圖5所示。最后,將放射組學提取到的各類特征拼接后得到完整的放射組學特征Fra,如式(6)所示:

![]() |
式中,F0表示由原始圖像提取到的特征,Fw表示由小波變換提取到的特征,Fl表示由拉普拉斯變換提取到的特征,Concat表示拼接。
2.3 特征篩選與分類
深度學習特征和放射組學特征二者各有優勢。本文將提取到的深度學習特征與放射組學特征相融合,以整合兩種特征表達的優勢形成新的融合特征Fco,如式(7)所示:
![]() |
式中,Concat表示拼接,Fdl表示深度學習特征,Fra表示放射組學特征。提取到的特征由于數值分布不均勻的問題,需要進行正則化處理。經過正則化后的融合特征Fkcor如式(8)所示:
![]() |
式中,Fkco表示融合特征中的第k個特征,mk表示第k個特征的平均值,stdk表示第k個特征的標準差,mk與stdk具體表示如式(9)所示:
![]() |
式中,i表示第i個樣本,n表示樣本總數。
由于組成融合特征的原特征之間存在一定的相似性,為了提高特征的利用率并去除冗余特征,進而提高模型的穩定性,本文使用LASSO方法進行特征篩選。LASSO在最小二乘法的后面添加了L1正則項,使得特征系數被約束。LASSO的參數估計函數如式(10)所示:
![]() |
式中,λ表示調節系數,N表示樣本數量,n表示第n個樣本,yn表示第n個樣本對應的標簽,p表示特征總數,對第j個特征Fcor, j,βj表示該特征對應的系數,βj絕對值越小表示該特征對腎結石種類識別越不重要,通常使用坐標下降法計算得到[19]。本文通過設定閾值的方式對特征進行篩選。篩選后的特征
如式(11)所示:
![]() |
式中,表示第j個特征的LASSO系數,t表示篩選的閾值。
經過特征篩選后,本文使用LightGBM分類器對腎結石種類進行識別。LightGBM屬于集成學習,集成學習的目的是通過結合多個弱學習器的預測結果,來改善弱學習器的泛化能力和魯棒性。LightGBM采用了梯度提升決策樹算法,并引入了一些優化策略,如葉子分裂算法和直方圖算法,以提高模型的準確率和泛化能力。
3 實驗結果
3.1 評價指標
本文采用總準確率(overall accuracy,OA)作為模型的主要性能評估標準,如式(12)所示:
![]() |
式中,真陽性(true positive,TP)表示模型正確分類感染性腎結石的樣本總數,假陽性(false positive,FP)表示錯誤分類感染性腎結石的樣本總數,真陰性(true negative,TN)表示模型正確分類非感染性腎結石的樣本總數,假陰性(false negative,FN)表示模型錯誤分類非感染性腎結石的樣本總數。
此外,本文還使用了受試者工作特征曲線(receiver operating characteristic curve,ROC)下的面積(area under curve,AUC)、精準率(precision,Pre)、召回率(recall,Rec)與F1分數作為性能評估指標。ROC曲線通過將真陽性率(true positive rate,TPR)和假陽性率(false positive rate,FPR)作為橫縱坐標來描繪分類器在不同閾值下的性能。這些指標的計算公式,如式(13)~式(17)所示:
![]() |
![]() |
![]() |
![]() |
![]() |
3.2 卷積神經網絡訓練與特征提取
3.2.1 訓練環境
本文實驗所用計算機的操作系統是Linux(Red Hat Inc,美國),且使用的是深度學習框架Tensorflow(Google Brain Inc,美國)。在網絡訓練過程中,共進行30次迭代,批處理大小(batch size)設置為6,學習率設置為0.000 05,梯度優化器選用自適應矩估計(adaptive moment estimation,Adam),顯卡是NVIDIA(GeForce RTX
隨著網絡層數的逐漸加深,卷積神經網絡逐漸學習到腎結石CT影像中隱含的腎結石種類信息的高級語義特征。訓練完成后,將卷積神經網絡全連接層1輸出的64個特征與全連接層2輸出的512個特征提取出來,共獲得576個深度學習特征。此外,本文使用放射組學特征提取開源軟件包Pyradiomics 3.0.1(3D Slicer Community,美國)從卷積神經網絡淺層特征圖中提取到了
3.2.2 特征篩選
本文使用LASSO方法過濾掉了大量的冗余和無用的特征,在篩選出的特征中,較多地保留了深度學習特征,較少地保留了放射組學特征。融合特征被篩選后還剩下4個全連接層1的特征、43個全連接層2的特征、23個小波變換特征、16個拉普拉斯變換特征和2個原始圖像特征。特征篩選前后的特征數量如圖6所示。

3.3 實驗結果
3.3.1 消融實驗
為驗證所提出的深度學習結合放射組學方法的有效性,本文進行了三組有效的消融實驗,分別為:使用3D卷積神經網絡進行識別、只用放射組學特征進行識別、只用深度學習特征進行識別。實驗結果如表2所示。從表2中可以看出,使用3D卷積神經網絡進行腎結石種類識別的OA只有79.6%。只用放射組學特征進行識別或者只用深度學習特征進行識別,OA只有83.5%。對兩種特征進行融合后,相比于只使用單一的特征OA稍有提升;相比于使用3D卷積神經網絡進行識別,OA提升明顯。由此說明,深度學習結合放射組學的方法有效地提升了腎結石種類識別的OA。

3.3.2 篩選方法對比實驗
為了驗證本文中所使用的篩選方法的優越性,在本文腎結石CT影像數據集的基礎上,與文獻[20-22]中提及的不同篩選方法進行了對比,實驗結果如表3所示。相對于其它的篩選方法,本文所使用的LASSO篩選方法的各項評價指標都是最高的。證明了LASSO方法能夠有效地篩選出區分腎結石的感染性與否的特征,進而提升腎結石種類識別的OA。

3.3.3 分類器對比實驗
為了證明LightGBM分類器的優越性,在本文腎結石CT影像數據集的基礎上,使用不同的集成學習分類器進行了對比實驗,分別是來自文獻[23]的“隨機森林”、來自文獻[24]的“極限隨機樹”、來自文獻[25]的“極端梯度提升(extreme gradient boosting,XGBoost)法”,對比結果如表4所示。可以看到,本文所用的LightGBM分類器的OA和F1分數都是最高的。相比于其它分類器,本文所提出的框架使用LightGBM分類器在腎結石種類識別上的OA有一定的提升,這說明LightGBM具有更好的腎結石種類識別能力和更好的泛化能力。

3.3.4 與其它分類方法對比實驗
為了證明本文所提框架的有效性,本文與其它來自文獻[26-30]的分類方法在本文腎結石CT影像數據集上進行了對比,實驗結果如表5所示。從表5中可以看到,本文提出的框架的OA比其它分類方法均高。另外,AUC與F1分數也說明了本文所提出的框架在腎結石種類識別上具有更好的魯棒性和泛化能力。

4 結論
本文通過將放射組學特征與深度學習特征進行融合,并結合集成學習分類器,構建了一個術前腎結石種類識別框架,OA達到了84.5%。在實驗過程中,由于存在數據維度不一致和腎結石位置和形態不固定的問題,首先對數據進行了預處理。此外,本文在特征融合后進行了特征篩選,去除了冗余和無用的特征,在降低了特征數量的同時,有效地提升了識別效率。相比于其它的分類方法,本文所提出框架的OA更高,并且魯棒性和泛化能力更強。實驗證明,將深度學習特征和放射組學特征融合使用,能夠有效地提升腎結石種類識別的效果。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:孫超主要負責項目主持、平臺搭建、算法程序設計、協調溝通以及計劃安排;倪軍主要負責實驗流程、數據記錄與分析、論文編寫以及算法程序設計;劉建和、李華峰和陶大鵬主要負責提供實驗指導,論文審閱修訂。
0 引言
腎結石病作為一種常見且多發的泌尿系統疾病[1],其發病率和流行率每年都在持續上升。患者即使在治療完成6~7年后仍有著高復發風險,給患者生活帶來了很多不便[2]。一般來說,若能提前明確患者體內的腎結石種類(包括:感染性腎結石和非感染性腎結石),將有助于醫生更好地制定術前治療措施并降低患者的復發風險,因此研究意義重大。目前,術前的腎結石種類判別通常依賴于醫生對患者的計算機斷層掃描(computed tomography,CT)影像的主觀解讀。然而,由于臨床經驗的差異,不同的醫生對同一個患者可能給出不同的腎結石種類判斷,從而影響最終治療效果。因此,設計一個客觀、精準的腎結石種類識別方法顯得尤為重要。
放射組學是一種醫學影像數據分析技術。它通過對CT、磁共振成像(magnetic resonance imaging,MRI)等醫學影像進行深入分析,可以提取出反映病理狀態的特征,從而為疾病的診斷和治療提供準確的依據[3-4]。近年來,放射組學在醫學影像領域得到了越來越廣泛的應用,并取得了顯著的成果[5-6]。例如,Huynh等[7]利用放射組學分析肺癌患者的治療情況。李瓊等[8]使用放射組學的方法對糖尿病性視網膜圖像進行分類。Zheng等[9]針對目前無法在體外檢測尿路結石成份這一臨床問題,采用放射組學技術在體外對尿路結石成份進行預測。雖然上述方法使用放射組學技術對腎結石特征進行了提取,但是未能夠充分地捕獲腎結石感染性和非感染性之間的病理特征差異,導致在后續的實驗中不能夠十分有效地區分出腎結石的種類。
近年來,由于能夠有效地從醫學數據中提取到高級的病理特征,深度學習模型逐漸成為了醫學領域的研究熱點[10-13]。對于醫學影像的病理診斷,深度學習模型中的卷積神經網絡由于能夠在短時間內對大量的醫學圖像進行分析并提取圖像的隱式特征,成為了一種十分有效的醫學影像分析方法。例如,何雪英等[14]采用卷積神經網絡實現了乳腺癌病理圖像的自動分類。Billones等[15]使用卷積神經網絡檢測阿爾茨海默病。Gao等[16]使用卷積神經網絡對大腦CT影像進行分類。但是,深度學習要達到較好的效果往往需要數千甚至數萬級的數據支持。而醫學影像數據集由于受到數據規范、個人隱私、采集系統差異等問題的限制,通常數據量不足千例。因而,直接使用卷積神經網絡對腎結石影像進行分類難以達到較高的準確率。
綜上所述,本文結合放射組學特征提取與深度學習二者的優勢,提出一種深度學習結合放射組學特征的腎結石種類識別框架。它能夠在有限的訓練數據下學習并提取出醫學影像中一定量的病理特征,進而獲得更加豐富的特征信息來輔助腎結石的種類識別。具體來說,本文所提框架使用放射組學的方法提取卷積神經網絡中淺層輸出的放射組學特征,并將其與卷積神經網絡深層語義特征融合。在此基礎上,結合最小絕對值收斂和選擇算子(least absolute shrinkage and selection operator,LASSO)特征篩選和輕量級梯度提升機(light gradient boosting machine,LightGBM)分類器的方法構建了腎結石種類識別框架[17-18]。本文利用該框架將放射組學特征與深度學習特征相融合,增加特征的豐富程度,以此來提高腎結石種類識別的效率。
1 數據集
1.1 數據來源
本文使用的數據集來自于昆明醫科大學第二附屬醫院提供的私有尿路結石專病數據庫,本文課題組已獲授權可以使用該數據集相關數據。該數據集覆蓋了從2016年01月—2021年12月期間采集的患者數據,在去除造影劑殘留和不便于進行標注的數據后,共獲得514例腎結石患者的術前非增強CT影像。在術后,通過傅里葉變換紅外光譜檢測結石成份,將其分為兩類:感染性腎結石165例,非感染性腎結石349例。本文將感染性腎結石與非感染性腎結石分別標注為1和0,作為一個二分類問題進行處理。另外,該數據集也包含了與原始CT影像一一對應的結石大小與位置的分割標注數據,當像素屬于結石分類時,對應的分割數據標注數值1,反之則為0。部分腎結石CT影像的示例如圖1所示。

1.2 數據預處理
考慮到CT影像中腎結石的形態和位置具有不確定性及標注偏差,本文將數據輸入到卷積神經網絡之前對數據進行預處理。本文使用的腎結石CT影像由多個二維(two-dimentional,2D)切片組成,其數據的維度大小為H × W × D。其中,H和W是CT切片的長和高,本文中取固定數值,均為512個像素;D是切片數量,數值范圍為89~846。由于切片數量不一致且切片中包含很多與分類無關的背景信息,因此在確定數據集所有腎結石的位置和大小后,將CT影像統一裁剪為136 × 118 × 110的三維(three-dimentional,3D)數據,并且原始數據經過裁剪后的每一個切片都包括完整的腎結石數據。其中,切片數量統一調整為110,當切片大小和數量不夠時,使用0填充數據。本文的數據裁剪過程如圖2所示。

2 方法
為充分利用放射組學和深度學習方法的協同優勢來提高腎結石種類識別的準確率,本文構建了一種放射組學結合深度學習的腎結石種類識別框架,整體結構如圖3所示。具體來說,首先構建一個用于分類的3D卷積神經網絡,利用該網絡提取腎結石CT影像中的深度學習特征,與此同時,在另一個并行的放射組學模塊中獲取3D卷積神經網絡淺層特征圖的形態特征、一階統計特征以及紋理特征;然后,將放射組學特征與卷積神經網絡中的深層特征相融合,再對融合后的特征進行正則化和特征篩選并送入LightGBM分類器中,以實現腎結石種類的識別。

2.1 特征提取網絡
2.1.1 卷積神經網絡構建
3D卷積神經網絡可以提取圖像中(如紋理等)的局部特征,通過整合這些特征可以得到更高級的局部特征或者全局特征,從而實現對圖像的識別。3D卷積神經網絡主要由3D卷積(3D convolution,Conv3D)運算組成,運算過程如圖4所示,一次3D卷積運算結果s的計算方式如式(1)所示:

![]() |
式中,M為3D特征圖,K為3D卷積核,i為3D卷積核長度方向上的索引,j為3D卷積核寬度方向上的索引,k為3D卷積核深度方向上的索引,l為3D卷積核的長度,m為3D卷積核的寬度,n為3D卷積核的深度。經過3D卷積運算后輸出維度為D0、H0、W0,如式(2)所示:
![]() |
式中,Di、Hi、Wi表示輸入數據的維度,表示填補參數,
表示卷積核大小,
表示卷積步長。
由于使用3D卷積能夠在保留腎結石信息完整性的基礎上有效地提取腎結石CT影像切片之間的關聯信息,因此本文構建了一個3D卷積神經網絡來提取腎結石CT影像的多層級深度特征。3D卷積神經網絡的具體參數如表1所示,表1中網絡結構包含的操作包括:3D卷積、批歸一化(batch normalization,BatchNorm)、3D最大池化(MaxPooling3D)、3D平均池化(AveragePooling3D)、展平(flatten,Fla)、全連接(full connection,FC)、丟棄(dropout)。

該卷積神經網絡包含15層。網絡的輸入維度是136 × 118 × 110 × 1,其中136 × 118 × 110表示每個樣本輸入時的大小,1表示通道數。樣本輸入后經過一個3D卷積、一個批歸一化和一個3D最大池化,以此提取腎結石CT影像的淺層特征。在圖像深層特征提取的過程中,本文使用了3組殘差模塊來解決網絡梯度消失的問題。同時,在每個殘差模塊后跟隨了一個池化層來降低特征輸出維度,以此提高訓練效率。之后,將二維特征展平并降維到一維矢量特征來對齊全連接層從而實現分類任務。其中,本文采用2個全連接層對特征進行降維,分別輸出64維和512維的特征,這樣可以有效地解決展平后特征數量過多的問題。同時,為了應對網絡在訓練過程中出現的過擬合問題,還設置了網絡隨機棄置率,通過隨機丟棄網絡中的部分神經元來增強模型的泛化能力。最終通過全連接層和柔性最大(softmax)激活函數得到2 × 1的概率張量來獲得分類結果。網絡訓練使用二分類交叉熵損失函數進行訓練,損失函數loss如式(3)所示:
![]() |
式中,n表示樣本數量,表示網絡預測概率,
表示真實標簽。
2.1.2 卷積神經網絡特征提取
隨著網絡層數的加深,卷積神經網絡能夠提取到CT影像中更高級的語義特征,這些特征中隱含著用于識別腎結石種類的關鍵信息。通過將這些高級語義特征與放射組學特征相結合,能夠有效提升模型對腎結石的分類準確率。在特征提取部分,本文將卷積神經網絡中全連接層1和全連接層2的輸出作為代表腎結石CT影像深層語義的深度學習特征,并與通過網絡淺層輸出得到的放射組學特征相融合。通過卷積神經網絡提取到的深度學習特征Fdl表示如式(4)所示:
![]() |
式中, Concat表示拼接,Fdl-1表示表1中全連接層1輸出的特征,Fdl-2表示表1中全連接層2輸出的特征,如式(5)所示:
![]() |
式中,X表示樣本輸入,3DConNetP表示3D卷積神經網絡平均池化層的輸出,Fla表示展平,FC表示全連接。
2.2 放射組學特征提取
放射組學的特征提取方法能夠有效地將高通量的醫學影像自動轉化為可挖掘的特征數據。通過放射組學方法獲取的病理信息特征,在病情診斷與分析中可以發揮重要的作用。在實際應用中,小波變換和拉普拉斯變換是放射組學中常用的特征提取方法。其中,小波變換擁有比較完善的重構能力,在對圖像分解和重組過程中基本上沒有信息損失和冗余。而拉普拉斯變換通過計算圖像空間上的二階導數并使用拉普拉斯算子對圖像進行濾波,強調圖像中灰度變化的區域,灰度變化越大,數值越大。
本文將卷積神經網絡中的第一個池化層的淺層特征圖通過通道維度平均化操作處理后,作為放射組學方法的輸入。其中,淺層特征圖的維度為57 × 53 × 66 × 64,其中,64表示通道數量,經過通道維度上的平均操作之后,得到維度為57 × 53 × 66的放射組學的輸入圖像。值得注意的是,本文使用放射組學方法提取特征時,先將輸入圖像經過小波變換和拉普拉斯變換得到對應的變換圖像。然后,分別提取出原始輸入圖像、小波變換圖像和拉普拉斯濾波圖像中的形態特征、一階統計特征和紋理特征,具體流程如圖5所示。最后,將放射組學提取到的各類特征拼接后得到完整的放射組學特征Fra,如式(6)所示:

![]() |
式中,F0表示由原始圖像提取到的特征,Fw表示由小波變換提取到的特征,Fl表示由拉普拉斯變換提取到的特征,Concat表示拼接。
2.3 特征篩選與分類
深度學習特征和放射組學特征二者各有優勢。本文將提取到的深度學習特征與放射組學特征相融合,以整合兩種特征表達的優勢形成新的融合特征Fco,如式(7)所示:
![]() |
式中,Concat表示拼接,Fdl表示深度學習特征,Fra表示放射組學特征。提取到的特征由于數值分布不均勻的問題,需要進行正則化處理。經過正則化后的融合特征Fkcor如式(8)所示:
![]() |
式中,Fkco表示融合特征中的第k個特征,mk表示第k個特征的平均值,stdk表示第k個特征的標準差,mk與stdk具體表示如式(9)所示:
![]() |
式中,i表示第i個樣本,n表示樣本總數。
由于組成融合特征的原特征之間存在一定的相似性,為了提高特征的利用率并去除冗余特征,進而提高模型的穩定性,本文使用LASSO方法進行特征篩選。LASSO在最小二乘法的后面添加了L1正則項,使得特征系數被約束。LASSO的參數估計函數如式(10)所示:
![]() |
式中,λ表示調節系數,N表示樣本數量,n表示第n個樣本,yn表示第n個樣本對應的標簽,p表示特征總數,對第j個特征Fcor, j,βj表示該特征對應的系數,βj絕對值越小表示該特征對腎結石種類識別越不重要,通常使用坐標下降法計算得到[19]。本文通過設定閾值的方式對特征進行篩選。篩選后的特征
如式(11)所示:
![]() |
式中,表示第j個特征的LASSO系數,t表示篩選的閾值。
經過特征篩選后,本文使用LightGBM分類器對腎結石種類進行識別。LightGBM屬于集成學習,集成學習的目的是通過結合多個弱學習器的預測結果,來改善弱學習器的泛化能力和魯棒性。LightGBM采用了梯度提升決策樹算法,并引入了一些優化策略,如葉子分裂算法和直方圖算法,以提高模型的準確率和泛化能力。
3 實驗結果
3.1 評價指標
本文采用總準確率(overall accuracy,OA)作為模型的主要性能評估標準,如式(12)所示:
![]() |
式中,真陽性(true positive,TP)表示模型正確分類感染性腎結石的樣本總數,假陽性(false positive,FP)表示錯誤分類感染性腎結石的樣本總數,真陰性(true negative,TN)表示模型正確分類非感染性腎結石的樣本總數,假陰性(false negative,FN)表示模型錯誤分類非感染性腎結石的樣本總數。
此外,本文還使用了受試者工作特征曲線(receiver operating characteristic curve,ROC)下的面積(area under curve,AUC)、精準率(precision,Pre)、召回率(recall,Rec)與F1分數作為性能評估指標。ROC曲線通過將真陽性率(true positive rate,TPR)和假陽性率(false positive rate,FPR)作為橫縱坐標來描繪分類器在不同閾值下的性能。這些指標的計算公式,如式(13)~式(17)所示:
![]() |
![]() |
![]() |
![]() |
![]() |
3.2 卷積神經網絡訓練與特征提取
3.2.1 訓練環境
本文實驗所用計算機的操作系統是Linux(Red Hat Inc,美國),且使用的是深度學習框架Tensorflow(Google Brain Inc,美國)。在網絡訓練過程中,共進行30次迭代,批處理大小(batch size)設置為6,學習率設置為0.000 05,梯度優化器選用自適應矩估計(adaptive moment estimation,Adam),顯卡是NVIDIA(GeForce RTX
隨著網絡層數的逐漸加深,卷積神經網絡逐漸學習到腎結石CT影像中隱含的腎結石種類信息的高級語義特征。訓練完成后,將卷積神經網絡全連接層1輸出的64個特征與全連接層2輸出的512個特征提取出來,共獲得576個深度學習特征。此外,本文使用放射組學特征提取開源軟件包Pyradiomics 3.0.1(3D Slicer Community,美國)從卷積神經網絡淺層特征圖中提取到了
3.2.2 特征篩選
本文使用LASSO方法過濾掉了大量的冗余和無用的特征,在篩選出的特征中,較多地保留了深度學習特征,較少地保留了放射組學特征。融合特征被篩選后還剩下4個全連接層1的特征、43個全連接層2的特征、23個小波變換特征、16個拉普拉斯變換特征和2個原始圖像特征。特征篩選前后的特征數量如圖6所示。

3.3 實驗結果
3.3.1 消融實驗
為驗證所提出的深度學習結合放射組學方法的有效性,本文進行了三組有效的消融實驗,分別為:使用3D卷積神經網絡進行識別、只用放射組學特征進行識別、只用深度學習特征進行識別。實驗結果如表2所示。從表2中可以看出,使用3D卷積神經網絡進行腎結石種類識別的OA只有79.6%。只用放射組學特征進行識別或者只用深度學習特征進行識別,OA只有83.5%。對兩種特征進行融合后,相比于只使用單一的特征OA稍有提升;相比于使用3D卷積神經網絡進行識別,OA提升明顯。由此說明,深度學習結合放射組學的方法有效地提升了腎結石種類識別的OA。

3.3.2 篩選方法對比實驗
為了驗證本文中所使用的篩選方法的優越性,在本文腎結石CT影像數據集的基礎上,與文獻[20-22]中提及的不同篩選方法進行了對比,實驗結果如表3所示。相對于其它的篩選方法,本文所使用的LASSO篩選方法的各項評價指標都是最高的。證明了LASSO方法能夠有效地篩選出區分腎結石的感染性與否的特征,進而提升腎結石種類識別的OA。

3.3.3 分類器對比實驗
為了證明LightGBM分類器的優越性,在本文腎結石CT影像數據集的基礎上,使用不同的集成學習分類器進行了對比實驗,分別是來自文獻[23]的“隨機森林”、來自文獻[24]的“極限隨機樹”、來自文獻[25]的“極端梯度提升(extreme gradient boosting,XGBoost)法”,對比結果如表4所示。可以看到,本文所用的LightGBM分類器的OA和F1分數都是最高的。相比于其它分類器,本文所提出的框架使用LightGBM分類器在腎結石種類識別上的OA有一定的提升,這說明LightGBM具有更好的腎結石種類識別能力和更好的泛化能力。

3.3.4 與其它分類方法對比實驗
為了證明本文所提框架的有效性,本文與其它來自文獻[26-30]的分類方法在本文腎結石CT影像數據集上進行了對比,實驗結果如表5所示。從表5中可以看到,本文提出的框架的OA比其它分類方法均高。另外,AUC與F1分數也說明了本文所提出的框架在腎結石種類識別上具有更好的魯棒性和泛化能力。

4 結論
本文通過將放射組學特征與深度學習特征進行融合,并結合集成學習分類器,構建了一個術前腎結石種類識別框架,OA達到了84.5%。在實驗過程中,由于存在數據維度不一致和腎結石位置和形態不固定的問題,首先對數據進行了預處理。此外,本文在特征融合后進行了特征篩選,去除了冗余和無用的特征,在降低了特征數量的同時,有效地提升了識別效率。相比于其它的分類方法,本文所提出框架的OA更高,并且魯棒性和泛化能力更強。實驗證明,將深度學習特征和放射組學特征融合使用,能夠有效地提升腎結石種類識別的效果。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:孫超主要負責項目主持、平臺搭建、算法程序設計、協調溝通以及計劃安排;倪軍主要負責實驗流程、數據記錄與分析、論文編寫以及算法程序設計;劉建和、李華峰和陶大鵬主要負責提供實驗指導,論文審閱修訂。