臨床使用疑似溶血血漿易引發體外溶血癥,其癥狀包括心衰、嚴重貧血等。將深度學習方法應用于血漿圖像能顯著提高識別精度,因此本文提出一種基于改進型“你只看一次”系列網絡第5代版本(YOLOv5)的血漿品質檢測模型。然后,在血漿數據集上引入本文模型和評價體系,最終分類識別的平均精度均值達到98.7%。本文實驗結果表明,通過算法網絡中的全維動態卷積、分離式核注意力池化、殘差雙向信息融合以及重參數化模塊組合,能高效獲取空間映射特征信息,提高血漿品質檢測的平均識別精確度。綜上,本文方法可以實現對血漿圖像的高效檢測,為預防體外溶血癥提供了一種具有應用價值的檢測方法。
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
0 引言
溶血,通常是指由于紅細胞膜破裂后游離血紅蛋白釋放到周圍組織液中,導致血漿顏色泛紅的現象[1]。該現象體內發生概率較低,但不排除由于感染、毒性作用等因素造成體內溶血[2]。雖然全血、血漿和逐漸溶血的血制品顏色存在明顯差異[3],但血漿疑似溶血暫無界定標準。經人體采集的全血經高速離心后得到的血漿,可能會有少部分疑似溶血和脂肪血個例,一旦病患誤輸會導致臨床觀察同急性溶血癥一致[4-5]。而在生物醫學檢測方面,血漿疑似溶血會影響生物稀釋、免疫測定等項目的分析結果。有研究針對血漿疑似溶血與脂肪血進行生化檢驗統計分析,實驗結果表明,血漿疑似溶血易導致常規臨床化驗計量錯誤[6]。也有研究對血漿疑似溶血的原因與急診采血護理進行了綜合分析,結果顯示血漿疑似溶血會導致各類自動化設備檢測結果產生嚴重偏差[7]。
目前,判斷血漿是否疑似溶血,最常用的方法仍然是人工目視,但相關研究表明,目視法因主觀因素較強,缺乏科學客觀的指標依據,以該方法定性的血漿會影響臨床使用,且需配備大量人力資源進行人工區分[8-10]。與目視法檢測相比,醫學生化分析成為血漿疑似溶血檢測的優選方案[11-12];而采用基于溶血指數(hemolysis index,HI)的自動化定量檢測設備具備準確、可靠的優勢[13-14],但這種方法具有操作復雜、時效性低和人員培訓專業度高等弊端。
為實現針對血漿疑似溶血樣品的科學、自動快速識別,本文提出一種基于動態卷積(convolution,Conv)多尺度信息融合的“你只看一次”系列網絡第5代版本(you only look once version 5,YOLOv5)輕量化血漿檢測模型,能有效提取血漿圖像多元映射信息、提高檢測準確率,為臨床診斷和醫學檢測提供有力支持。
1 數據集與預處理
1.1 數據來源
本文采用來自蘇州市中心血站的血漿圖像數據集,經申請后由蘇州市中心血站授權使用。本數據集為非公開專有數據,包含830張血漿圖像,由3位專業老師進行數據集標注工作,隨機抽選80%用于訓練,20%用于測試。其中,疑似非溶血血漿圖像387張,疑似溶血血漿圖像385張,脂肪血漿圖像58張,脂肪血漿數據集采用圖像翻轉、平移、旋轉和壓縮4種方法進行圖像數據擴容。圖像原始分辨率為2 592像素 × 1 944像素,位深度為24位,文中所有圖像展示數據已隱去捐獻者隱私信息(紅色矩形掩膜遮擋),如圖1所示。

1.2 數據預處理
本文為提升訓練效率,首先對數據集進行預處理,預處理分為兩個步驟:① 圖像裁剪:通過集成開發軟件PyCharm

2 模型設計
在醫學檢測領域,輕量化模型的流行是源于Redmon等[15]提出了基于回歸問題的單目標檢測與定位網絡。如今YOLOv5已經有多種變體,如殘差YOLOv5(resnet-YOLOv5)[16]、循環YOLOv5(recurrent-YOLOv5)[17]、注意力YOLOv5(attention-YOLOv5)[18]等。本文模型以YOLOv5網絡為基礎進行優化,結構如圖3所示,主要分為主干(backbone)和頸部(neck)區域。其中,backbone區域以4層Conv和20層全維動態Conv(omni-dimensional dynamic Conv,ODConv)為主體構成,將ODConv嵌入至3階跨越結構(cross stage partial 3,C3)形成C3- ODConv,通過像素疊加(Add)和多元信息融合(Concat)完成映射整合,用于提取血漿圖像深層次特征;由空間金字塔快速池化(spatial pyramid pooling faster,SPPF)和分離式核注意力(large separable kernel attention,LSKA)聯合池化層(SPPF-LSKA)來降低圖像的特征維度,在SPPF中添加LSKA機制,能夠加速模型訓練,避免網絡過擬合;對于來自backbone的特征信息則會傳遞至neck區域,由殘差(residual)雙向融合(BiFusion)特征金字塔網絡(residual BiFusion feature pyramid network,Res-BiFusion )分別整合血漿圖像的不同感知信息,避免訓練過程中發生梯度爆炸。同時,為了提高模型決策的計算效率和準確率,引入重參數化視覺幾何組(re-parameterization visual geometry group,RepVgg)用于增強輕量化血漿識別模型的注意力與多尺度定位能力,利用血漿圖像中不同尺度的有效信息提高預測精確率。

2.1 全維動態卷積
常規Conv只有一個靜態Conv核,動態Conv則是對多個Conv核進行線性加權,加權值與輸入有關[19-20]。ODConv利用多維注意力機制并行策略,在任意Conv層中沿內核空間的四個維度學習Conv內核的注意力[21]。為了精確關注血漿圖像的重要特征,引入ODConv以提高模型表征能力。
如圖4所示,全局平均池化(global average pooling,GAP)和全連接層(fully connected,FC)以線性方式嵌入在ODConv中;線性整流函數(rectified linear unit,ReLU)和S型生長曲線(sigmoid)分別為兩種激活函數;歸一化指數為柔性最大化(softmax);Wi表示Conv核;αsi、αci、αfi、αwi分別表示空域位置、輸入通道、輸出通道與整體Conv核的四種注意力值,i = 1, 2, …, n,漸進式Conv能夠使Conv操作在各個維度上具有差異性。在動態Conv層中使用n個Conv核的線性組合,通過注意力進行動態加權,使Conv運算依賴于輸入,動態Conv運算可以定義為如式(1)所示:

![]() |
其中,x與y分別表示輸入與輸出;將動態Conv引入一種多維注意力機制,學習Conv核上四個維度的不同注意,ODConv定義如式(2)所示:
![]() |
其中,符號“”表示Conv運算;W1~Wn表示由濾波器組成的Conv核;αw1~αwn表示單一注意力標量;αs1~αsn、αc1~αcn、αf1~αfn分別表示新的連續引入關注點,分別沿著Conv核的空域位置、輸入通道、輸出通道進行維度計算,即圖4中的αwi、αfi、αci、αsi與Conv核進行多頭注意力計算。
2.2 分離式核注意力
SPPF能有效解決血漿圖像區域裁剪和縮放導致的失真問題,而LSKA可以使Conv層的二維Conv(two-dimensional Conv,Conv2d)核分解為串聯的一維Conv核,提高本文模型池化層不同空間位置的注意力[22]。如圖5所示,LSKA模塊是將Conv核為1 × (2d–1)的深度Conv(depth-wise Conv,DW-Conv)與Conv核為1 × (k/d)的深度擴張Conv(depth-wise dilated Conv,DW-D-Conv)的二維權重核拆分為兩個級聯的一維可分離權重核,并通過Conv操作完成模塊輸出。將LSKA引入SPPF可以增強Conv識別性能,避免血漿圖像失真和重復特征提取,提高模型對不同尺度和空間位置的注意力捕捉。圖5中,還添加了最大池化層(maxpool);k和d分別表示Conv核的的寬度與深度;符號“”表示Conv運算。

2.3 殘差雙向融合特征金字塔網絡
Res-BiFusion是一個兼顧雙向連接、重組機制和近似殘差塊的多元信息融合方法,可以將不同層級特征更精確地融合到單階段目標檢測網絡中[23]。如圖6所示,為了避免過多的Conv操作,編碼重組模塊(recore)將較深層的特征融合到當前層,并采用重組操作將較淺層的特征融合到當前層。recore中的瓶頸模塊(bottleneck)由兩種尺度的Conv操作組成,是為了縮小整個模型的訓練時間;期間還需進行上采樣(upsample)操作;而在重組模塊(reorg)中,則是對圖像矩陣進行一次重新排列和Conv特征提取。凈化模塊(purification)作為接收recore輸出的核心運算,它是由兩個連續的特征提取部分組成,每個部分包含一組bottleneck和1個3 × 3 Conv層,前者用于信道數減半,后者用來提取血漿圖像上下文特征,purification模塊的主要作用是捕捉圖像淺層特征尺度上的定位信息。

串聯式Res-BiFusion模塊可以使不同層級的特征融合到當前層,這種前、后雙向連接和編碼重組機制能夠更全面地表達血漿特征。當recore和purification模塊被引入至“特征金字塔”結構時,就會構建一種新的網絡形態,該結構有助于捕捉圖像不同尺度和位置特征,從而增強模型對復雜多尺度輸入的適應性,本文引入Res-BiFusion模塊,能有效將血漿圖像非同源信息重組,形成一個豐富的特征表示。
2.4 重參數化視覺幾何
RepVgg塊(RepVgg Block)的基礎結構是由Conv、批量歸一化(batch normalization,BN)和ReLU構建而來的[24]。
如圖7所示,下采樣RepVgg Block結構的步長(s)為2,在計算過程中包含2個分支,Conv核尺度(k)分別為k3和k1,填充(p)分別為1和0,隨后經過BN計算傳遞至ReLU激活函數;非下采樣RepVgg Block結構的步長(s)為1,k和p取值不變,計算過程中存在3個分支,比下采樣時多一處BN計算分支,有助于快速推理。RepVgg Block是經典的多分支特征提取結構,BN在該結構中的核心作用是保證Conv后的圖像特征存在一個合理的表征,這也是RepVgg Block最核心的非線性計算方式之一,數學機制如式(3)~式(5)所示:

![]() |
![]() |
![]() |
其中,i表示第i個通道;xi和yi分別表示第i個輸入與輸出;μi表示第i個均值;表示第i個方差;γi和βi是訓練過程中學習到的第i個雙變量;ε表示一個非常小的變量,起到防止分母為0的作用。bn表示BN計算函數;M表示輸出BN層的實時特征圖;μ、σ、γ、β分別為均值、方差與兩個學習雙變量;Mi為第i個通道的值;W’i為第i個Conv核的權重;W'和b'分別表示在訓練過程中實時更新的權重和偏置。
如圖8所示,多層RepVgg Block線性排列組成RepVgg特征學習結構,這一結構的引入能讓血漿圖像精準檢測簡單高效[25]。在訓練部分,RepVgg Block采用3 × 3 Conv、1 × 1 Conv與原始信息融合的方式進行特征學習,可以最大限度地捕捉血漿圖像豐富的特征信息;而在推理部分,為了實現模型的高效部署,RepVgg Block僅用3 × 3 Conv和ReLU激活函數完成推理,這種近似減枝操作的方法可以最大限度節約計算時效。將RepVgg結構引入YOLOv5模型的neck區域,可以進一步融合血漿圖像的多元特征,在保證復雜非線性網絡性能的同時提升推理速度。

3 實驗結果與分析
3.1 實驗環境與參數設置
本文實驗所用平臺、參數配置與評價體系分別為:圖形處理器(graphic processing unit,GPU)為英偉達圖形芯片NVIDIA Geforce RTX
![]() |
![]() |
![]() |
其中,真正例(true positive,TP)表示預測為正,實際也為正;假負例(false negative,FN)表示預測與負、實際為正;假正例(false positive,FP)表示預測為正,實際為負;真負例(true negative,TN)表示預測為負、實際也為負。
3.2 對比實驗
為了驗證本文模型的優越性能,在血漿數據集進行對比實驗,選取常規YOLOv5(YOLOv5 norm,YOLOv5n)、小型YOLOv5(YOLOv5 small,YOLOv5s),中型YOLOv5(YOLOv5 medium,YOLOv5m)、大型YOLOv5(YOLOv5 large,YOLOv5l)、16層視覺幾何組(visual geometry group 16,Vgg16)和50層殘差神經網絡(residual network 50,ResNet50)等模型進行對比驗證,評價參數如表1所示。

如表1所示,在YOLOv5不同的網絡深度中,精確率和召回率的性能全部為100.0%,說明YOLOv5網絡對血漿檢測表現出積極的作用,真正例全部正確,但在F1值中出現了較大波動,YOLOv5n至YOLOv5m呈現正比例遞增,但YOLOv5m比YOLOv5l的F1值高出了11%。在mAP@0.5方面,本文模型比YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l網絡分別高出6.6%、4.3%、3.3%和5.1%。由此可以看出,針對血漿圖像的檢測任務,YOLOv5n、YOLOv5s與YOLOv5m網絡都能夠高效挖掘血漿圖像的感知信息,但YOLOv5l卻出現了網絡退化現象,而本文提出的方法全部優于4種不同深度深度的YOLOv5網絡,凸顯出本文模型的算法優越性。除YOLOv5系列模型外,本文還引入Vgg16和ResNet50作為對比網絡,相較于Vgg16網絡,本文模型在F1值、精確率、召回率與mAP@0.5中均有提升。由此可見,Vgg16和ResNet50網絡因過于單一的堆疊式結構并不能很好地學習血漿圖像深層感知信息,因此評價參數較本文提出的模型都存在一定差距。由上述內容可知,本文提出的改進模型更適用于血漿圖像檢測。
3.3 消融實驗
為了驗證C3-ODConv、SPPF-LSKA、RepVgg聯合Res-BiFusion(RepVggRes-BiFusion)模塊在本文模型中的作用,在血漿數據集上進行消融實驗。評價結果如表2所示,模型1至模型7的初始模型為YOLOv5m,其中“√”表示在YOLOv5m網絡中引入該模塊;“–”表示在YOLOv5m網絡中未引入該模塊。

由表2可見,本文模型對比其它7種模型的評價指標表現最佳。可以看出,初始模型在分別引入C3-ODConv、SPPF-LSKA、RepVggRes-BiFusion模塊后,mAP@0.5分別提升到96.8%、97.6%和96.0%,三個模塊都表現出積極的趨勢,相較于SPPF-LSKA模塊的引入,mAP@0.5提升幅度最大;而側重于節約計算時效的RepVggRes-BiFusion模塊提升幅度最小,這表明通過單獨引入某一模塊并不能很好地對血漿圖像進行檢測。于是,本文在模型5、模型6和模型7中進行了算法模塊組合驗證,由表2中的mAP@0.5評價參數可知,兩個模塊的組合形式在血漿數據集上的提升度并不高,甚至還出現網絡性能下降的情況。本文將4個模塊全部引入到初始模型中,評價參數mAP@0.5相比初始模型有所提升;與模型2至模型7對比,mAP@0.5也均有提高,說明C3-ODConv與SPPF-LSKA模塊所提供的血漿感知信息能夠被Res-BiFusion模塊更好地融合,并且更容易被RepVgg模塊提取到更高效的特征,本文方法能夠更廣泛捕捉到血漿圖像上的視野感知和多元信息。
模型訓練過程中的可視化實時評價體系如圖9所示。從圖9中的F1值置信度曲線變化不難看出,疑似溶血與非溶血血漿在訓練過程中的競爭較為激烈,且兩者的F1值在訓練博弈過程中始終保持在較高水平,反而脂肪血漿的初始期F1值相對較低,在置信度為0.605時F1值達到最高的0.91,以此為訓練分界點,脂肪血漿的F1值加劇上升,而疑似溶血與非溶血血漿的F1值則呈現下降趨勢。在精確率置信度曲線中,當置信度達到0.953時,精確率達到了1.0,說明本文模型在該置信度下具有極高的預測性能。從回歸率置信度曲線不難看出,在訓練初期回歸率就達到了最高水平,這表明本文模型在訓練初期就已經具備了較強的回歸能力。通過精確率—回歸率置信度曲線可以進一步驗證本文方法的性能優越性,當血漿數據集中輸入到本文模型時,即使在初始訓練狀態下,模型也保持很高的識別效率。充分證明了本文方法能夠在較小的訓練批次下高效地挖掘血漿圖像的內在感知信息,從而顯著縮短模型的訓練和預測時間。

從圖10中不難發現,血漿識別最具挑戰性的依然是臨界狀態下的疑似溶血血漿和疑似非溶血血漿,兩者僅憑肉眼難以精準判斷,但從模型的可視化推理結果來看,本文方法在血漿品質檢測方面,尤其是對臨界狀態下的血漿品控分類展現出很強的模型泛化性。

4 結論
為了有效預防臨床體外溶血癥的發生,本文提出了一種基于動態Conv多尺度信息融合的血漿品質檢測模型,將ODConv模塊、SPPF-LSKA模塊、Res-BiFusion模塊、RepVgg模塊與YOLOv5網絡相結合對血漿品質進行智能檢測。以YOLOv5m為基礎模型,由C3-ODConv模塊和SPPF-LSKA模塊構成網絡主干區域的特征提取與池化功能,前者對血漿圖像進行動態特征學習,捕捉高維感知變化;后者用來突出血漿圖像的關鍵特征單元,并且抑制冗余信息。在本文網絡的neck區域,由Res-BiFusion模塊和RepVgg模塊實現多元感知融合與高性能非線性計算,前者用來進行多元特征融合,實現neck區域特征優勢互補;后者在保持高效前饋神經網絡性能的同時,又確保模型整體的計算效率。通過對比實驗和消融實驗可知,本文方法取得了最優性能,為預防臨床體外溶血癥提供了有力支持。然而,本研究仍存在一定的局限性,如非線性數據傳遞方式尚未進行解釋性研究、數據集樣本較少,后續將繼續深入研究輕量化模型,并擴充數據集,期望能夠進一步優化血漿檢測模型,提升實際應用性能。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:張瀚文負責文獻資料的收集、分析以及論文初稿的撰寫,孫渝、邱香、江浩、胡金田負責論文資料的整理并協助論文修訂,羅剛銀、李棟、曹維娟負責論文寫作思路的制定及論文審閱修訂。
0 引言
溶血,通常是指由于紅細胞膜破裂后游離血紅蛋白釋放到周圍組織液中,導致血漿顏色泛紅的現象[1]。該現象體內發生概率較低,但不排除由于感染、毒性作用等因素造成體內溶血[2]。雖然全血、血漿和逐漸溶血的血制品顏色存在明顯差異[3],但血漿疑似溶血暫無界定標準。經人體采集的全血經高速離心后得到的血漿,可能會有少部分疑似溶血和脂肪血個例,一旦病患誤輸會導致臨床觀察同急性溶血癥一致[4-5]。而在生物醫學檢測方面,血漿疑似溶血會影響生物稀釋、免疫測定等項目的分析結果。有研究針對血漿疑似溶血與脂肪血進行生化檢驗統計分析,實驗結果表明,血漿疑似溶血易導致常規臨床化驗計量錯誤[6]。也有研究對血漿疑似溶血的原因與急診采血護理進行了綜合分析,結果顯示血漿疑似溶血會導致各類自動化設備檢測結果產生嚴重偏差[7]。
目前,判斷血漿是否疑似溶血,最常用的方法仍然是人工目視,但相關研究表明,目視法因主觀因素較強,缺乏科學客觀的指標依據,以該方法定性的血漿會影響臨床使用,且需配備大量人力資源進行人工區分[8-10]。與目視法檢測相比,醫學生化分析成為血漿疑似溶血檢測的優選方案[11-12];而采用基于溶血指數(hemolysis index,HI)的自動化定量檢測設備具備準確、可靠的優勢[13-14],但這種方法具有操作復雜、時效性低和人員培訓專業度高等弊端。
為實現針對血漿疑似溶血樣品的科學、自動快速識別,本文提出一種基于動態卷積(convolution,Conv)多尺度信息融合的“你只看一次”系列網絡第5代版本(you only look once version 5,YOLOv5)輕量化血漿檢測模型,能有效提取血漿圖像多元映射信息、提高檢測準確率,為臨床診斷和醫學檢測提供有力支持。
1 數據集與預處理
1.1 數據來源
本文采用來自蘇州市中心血站的血漿圖像數據集,經申請后由蘇州市中心血站授權使用。本數據集為非公開專有數據,包含830張血漿圖像,由3位專業老師進行數據集標注工作,隨機抽選80%用于訓練,20%用于測試。其中,疑似非溶血血漿圖像387張,疑似溶血血漿圖像385張,脂肪血漿圖像58張,脂肪血漿數據集采用圖像翻轉、平移、旋轉和壓縮4種方法進行圖像數據擴容。圖像原始分辨率為2 592像素 × 1 944像素,位深度為24位,文中所有圖像展示數據已隱去捐獻者隱私信息(紅色矩形掩膜遮擋),如圖1所示。

1.2 數據預處理
本文為提升訓練效率,首先對數據集進行預處理,預處理分為兩個步驟:① 圖像裁剪:通過集成開發軟件PyCharm

2 模型設計
在醫學檢測領域,輕量化模型的流行是源于Redmon等[15]提出了基于回歸問題的單目標檢測與定位網絡。如今YOLOv5已經有多種變體,如殘差YOLOv5(resnet-YOLOv5)[16]、循環YOLOv5(recurrent-YOLOv5)[17]、注意力YOLOv5(attention-YOLOv5)[18]等。本文模型以YOLOv5網絡為基礎進行優化,結構如圖3所示,主要分為主干(backbone)和頸部(neck)區域。其中,backbone區域以4層Conv和20層全維動態Conv(omni-dimensional dynamic Conv,ODConv)為主體構成,將ODConv嵌入至3階跨越結構(cross stage partial 3,C3)形成C3- ODConv,通過像素疊加(Add)和多元信息融合(Concat)完成映射整合,用于提取血漿圖像深層次特征;由空間金字塔快速池化(spatial pyramid pooling faster,SPPF)和分離式核注意力(large separable kernel attention,LSKA)聯合池化層(SPPF-LSKA)來降低圖像的特征維度,在SPPF中添加LSKA機制,能夠加速模型訓練,避免網絡過擬合;對于來自backbone的特征信息則會傳遞至neck區域,由殘差(residual)雙向融合(BiFusion)特征金字塔網絡(residual BiFusion feature pyramid network,Res-BiFusion )分別整合血漿圖像的不同感知信息,避免訓練過程中發生梯度爆炸。同時,為了提高模型決策的計算效率和準確率,引入重參數化視覺幾何組(re-parameterization visual geometry group,RepVgg)用于增強輕量化血漿識別模型的注意力與多尺度定位能力,利用血漿圖像中不同尺度的有效信息提高預測精確率。

2.1 全維動態卷積
常規Conv只有一個靜態Conv核,動態Conv則是對多個Conv核進行線性加權,加權值與輸入有關[19-20]。ODConv利用多維注意力機制并行策略,在任意Conv層中沿內核空間的四個維度學習Conv內核的注意力[21]。為了精確關注血漿圖像的重要特征,引入ODConv以提高模型表征能力。
如圖4所示,全局平均池化(global average pooling,GAP)和全連接層(fully connected,FC)以線性方式嵌入在ODConv中;線性整流函數(rectified linear unit,ReLU)和S型生長曲線(sigmoid)分別為兩種激活函數;歸一化指數為柔性最大化(softmax);Wi表示Conv核;αsi、αci、αfi、αwi分別表示空域位置、輸入通道、輸出通道與整體Conv核的四種注意力值,i = 1, 2, …, n,漸進式Conv能夠使Conv操作在各個維度上具有差異性。在動態Conv層中使用n個Conv核的線性組合,通過注意力進行動態加權,使Conv運算依賴于輸入,動態Conv運算可以定義為如式(1)所示:

![]() |
其中,x與y分別表示輸入與輸出;將動態Conv引入一種多維注意力機制,學習Conv核上四個維度的不同注意,ODConv定義如式(2)所示:
![]() |
其中,符號“”表示Conv運算;W1~Wn表示由濾波器組成的Conv核;αw1~αwn表示單一注意力標量;αs1~αsn、αc1~αcn、αf1~αfn分別表示新的連續引入關注點,分別沿著Conv核的空域位置、輸入通道、輸出通道進行維度計算,即圖4中的αwi、αfi、αci、αsi與Conv核進行多頭注意力計算。
2.2 分離式核注意力
SPPF能有效解決血漿圖像區域裁剪和縮放導致的失真問題,而LSKA可以使Conv層的二維Conv(two-dimensional Conv,Conv2d)核分解為串聯的一維Conv核,提高本文模型池化層不同空間位置的注意力[22]。如圖5所示,LSKA模塊是將Conv核為1 × (2d–1)的深度Conv(depth-wise Conv,DW-Conv)與Conv核為1 × (k/d)的深度擴張Conv(depth-wise dilated Conv,DW-D-Conv)的二維權重核拆分為兩個級聯的一維可分離權重核,并通過Conv操作完成模塊輸出。將LSKA引入SPPF可以增強Conv識別性能,避免血漿圖像失真和重復特征提取,提高模型對不同尺度和空間位置的注意力捕捉。圖5中,還添加了最大池化層(maxpool);k和d分別表示Conv核的的寬度與深度;符號“”表示Conv運算。

2.3 殘差雙向融合特征金字塔網絡
Res-BiFusion是一個兼顧雙向連接、重組機制和近似殘差塊的多元信息融合方法,可以將不同層級特征更精確地融合到單階段目標檢測網絡中[23]。如圖6所示,為了避免過多的Conv操作,編碼重組模塊(recore)將較深層的特征融合到當前層,并采用重組操作將較淺層的特征融合到當前層。recore中的瓶頸模塊(bottleneck)由兩種尺度的Conv操作組成,是為了縮小整個模型的訓練時間;期間還需進行上采樣(upsample)操作;而在重組模塊(reorg)中,則是對圖像矩陣進行一次重新排列和Conv特征提取。凈化模塊(purification)作為接收recore輸出的核心運算,它是由兩個連續的特征提取部分組成,每個部分包含一組bottleneck和1個3 × 3 Conv層,前者用于信道數減半,后者用來提取血漿圖像上下文特征,purification模塊的主要作用是捕捉圖像淺層特征尺度上的定位信息。

串聯式Res-BiFusion模塊可以使不同層級的特征融合到當前層,這種前、后雙向連接和編碼重組機制能夠更全面地表達血漿特征。當recore和purification模塊被引入至“特征金字塔”結構時,就會構建一種新的網絡形態,該結構有助于捕捉圖像不同尺度和位置特征,從而增強模型對復雜多尺度輸入的適應性,本文引入Res-BiFusion模塊,能有效將血漿圖像非同源信息重組,形成一個豐富的特征表示。
2.4 重參數化視覺幾何
RepVgg塊(RepVgg Block)的基礎結構是由Conv、批量歸一化(batch normalization,BN)和ReLU構建而來的[24]。
如圖7所示,下采樣RepVgg Block結構的步長(s)為2,在計算過程中包含2個分支,Conv核尺度(k)分別為k3和k1,填充(p)分別為1和0,隨后經過BN計算傳遞至ReLU激活函數;非下采樣RepVgg Block結構的步長(s)為1,k和p取值不變,計算過程中存在3個分支,比下采樣時多一處BN計算分支,有助于快速推理。RepVgg Block是經典的多分支特征提取結構,BN在該結構中的核心作用是保證Conv后的圖像特征存在一個合理的表征,這也是RepVgg Block最核心的非線性計算方式之一,數學機制如式(3)~式(5)所示:

![]() |
![]() |
![]() |
其中,i表示第i個通道;xi和yi分別表示第i個輸入與輸出;μi表示第i個均值;表示第i個方差;γi和βi是訓練過程中學習到的第i個雙變量;ε表示一個非常小的變量,起到防止分母為0的作用。bn表示BN計算函數;M表示輸出BN層的實時特征圖;μ、σ、γ、β分別為均值、方差與兩個學習雙變量;Mi為第i個通道的值;W’i為第i個Conv核的權重;W'和b'分別表示在訓練過程中實時更新的權重和偏置。
如圖8所示,多層RepVgg Block線性排列組成RepVgg特征學習結構,這一結構的引入能讓血漿圖像精準檢測簡單高效[25]。在訓練部分,RepVgg Block采用3 × 3 Conv、1 × 1 Conv與原始信息融合的方式進行特征學習,可以最大限度地捕捉血漿圖像豐富的特征信息;而在推理部分,為了實現模型的高效部署,RepVgg Block僅用3 × 3 Conv和ReLU激活函數完成推理,這種近似減枝操作的方法可以最大限度節約計算時效。將RepVgg結構引入YOLOv5模型的neck區域,可以進一步融合血漿圖像的多元特征,在保證復雜非線性網絡性能的同時提升推理速度。

3 實驗結果與分析
3.1 實驗環境與參數設置
本文實驗所用平臺、參數配置與評價體系分別為:圖形處理器(graphic processing unit,GPU)為英偉達圖形芯片NVIDIA Geforce RTX
![]() |
![]() |
![]() |
其中,真正例(true positive,TP)表示預測為正,實際也為正;假負例(false negative,FN)表示預測與負、實際為正;假正例(false positive,FP)表示預測為正,實際為負;真負例(true negative,TN)表示預測為負、實際也為負。
3.2 對比實驗
為了驗證本文模型的優越性能,在血漿數據集進行對比實驗,選取常規YOLOv5(YOLOv5 norm,YOLOv5n)、小型YOLOv5(YOLOv5 small,YOLOv5s),中型YOLOv5(YOLOv5 medium,YOLOv5m)、大型YOLOv5(YOLOv5 large,YOLOv5l)、16層視覺幾何組(visual geometry group 16,Vgg16)和50層殘差神經網絡(residual network 50,ResNet50)等模型進行對比驗證,評價參數如表1所示。

如表1所示,在YOLOv5不同的網絡深度中,精確率和召回率的性能全部為100.0%,說明YOLOv5網絡對血漿檢測表現出積極的作用,真正例全部正確,但在F1值中出現了較大波動,YOLOv5n至YOLOv5m呈現正比例遞增,但YOLOv5m比YOLOv5l的F1值高出了11%。在mAP@0.5方面,本文模型比YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l網絡分別高出6.6%、4.3%、3.3%和5.1%。由此可以看出,針對血漿圖像的檢測任務,YOLOv5n、YOLOv5s與YOLOv5m網絡都能夠高效挖掘血漿圖像的感知信息,但YOLOv5l卻出現了網絡退化現象,而本文提出的方法全部優于4種不同深度深度的YOLOv5網絡,凸顯出本文模型的算法優越性。除YOLOv5系列模型外,本文還引入Vgg16和ResNet50作為對比網絡,相較于Vgg16網絡,本文模型在F1值、精確率、召回率與mAP@0.5中均有提升。由此可見,Vgg16和ResNet50網絡因過于單一的堆疊式結構并不能很好地學習血漿圖像深層感知信息,因此評價參數較本文提出的模型都存在一定差距。由上述內容可知,本文提出的改進模型更適用于血漿圖像檢測。
3.3 消融實驗
為了驗證C3-ODConv、SPPF-LSKA、RepVgg聯合Res-BiFusion(RepVggRes-BiFusion)模塊在本文模型中的作用,在血漿數據集上進行消融實驗。評價結果如表2所示,模型1至模型7的初始模型為YOLOv5m,其中“√”表示在YOLOv5m網絡中引入該模塊;“–”表示在YOLOv5m網絡中未引入該模塊。

由表2可見,本文模型對比其它7種模型的評價指標表現最佳。可以看出,初始模型在分別引入C3-ODConv、SPPF-LSKA、RepVggRes-BiFusion模塊后,mAP@0.5分別提升到96.8%、97.6%和96.0%,三個模塊都表現出積極的趨勢,相較于SPPF-LSKA模塊的引入,mAP@0.5提升幅度最大;而側重于節約計算時效的RepVggRes-BiFusion模塊提升幅度最小,這表明通過單獨引入某一模塊并不能很好地對血漿圖像進行檢測。于是,本文在模型5、模型6和模型7中進行了算法模塊組合驗證,由表2中的mAP@0.5評價參數可知,兩個模塊的組合形式在血漿數據集上的提升度并不高,甚至還出現網絡性能下降的情況。本文將4個模塊全部引入到初始模型中,評價參數mAP@0.5相比初始模型有所提升;與模型2至模型7對比,mAP@0.5也均有提高,說明C3-ODConv與SPPF-LSKA模塊所提供的血漿感知信息能夠被Res-BiFusion模塊更好地融合,并且更容易被RepVgg模塊提取到更高效的特征,本文方法能夠更廣泛捕捉到血漿圖像上的視野感知和多元信息。
模型訓練過程中的可視化實時評價體系如圖9所示。從圖9中的F1值置信度曲線變化不難看出,疑似溶血與非溶血血漿在訓練過程中的競爭較為激烈,且兩者的F1值在訓練博弈過程中始終保持在較高水平,反而脂肪血漿的初始期F1值相對較低,在置信度為0.605時F1值達到最高的0.91,以此為訓練分界點,脂肪血漿的F1值加劇上升,而疑似溶血與非溶血血漿的F1值則呈現下降趨勢。在精確率置信度曲線中,當置信度達到0.953時,精確率達到了1.0,說明本文模型在該置信度下具有極高的預測性能。從回歸率置信度曲線不難看出,在訓練初期回歸率就達到了最高水平,這表明本文模型在訓練初期就已經具備了較強的回歸能力。通過精確率—回歸率置信度曲線可以進一步驗證本文方法的性能優越性,當血漿數據集中輸入到本文模型時,即使在初始訓練狀態下,模型也保持很高的識別效率。充分證明了本文方法能夠在較小的訓練批次下高效地挖掘血漿圖像的內在感知信息,從而顯著縮短模型的訓練和預測時間。

從圖10中不難發現,血漿識別最具挑戰性的依然是臨界狀態下的疑似溶血血漿和疑似非溶血血漿,兩者僅憑肉眼難以精準判斷,但從模型的可視化推理結果來看,本文方法在血漿品質檢測方面,尤其是對臨界狀態下的血漿品控分類展現出很強的模型泛化性。

4 結論
為了有效預防臨床體外溶血癥的發生,本文提出了一種基于動態Conv多尺度信息融合的血漿品質檢測模型,將ODConv模塊、SPPF-LSKA模塊、Res-BiFusion模塊、RepVgg模塊與YOLOv5網絡相結合對血漿品質進行智能檢測。以YOLOv5m為基礎模型,由C3-ODConv模塊和SPPF-LSKA模塊構成網絡主干區域的特征提取與池化功能,前者對血漿圖像進行動態特征學習,捕捉高維感知變化;后者用來突出血漿圖像的關鍵特征單元,并且抑制冗余信息。在本文網絡的neck區域,由Res-BiFusion模塊和RepVgg模塊實現多元感知融合與高性能非線性計算,前者用來進行多元特征融合,實現neck區域特征優勢互補;后者在保持高效前饋神經網絡性能的同時,又確保模型整體的計算效率。通過對比實驗和消融實驗可知,本文方法取得了最優性能,為預防臨床體外溶血癥提供了有力支持。然而,本研究仍存在一定的局限性,如非線性數據傳遞方式尚未進行解釋性研究、數據集樣本較少,后續將繼續深入研究輕量化模型,并擴充數據集,期望能夠進一步優化血漿檢測模型,提升實際應用性能。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:張瀚文負責文獻資料的收集、分析以及論文初稿的撰寫,孫渝、邱香、江浩、胡金田負責論文資料的整理并協助論文修訂,羅剛銀、李棟、曹維娟負責論文寫作思路的制定及論文審閱修訂。