基于深度學習的糖尿病視網膜病變(DR)自動分類有助于提高輔助診斷的精準性和高效性。本文通過改進的殘差網絡來實現對五種不同病變程度的DR分類。首先,將原殘差網絡第一個卷積層中的7 × 7卷積替換為三個小尺度的3 × 3卷積來減少網絡計算量;其次,針對不同病變等級間因差異過小而導致的分類不準確問題,引入混合注意力機制來使模型更關注重要的病變特征;最后,為充分提取DR圖像中所包含的病變組織形態特征,采用了跨層融合卷積的方式來代替普通的殘差結構。為驗證改進模型的分類有效性,將它應用于Kaggle失明檢測競賽數據集APTOS2019,實驗結果表明本文的改進模型對五種不同DR病變等級的分類準確率和Kappa值分別達到97.75%和0.971 7。與一些現有模型相比,該方法在分類精度和表現上具有明顯優勢。
引用本文: 郭瑩, 李紹杰. 基于小尺度跨層融合模型的糖尿病視網膜病變分類方法. 生物醫學工程學雜志, 2024, 41(5): 861-868. doi: 10.7507/1001-5515.202403016 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
0 引言
據《IDF國際糖尿病聯盟》報道[1],預計到2050年全球糖尿病人數將攀升至超過13億。糖尿病患者體內紊亂的胰島素代謝功能會引發多種并發癥,糖尿病視網膜病變(diabetic retinopathy,DR)是其中最常見的一種,如果不對其進行早期干預,將導致不可逆的永久性失明[2],因此早期篩查DR對于糖尿病患者極其重要。基于視覺技術的計算機輔助診斷有助于實現DR檢測的高效性,目前該技術主要分為兩大類:機器學習方法和深度神經網絡方法。但是,支持向量機、隨機森林、決策樹等[3-6]機器學習方法,需要人工選擇出血點、增生血管等特征集,因此,無需主觀提取特征且具有較強魯棒性的深度學習方法成為當前主流研究方向。文獻[7]在DenseNet169編碼器頂部引入注意力模塊,并使用交叉熵損失函數對模型進行訓練,最終得到97%的準確率、97%的靈敏度和98.3%的特異性,但該方法完成的是二分類任務,即只能判斷是否患有糖尿病,不能診斷DR病變程度。DR的不同病變等級可表征患者的糖尿病嚴重程度,通常對病變進行五分類,主要方法有:文獻[8]采用Inception-ResNet-v2多模型融合方法,準確率達到82.18%,但該方法的網絡模型過大,訓練時間過長;文獻[9]使用VGG16作為基礎網絡架構,在最后一個卷積層和第一個全連接層之間嵌入了空間金字塔層(spatial pyramid pooling,SPP),SPP層匯集特征并產生與相鄰全連接層兼容的固定大小的輸出向量,最后堆疊Network in Network(NiN)層增加模型的額外非線性,這項工作最終達到95%的準確率;文獻[10]提出了一種改進的膠囊網絡用于DR的檢測和五分類,該模型首先通過卷積層和主膠囊層從眼底圖像中提取特征,然后使用類膠囊層和Softmax層來估計圖像屬于特定類別的概率,在Messidor數據集上的準確率達到了97.98%。
盡管目前基于深度學習的DR分類檢測模型得到了大量研究,但仍存在網絡參數量多、病變特征提取不充分等問題,為此本文在以下三方面對傳統的殘差網絡模型(ResNet50)進行改進,以實現對DR的高效分類:① 為減少模型參數計算量,在保證輸出特征圖與感受野大小都不變的前提下,將ResNet50網絡第一個卷積層中的7 × 7卷積結構替換為三個3 × 3卷積核的堆疊結構;② 為解決不同病變等級間差異小,如微動脈瘤與小的出血點之間形態和顏色相似等問題,引入通道與空間的混合注意力機制;③ 為獲取病變的多層次特征,增強網絡的信息感知能力,將原殘差結構中的3 × 3卷積替換為具有多尺度感受野的跨層融合卷積。
1 提出的方法
1.1 預處理
在模型搭建前本文先對數據集進行了預處理操作。首先,為減少計算量,分別以原始圖像長和寬的一半作為圓心,并將長、寬中較小數值的一半作為半徑進行圓形裁剪操作;其次,為提升圖像整體對比度,采用限制對比度自適應直方圖方法[11]將圖像中對比度高于設定閾值(經驗閾值為8)的部分均勻地分布到圖像的每一個灰度值中;最后,為增強DR圖像的病灶特征,對原始圖像進行高斯濾波處理[如式(1)所示],之后將經過高斯濾波后的圖像與原圖像進行加權融合來得到增強特征后的圖像[12][如式(2)所示]。
![]() |
![]() |
式(1)中表示高斯濾波,
為標準差,其值設為10;
表示濾波后圖像;
表示卷積操作。式(2)中
表示圖像融合的權重參數,本文將其分別設為4、–4和128;
表示處理后的最終圖像。以APTOS2019數據庫中的一張無病變樣本為例,圖1所示為預處理的各階段結果。

1.2 模型搭建
本文以ResNet50[13]為基礎,首先,應用小尺度卷積來降低原模型的計算量;其次,在最大下采樣層和全連接層前引入混合卷積塊注意力機制(convolutional block attention module,CBAM),通過上一層輸出的特征圖依次與通道和空間注意力模塊所獲得的特征圖進行加權來幫助網絡獲取更多微小病變信息;最后,構建能夠獲取多尺度感受野的跨層融合卷積,以實現對DR圖像中病變特征的多層次提取。本文模型的結構如圖2所示,該改進模型的具體參數如表1所示。


1.2.1 小尺度卷積核的應用
為減少模型參數計算量的同時,保證輸入特征層中提取的感受野大小不變,本文模型的L1層使用三個3 × 3的小尺度卷積核代替ResNet50的第一個卷積層中的7 × 7卷積核,可以證明這樣的替換具有等效性(具體論證參見附件1)。若模型輸入輸出特征圖的通道數都為C,則使用一個7 × 7卷積核所需參數量為:
![]() |
堆疊三個3 × 3卷積核所需參數量為:
![]() |
可以看出,三個3 × 3卷積核串聯的參數量只有一個7 × 7卷積核的一半。因此,將第一個卷積層中的7 × 7卷積核用三個3 × 3卷積核來代替可減少模型參數量,提高網絡運算效率。
1.2.2 混合注意力機制的引入
考慮到DR中微小的病灶點如微動脈瘤與出血點之間差異較小、不易分辨的特點,本文模型的L2層和L8層采用如圖3所示的CBAM注意力機制模塊[14],以實現從通道和空間兩方面對有用微小特征信息的判別和提取。

通道注意力模塊通過對特征圖的不同通道進行加權來突出對當前任務最有用的通道特征[15]。首先,對上一層的輸出特征圖F(大小為)的寬和高進行全局平均池化和最大池化操作得到兩個
大小的特征圖;之后將CBAM機制中原有的共享全連接層用
卷積層來代替,從而在不改變圖像空間結構的基礎上使輸入通道數可為任意值,其中第一個卷積層的通道數為
,R為超參數,本文設為16,用于調節輸出通道數,第二個卷積層的通道數為C;而后將經過共享卷積層的特征
進行加和操作后再經過Sigmoid函數進行激活操作,得到最終的通道注意力特征圖。
空間注意力模塊通過學習特征圖的空間注意力權重來強調空間位置上的重要特征。首先,將經過通道注意力模塊獲取的特征圖分別利用最大池化和平均池化操作獲取特征圖在通道維度上的最大響應和平均響應,以此來捕捉在每個位置上最顯著的病變特征;然后,將得到的兩個
的特征圖在通道維度上進行拼接得到
,再經過一個
大小的卷積操作,將通道數降維為1后,應用Sigmoid激活函數,生成用于增強重要空間位置特征的空間注意力特征圖;之后,在上一層獲取的輸出特征圖
與通道注意力特征圖
和空間注意力特征圖
進行逐元素相乘,其輸出特征圖即為經過混合注意力機制處理的結果。
1.2.3 跨層融合卷積網絡
為使網絡在更關注小尺度細節(如微小的病灶點和血管等紋理信息)的同時也能關注到大尺度模式(如DR的整個眼底形狀),本文模型的L4層至L7層中采用了如圖4所構建的跨層融合卷積網絡結構。具體的設計思想是在輸入特征層上獲取不同大小的感受野,并對不同卷積層所獲得的特征進行融合,使網絡能夠檢測到更詳細全面的病變信息[16]。該結構主要由1 × 1卷積層、批量歸一化層、ReLU激活函數、跨層融合卷積層(包含1 × 1、3 × 3、5 × 5、7 × 7四種尺度)以及殘差結構構成。

在跨層融合卷積中,S是控制比例尺寸的重要參數,它可以將輸入通道數平均等分為多個特征通道,S越大表明多尺度能力越強。對于S值的選取,因殘差網絡每一層的通道數都為,為確保每個分支模塊都能均勻地處理特征圖的不同部分,故S的取值也應為
,其目的是保證劃分后的特征圖尺寸的一致性和對稱性,繼而保證網絡的整體性能和效果。因此本文在基本的ResNet50模型上分別對S取值為1、2、4、8、16進行驗證,以在測試集上對DR五分類準確率的高低為評判標準,來選取S的最優值。經實驗驗證,當S = 4時的分類準確率最高,達到96.64%,而隨著S的增加,跨層融合卷積網絡內部的計算量和存儲的復雜性也會增加,導致模型出現了過擬合現象。
確定S取為4后,可將輸入通道數通過1×1卷積后均勻地劃分為4個大小相等的特征通道,分別用(i = 1, 2,…, S)表示它們。之后每個
都與
的輸出結果相加,并進行3×3卷積繼而得到
。為減少網絡的參數量,
不進行卷積操作,直接輸出結果
。隨后,由卷積處理得到的特征圖,經過層間融合與累加操作后,便獲得了1 × 1、3 × 3、5 × 5、7 × 7四種尺寸的卷積核所對應的感受野(具體網絡參數參見附件2)。最后,將所得結果
、
、
、
進行聚合,再通過一個1 × 1大小的卷積核后與輸入相加得到最終的輸出。通過這種方式,模型可以在一張病變圖像上同時捕捉多尺度、多層次的特征信息,進而增強對DR不同病變特征的提取能力。
2 實驗結果與分析
2.1 數據集與實驗設置
本文以Kaggle競賽中公開的APTOS2019數據集[17]作為實驗對象,該數據集由3 662張圖片構成,包含了國際臨床疾病嚴重程度量表[18]對DR病變劃分的DR0至DR4五個等級,即正常無病變、輕度非增殖性病變、中度非增殖性病變、重度非增殖性病變和增殖性病變。但是該數據集中DR圖像具有分辨率大小不一的問題,為此本文統一將其調整為,同時在訓練過程中使用數據增強的手段,包括鏡像、旋轉、平移和增強亮度。在對比實驗中,本文將預處理后的數據集按照8∶1∶1的比例劃分為訓練集、驗證集和測試集。Epoch設為50次,學習率設為0.001,Batchsize設為32。
本文所有實驗均采用百度飛槳平臺提供的PaddlePaddle框架;使用V100顯卡,每塊顯卡算力為27.8,顯存為16 GB;運行內存為256 GB。
2.2 評價指標
本文使用準確率(Accuracy,Acc)、召回率(Recall)、特異度(Specificity,Spe)、一致性檢驗(Kappa)作為DR五分類的評價指標,其定義如式(5)~式(8)所示。Acc是分類正確的樣本數占總樣本數的比例;Recall衡量了在所有實際為正確的樣本中,成功預測的比例;Spe衡量了模型對非該DR等級判斷正確的能力;Kappa是分類精度的指標,其范圍為–1 ~ 1,越接近1表示分類結果一致性越高。
![]() |
![]() |
![]() |
![]() |
其中,TP表示模型正確預測為真實DR等級的數量,TN表示正確排除非該等級的數量,FP表示錯誤地將非該等級預測為該等級,FN表示錯誤地將該等級預測為非該等級。P0是算法正確預測的圖片比例,Pe表示在所有DR等級中每類實際和預測樣本數量的乘積與總樣本數平方的比例。
2.3 結果分析
2.3.1 小尺度卷積核對比實驗
為驗證在使用多個小尺度卷積核堆疊代替一個大尺度卷積核時,能夠在保持感受野的同時降低參數量并提高計算效率,本文在參數量和運行時間兩方面進行了對比實驗。如圖5所示,應用3 × 3小尺度卷積所需的模型參數量與運行一輪的時間都要低于7 × 7卷積。

2.3.2 注意力機制對比
為選取最優的注意力機制,本文將不同的注意力機制與基礎模型ResNet50結合進行了對比實驗,結果如表2所示。

可以看到,CBAM注意力機制在Acc和Kappa上表現最優;歸一化注意力機制(normalization attention,NA)[19]將注意力權重限制在[0, 1]范圍內,從而使得模型不能對感興趣的病灶特征賦予更高的權重;壓縮和激勵注意力機制(squeeze and excitation,SE)[20]僅關注輸入特征圖的通道特征,忽視了空間特征;有效通道注意力機制(efficient channel attention,ECA)[21]使用的1D卷積操作是局部操作,僅考慮相鄰通道之間的關系,無法捕捉到全局范圍內通道之間的復雜關系。
為進一步展示不同注意機制對于病變圖像的關注度,本文選取一張病變較容易觀察的圖像,并通過類激活熱力圖Grad-CAM來可視化模型的注意力區域,實驗結果如圖6所示。其中CBAM模型對于病變的關注度是最緊密全面的,其余注意機制均存在關注不足或關注過度的狀況。

2.3.3 消融實驗
為了驗證所提模型對DR分類性能的提升,本文進行了消融實驗,實驗結果如表3所示。

可以看到,表3中實驗八即本文模型所得到的結果最好。其中,小尺度卷積的消融實驗是指將ResNet50中的7 × 7卷積替換為小尺度卷積;注意力機制部分的實驗是指在原有ResNet50的基礎上增加CBAM模塊;跨層融合卷積實驗是指將原有的殘差結構替換為跨層融合卷積網絡。
圖7為消融實驗中的實驗八即本文模型得到的混淆矩陣,對角線上的值表示模型在每個DR類別上的正確分類比例。

2.3.4 不同模型的性能對比
為進一步說明所改進模型性能的優越性,本文從Acc、Recall、Spe和Kappa四個方面將本文所提模型與經典卷積神經網絡(LeNet)[22]、密集連接網絡(DenseNet)[23]、多尺度卷積網絡(GoogleNet)[24]、殘差網絡(ResNet)所得的DR五分類結果進行對比,結果如圖8所示。

同時,本文對現有一些已發表的方法在同一數據集上進行了重現,結果如表4所示。可以看到,本文所構建的模型均具有較明顯的優勢,不僅識別準確率提高到了97.75%,而且該模型的參數數量也相對較少。文獻[25]使用DenseNet-121作為基礎模型,并在DenseNet模塊后添加了2D全局平均池化層和丟棄率為0.5的dropout層,對于輸出層,使用了具有5個輸出節點的密集層和S型激活函數,準確率為94.28%,Kappa值為0.928 1;文獻[26]提出了Improved DR-Net算法,對ResNeXt50聚合殘差結構進行預訓練,通過遷移學習對模型進行參數及結構微調,引入空洞卷積代替普通卷積,并融合了注意力機制,準確率為95.69%,Kappa值為0.945 8;文獻[27]提出了一種基于卷積神經網絡的多標簽眼底病變分類模型,由四個卷積層、三個最大池化層和三個全連接層組成,同時還引入了SE模塊,準確率為92.64%,Kappa值為0.907 4。

3 結論
針對糖尿病視網膜病變分級困難、分類準確率低、模型參數量多等問題,本文構建了一種融合小尺度卷積、注意力機制與跨層融合卷積網絡的ResNet50分類模型來對DR病變程度進行分類。該模型以較小的計算量實現了較高的分類準確率。實驗表明,本文所提模型達到97.75%的準確率,相對于其他分類模型,取得了更優的效果。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:郭瑩負責論文整體規劃、實驗設計與核實、研究課題監管與指導、論文審閱與修訂;李紹杰負責改進模型的實現、實驗數據的分析、實驗結果可視化、論文初稿的撰寫與修改。
本文附件見本刊網站的電子版本(biomedeng.cn)。
0 引言
據《IDF國際糖尿病聯盟》報道[1],預計到2050年全球糖尿病人數將攀升至超過13億。糖尿病患者體內紊亂的胰島素代謝功能會引發多種并發癥,糖尿病視網膜病變(diabetic retinopathy,DR)是其中最常見的一種,如果不對其進行早期干預,將導致不可逆的永久性失明[2],因此早期篩查DR對于糖尿病患者極其重要。基于視覺技術的計算機輔助診斷有助于實現DR檢測的高效性,目前該技術主要分為兩大類:機器學習方法和深度神經網絡方法。但是,支持向量機、隨機森林、決策樹等[3-6]機器學習方法,需要人工選擇出血點、增生血管等特征集,因此,無需主觀提取特征且具有較強魯棒性的深度學習方法成為當前主流研究方向。文獻[7]在DenseNet169編碼器頂部引入注意力模塊,并使用交叉熵損失函數對模型進行訓練,最終得到97%的準確率、97%的靈敏度和98.3%的特異性,但該方法完成的是二分類任務,即只能判斷是否患有糖尿病,不能診斷DR病變程度。DR的不同病變等級可表征患者的糖尿病嚴重程度,通常對病變進行五分類,主要方法有:文獻[8]采用Inception-ResNet-v2多模型融合方法,準確率達到82.18%,但該方法的網絡模型過大,訓練時間過長;文獻[9]使用VGG16作為基礎網絡架構,在最后一個卷積層和第一個全連接層之間嵌入了空間金字塔層(spatial pyramid pooling,SPP),SPP層匯集特征并產生與相鄰全連接層兼容的固定大小的輸出向量,最后堆疊Network in Network(NiN)層增加模型的額外非線性,這項工作最終達到95%的準確率;文獻[10]提出了一種改進的膠囊網絡用于DR的檢測和五分類,該模型首先通過卷積層和主膠囊層從眼底圖像中提取特征,然后使用類膠囊層和Softmax層來估計圖像屬于特定類別的概率,在Messidor數據集上的準確率達到了97.98%。
盡管目前基于深度學習的DR分類檢測模型得到了大量研究,但仍存在網絡參數量多、病變特征提取不充分等問題,為此本文在以下三方面對傳統的殘差網絡模型(ResNet50)進行改進,以實現對DR的高效分類:① 為減少模型參數計算量,在保證輸出特征圖與感受野大小都不變的前提下,將ResNet50網絡第一個卷積層中的7 × 7卷積結構替換為三個3 × 3卷積核的堆疊結構;② 為解決不同病變等級間差異小,如微動脈瘤與小的出血點之間形態和顏色相似等問題,引入通道與空間的混合注意力機制;③ 為獲取病變的多層次特征,增強網絡的信息感知能力,將原殘差結構中的3 × 3卷積替換為具有多尺度感受野的跨層融合卷積。
1 提出的方法
1.1 預處理
在模型搭建前本文先對數據集進行了預處理操作。首先,為減少計算量,分別以原始圖像長和寬的一半作為圓心,并將長、寬中較小數值的一半作為半徑進行圓形裁剪操作;其次,為提升圖像整體對比度,采用限制對比度自適應直方圖方法[11]將圖像中對比度高于設定閾值(經驗閾值為8)的部分均勻地分布到圖像的每一個灰度值中;最后,為增強DR圖像的病灶特征,對原始圖像進行高斯濾波處理[如式(1)所示],之后將經過高斯濾波后的圖像與原圖像進行加權融合來得到增強特征后的圖像[12][如式(2)所示]。
![]() |
![]() |
式(1)中表示高斯濾波,
為標準差,其值設為10;
表示濾波后圖像;
表示卷積操作。式(2)中
表示圖像融合的權重參數,本文將其分別設為4、–4和128;
表示處理后的最終圖像。以APTOS2019數據庫中的一張無病變樣本為例,圖1所示為預處理的各階段結果。

1.2 模型搭建
本文以ResNet50[13]為基礎,首先,應用小尺度卷積來降低原模型的計算量;其次,在最大下采樣層和全連接層前引入混合卷積塊注意力機制(convolutional block attention module,CBAM),通過上一層輸出的特征圖依次與通道和空間注意力模塊所獲得的特征圖進行加權來幫助網絡獲取更多微小病變信息;最后,構建能夠獲取多尺度感受野的跨層融合卷積,以實現對DR圖像中病變特征的多層次提取。本文模型的結構如圖2所示,該改進模型的具體參數如表1所示。


1.2.1 小尺度卷積核的應用
為減少模型參數計算量的同時,保證輸入特征層中提取的感受野大小不變,本文模型的L1層使用三個3 × 3的小尺度卷積核代替ResNet50的第一個卷積層中的7 × 7卷積核,可以證明這樣的替換具有等效性(具體論證參見附件1)。若模型輸入輸出特征圖的通道數都為C,則使用一個7 × 7卷積核所需參數量為:
![]() |
堆疊三個3 × 3卷積核所需參數量為:
![]() |
可以看出,三個3 × 3卷積核串聯的參數量只有一個7 × 7卷積核的一半。因此,將第一個卷積層中的7 × 7卷積核用三個3 × 3卷積核來代替可減少模型參數量,提高網絡運算效率。
1.2.2 混合注意力機制的引入
考慮到DR中微小的病灶點如微動脈瘤與出血點之間差異較小、不易分辨的特點,本文模型的L2層和L8層采用如圖3所示的CBAM注意力機制模塊[14],以實現從通道和空間兩方面對有用微小特征信息的判別和提取。

通道注意力模塊通過對特征圖的不同通道進行加權來突出對當前任務最有用的通道特征[15]。首先,對上一層的輸出特征圖F(大小為)的寬和高進行全局平均池化和最大池化操作得到兩個
大小的特征圖;之后將CBAM機制中原有的共享全連接層用
卷積層來代替,從而在不改變圖像空間結構的基礎上使輸入通道數可為任意值,其中第一個卷積層的通道數為
,R為超參數,本文設為16,用于調節輸出通道數,第二個卷積層的通道數為C;而后將經過共享卷積層的特征
進行加和操作后再經過Sigmoid函數進行激活操作,得到最終的通道注意力特征圖。
空間注意力模塊通過學習特征圖的空間注意力權重來強調空間位置上的重要特征。首先,將經過通道注意力模塊獲取的特征圖分別利用最大池化和平均池化操作獲取特征圖在通道維度上的最大響應和平均響應,以此來捕捉在每個位置上最顯著的病變特征;然后,將得到的兩個
的特征圖在通道維度上進行拼接得到
,再經過一個
大小的卷積操作,將通道數降維為1后,應用Sigmoid激活函數,生成用于增強重要空間位置特征的空間注意力特征圖;之后,在上一層獲取的輸出特征圖
與通道注意力特征圖
和空間注意力特征圖
進行逐元素相乘,其輸出特征圖即為經過混合注意力機制處理的結果。
1.2.3 跨層融合卷積網絡
為使網絡在更關注小尺度細節(如微小的病灶點和血管等紋理信息)的同時也能關注到大尺度模式(如DR的整個眼底形狀),本文模型的L4層至L7層中采用了如圖4所構建的跨層融合卷積網絡結構。具體的設計思想是在輸入特征層上獲取不同大小的感受野,并對不同卷積層所獲得的特征進行融合,使網絡能夠檢測到更詳細全面的病變信息[16]。該結構主要由1 × 1卷積層、批量歸一化層、ReLU激活函數、跨層融合卷積層(包含1 × 1、3 × 3、5 × 5、7 × 7四種尺度)以及殘差結構構成。

在跨層融合卷積中,S是控制比例尺寸的重要參數,它可以將輸入通道數平均等分為多個特征通道,S越大表明多尺度能力越強。對于S值的選取,因殘差網絡每一層的通道數都為,為確保每個分支模塊都能均勻地處理特征圖的不同部分,故S的取值也應為
,其目的是保證劃分后的特征圖尺寸的一致性和對稱性,繼而保證網絡的整體性能和效果。因此本文在基本的ResNet50模型上分別對S取值為1、2、4、8、16進行驗證,以在測試集上對DR五分類準確率的高低為評判標準,來選取S的最優值。經實驗驗證,當S = 4時的分類準確率最高,達到96.64%,而隨著S的增加,跨層融合卷積網絡內部的計算量和存儲的復雜性也會增加,導致模型出現了過擬合現象。
確定S取為4后,可將輸入通道數通過1×1卷積后均勻地劃分為4個大小相等的特征通道,分別用(i = 1, 2,…, S)表示它們。之后每個
都與
的輸出結果相加,并進行3×3卷積繼而得到
。為減少網絡的參數量,
不進行卷積操作,直接輸出結果
。隨后,由卷積處理得到的特征圖,經過層間融合與累加操作后,便獲得了1 × 1、3 × 3、5 × 5、7 × 7四種尺寸的卷積核所對應的感受野(具體網絡參數參見附件2)。最后,將所得結果
、
、
、
進行聚合,再通過一個1 × 1大小的卷積核后與輸入相加得到最終的輸出。通過這種方式,模型可以在一張病變圖像上同時捕捉多尺度、多層次的特征信息,進而增強對DR不同病變特征的提取能力。
2 實驗結果與分析
2.1 數據集與實驗設置
本文以Kaggle競賽中公開的APTOS2019數據集[17]作為實驗對象,該數據集由3 662張圖片構成,包含了國際臨床疾病嚴重程度量表[18]對DR病變劃分的DR0至DR4五個等級,即正常無病變、輕度非增殖性病變、中度非增殖性病變、重度非增殖性病變和增殖性病變。但是該數據集中DR圖像具有分辨率大小不一的問題,為此本文統一將其調整為,同時在訓練過程中使用數據增強的手段,包括鏡像、旋轉、平移和增強亮度。在對比實驗中,本文將預處理后的數據集按照8∶1∶1的比例劃分為訓練集、驗證集和測試集。Epoch設為50次,學習率設為0.001,Batchsize設為32。
本文所有實驗均采用百度飛槳平臺提供的PaddlePaddle框架;使用V100顯卡,每塊顯卡算力為27.8,顯存為16 GB;運行內存為256 GB。
2.2 評價指標
本文使用準確率(Accuracy,Acc)、召回率(Recall)、特異度(Specificity,Spe)、一致性檢驗(Kappa)作為DR五分類的評價指標,其定義如式(5)~式(8)所示。Acc是分類正確的樣本數占總樣本數的比例;Recall衡量了在所有實際為正確的樣本中,成功預測的比例;Spe衡量了模型對非該DR等級判斷正確的能力;Kappa是分類精度的指標,其范圍為–1 ~ 1,越接近1表示分類結果一致性越高。
![]() |
![]() |
![]() |
![]() |
其中,TP表示模型正確預測為真實DR等級的數量,TN表示正確排除非該等級的數量,FP表示錯誤地將非該等級預測為該等級,FN表示錯誤地將該等級預測為非該等級。P0是算法正確預測的圖片比例,Pe表示在所有DR等級中每類實際和預測樣本數量的乘積與總樣本數平方的比例。
2.3 結果分析
2.3.1 小尺度卷積核對比實驗
為驗證在使用多個小尺度卷積核堆疊代替一個大尺度卷積核時,能夠在保持感受野的同時降低參數量并提高計算效率,本文在參數量和運行時間兩方面進行了對比實驗。如圖5所示,應用3 × 3小尺度卷積所需的模型參數量與運行一輪的時間都要低于7 × 7卷積。

2.3.2 注意力機制對比
為選取最優的注意力機制,本文將不同的注意力機制與基礎模型ResNet50結合進行了對比實驗,結果如表2所示。

可以看到,CBAM注意力機制在Acc和Kappa上表現最優;歸一化注意力機制(normalization attention,NA)[19]將注意力權重限制在[0, 1]范圍內,從而使得模型不能對感興趣的病灶特征賦予更高的權重;壓縮和激勵注意力機制(squeeze and excitation,SE)[20]僅關注輸入特征圖的通道特征,忽視了空間特征;有效通道注意力機制(efficient channel attention,ECA)[21]使用的1D卷積操作是局部操作,僅考慮相鄰通道之間的關系,無法捕捉到全局范圍內通道之間的復雜關系。
為進一步展示不同注意機制對于病變圖像的關注度,本文選取一張病變較容易觀察的圖像,并通過類激活熱力圖Grad-CAM來可視化模型的注意力區域,實驗結果如圖6所示。其中CBAM模型對于病變的關注度是最緊密全面的,其余注意機制均存在關注不足或關注過度的狀況。

2.3.3 消融實驗
為了驗證所提模型對DR分類性能的提升,本文進行了消融實驗,實驗結果如表3所示。

可以看到,表3中實驗八即本文模型所得到的結果最好。其中,小尺度卷積的消融實驗是指將ResNet50中的7 × 7卷積替換為小尺度卷積;注意力機制部分的實驗是指在原有ResNet50的基礎上增加CBAM模塊;跨層融合卷積實驗是指將原有的殘差結構替換為跨層融合卷積網絡。
圖7為消融實驗中的實驗八即本文模型得到的混淆矩陣,對角線上的值表示模型在每個DR類別上的正確分類比例。

2.3.4 不同模型的性能對比
為進一步說明所改進模型性能的優越性,本文從Acc、Recall、Spe和Kappa四個方面將本文所提模型與經典卷積神經網絡(LeNet)[22]、密集連接網絡(DenseNet)[23]、多尺度卷積網絡(GoogleNet)[24]、殘差網絡(ResNet)所得的DR五分類結果進行對比,結果如圖8所示。

同時,本文對現有一些已發表的方法在同一數據集上進行了重現,結果如表4所示。可以看到,本文所構建的模型均具有較明顯的優勢,不僅識別準確率提高到了97.75%,而且該模型的參數數量也相對較少。文獻[25]使用DenseNet-121作為基礎模型,并在DenseNet模塊后添加了2D全局平均池化層和丟棄率為0.5的dropout層,對于輸出層,使用了具有5個輸出節點的密集層和S型激活函數,準確率為94.28%,Kappa值為0.928 1;文獻[26]提出了Improved DR-Net算法,對ResNeXt50聚合殘差結構進行預訓練,通過遷移學習對模型進行參數及結構微調,引入空洞卷積代替普通卷積,并融合了注意力機制,準確率為95.69%,Kappa值為0.945 8;文獻[27]提出了一種基于卷積神經網絡的多標簽眼底病變分類模型,由四個卷積層、三個最大池化層和三個全連接層組成,同時還引入了SE模塊,準確率為92.64%,Kappa值為0.907 4。

3 結論
針對糖尿病視網膜病變分級困難、分類準確率低、模型參數量多等問題,本文構建了一種融合小尺度卷積、注意力機制與跨層融合卷積網絡的ResNet50分類模型來對DR病變程度進行分類。該模型以較小的計算量實現了較高的分類準確率。實驗表明,本文所提模型達到97.75%的準確率,相對于其他分類模型,取得了更優的效果。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:郭瑩負責論文整體規劃、實驗設計與核實、研究課題監管與指導、論文審閱與修訂;李紹杰負責改進模型的實現、實驗數據的分析、實驗結果可視化、論文初稿的撰寫與修改。
本文附件見本刊網站的電子版本(biomedeng.cn)。