基于改進Vision Transformer的血細胞圖像識別方法研究_《生物醫學工程學雜志》

作者：

孫天宇 ¹ , 朱慶濤 ¹ , 楊健 ¹ ,  曾亮 ²

1. 清華大學電子工程系（北京 100084）;
2. 北京理工大學（北京 100081）;

關鍵詞：

血細胞識別 Vision Transformer 自注意白血病

DOI：

10.7507/1001-5515.202203008

視頻：

導出 下載 收藏 掃碼 引用

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

白血病是一種常見多發且較為兇險的血液疾病，其早期發現與治療至關重要。目前白血病類型的診斷主要依靠病理醫師對血細胞圖像進行形態學檢查，該過程枯燥、費時，且診斷結果有較強的主觀性，易發生誤診與漏診。針對上述問題，本文提出了一種基于改進Vision Transformer的血細胞圖像識別方法。首先，使用快速區域卷積神經網絡從圖像中定位并裁剪出單個血細胞圖像切片。然后，將單細胞圖像劃分為多個圖像塊并輸入到編碼層中進行特征提取。本文基于Transformer的自注意機制提出了稀疏注意力模塊，該模塊能夠篩選出圖像中的辨識性區域，進一步提升模型的細粒度特征表達能力。最后，本文采用對比損失函數，進一步增加分類特征的類內一致性與類間差異性。實驗結果表明，本文模型在慕尼黑血細胞形態學數據集上的識別準確率為91.96%，有望為醫師臨床診斷提供參考依據。

引用本文： 孫天宇, 朱慶濤, 楊健, 曾亮. 基于改進Vision Transformer的血細胞圖像識別方法研究. 生物醫學工程學雜志, 2022, 39(6): 1097-1107. doi: 10.7507/1001-5515.202203008 復制

引言

白血病^[1]是一種人體造血系統的惡性腫瘤，在所有惡性腫瘤中占比約5%，是我國重點防治的十大惡性腫瘤之一。白血病可導致外周血中血細胞的形態與數量出現異常，患者臨床表現為貧血、出血、發熱、乏力等。白血病的致死率較高，其早期發現與治療對延長患者生存時間、改善患者生活質量至關重要^[2]。血細胞形態學檢查是白血病診斷常規檢查的一部分^[3]，通常由訓練有素的醫師對顯微設備采集的血細胞圖像進行觀察，統計不同類型的血細胞數量，然后，根據FAB分類標準^[4]對白血病類型進行初步診斷。但是該方法也存在不足，人工分類計數繁瑣費時，診斷結果具有較強的主觀性。此外，細胞形態學人才資源緊缺，培養精通細胞病理診斷的醫師要耗費大量的時間。因此，研究血細胞自動化識別技術來輔助臨床診斷，可以實現診斷流程的標準化、快速化與智能化，將醫生從繁重的病理工作中解放出來，具有重要的臨床意義和廣闊的應用前景。

近年來，基于深度學習的方法在醫學影像處理領域取得了巨大的成功^[5-6]。國內外學者紛紛開始探索基于深度學習的血細胞識別方法，研究領域包括了血細胞圖像檢測^[7-12]、分類^[13-19]、語義分割^[20-22]等。血細胞檢測任務是從圖像中定位血細胞并分類。檢測方法根據是否生成候選區域分為兩個流派，一類是基于候選區域的雙階段檢測算法，即先從圖像中定位包含血細胞的區域，再對區域進行坐標回歸與分類；另一類是單階段檢測算法，其將圖像劃分為多個網格并對每個網格預測邊界框和類別。在雙階段檢測方面，Dhieb等^[7]使用掩膜區域卷積神經網絡（mask region-based convolutional neural network，Mask R-CNN）對紅細胞與白細胞進行檢測，模型以Resnet-101網絡作為主干，并使用FPN網絡提取多尺度特征來檢測不同大小的細胞，該方法對紅細胞與白細胞識別準確率分別為92%與96%。Tobias等^[8]基于快速區域卷積神經網絡對紅細胞與白細胞進行識別，對紅細胞、白細胞的識別準確率分別為98%、99%。在單階段檢測方面，Shakarami等^[9]基于YOLOv3（you look only once v3）單階段目標檢測網絡提出了快速高效的YOLOv3檢測模型（Fast and Efficient YOLOv3 Detector，FED），該模型以Efficientnet作為主干網絡并在三個尺度上對血細胞進行檢測，該方法在BCCD數據集上對血小板、紅細胞、白細胞的平均識別準確率分別為90.25%、80.41%、98.92%。在血細胞圖像分類領域，學者們也進行了廣泛的研究。Matek等^[13]開源了一個包含15類總計18 375張圖像的血細胞數據集，接著采用ResNext模型進行分類，網絡對于常見的血細胞如中性粒細胞、淋巴細胞、單核細胞的識別準確率達到了94%。Fu等^[14]基于陸軍軍醫大學第二附屬醫院收集的65 986幅骨髓血細胞圖像開發了一個完整的自動化檢測識別系統morphogo，該研究使用了27層的卷積神經網絡，對12類骨髓血細胞的平均分類準確率為85.7%。Huang等^[15]首先基于RetinaNet檢測網絡得到單個血細胞的切片圖像，接著將自適應注意力模塊引入到卷積神經網絡中，該模塊增強了與分類任務相關區域特征的權重，提升了模型的特征表達能力，模型對六類白細胞的平均分類準確率為95.3%。Mori等^[16]按細胞質顆粒減少的程度將血細胞劃分為四類，然后使用Resnet-152網絡進行分類，平均靈敏度與特異性分別為85.2%、98.9%。

雖然上述研究在血細胞識別方面取得了長足的進步，但大多基于通用的目標檢測、分類網絡，并未針對血細胞的特性進行改進。此外，很多研究只關注了血細胞大類，未關注其中的子類別如粒細胞的原始、早幼、中幼與晚幼等階段，血細胞子類之間差異較小使得其自動化識別更具挑戰性。最近，Vision Transformer^[23]在視覺分類任務中效果良好，這表明Transformer^[24]的自注意機制可以捕獲圖像塊序列中的重要部分，使得模型具有更強的局部與全局特征表達能力。因此，本文結合血細胞特性對血細胞細粒度分類進行研究，提出了一種基于改進Vision Transformer的血細胞識別方法。首先，使用快速區域卷積神經網絡^[25]從圖像中檢測出細胞邊界并進行裁剪，去除背景等干擾。接著，本文提出一種重疊圖像塊劃分方法將裁剪后的圖像分割為多個圖像塊并嵌入，然后嵌入向量經過多個編碼層進行特征提取。本文基于多頭自注意機制^[24]提出了稀疏注意力模塊，該模塊可以捕捉血細胞圖像中的辨識性區域，并將篩選后的特征輸入到編碼層。最后，網絡輸出的分類特征用于細胞識別。在訓練過程中，本文采用對比損失^[25]進一步增加分類特征的類內一致性與類間差異性。本文相關代碼與數據已在GitHub開源：https://github.com/sty16/cell_transformer。

1 數據集與預處理

1.1 ?數據集

本文采用了The Cancer Imaging Archive平臺上開源的慕尼黑血細胞形態學數據集（The Munich AML Morphology Dataset，TMAMD）^[26]。該數據來自慕尼黑醫院2014年至2017年間100位被診斷為急性白血病的患者與100位無血液惡性腫瘤的患者。該數據集包含了15類由專家標記的18 635張單細胞圖像。如圖1a所示，圖像背景中有較多的成熟紅細胞，這類細胞沒有細胞核，不屬于本次分類所關注的類別。有的圖像中包含多個細胞，如圖1b所示。上述因素會導致網絡分類性能下降，因此我們對原圖像進行血細胞邊界框檢測并裁剪，處理后的單張血細胞圖像如圖1c所示。

圖1 血細胞形態學數據集圖像

a. 單個血細胞圖像；b. 包含兩個血細胞的圖像；c. 裁剪后圖像

Figure1. The images of The Munich AML Morphology Dataset

a. single cell images; b. image containing two blood cells; c. cropped cell images

圖選項

血細胞類別	圖像數量	是否選擇	數據增強
分頁核嗜中性粒細胞（NGS）	8 484	√	1 000
桿狀核嗜中性粒細胞（NGB）	109	√	545
典型淋巴細胞（LYT）	3 937	√	1 000
非典型淋巴細胞（LYA）	11	×
單核細胞（MON）	1 789	√	1 000
嗜酸性粒細胞（EOS）	424	√	848
嗜堿性粒細胞（BAS）	79	√	395
原始粒細胞（MYO）	3 268	√	1 000
早幼粒細胞（PMO）	70	√	350
二分裂早幼粒細胞（PMB）	18	×
中幼粒細胞（MYB）	42	√	210
晚幼粒細胞（MMZ）	15	×
原始單核細胞（MOB）	26	×
有核紅細胞（EBO）	78	√	390
破碎細胞（KSC）	15	×
總計	18 365		6 738

血細胞類別	精確率（%）	召回率（%）	測試圖像數量
嗜堿性粒細胞（BAS）	90.41	82.50	80
有核紅細胞（EBO）	98.77	100.00	80
嗜酸性粒細胞（EOS）	98.81	97.65	170
典型淋巴細胞（LYT）	94.09	95.50	200
單核細胞（MON）	86.57	93.50	200
中幼粒細胞（MYB）	92.31	53.33	45
原始粒細胞（MYO）	91.50	91.50	200
桿狀核嗜中性粒細胞（NGB）	91.82	91.81	110
分葉核嗜中性粒細胞（NGS）	93.50	93.50	200
早幼粒細胞（PMO）	76.92	85.71	70
總計			1 355

方法	骨干網絡	準確率（%）	運算次數/GFLOPs	參數量大小/MB
VGG	VGG16	88.85	15.53	134.31
ResNet	ResNet50	89.01	4.12	23.53
ResNet	ResNet152	89.22	11.58	78.63
SENet	SE-ResNet50	89.88	4.13	26.06
SENet	SE-ResNet101	89.96	7.86	47.3
ResNext	ResNext50	89.22	4.27	23.00
ResNext	ResNext152	90.25	11.80	57.92
EfficientNet	EfficientNet-B0	90.47	0.04	19.34
Vision Transformer	vit-base-p16	91.14	16.86	85.81
本文方法（圖像塊非重疊）	vit-base-cell-p16	91.88	16.95	92.89
本文方法（圖像塊重疊）	vit-base-cell-p16	91.96	19.44	92.92

編碼層數量	多頭自注意數	嵌入向量維度	運算次數/GFLOPs	參數量大小/MB	準確率（%）
12	12	768	16.95	92.89	91.88
10	12	768	14.16	78.73	90.85
8	12	786	11.37	64.54	89.81
6	12	768	8.58	50.37	87.64
4	12	768	5.79	36.28	85.01
2	12	768	3.00	22.02	83.17
12	8	512	10.04	55.13	84.12
8	8	512	6.73	38.32	82.41
4	8	512	2.80	17.57	80.85
12	4	256	4.39	24.18	78.64
8	4	256	1.75	10.37	79.49
4	4	256	1.18	7.48	78.08

塊大小	劃分方式	嵌入向量數量	準確率（%）	運算次數/GFLOPs
32	非重疊	50	88.92	4.36
32	重疊	82	89.88	7.16
16	非重疊	197	91.88	16.95
16	重疊	226	91.96	19.44

方法	對比損失	準確率（%）
Vision Transformer	×	90.62
Vision Transformer	√	91.14
本文模型	×	91.29
本文模型	√	91.88

1.	黃治虎, 陳寶安, 歐陽建, 等. 我國白血病流行病學調查的現狀和對策. 臨床血液學雜志, 2009, 22(2): 166-167.
2.	Musto P, Statuto T, Valvano L, et al. An update on biology, diagnosis and treatment of primary plasma cell leukemia. Expert Rev Hematol, 2019, 12(4): 245-253.
3.	伍柏青, 傅新文. 當代五分類血細胞分析儀技術原理分析. 實驗與檢驗醫學, 2011, 29(4): 391-394.
4.	Bennett J M, Catovsky D, Daniel M T, et al. Proposals for the classification of the acute leukaemias French-American-British (FAB) co-operative group. Brit J Haematol, 1976, 33(4): 451-458.
5.	Shen D, Wu G, Suk H I. Deep learning in medical image analysis. Annu Rev Biomed Eng, 2017, 19: 221-248.
6.	Litjens G, Kooi T, Bejnordi B E, et al. A survey on deep learning in medical image analysis. Med Image Anal, 2017, 42: 60-88.
7.	Dhieb N, Ghazzai H, Besbes H, et al. An automated blood cells counting and classification framework using mask R-CNN deep learning model// 2019 31st International Conference on Microelectronics (ICM). Cairo: IEEE, 2019: 300-303.
8.	Tobias R R, De Jesus L C, Mital M E, et al. Faster R-CNN model with momentum optimizer for RBC and WBC variants classification// 2020 IEEE 2nd Global Conference on Life Sciences and Technologies (LifeTech). Kyoto: IEEE, 2020: 235-239.
9.	Shakarami A, Menhaj M B, Mahdavi-Hormat A, et al. A fast and yet efficient YOLOv3 for blood cell detection. Biomed Signal Proces, 2021, 66: 102495.
10.	鞠孟汐, 李欣蔚, 李章勇. 基于深度主動學習的白帶白細胞智能檢測方法研究. 生物醫學工程學雜志, 2020, 37(3): 519-526.
11.	Xia T, Jiang R, Fu Y Q, et al. Automated blood cell detection and counting via deep learning for microfluidic point-of-care medical devices. IOP Conf Ser Mater Sci Eng, 2019, 646: 012048.
12.	Novoselnik F, Grbi? R, Gali? I, et al. Automatic white blood cell detection and identification using convolutional neural network// 2018 International Conference on Smart Systems and Technologies (SST). Osijek: IEEE, 2018: 163-167.
13.	Matek C, Schwarz S, Spiekermann K, et al. Human-level recognition of blast cells in acute myeloid leukaemia with convolutional neural networks. Nat Mach Intell, 2019, 1(11): 538-544.
14.	Fu X, Fu M, Li Q, et al. Morphogo: an automatic bone marrow cell classification system on digital images analyzed by artificial intelligence. Acta Cytol, 2020, 64(6): 588-596.
15.	Huang P, Wang J, Zhang J, et al. Attention-aware residual network based manifold learning for white blood cells classification. IEEE J Biomed Health Inform, 2020, 25(4): 1206-1214.
16.	Mori J, Kaji S, Kawai H, et al. Assessment of dysplasia in bone marrow smear with convolutional neural network. Sci Rep, 2020, 10(1): 1-8.
17.	Ghosh M, Das D, Mandal S, et al. Statistical pattern analysis of white blood cell nuclei morphometry// 2010 IEEE Students Technology Symposium (TechSym). Kharagpur: IEEE, 2010: 59-66.
18.	Rezatofighi S H, Soltanian-Zadeh H. Automatic recognition of five types of white blood cells in peripheral blood. Comput Med Imaging Graph, 2011, 35(4): 333-343.
19.	Zhu Q, Lu D, Zhang T, et al. Fine-grained classification of neutrophils with hybrid loss// International Conference on Image and Graphics. Haikou: Springer, 2021: 102-113.
20.	Zhou Z, Siddiquee M M R, Tajbakhsh N, et al. Unet++: A nested U-Net architecture for medical image segmentation. Deep Learn Med Image Anal Multimodal Learn Clin Decis Support, 2018, 11045: 3-11.
21.	Lu Y, Qin X, Fan H, et al. WBC-Net: A white blood cell segmentation network based on UNet++ and ResNet. Appl Soft Comput, 2021, 101: 107006.
22.	Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation// International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich: Springer, 2015: 234-241.
23.	Dosovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16x16 Words: Transformers for image recognition at scale// International Conference on Learning Representations. New Orleans: ICLR, 2021: 1-22.
24.	Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need// Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS'17). California: Curran Associates Inc, 2017: 6000-6010.
25.	Hadsell R, Chopra S, LeCun Y. Dimensionality reduction by learning an invariant mapping// 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06). New York: IEEE, 2006, 2: 1735-1742.
26.	Matek C, Schwarz S, Marr C, et al. A single-cell morphological dataset of leukocytes from AML patients and non-malignant controls [2022-03-05]. https://wiki.cancerimagingarchive.net/pages/viewpage.action?pageId=61080958.
27.	Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Trans Pattern Anal Mach Intell, 2016, 39(6): 1137-1149.
28.	Settles B. Active learning literature survey. Madison: University of Wisconsin-Madison, 2010.
29.	Van Dyk D A, Meng X L. The art of data augmentation. J Comput Graph Stat, 2001, 10(1): 1-50.
30.	Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition// 3rd International Conference on Learning Representations (ICLR 2015). San Diego: ICLR, 2015: 1-14.
31.	He K, Zhang X, Ren S, et al. Deep residual learning for image recognition// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.
32.	Hu J, Shen L, Albanie S, et al. Squeeze-and-excitation networks. IEEE Trans Pattern Anal Mach Intell, 2020, 42(8): 2011-2023.
33.	Xie S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE 2017: 1492-1500.
34.	Tan M, Le Q. Efficientnet: Rethinking model scaling for convolutional neural networks// International Conference on Machine Learning. California: IMLS, 2019: 6105-6114.
35.	van der Maaten L, Hinton G. Visualizing data using t-SNE. J Mach Learn Res, 2008, 9(86): 2579-2605.

《生物醫學工程學雜志》

基于改進Vision Transformer的血細胞圖像識別方法研究

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

引言

1 數據集與預處理

1.1 ?數據集

1.2 數據預處理

2 方法

2.1 圖像劃分與嵌入

2.2 編碼器

2.3 稀疏注意力模塊

2.4 損失函數

3 實驗結果與分析

3.1 實驗環境與參數配置

3.2 識別網絡性能對比實驗

3.3 消融實驗

3.3.1 圖像塊劃分方法

3.3.2 稀疏注意力模塊

3.3.3 對比損失

4 結論

引言

1 數據集與預處理

1.1 ?數據集

1.2 數據預處理

2 方法

2.1 圖像劃分與嵌入

2.2 編碼器

2.3 稀疏注意力模塊

2.4 損失函數

3 實驗結果與分析

3.1 實驗環境與參數配置

3.2 識別網絡性能對比實驗

3.3 消融實驗

3.3.1 圖像塊劃分方法

3.3.2 稀疏注意力模塊

3.3.3 對比損失

4 結論

上一篇

下一篇

Format

Content

摘要全文圖表視頻參考文獻施引文獻補充材料