基于生成對抗網絡的甲狀腺超聲圖像文本跨模態檢索方法_《生物醫學工程學雜志》

作者：

徐峰 ^1,3 , 馬小萍 ² ,  劉立波 ¹

1. 寧夏大學信息工程學院（銀川 750021）;
2. 銀川市第一人民醫院醫技科（銀川 750002）;
3. 中國氣象局旱區特色農業氣象災害監測預警與風險管理重點實驗室（銀川 750006）;

關鍵詞：

甲狀腺跨模態檢索生成對抗網絡深度學習

DOI：

10.7507/1001-5515.201812042

視頻：

導出 下載 收藏 掃碼 引用

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

超聲檢查是甲狀腺病變檢查中的常用手段，其檢查結果主要由甲狀腺超聲圖像和檢查所見文本報告組成。實現醫療圖像與文本報告的互相檢索（簡稱：互檢）可以為醫生及患者提供極大的便利，但目前尚未有將甲狀腺超聲圖像與文本報告相關聯的互檢方法。本文提出一種基于深度學習的跨模態甲狀腺圖文互檢方法，并在跨模態生成對抗網絡的基礎上提出改進方法：① 將原網絡中用于構建公共表示空間的部分全連接層之間的權重共享約束改為余弦相似度約束，能使網絡更好地學習不同模態數據的公共表示；② 在跨模態判別器前加入全連接層，將權重共享的原網絡中圖像和文本全連接層合并在一起，在繼承了原網絡權重共享的優點基礎上實現語義正則化。實驗結果表明，本文方法的甲狀腺超聲圖像與文本報告互檢平均精度均值可以達到 0.508，較傳統跨模態方法有較大提升，為甲狀腺超聲圖像和文本報告的跨模態檢索提供了新手段。

引用本文： 徐峰, 馬小萍, 劉立波. 基于生成對抗網絡的甲狀腺超聲圖像文本跨模態檢索方法. 生物醫學工程學雜志, 2020, 37(4): 641-651. doi: 10.7507/1001-5515.201812042 復制

引言

甲狀腺結節是內分泌系統的常見病和多發病，發病率在成人中高達 50%，其中惡性結節占 7%^[1]。超聲影像是目前甲狀腺檢查中最常用的方法。甲狀腺超聲報告包括超聲圖像和文本內容，這兩類不同模態數據為同一病例提供了不同的視角。實現甲狀腺超聲圖像和文本報告之間的跨模態互相檢索（簡稱：互檢），不僅可以方便醫生與患者查閱病歷，還可以針對現有數據檢索相似病例，為診斷提供極大便利。但目前針對甲狀腺超聲診斷的研究主要是針對圖像或文本報告的獨立方法，尚未有將跨模態檢索方法應用于兩者聯系的研究。

現階段跨模態檢索方法的主要思想是學習不同模態間的公共表示，并將不同模態的數據用距離聯系起來，主要分為傳統方法和基于深度學習的方法。① 傳統方法通過學習線性投影來最大化不同模態數據間的聯系，將不同模態數據的特征投影至公共空間來生成一個公共語義表示，其中一類方法主要是通過優化統計值進行相關性分析，具有代表性的是典型關聯分析（canonical correlation analysis，CCA）^[2]。CCA 通過構建低維公共空間來實現聯系不同模態間的數據，后續有研究在該方法基礎上提出了很多改進，比如使用核函數、整合語義標簽、加入高級語義的多視 CCA 等^[3-5]。與 CCA 類似的還有跨模態因子分析方法（cross-modal factor analysis，CFA）^[6]。CFA 通過最小化不同模態數據間的 F 范數，學習將不同模態數據投影至公共空間。另一類方法則將圖正則化整合至跨模態關聯學習中，主要是在公共語義空間中構建不同模態數據的圖^[7-9]。② 深度學習憑借著其強大的非線性關聯建模能力，在許多單模態問題上取得了很好的應用，例如圖像分類和目標檢測等^[10-11]。因此，一些深度學習網絡也被應用在多模態關聯性建模問題中^[12]，例如 Feng 等^[13]提出了一種自動編碼器（correspondence autoencoder，Corr-AE）來對跨模態關聯和信息重建進行建模；此外還有采用深度網絡和 CCA 相結合的方法——深度典型關聯分析（deep canonical correlation analysis，DCCA）^[14]。這些網絡一般包含兩個子網絡，通過聯合層（joint layer）來聯系不同模態的數據^[15]。目前還有整合細粒度信息與多任務學習策略并以此來提高性能的方法，例如跨模態關聯學習方法（cross-modal correlation learning，CCL）^[16]。

上述方法在構建公共表示空間的過程中，往往缺少對不同模態數據特征之間的相似性關聯約束，對于公共表示空間缺少深層語義關聯。由于甲狀腺超聲圖像相似度較高，且醫生給出的文本報告格式統一，由這些數據提取出的特征往往也較為相似，所以在這些特征基礎上構建公共表示空間時，上述問題所帶來的檢索準確率較低的影響尤為凸出。

隨著 Ian 等^[17]提出生成對抗網絡（generative adversarial network，GAN）以后，越來越多的學者提出了基于 GAN 的跨模態數據生成方法^[18-20]，但大多數方法只能由一種模態生成另一種模態。Peng 等^[21]將 GAN 應用在跨模態數據公共表示建模問題中，提出了跨模態 GAN（cross-modal GAN，CM-GAN）網絡。CM-GAN 網絡通過使用深度網絡提取數據特征，再利用 GAN 強大的學習能力來構建跨模態的公共表示空間。

本文針對上述問題，提出基于 CM-GAN 的跨模態方法來實現甲狀腺超聲圖像與文本報告圖文互檢，并在原有網絡基礎上進行兩點改進：① 將原網絡中用于構建公共表示空間的部分全連接層之間的權重共享約束改為余弦相似度約束，使網絡更好地學習不同模態數據的公共表示；② 在跨模態判別器前加入全連接層，將權重共享的原圖像和文本全連接層合并在一起，在繼承了原網絡權重共享的優點基礎上實現語義正則化。本文以銀川市第一人民醫院提供的甲狀腺超聲圖像與文本報告為基礎數據，所有數據均經過脫敏處理，而本文研究僅使用圖像與文本報告，不使用任何患者信息與設備信息。本文所提出的方法實現了甲狀腺超聲圖像與文本報告的互檢，為甲狀腺超聲檢查數據的臨床應用拓展、減少醫生工作量以及方便患者檢索數據奠定了理論與實驗基礎。

1 方法

本文采用 CM-GAN 為基礎網絡，對甲狀腺超聲圖像與文本報告進行關聯建模，并實現跨模態檢索。具體包括三個工作：① 構建 CM-GAN 網絡；② 改進 CM-GAN 網絡；③ 對本文方法進行對比測試。

1.1 CM-GAN 結構

本文方法基于 GAN，以 CM-GAN 為基礎網絡。目前，基于 GAN 的基本結構，衍生出非常多的網絡模型，其中包括 CM-GAN。

GAN 主要由兩部分組成，一部分為生成器（以符號 G 表示），另一部分為判別器（以符號 D 表示）。生成器主要用于學習真實數據的分布，生成接近真實的數據，而判別器主要用于判別數據是真實的還是由生成器生成的。一個典型的 GAN 網絡結構如圖 1 所示。在訓練時，GAN 可以看作是 G 和 D 的極大極小博弈，如式（1）所示：

圖1 典型的 GAN 結構 Figure1. Typical structure of GAN

圖選項

方法	精度均值		mAP 值
方法	以圖檢文	以文檢圖	mAP 值
CCA	0.275	0.261	0.268
CFA	0.322	0.302	0.312
Corr-AE	0.421	0.419	0.420
DCCA	0.452	0.403	0.427
CCL	0.498	0.447	0.472
CM-GAN	0.503	0.471	0.487
本文-全連接層	0.486	0.475	0.472
本文-余弦相似度	0.491	0.506	0.495
本文	0.519	0.497	0.508

1.	韓婧, 康驊. 甲狀腺癌的發病現狀及影響因素. 實用預防醫學, 2018, 25(7): 894-897.
2.	Hotelling H. Relations between two sets of variates. Biometrika, 1936, 28(3/4): 321-377.
3.	Hardoon D R, Szedmak S, Shawe-Taylor J. Canonical correlation analysis: an overview with application to learning methods. Neural Comput, 2004, 16(12): 2639-2664.
4.	Rasiwasia N, Pereira J C, Coviello E, et al. A new approach to cross-modal multimedia retrieval//Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM Press, 2010: 251-260.
5.	Gong Yunchao, Ke Qifa, Michael I, <italic>et al</italic>. A multi-view embedding space for modeling internet images. Int J Comput Vis, 2012, 106(2): 210-233.
6.	Li Dongge, Nevenka D, Li Mingkun, et al. Multimedia content processing through cross-modal association//Proceedings of the 11th ACM International Conference on Multimedia. New York: ACM Press, 2003: 604-611.
7.	Zhai Xiaohua, Peng Yuxin, Xiao Jianguo. Heterogeneous metric learning with joint graph regularization for cross-media retrieval//Proc of the 27th AAAI Conference on Artificial Intelligence, Washington: AAAI Press, 2013: 1198-1204.
8.	Zhai Xiaohua, Peng Yuxin, Xiao Jianguo. Learning cross-media joint representation with sparse and semi-supervised regularization. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24(6): 965-978.
9.	Wang Kaiye, He Ran, Wang Liang, <italic>et al</italic>. Joint feature selection and subspace learning for cross-modal retrieval. IEEE Trans Pattern Anal Mach Intell, 2016, 38(10): 2010-2023.
10.	Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. Commun ACM, 2017, 60(6): 84-90.
11.	Ren Shaoqing, He Kaiming, Girshick R, <italic>et al</italic>. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Trans Pattern Anal Mach Intell, 2017, 39(6): 1137-1149.
12.	Jiquan N, Aditya K, Mingyu K, et al. Multimodal deep learning//Proc of the 28th International Conference on Machine Learning, Bellevue: ICML Press, 2011: 689-696.
13.	Feng Fangxiang, Wang Xiaojie, Li Ruifan. Cross-modal retrieval with correspondence autoencoder//Proceedings of the ACM International Conference on Multimedia - MM '14, New York: ACM Press, 2014: 7-16.
14.	Galen A, Raman A, Jeff B, et al. Deep canonical correlation analysis//Proc of the 30th International Conference on Mache Learning, Atlanta: ACM Press, 2013: 1247-1255.
15.	Fei Yan, Mikolajczyk K. Deep correlation for matching images and text//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston: IEEE, 2015: 3441-3450.
16.	Peng Yuxin, Qi Jinwei, Xin Huang, <italic>et al</italic>. CCL: cross-modal correlation learning with multigrained fusion by hierarchical network. IEEE Transactions on Multimedia, 2018, 20(2): 405-420.
17.	Ian J G, Jean P A, Mehdi M, et al. Generative adversarial nets//Proc of the 27th International Conference on Neural Information Processing Systems, Cambridge: MIT Press, 2014: 2672-2680.
18.	Augustus O, Christopher O, Jonathon S. Conditional image synthesis with auxiliary classifier GANs//Proceedings of the 34th International Conference on Machine Learning, Sydney: ACM Press, 2017: 2642-2651.
19.	Scott R, Zeynep A, Santosh M, et al. Learning what and where to draw//Proc of the 30th International Conference on Neural Information Processing Systems. Barcelona: ACM Press, 2016: 217–225.
20.	Zhang Han, Xu Tao, Li Hongsheng, et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks//2017 IEEE International Conference on Computer Vision (ICCV), Venice: IEEE. 2017: 1-8.
21.	Peng Yuxin, Qi Jinwei. CM-GANs: cross-modal generative adversarial networks for common representation learning. ACM Transactions on Multimedia Computing, Communications, and Applications, 2019, 15(1): 22.
22.	Karen S, Andrew Z. Very deep convolutional networks for large-scale image recognition. (2014-9-4). [2015-4-25]. https://arxiv.org/abs/1409.1556.
23.	Tomas M, Ilya S, Kai C, et al. Distributed representations of words and phrases and their compositionality// Proc of the 26th International Conference on Neural Information Processing Systems, Lake Tahoe: ACM Press, 2013: 3111–3119.

《生物醫學工程學雜志》

基于生成對抗網絡的甲狀腺超聲圖像文本跨模態檢索方法

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

引言

1 方法

1.1 CM-GAN 結構

1.2 改進的 CM-GAN

1.3 改進網絡結構

1.4 最終網絡結構

2 實驗

2.1 數據集和預處理

2.2 評價指標

2.3 實驗結果

3 結束語

引言

1 方法

1.1 CM-GAN 結構

1.2 改進的 CM-GAN

1.3 改進網絡結構

1.4 最終網絡結構

2 實驗

2.1 數據集和預處理

2.2 評價指標

2.3 實驗結果

3 結束語

上一篇

下一篇

Format

Content

摘要全文圖表視頻參考文獻施引文獻補充材料