基于CT影像的人工智能輔助診斷系統對 4 771 例肺癌診斷價值的系統評價與Meta分析_《中國胸心血管外科臨床雜志》

作者：

董來東 ¹ ,  黃果 ²

1. 山東大學齊魯醫院門診部（濟南 250012）;
2. 復旦大學公共衛生學院（上海 200032）;

關鍵詞：

人工智能輔助診斷系統診斷價值肺癌 CT影像系統評價/Meta分析

DOI：

10.7507/1007-4848.202012022

視頻：

導出 下載 收藏 掃碼 引用

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

目的評估基于 CT 影像的人工智能（artificial intelligence，AI）輔助診斷系統對肺癌的診斷價值。方法計算機檢索 PubMed、EMbase、The Cochrane Library、CNKI、萬方數據庫和中國生物醫學文獻數據庫（CBM）中 2010～2019 年關于基于 CT 影像的 AI 輔助診斷系統診斷肺癌的中英文文獻。按照診斷試驗的納入和排除標準篩選文獻，進行質量評價并提取特征信息。采用 RevMan 5.3、Stata 12.0 和 SAS 9.4 軟件進行 Meta 分析，以合并敏感度、特異度、陽性似然比、陰性似然比、診斷比值比，繪制綜合受試者工作特征（SROC）曲線，并通過 Meta 回歸分析探索研究間異質性來源。結果共納入 18 個研究，包括 4 771 例患者。納入的研究間存在異質性，采用隨機效應模型進行分析。Meta 分析結果顯示：基于 CT 影像的 AI 輔助診斷系統診斷肺癌的合并敏感度、合并特異度、合并陽性似然比、合并陰性似然比、合并診斷比值比和 SROC 曲線下面積分別為 0.87［95%CI（0.84，0.90）］、0.89［95%CI（0.84，0.92）］、7.70［95%CI（5.32，11.15）］、0.14 ［95%CI（0.11，0.19）］、53.54［95%CI（30.68，93.42）］和 0.94［95%CI（0.91，0.95）］。結論基于 CT 影像的 AI 輔助診斷系統對肺癌具有較高的診斷價值，可以作為一種診斷肺癌的方法在臨床推廣應用。但受納入研究的數量和質量限制，上述結論尚需開展更多高質量研究予以驗證。

引用本文： 董來東, 黃果. 基于CT影像的人工智能輔助診斷系統對 4 771 例肺癌診斷價值的系統評價與Meta分析. 中國胸心血管外科臨床雜志, 2021, 28(10): 1183-1191. doi: 10.7507/1007-4848.202012022 復制

在世界范圍內，肺癌仍然是癌癥發病率和死亡率高的主要原因。2018 年預計有 210 萬肺癌新發病例和 180 萬死亡病例，相當于近 1/5（18.4%）的癌癥患者死亡^[1]。據相關資料統計，肺癌的 5 年生存率在Ⅰ期時為70%，到Ⅳ期時不到5%^[2]。因此，早期診斷、早期治療是提高肺癌治愈率、降低死亡率的有效方法^[3]。電子計算機斷層掃描（computed tomography，CT）能通過斷層圖像重建出結節的三維形態，是肺癌臨床診斷的常用方法，但仍存在漏診、誤診情況^[4-5]。近年來，人工智能（artificial intelligence，AI）輔助診斷系統成為醫學領域圖像處理和分析的研究熱點，在 CT 檢查中應用 AI 輔助診斷系統則是通過圖像獲取和重組、輪廓分割、特征提取和篩選、建立訓練模型和預測驗證等環節，利用 AI 輔助診斷系統鑒別良惡性肺結節，具有效率快、效能高的優點^[6]。迄今，已有不少基于 CT 影像的 AI 輔助診斷系統診斷肺癌的有效性的研究，但這些研究樣本量小、研究質量不同、AI 算法不一，因此本文采用 Meta 分析方法，對 AI 輔助診斷系統在肺癌中的診斷價值進行系統評價和 Meta 分析，以便為臨床應用提供證據。

1 資料與方法

1.1 納入和排除標準

納入標準：（1）研究類型：國內外公開發表的基于 CT 影像的 AI 輔助診斷系統診斷肺癌的診斷性試驗。（2）研究對象：接受 AI 輔助診斷系統檢測 CT 影像且獲得明確診斷結果的患者。（3）診斷方法：AI 輔助診斷系統檢測方法使用 AI 算法不限。以手術、穿刺病理學檢查、醫生診斷或臨床隨訪為金標準。（4）評價指標：合并敏感度（pooled sensitivity，Sen_合并）、合并特異度（pooled specificity，Spe_合并）、合并陽性似然比（pooled positive likelihood ratio，+LR_合并）、合并陰性似然比（pooled negative likelihood ratio，?LR_合并）、合并診斷比值比（pooled diagnostic odds ratio，DOR_合并）和綜合受試者工作特征（summary receiver operating characteristic，SROC）曲線下面積（area under the curve，AUC）。

排除標準：（1）無法獲取全文或數據不全，如無法提取四格表數據。（2）重復發表的文獻（保留數據最全最新的文獻）。（3）綜述、評述、病例報告及文摘類文獻。

1.2 文獻檢索策略

計算機檢索 PubMed、EMbase、The Cochrane Library、CNKI、萬方數據庫和中國生物醫學文獻數據庫（CBM），搜集國內外公開發表的基于 CT 影像的 AI 輔助診斷系統診斷肺癌的診斷性試驗，檢索時限均為 2010～2019 年。為盡量查全文獻，我們對納入文獻的參考文獻進行二次檢索。中文檢索詞包括：肺癌、肺腫瘤、肺結節、人工智能、深度學習、計算機輔助診斷、機器學習、神經網絡、支持向量機、決策樹、CT 等。英文檢索詞包括：pulmonary neoplasms、pulmonary cancer、lung cancer、lung tumor、lung neoplasm、carcinoma of the lung、pulmonary nodule、lung nodule、artificial intelligence、AI、computer-aided diagnosis、deep learning、neural network、machine learning、support vector machine、random forest、decision tree、computed tomography、CT 等。

1.3 文獻篩選和資料提取

由兩位研究人員獨立進行文獻篩選、資料提取并交叉核對，如遇分歧則通過討論或咨詢第三方達成一致性意見。文獻篩選時首先閱讀文題和摘要，在排除明顯不相關的文獻后，進一步閱讀全文，以確定是否納入。資料提取的主要內容包括：（1）納入研究的基本特征，包括作者、發表年份、國家、資料來源、病例數、患者基本信息、診斷方法（AI 算法）、金標準等。（2）偏倚風險評價的關鍵要素。（3）所關注的結局指標和結果測量數據，包括直接獲取或計算得出，真陽性（true positive，TP）、假陽性（false positive，FP）、假陰性（false negative，FN）、真陰性（true negative，TN）、敏感度（sensitivity，Sen）、特異度（specificity，Spe）、準確度（accuracy，Acc）等。

1.4 納入研究的質量評價

由兩位研究者獨立采用 QUADAS-2^[7]評價工具評價納入研究的偏倚風險。每個條目按“是”、“否”、“不清楚”或“高”、“低”、“不清楚”進行分級。

1.5 統計學分析

采用 RevMan 5.3、Stata 12.0 和 SAS 9.4 軟件進行統計分析。以 Spearman 相關分析檢驗有無閾值效應引起的異質性；采用 Cochran-Q 檢驗及I²值檢驗非閾值效應引起的異質性，若I²<50%，可認為研究結果間有較低異質性，此時采用固定效應模型進行合并；若I²≥50%，則可認為存在高度異質性，采用隨機效應模型進行合并。根據金標準分別列出 AI 輔助診斷系統診斷肺癌的 2×2 四格表，計算 Sen_合并、Spe_合并、+LR_合并、?LR_合并、DOR_合并及其 95% 可信區間（95%CI），同時繪制 SROC 曲線并計算 AUC，評價 AI 輔助診斷系統的診斷價值。通常 AUC 值在 0.5 以下、0.5～<0.7、0.7～0.9 及 0.9 以上分別表明無診斷價值、較低診斷價值、較高診斷價值及極高診斷價值^[8]。然后本研究以 DOR_合并為主要效應量，根據研究對象的特點進行 Meta 回歸分析來尋找引起異質性的潛在因素，并且計算調整 DOR_合并。此外，為了建立診斷肺癌的 AI 輔助診斷系統模型，通常將數據集分為訓練集和測試集。訓練集用于訓練肺癌診斷 AI 模型，而測試集則檢驗最終選擇最優的模型的性能。在本研究中，僅使用測試集的數據用于 Meta 分析。如果一項研究的樣本集未提及訓練集和測試集分組，則記錄整個樣本集數據。

2 結果

2.1 文獻篩選流程及結果

按照上述檢索策略檢索數據庫后，初步檢索出相關文獻 1 859 篇，經逐層篩選后，最終納入 18 篇文獻^[9-26]，包括 4 771 例患者，其中中文文獻 14 篇，英文文獻 4 篇。文獻篩選流程及結果見圖 1。

圖1 文獻篩選流程及結果　

*所檢索的數據庫及檢出文獻數具體如下：PubMed（n=298）、The Cochrane Library（n=35）、EMbase（n=607）、CBM（n=184）、萬方數據庫（n=478）和 CNKI（n=257）

圖選項

納入研究	國家	資料來源	肺癌患者/患者總數（例）	提取特征	金標準
Sun 2013^[9]	中國	2009 年 4 家醫院	228/360	488 個紋理特征	病理
Wang 2016^[10]	中國	LIDC-IDRI 數據庫	322/593	150 個定量圖像特征	醫生診斷
Dilger 2013^[11]	美國	愛荷華大學醫院與醫學中心+美國 21 所臨床研究中心	10/27	36 個紋理和實質特征	病理
Teramoto 2019^[12]	日本	懷疑患有肺癌的患者	25/43	25 個特征	病理或隨訪
張矗 2010^[13]	中國	2007 年 3～9 月鄭州大學第一附屬醫院住院患者	55/119	6 個臨床參數+11 個圖像特征	病理
邸曉東 2010^[14]	中國	2007 年 7 月至 2008 年 3 月哈爾濱腫瘤醫院肺部疾病患者	144/193	21 個放射學特征+5 個臨床參數	病理
劉宗才 2010^[15]	中國	2006 年 10 月至 2009 年 3 月遵義醫學院附屬醫院患者	24/48	7 個 CT 圖像征象	病理或隨訪
徐力平 2011^[16]	中國	2005 年 3 月至 2006 年 7 月鄭州大學第一附屬醫院肺部疾病患者	59/117	21 項放射學特征+5 個臨床參數	病理
劉燦 2011^[17]	中國	2005 年 3 月至 2006 年 7 月鄭州大學第一附屬醫院患者	59/117	21 個放射學特征+5 個臨床參數	病理
何俊詩 2012^[18]	中國	2007 年 1 月至 2010 年 8 月 6 家大醫院收治的 SPN 患者	1 038/2 000	17 個螺旋 CT 征象和臨床資料	病理
王剛 2013^[19]	中國	2009～2011 年徐州醫學院附屬醫院及南京軍區總醫院肺癌住院患者	107/217	17 個臨床資料+13 個 CT 影像特征	病理
張極峰 2013^[20]	中國	–	45/100	4 個臨床資料+11 個 CT 掃描評價指標	病理
顧艷 2013^[21]	中國	2011～2012 年連云港市灌云縣人民醫院肺部 SPN 與腫塊患者	50/100	10 個 CT 圖像主要征象	病理或隨訪
徐力平 2014^[22]	中國	2005 年 3 月至 2006 年 7 月鄭州大學第一附屬醫院患者	59/117	21 個放射學特征+5 個臨床參數	病理
王克全 2015^[23]	中國	2012～2013 年湖北省遠安縣人民醫院肺癌患者	60/120	21 個放射學特征+5 個臨床參數	病理
張澤文 2015^[24]	中國	2012 年 6 月至 2014 年 6 月山東省千佛山醫院 SPN 患者	60/120	3 個紋理特征參數	病理或隨訪
何霞霞 2018^[25]	中國	2005 年 3 月至 2006 年 7 月鄭州大學第一附屬醫院呼吸內科患者	59/117	5 個臨床參數+21 個 CT 影像特征	病理
王霞 2019^[26]	中國	2014 年 10 月至 2016 年 10 月鄭州大學第一附屬醫院呼吸內科患者	131/263	18 個 CT 影像特征+14 個流行病學及臨床癥狀	病理
LIDC-IDRI 數據庫：肺圖像數據庫聯盟和圖像數據庫資源計劃聯合建立的數據庫；SPN：孤立性肺結節；?：未描述

納入研究	AI 算法	樣本分組	TP	FP	FN	TN
Sun 2013^[9]	支持向量機（SVM）	360（317 訓練集+33 測試集）	15	2	2	14
Wang 2016^[10]	支持向量機（SVM）	593（400 訓練集+193 測試集）	91	15	31	56
Dilger 2013^[11]	人工神經網絡（ANN）	27（27 訓練集、27 測試集）	10	2	0	15
Teramoto 2019^[12]	隨機森林（RF）	43（未提及分組）	24	13	1	5
張矗 2010^[13]	人工神經網絡（ANN）	119（65 訓練集+54 測試集）	22	3	2	27
邸曉東 2010^[14]	BP 神經網絡（BPNN）	193（193 訓練集、193 測試集）	121	32	23	17
	支持向量機（SVM）	193（193 訓練集、193 測試集）	94	10	50	39
劉宗才 2010^[15]	計算機輔助診斷（CAD）	48（未提及分組）	23	3	1	21
徐力平1 2011^[16]	高斯隸屬度函數模糊神經網絡（GMF-FNN）	117（73 訓練集+44 測試集）	19	2	2	21
	三角形隸屬度函數模糊神經網絡（TMF-FNN）	117（73 訓練集+44 測試集）	18	2	3	21
徐力平2 2011^[16]	高斯隸屬度函數模糊神經網絡（GMF-FNN）	117（67 訓練集+50 測試集）	22	2	2	24
	三角形隸屬度函數模糊神經網絡（TMF-FNN）	117（67 訓練集+50 測試集）	17	1	7	25
劉燦 2011^[17]	原始模糊神經網絡（FNN）	117（73 訓練集+44 測試集）	19	2	2	21
	遺傳算法優化的模糊神經網絡（GA-FNN）	117（73 訓練集+44 測試集）	20	1	1	22
	原始模糊神經網絡（FNN）	117（67 訓練集+50 測試集）	20	2	2	26
	遺傳算法優化的模糊神經網絡（GA-FNN）	117（67 訓練集+50 測試集）	21	1	1	27
何俊詩 2012^[18]	支持向量機（SVM）	2 000（1 500 訓練集+500 測試集）	250	4	8	238
王剛 2013^[19]	BP 神經網絡（BPNN）	217（195 訓練集+22 測試集）	10	1	2	9
張極峰 2013^[20]	決策樹（C4.5）	100（60 訓練集+40 測試集）	15	5	6	14
	貝葉斯網（BN）	100（60 訓練集+40 測試集）	16	4	5	15
	支持向量機（SVM）	100（60 訓練集+40 測試集）	17	3	4	16
顧艷 2013^[21]	最大似然法（ML）	100（未提及分組）	40	10	10	40
徐力平 2014^[22]	模糊神經網絡（FNN）	117（73 訓練集+44 測試集）	19	2	2	21
	BP 神經網絡（BPNN）	117（73 訓練集+44 測試集）	17	3	4	20
王克全 2015^[23]	模糊神經網絡（FNN）	120（75 訓練集+45 測試集）	20	2	2	21
	3 層前向 BP 神經網絡（BPNN）	120（75 訓練集+45 測試集）	18	3	4	20
張澤文 2015^[24]	計算機輔助診斷（CAD）	120（60 訓練集+60 測試集）	25	4	5	26
何霞霞 2018^[25]	人工神經網絡（ANN）	117（73 訓練集+44 測試集）	18	1	3	22
王霞 2019^[26]	支持向量機（SVM）	263（189 訓練集+74 測試集）	32	7	4	31
	人工神經網絡（ANN）	263（189 訓練集+74 測試集）	32	3	4	35
	決策樹（C5.0）	263（189 訓練集+74 測試集）	32	2	4	36
	遺傳算法優化的決策樹 C5.0（GAC5.0）	263（189 訓練集+74 測試集）	31	2	5	36
TP：真陽性；FP：假陽性；FN：假陰性；TN：真陰性

效應	估計值（95%CI）	標準誤差	P 值
截距	4.681 8（3.435 6，5.928 0）	0.605 1	<0.000 1
AI 算法（對照：模糊神經網絡）
支持向量機（1：是，0：否）	–1.057 1（–2.760 6，0.646 5）	0.827 2	0.213 0
人工神經網絡（1：是，0：否）	–0.115 2（–2.306 4，2.076 0）	1.063 9	0.914 6
BP 神經網絡（1：是，0：否）	–2.100 5（–4.037 3，–0.163 8）	0.940 4	0.034 7
決策樹（1：是，0：否）	–1.256 9（–3.220 7，0.706 8）	0.953 5	0.199 4
其它（1：是，0：否）	–1.535 7（–3.448 8，0.377 3）	0.928 9	0.110 8
樣本量≥50（1：是，0：否）	0.133 9（–1.077 4，1.345 1）	0.588 1	0.821 8

1.	Bray F, Ferlay J, Soerjomataram I, et al. Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA Cancer J Clin, 2018, 68(6): 394-424.
2.	Amir GJ, Lehmann HP. After detection: The improved accuracy of lung cancer assessment using radiologic computer-aided diagnosis. Acad Radiol, 2016, 23(2): 186-191.
3.	孫惠昕. 人工智能在癌癥篩查中的研究進展. 腫瘤預防與治療, 2020, 33(10): 898-902.
4.	藍美紅, 高明明, 侯代倫. 超高分辨率CT靶掃描與CT靶重建在肺磨玻璃樣結節定性診斷中的價值. 中國防癆雜志, 2018, 40(7): 702-706.
5.	王萬勤, 劉斌, 周勇, 等. 良惡性肺結節多排CT征象分析. 安徽醫藥, 2018, 22(8): 1491-1496.
6.	趙呈華. 人工智能輔助診斷系統聯合CT檢查肺結節的診斷價值. 實用臨床醫藥雜志, 2020, 24(19): 9-11.
7.	Schlattmann P, Schuetz GM, Dewey M. Wake up and smell the PRISMA, Cochrane, and QUADAS statements. Radiology, 2011, 261(1): 325-326.
8.	Bradley AP. The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognition, 1997, 30(7): 1145-1159.
9.	Sun T, Zhang R, Wang J, et al. Computer-aided diagnosis for early-stage lung cancer based on longitudinal and balanced data. PLoS One, 2013, 8(5): e63559.
10.	Wang J, Liu X, Dong D, et al. Prediction of malignant and benign of lung tumor using a quantitative radiomic method. Annu Int Conf IEEE Eng Med Biol Soc, 2016, 2016: 1272-1275.
11.	Dilger SKN. The use of surrounding lung parenchyma for the automated classification of pulmonary nodules. University of Iowa, 2013.
12.	Teramoto A, Tsujimoto M, Inoue T, et al. Automated classification of pulmonary nodules through a retrospective analysis of conventional CT and two-phase PET images in patients undergoing biopsy. Asia Ocean J Nucl Med Biol, 2019, 7(1): 29-37.
13.	張矗, 吳逸明, 吳擁軍, 等. 人工神經網絡技術在纖維支氣管鏡診斷肺癌中的應用. 鄭州大學學報(醫學版), 2010, 45(1): 113-115.
14.	邸曉東. 基于CT圖像的孤立性肺結節診斷模型研究. 哈爾濱理工大學, 2010.
15.	劉宗才, 駱科進. MSCT LungCARE軟件對孤立性肺結節的診斷價值. 貴州醫藥, 2010, 34(6): 539-542.
16.	徐力平, 張華杰, 吳逸明. 高斯隸屬度函數模糊神經網絡在肺癌診斷中的應用. 鄭州大學學報(理學版), 2011, 43(1): 95-98.
17.	劉燦. 遺傳算法優化模糊神經網絡在肺癌診斷中的應用. 鄭州大學, 2011.
18.	何俊詩, 梁鵬, 羅英華, 等. 基于神經網絡的MSCT孤立肺小結節診斷模型的設計. 臨床醫學工程, 2012, 19(4): 497-499.
19.	王剛, 林森森, 姜新國, 等. 用于小細胞肺癌診斷的人工神經網絡模型. 中國衛生統計, 2013, 30(2): 257-258.
20.	張極峰, 夏旭東, 李萍, 等. 計算機輔助診斷在孤立性肺結節CT診斷的應用. 醫學影像學雜志, 2013, 23(9): 1386-1390.
21.	顧艷. 肺部孤立性結節與腫塊常規形態學、CT灌注和計算機輔助診斷對比研究. 徐州醫科大學, 2013.
22.	徐力平, 尚丹, 陳小玉. 模糊神經網絡在肺癌CT診斷中的應用. 鄭州大學學報(醫學版), 2014, 49(2): 191-194.
23.	王克全, 張義蘭, 鄺雙鑫. 肺癌CT診斷中應用模糊神經網絡輔助診斷的效果探析. 深圳中西醫結合雜志, 2015, 25(6): 70-71.
24.	張澤文, 張才擎, 王廣麗, 等. 孤立性肺結節在HDCT的計算機輔助診斷. 醫學影像學雜志, 2015, 25(6): 993-997.
25.	何霞霞, 張紅升, 李迪, 等. 基于CT影像評分的人工神經網絡模型對肺部良惡性病變的判別價值. 鄭州大學學報(醫學版), 2018, 53(6): 723-726.
26.	王霞. 基于數據挖掘技術的肺癌風險評估與診斷及組織分型系統研究. 鄭州大學, 2019.
27.	印宏坤, 黃皓, 林強, 等. 拓展醫療人工智能的新疆界. 人工智能, 2018, 11(4): 88-96.
28.	楊尚文, 胡安寧, 徐亞運, 等. CT圖像分辨率對人工智能肺結節輔助診斷系統診斷準確性的影響. 醫學影像學雜志, 2020, 30(6): 965-968.
29.	高晨, 王世威, 許茂盛. 肺癌影像的人工智能研究. 中國中西醫結合影像學雜志, 2020, 18(3): 219-223.
30.	動脈網. 聯影智能AI入駐火神山、雷神山醫院, 分析肺段以搜尋新冠病毒特征\|科技戰疫. [2021-02-24]. https://mp.ofweek.com/medical/a945693520376.
31.	Huang XF, Lei Q, Xie T, et al. Deep transfer convolutional neural network and extreme learning machine for lung nodule diagnosis on CT images. Knowledge-Based Sys, 2020, 204(27): 106230.
32.	李幼平, 主編. 實用循證醫學. 北京: 人民衛生出版社, 2018.
33.	陳長波. 肺部影像人工智能診斷系統對肺結節性質的診斷價值分析. 中國數字醫學, 2020, 15(11): 40-42, 131.
34.	蕭毅, 劉士遠. 肺結節影像人工智能技術現狀與思考. 腫瘤影像學, 2018, 27(4): 249-252.
35.	Zhang Y, Oikonomou A, Wong A, et al. Radiomics-based prognosis analysis for non-small cell lung cancer. Sci Rep, 2017, 7: 46349.
36.	Vogel L. Rise of medical AI poses new legal risks for doctors. CMAJ, 2019, 191(42): E1173-E1174.

《中國胸心血管外科臨床雜志》

基于CT影像的人工智能輔助診斷系統對 4 771 例肺癌診斷價值的系統評價與Meta分析

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

1 資料與方法

1.1 納入和排除標準

1.2 文獻檢索策略

1.3 文獻篩選和資料提取

1.4 納入研究的質量評價

1.5 統計學分析

2 結果

2.1 文獻篩選流程及結果

2.2 納入研究的基本特征與質量評價結果

2.3 Meta 分析結果

3 討論

1 資料與方法

1.1 納入和排除標準

1.2 文獻檢索策略

1.3 文獻篩選和資料提取

1.4 納入研究的質量評價

1.5 統計學分析

2 結果

2.1 文獻篩選流程及結果

2.2 納入研究的基本特征與質量評價結果

2.3 Meta 分析結果

3 討論

上一篇

下一篇

Format

Content

摘要全文圖表視頻參考文獻施引文獻補充材料