引用本文: 董來東, 黃果. 基于CT影像的人工智能輔助診斷系統對 4 771 例肺癌診斷價值的系統評價與Meta分析. 中國胸心血管外科臨床雜志, 2021, 28(10): 1183-1191. doi: 10.7507/1007-4848.202012022 復制
版權信息: ?四川大學華西醫院華西期刊社《中國胸心血管外科臨床雜志》版權所有,未經授權不得轉載、改編
在世界范圍內,肺癌仍然是癌癥發病率和死亡率高的主要原因。2018 年預計有 210 萬肺癌新發病例和 180 萬死亡病例,相當于近 1/5(18.4%)的癌癥患者死亡[1]。據相關資料統計,肺癌的 5 年生存率在Ⅰ期時為70%,到Ⅳ期時不到5%[2]。因此,早期診斷、早期治療是提高肺癌治愈率、降低死亡率的有效方法[3]。電子計算機斷層掃描(computed tomography,CT)能通過斷層圖像重建出結節的三維形態,是肺癌臨床診斷的常用方法,但仍存在漏診、誤診情況[4-5]。近年來,人工智能(artificial intelligence,AI)輔助診斷系統成為醫學領域圖像處理和分析的研究熱點,在 CT 檢查中應用 AI 輔助診斷系統則是通過圖像獲取和重組、輪廓分割、特征提取和篩選、建立訓練模型和預測驗證等環節,利用 AI 輔助診斷系統鑒別良惡性肺結節,具有效率快、效能高的優點[6]。迄今,已有不少基于 CT 影像的 AI 輔助診斷系統診斷肺癌的有效性的研究,但這些研究樣本量小、研究質量不同、AI 算法不一,因此本文采用 Meta 分析方法,對 AI 輔助診斷系統在肺癌中的診斷價值進行系統評價和 Meta 分析,以便為臨床應用提供證據。
1 資料與方法
1.1 納入和排除標準
納入標準:(1)研究類型:國內外公開發表的基于 CT 影像的 AI 輔助診斷系統診斷肺癌的診斷性試驗。(2)研究對象:接受 AI 輔助診斷系統檢測 CT 影像且獲得明確診斷結果的患者。(3)診斷方法:AI 輔助診斷系統檢測方法使用 AI 算法不限。以手術、穿刺病理學檢查、醫生診斷或臨床隨訪為金標準。(4)評價指標:合并敏感度(pooled sensitivity,Sen合并)、合并特異度(pooled specificity,Spe合并)、合并陽性似然比(pooled positive likelihood ratio,+LR合并)、合并陰性似然比(pooled negative likelihood ratio,?LR合并)、合并診斷比值比(pooled diagnostic odds ratio,DOR合并)和綜合受試者工作特征(summary receiver operating characteristic,SROC)曲線下面積(area under the curve,AUC)。
排除標準:(1)無法獲取全文或數據不全,如無法提取四格表數據。(2)重復發表的文獻(保留數據最全最新的文獻)。(3)綜述、評述、病例報告及文摘類文獻。
1.2 文獻檢索策略
計算機檢索 PubMed、EMbase、The Cochrane Library、CNKI、萬方數據庫和中國生物醫學文獻數據庫(CBM),搜集國內外公開發表的基于 CT 影像的 AI 輔助診斷系統診斷肺癌的診斷性試驗,檢索時限均為 2010~2019 年。為盡量查全文獻,我們對納入文獻的參考文獻進行二次檢索。中文檢索詞包括:肺癌、肺腫瘤、肺結節、人工智能、深度學習、計算機輔助診斷、機器學習、神經網絡、支持向量機、決策樹、CT 等。英文檢索詞包括:pulmonary neoplasms、pulmonary cancer、lung cancer、lung tumor、lung neoplasm、carcinoma of the lung、pulmonary nodule、lung nodule、artificial intelligence、AI、computer-aided diagnosis、deep learning、neural network、machine learning、support vector machine、random forest、decision tree、computed tomography、CT 等。
1.3 文獻篩選和資料提取
由兩位研究人員獨立進行文獻篩選、資料提取并交叉核對,如遇分歧則通過討論或咨詢第三方達成一致性意見。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定是否納入。資料提取的主要內容包括:(1)納入研究的基本特征,包括作者、發表年份、國家、資料來源、病例數、患者基本信息、診斷方法(AI 算法)、金標準等。(2)偏倚風險評價的關鍵要素。(3)所關注的結局指標和結果測量數據,包括直接獲取或計算得出,真陽性(true positive,TP)、假陽性(false positive,FP)、假陰性(false negative,FN)、真陰性(true negative,TN)、敏感度(sensitivity,Sen)、特異度(specificity,Spe)、準確度(accuracy,Acc)等。
1.4 納入研究的質量評價
由兩位研究者獨立采用 QUADAS-2[7]評價工具評價納入研究的偏倚風險。每個條目按“是”、“否”、“不清楚”或“高”、“低”、“不清楚”進行分級。
1.5 統計學分析
采用 RevMan 5.3、Stata 12.0 和 SAS 9.4 軟件進行統計分析。以 Spearman 相關分析檢驗有無閾值效應引起的異質性;采用 Cochran-Q 檢驗及I2值檢驗非閾值效應引起的異質性,若I2<50%,可認為研究結果間有較低異質性,此時采用固定效應模型進行合并;若I2≥50%,則可認為存在高度異質性,采用隨機效應模型進行合并。根據金標準分別列出 AI 輔助診斷系統診斷肺癌的 2×2 四格表,計算 Sen合并、Spe合并、+LR合并、?LR合并、DOR合并 及其 95% 可信區間(95%CI),同時繪制 SROC 曲線并計算 AUC,評價 AI 輔助診斷系統的診斷價值。通常 AUC 值在 0.5 以下、0.5~<0.7、0.7~0.9 及 0.9 以上分別表明無診斷價值、較低診斷價值、較高診斷價值及極高診斷價值[8]。然后本研究以 DOR合并 為主要效應量,根據研究對象的特點進行 Meta 回歸分析來尋找引起異質性的潛在因素,并且計算調整 DOR合并。此外,為了建立診斷肺癌的 AI 輔助診斷系統模型,通常將數據集分為訓練集和測試集。訓練集用于訓練肺癌診斷 AI 模型,而測試集則檢驗最終選擇最優的模型的性能。在本研究中,僅使用測試集的數據用于 Meta 分析。如果一項研究的樣本集未提及訓練集和測試集分組,則記錄整個樣本集數據。
2 結果
2.1 文獻篩選流程及結果
按照上述檢索策略檢索數據庫后,初步檢索出相關文獻 1 859 篇,經逐層篩選后,最終納入 18 篇文獻[9-26],包括 4 771 例患者,其中中文文獻 14 篇,英文文獻 4 篇。文獻篩選流程及結果見圖 1。
 圖1
				文獻篩選流程及結果
						
				圖1
				文獻篩選流程及結果 
			
									*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 納入研究的基本特征與質量評價結果
納入研究的基本特征和診斷特征分別見表 1 和表 2,質量評價結果見圖 2。
 表1
                納入研究的基本特征
			
						表1
                納入研究的基本特征
		 	
		 			 			 表2
                納入研究的診斷特征(例)
			
						表2
                納入研究的診斷特征(例)
		 	
		 			 			 圖2
				納入研究的質量評價結果(QUADAS-2)
						
				圖2
				納入研究的質量評價結果(QUADAS-2)
			
														2.3 Meta 分析結果
異質性檢驗:Spearman 相關系數 ρ=–0.416,P=0.018,說明靈敏度對數及(1?特異度)對數呈負相關,不存在閾值效應。異質性檢驗結果發現研究間存在明顯異質性,故采用隨機效應模型進行 Meta 分析。
合并效應量:AI 輔助診斷系統的 Sen合并、Spe合并、+LR合并、?LR合并、DOR合并 和 AUC 分別為 0.87[95%CI(0.84,0.90)]、0.89[95%CI(0.84,0.92)]、7.70[95%CI(5.32,11.15)]、0.14 [95%CI(0.11,0.19)]、53.54[95%CI(30.68,93.42)]和 0.94 [95%CI(0.91,0.95)];見圖 3~6。
 圖3
				AI 輔助診斷系統診斷肺癌靈敏度的 Meta 分析
						
				圖3
				AI 輔助診斷系統診斷肺癌靈敏度的 Meta 分析
			
														 圖4
				AI 輔助診斷系統診斷肺癌特異度的 Meta 分析
						
				圖4
				AI 輔助診斷系統診斷肺癌特異度的 Meta 分析
			
														 圖5
				AI 輔助診斷系統診斷肺癌的診斷比值比 Meta 分析
						
				圖5
				AI 輔助診斷系統診斷肺癌的診斷比值比 Meta 分析
			
														 圖6
				AI 輔助診斷系統診斷肺癌的 SROC 曲線
						
				圖6
				AI 輔助診斷系統診斷肺癌的 SROC 曲線
			
														Meta 回歸分析:針對 AI 算法和測試組樣本量進行 Meta 回歸分析,結果顯示,AI 算法不同可能解釋部分異質性來源;見表 3。
 表3
                AI 輔助診斷系統診斷肺癌的 Meta 回歸分析結果
			
						表3
                AI 輔助診斷系統診斷肺癌的 Meta 回歸分析結果
		 	
		 			 			亞組分析:結果發現模糊神經網絡、支持向量機、人工神經網絡、BP 神經網絡、決策樹和其它算法的 AI 輔助診斷系統的 DOR合并 分別為 114.95、39.94、102.45、14.07、32.71 和 24.75,使用 BP 神經網絡算法的 AI 輔助診斷系統的診斷價值顯著低于其它各組;見圖 7。
 圖7
				AI 輔助診斷系統診斷肺癌的亞組分析
						
				圖7
				AI 輔助診斷系統診斷肺癌的亞組分析
			
														3 討論
目前 AI 技術越來越多地應用于臨床診療實踐中,可以對皮膚病變、病理顯微圖像、視網膜照片以及放射資料等各種醫學影像進行診斷分析,顯著提高了診斷準確性、穩定性和工作效率[27-29]。在 2020 年抗擊新型冠狀病毒肺炎(COVID-19)疫情工作中,聯影智能開發的“AI+CT”COVID-19智能輔助分析系統已先后進入武漢市人民醫院、火神山、雷神山等多家醫院臨床應用,準確率達到 90% 以上[30]。Huang 等[31]研究了一種基于深度轉移卷積神經網絡和極限學習機的新穎診斷方法以處理良惡性結節分類,診斷方法的準確度為 94.57%,AUC 為 0.95。本研究對基于 CT 影像的 AI 輔助診斷系統在肺癌的診斷價值方面進行系統評價和 Meta 分析,共納入 18 篇文獻 32 組四格表數據,4 771 例患者。Meta 分析結果顯示,AI 輔助診斷系統診斷肺癌患者的 Sen合并 和 Spe合并 分別為 87% 和 89%,說明漏診率和誤診率分別為 13% 和 11%,提示 AI 輔助診斷系統精確診斷肺癌患者和識別非肺癌患者的能力都相對較高。+LR合并 為 7.70,說明正確診斷肺癌患者的可能性是錯誤診斷肺癌患者可能性的 7.70 倍;?LR合并 為 0.14,說明錯誤診斷非肺癌患者的可能性是正確診斷非肺癌患者可能性的 0.14 倍。AUC 為 0.94,說明 AI 輔助診斷系統對肺癌診斷具有極高的準確性。診斷比值比(DOR)表示診斷試驗的結果與疾病的聯系強度,數值越大表明判別效果越好[32]。本 Meta 分析中 DOR合并 為 53.54,表明 AI 輔助診斷系統對肺癌有較高的診斷價值。
本研究異質性檢驗顯示Q=38.93,I2=94.86%,異質性較大,而 Spearman 相關檢驗結果顯示不存在閾值效應造成的異質性。經過 Meta 分析,AI 算法解釋了異質性來源,且具有統計學意義。亞組分析結果顯示使用 BP 神經網絡算法的 AI 輔助診斷系統的診斷價值顯著低于模糊神經網絡、支持向量機、人工神經網絡、BP 神經網絡、決策樹和其它算法的診斷價值。這可能與 BP 神經網絡算法納入研究的樣本量較小不具有代表性有關。此外,本系統評價存在一定的局限性:(1)雖然對納入研究進行 Meta 回歸分析和亞組分析,但納入研究間的異質性較高,也有可能與研究對象的來源不同、各研究 AI 診斷金標準不完全相同、各研究間樣本量差距較大、AI 提取特征數量不一相關,結果有待進一步研究。(2)某些研究的樣本量較小,可能不具有代表性。(3)僅納入了中、英文文獻,可能存在語言偏倚。
盡管 AI 在肺癌診斷上的有效性已經得到初步驗證,但是目前仍處在臨床探索階段,許多方面還需要完善:(1)基于 CT 影像的 AI 輔助診斷系統對肺癌良惡性的診斷仍存在漏診和誤診,可能是因為:肺癌患者的CT影像學數據信息提取不全面或不具代表性,例如影像特征、病灶紋理等;該系統的 AI 算法中網絡參數模型也可能存在一定偏差,可通過擴大訓練集樣本量對 AI 輔助診斷系統的模型進行調整和改善[33]。(2)日常影像科醫師診斷工作中,肺部CT影像不僅涉及肺癌診斷,還涉及肺炎、肺結核、慢性阻塞性肺疾病和縱隔淋巴結腫大等鑒別診斷等,僅僅診斷肺癌的單一任務已不能勝任目前全方位的臨床工作要求,需要進一步研發多任務、多線程的 AI 輔助診斷系統[34]。(3)但是目前我國醫療機構出于保護患者隱私和信息安全等目的不愿共享 CT 影像數據庫,使得 AI 研發企業很難獲取、整合和利用現有的多中心數據 [35]。此外,CT 影像的統一標準也存在很多爭議,不同的國家、國際組織和醫院等可能實施不同的機器、圖像質量和標注等標準,不同的醫師對影像的征象認識也并不一致,未來醫學影像的 AI 輔助診斷系統的發展需要重視建立標準的CT影像數據庫[34]。(4)目前AI輔助診斷系統僅為影像醫師提供初步診斷意見,最終結果由影像醫師出具報告并承擔相應責任[36]。但未來需從法律層面上劃分醫療機構、醫師與 AI企業承擔責任的范圍,若醫療事故發生時可明確責任的界定與追究。
綜上所述,本研究結果顯示基于 CT 影像的 AI 輔助診斷系統在肺癌的診斷方面具有較高的價值,可以作為一種診斷肺癌的方法在臨床推廣應用。綜合 CT 影像、病理學、患者的既往史、臨床特征、醫生診斷、患者隨訪等多方面數據匯集到 AI 輔助診斷系統中對患者進行全方位評估是 AI 未來發展的方向,這樣不僅會提高肺癌的診斷準確率、減輕醫生的工作量,而且可能會改變當前的醫療模式,促進我國醫療資源均衡發展。
利益沖突:無。
作者貢獻:董來東負責論文設計、數據整理與分析、論文撰寫;黃果負責論文設計、實施研究、數據整理與分析、論文審閱與修改。
在世界范圍內,肺癌仍然是癌癥發病率和死亡率高的主要原因。2018 年預計有 210 萬肺癌新發病例和 180 萬死亡病例,相當于近 1/5(18.4%)的癌癥患者死亡[1]。據相關資料統計,肺癌的 5 年生存率在Ⅰ期時為70%,到Ⅳ期時不到5%[2]。因此,早期診斷、早期治療是提高肺癌治愈率、降低死亡率的有效方法[3]。電子計算機斷層掃描(computed tomography,CT)能通過斷層圖像重建出結節的三維形態,是肺癌臨床診斷的常用方法,但仍存在漏診、誤診情況[4-5]。近年來,人工智能(artificial intelligence,AI)輔助診斷系統成為醫學領域圖像處理和分析的研究熱點,在 CT 檢查中應用 AI 輔助診斷系統則是通過圖像獲取和重組、輪廓分割、特征提取和篩選、建立訓練模型和預測驗證等環節,利用 AI 輔助診斷系統鑒別良惡性肺結節,具有效率快、效能高的優點[6]。迄今,已有不少基于 CT 影像的 AI 輔助診斷系統診斷肺癌的有效性的研究,但這些研究樣本量小、研究質量不同、AI 算法不一,因此本文采用 Meta 分析方法,對 AI 輔助診斷系統在肺癌中的診斷價值進行系統評價和 Meta 分析,以便為臨床應用提供證據。
1 資料與方法
1.1 納入和排除標準
納入標準:(1)研究類型:國內外公開發表的基于 CT 影像的 AI 輔助診斷系統診斷肺癌的診斷性試驗。(2)研究對象:接受 AI 輔助診斷系統檢測 CT 影像且獲得明確診斷結果的患者。(3)診斷方法:AI 輔助診斷系統檢測方法使用 AI 算法不限。以手術、穿刺病理學檢查、醫生診斷或臨床隨訪為金標準。(4)評價指標:合并敏感度(pooled sensitivity,Sen合并)、合并特異度(pooled specificity,Spe合并)、合并陽性似然比(pooled positive likelihood ratio,+LR合并)、合并陰性似然比(pooled negative likelihood ratio,?LR合并)、合并診斷比值比(pooled diagnostic odds ratio,DOR合并)和綜合受試者工作特征(summary receiver operating characteristic,SROC)曲線下面積(area under the curve,AUC)。
排除標準:(1)無法獲取全文或數據不全,如無法提取四格表數據。(2)重復發表的文獻(保留數據最全最新的文獻)。(3)綜述、評述、病例報告及文摘類文獻。
1.2 文獻檢索策略
計算機檢索 PubMed、EMbase、The Cochrane Library、CNKI、萬方數據庫和中國生物醫學文獻數據庫(CBM),搜集國內外公開發表的基于 CT 影像的 AI 輔助診斷系統診斷肺癌的診斷性試驗,檢索時限均為 2010~2019 年。為盡量查全文獻,我們對納入文獻的參考文獻進行二次檢索。中文檢索詞包括:肺癌、肺腫瘤、肺結節、人工智能、深度學習、計算機輔助診斷、機器學習、神經網絡、支持向量機、決策樹、CT 等。英文檢索詞包括:pulmonary neoplasms、pulmonary cancer、lung cancer、lung tumor、lung neoplasm、carcinoma of the lung、pulmonary nodule、lung nodule、artificial intelligence、AI、computer-aided diagnosis、deep learning、neural network、machine learning、support vector machine、random forest、decision tree、computed tomography、CT 等。
1.3 文獻篩選和資料提取
由兩位研究人員獨立進行文獻篩選、資料提取并交叉核對,如遇分歧則通過討論或咨詢第三方達成一致性意見。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定是否納入。資料提取的主要內容包括:(1)納入研究的基本特征,包括作者、發表年份、國家、資料來源、病例數、患者基本信息、診斷方法(AI 算法)、金標準等。(2)偏倚風險評價的關鍵要素。(3)所關注的結局指標和結果測量數據,包括直接獲取或計算得出,真陽性(true positive,TP)、假陽性(false positive,FP)、假陰性(false negative,FN)、真陰性(true negative,TN)、敏感度(sensitivity,Sen)、特異度(specificity,Spe)、準確度(accuracy,Acc)等。
1.4 納入研究的質量評價
由兩位研究者獨立采用 QUADAS-2[7]評價工具評價納入研究的偏倚風險。每個條目按“是”、“否”、“不清楚”或“高”、“低”、“不清楚”進行分級。
1.5 統計學分析
采用 RevMan 5.3、Stata 12.0 和 SAS 9.4 軟件進行統計分析。以 Spearman 相關分析檢驗有無閾值效應引起的異質性;采用 Cochran-Q 檢驗及I2值檢驗非閾值效應引起的異質性,若I2<50%,可認為研究結果間有較低異質性,此時采用固定效應模型進行合并;若I2≥50%,則可認為存在高度異質性,采用隨機效應模型進行合并。根據金標準分別列出 AI 輔助診斷系統診斷肺癌的 2×2 四格表,計算 Sen合并、Spe合并、+LR合并、?LR合并、DOR合并 及其 95% 可信區間(95%CI),同時繪制 SROC 曲線并計算 AUC,評價 AI 輔助診斷系統的診斷價值。通常 AUC 值在 0.5 以下、0.5~<0.7、0.7~0.9 及 0.9 以上分別表明無診斷價值、較低診斷價值、較高診斷價值及極高診斷價值[8]。然后本研究以 DOR合并 為主要效應量,根據研究對象的特點進行 Meta 回歸分析來尋找引起異質性的潛在因素,并且計算調整 DOR合并。此外,為了建立診斷肺癌的 AI 輔助診斷系統模型,通常將數據集分為訓練集和測試集。訓練集用于訓練肺癌診斷 AI 模型,而測試集則檢驗最終選擇最優的模型的性能。在本研究中,僅使用測試集的數據用于 Meta 分析。如果一項研究的樣本集未提及訓練集和測試集分組,則記錄整個樣本集數據。
2 結果
2.1 文獻篩選流程及結果
按照上述檢索策略檢索數據庫后,初步檢索出相關文獻 1 859 篇,經逐層篩選后,最終納入 18 篇文獻[9-26],包括 4 771 例患者,其中中文文獻 14 篇,英文文獻 4 篇。文獻篩選流程及結果見圖 1。
 圖1
				文獻篩選流程及結果
						
				圖1
				文獻篩選流程及結果 
			
									*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 納入研究的基本特征與質量評價結果
納入研究的基本特征和診斷特征分別見表 1 和表 2,質量評價結果見圖 2。
 表1
                納入研究的基本特征
			
						表1
                納入研究的基本特征
		 	
		 			 			 表2
                納入研究的診斷特征(例)
			
						表2
                納入研究的診斷特征(例)
		 	
		 			 			 圖2
				納入研究的質量評價結果(QUADAS-2)
						
				圖2
				納入研究的質量評價結果(QUADAS-2)
			
														2.3 Meta 分析結果
異質性檢驗:Spearman 相關系數 ρ=–0.416,P=0.018,說明靈敏度對數及(1?特異度)對數呈負相關,不存在閾值效應。異質性檢驗結果發現研究間存在明顯異質性,故采用隨機效應模型進行 Meta 分析。
合并效應量:AI 輔助診斷系統的 Sen合并、Spe合并、+LR合并、?LR合并、DOR合并 和 AUC 分別為 0.87[95%CI(0.84,0.90)]、0.89[95%CI(0.84,0.92)]、7.70[95%CI(5.32,11.15)]、0.14 [95%CI(0.11,0.19)]、53.54[95%CI(30.68,93.42)]和 0.94 [95%CI(0.91,0.95)];見圖 3~6。
 圖3
				AI 輔助診斷系統診斷肺癌靈敏度的 Meta 分析
						
				圖3
				AI 輔助診斷系統診斷肺癌靈敏度的 Meta 分析
			
														 圖4
				AI 輔助診斷系統診斷肺癌特異度的 Meta 分析
						
				圖4
				AI 輔助診斷系統診斷肺癌特異度的 Meta 分析
			
														 圖5
				AI 輔助診斷系統診斷肺癌的診斷比值比 Meta 分析
						
				圖5
				AI 輔助診斷系統診斷肺癌的診斷比值比 Meta 分析
			
														 圖6
				AI 輔助診斷系統診斷肺癌的 SROC 曲線
						
				圖6
				AI 輔助診斷系統診斷肺癌的 SROC 曲線
			
														Meta 回歸分析:針對 AI 算法和測試組樣本量進行 Meta 回歸分析,結果顯示,AI 算法不同可能解釋部分異質性來源;見表 3。
 表3
                AI 輔助診斷系統診斷肺癌的 Meta 回歸分析結果
			
						表3
                AI 輔助診斷系統診斷肺癌的 Meta 回歸分析結果
		 	
		 			 			亞組分析:結果發現模糊神經網絡、支持向量機、人工神經網絡、BP 神經網絡、決策樹和其它算法的 AI 輔助診斷系統的 DOR合并 分別為 114.95、39.94、102.45、14.07、32.71 和 24.75,使用 BP 神經網絡算法的 AI 輔助診斷系統的診斷價值顯著低于其它各組;見圖 7。
 圖7
				AI 輔助診斷系統診斷肺癌的亞組分析
						
				圖7
				AI 輔助診斷系統診斷肺癌的亞組分析
			
														3 討論
目前 AI 技術越來越多地應用于臨床診療實踐中,可以對皮膚病變、病理顯微圖像、視網膜照片以及放射資料等各種醫學影像進行診斷分析,顯著提高了診斷準確性、穩定性和工作效率[27-29]。在 2020 年抗擊新型冠狀病毒肺炎(COVID-19)疫情工作中,聯影智能開發的“AI+CT”COVID-19智能輔助分析系統已先后進入武漢市人民醫院、火神山、雷神山等多家醫院臨床應用,準確率達到 90% 以上[30]。Huang 等[31]研究了一種基于深度轉移卷積神經網絡和極限學習機的新穎診斷方法以處理良惡性結節分類,診斷方法的準確度為 94.57%,AUC 為 0.95。本研究對基于 CT 影像的 AI 輔助診斷系統在肺癌的診斷價值方面進行系統評價和 Meta 分析,共納入 18 篇文獻 32 組四格表數據,4 771 例患者。Meta 分析結果顯示,AI 輔助診斷系統診斷肺癌患者的 Sen合并 和 Spe合并 分別為 87% 和 89%,說明漏診率和誤診率分別為 13% 和 11%,提示 AI 輔助診斷系統精確診斷肺癌患者和識別非肺癌患者的能力都相對較高。+LR合并 為 7.70,說明正確診斷肺癌患者的可能性是錯誤診斷肺癌患者可能性的 7.70 倍;?LR合并 為 0.14,說明錯誤診斷非肺癌患者的可能性是正確診斷非肺癌患者可能性的 0.14 倍。AUC 為 0.94,說明 AI 輔助診斷系統對肺癌診斷具有極高的準確性。診斷比值比(DOR)表示診斷試驗的結果與疾病的聯系強度,數值越大表明判別效果越好[32]。本 Meta 分析中 DOR合并 為 53.54,表明 AI 輔助診斷系統對肺癌有較高的診斷價值。
本研究異質性檢驗顯示Q=38.93,I2=94.86%,異質性較大,而 Spearman 相關檢驗結果顯示不存在閾值效應造成的異質性。經過 Meta 分析,AI 算法解釋了異質性來源,且具有統計學意義。亞組分析結果顯示使用 BP 神經網絡算法的 AI 輔助診斷系統的診斷價值顯著低于模糊神經網絡、支持向量機、人工神經網絡、BP 神經網絡、決策樹和其它算法的診斷價值。這可能與 BP 神經網絡算法納入研究的樣本量較小不具有代表性有關。此外,本系統評價存在一定的局限性:(1)雖然對納入研究進行 Meta 回歸分析和亞組分析,但納入研究間的異質性較高,也有可能與研究對象的來源不同、各研究 AI 診斷金標準不完全相同、各研究間樣本量差距較大、AI 提取特征數量不一相關,結果有待進一步研究。(2)某些研究的樣本量較小,可能不具有代表性。(3)僅納入了中、英文文獻,可能存在語言偏倚。
盡管 AI 在肺癌診斷上的有效性已經得到初步驗證,但是目前仍處在臨床探索階段,許多方面還需要完善:(1)基于 CT 影像的 AI 輔助診斷系統對肺癌良惡性的診斷仍存在漏診和誤診,可能是因為:肺癌患者的CT影像學數據信息提取不全面或不具代表性,例如影像特征、病灶紋理等;該系統的 AI 算法中網絡參數模型也可能存在一定偏差,可通過擴大訓練集樣本量對 AI 輔助診斷系統的模型進行調整和改善[33]。(2)日常影像科醫師診斷工作中,肺部CT影像不僅涉及肺癌診斷,還涉及肺炎、肺結核、慢性阻塞性肺疾病和縱隔淋巴結腫大等鑒別診斷等,僅僅診斷肺癌的單一任務已不能勝任目前全方位的臨床工作要求,需要進一步研發多任務、多線程的 AI 輔助診斷系統[34]。(3)但是目前我國醫療機構出于保護患者隱私和信息安全等目的不愿共享 CT 影像數據庫,使得 AI 研發企業很難獲取、整合和利用現有的多中心數據 [35]。此外,CT 影像的統一標準也存在很多爭議,不同的國家、國際組織和醫院等可能實施不同的機器、圖像質量和標注等標準,不同的醫師對影像的征象認識也并不一致,未來醫學影像的 AI 輔助診斷系統的發展需要重視建立標準的CT影像數據庫[34]。(4)目前AI輔助診斷系統僅為影像醫師提供初步診斷意見,最終結果由影像醫師出具報告并承擔相應責任[36]。但未來需從法律層面上劃分醫療機構、醫師與 AI企業承擔責任的范圍,若醫療事故發生時可明確責任的界定與追究。
綜上所述,本研究結果顯示基于 CT 影像的 AI 輔助診斷系統在肺癌的診斷方面具有較高的價值,可以作為一種診斷肺癌的方法在臨床推廣應用。綜合 CT 影像、病理學、患者的既往史、臨床特征、醫生診斷、患者隨訪等多方面數據匯集到 AI 輔助診斷系統中對患者進行全方位評估是 AI 未來發展的方向,這樣不僅會提高肺癌的診斷準確率、減輕醫生的工作量,而且可能會改變當前的醫療模式,促進我國醫療資源均衡發展。
利益沖突:無。
作者貢獻:董來東負責論文設計、數據整理與分析、論文撰寫;黃果負責論文設計、實施研究、數據整理與分析、論文審閱與修改。
 
        

 
                 
				 
																   	
                                                                    
                                                                    
																	 
                                                                    
                                                                        
                                                                        
                                                                         
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	