引用本文: 馬艷玲, 文曰, 盧春燕, 廖婧. 計算機輔助檢測(CADe)與普通腸鏡比較識別結直腸腺瘤和息肉效果的Meta分析. 中國循證醫學雜志, 2024, 24(11): 1270-1277. doi: 10.7507/1672-2531.202312193 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
結直腸息肉是源于黏膜及黏膜下層的隆起性病變[1]。病理上可將其分為腺瘤性息肉及非腺瘤性息肉。腺瘤性息肉是當前公認的最重要的結直腸腫瘤的癌前病變,與結直腸癌密切相關[2],因此及時切除息肉可以有效預防結直腸癌。結腸鏡檢查可以早期發現腺瘤及息肉的存在,從而有效預防結直腸癌。Corley等[3]研究顯示腺瘤檢出率每增加1%,結直腸癌風險會下降3%。但大量研究[4-6]表明結腸鏡檢查普遍存在息肉及腺瘤漏診的情況,且漏診率可達近26%,漏診原因主要與病變本身易被忽視、醫師識別失敗及黏膜暴露不完全有關。其中息肉識別失敗是漏診的主要決定因素。目前每次結腸鏡檢查影像由大約50 000幀圖片構成,意味著需要以每秒25~30幀速度進行息肉識別,而一個息肉可能僅能在幾幀內被識別出來,這就導致了無論內鏡設置如何,息肉識別失敗都可能發生。
近10年來,人工智能技術迅速發展,深度學習的理論和技術進步推動了計算機輔助檢測(computer-aided detection,CADe)系統的發展。基于回顧性圖像分析建立的不同CADe診斷模型在訓練集和驗證集中均顯示了高特異度和敏感度,可有效提高腺瘤及息肉檢出率,降低漏診率[7-11]。但基于回顧性影像建立的CADe診斷模型普遍存在診斷曲線過擬合等問題,其在真實世界環境中的外推診斷性能不如理想狀態,可能出現假陽性率(誤診率)上升,導致醫生需要反復核查腺瘤和息肉真偽,內鏡退出時間增加或誤切除率上升;同時受黏膜暴露程度、內鏡醫生技能、結直腸清潔水平、退出時間的速度等其他因素影響,腺瘤和息肉假陰性率(漏診率)上升;均可導致使用與不使用CADe系統的結腸鏡檢查結果沒有差異,甚至增加退鏡時間和醫生工作負擔。針對以上臨床質疑,部分研究者在已經建立和驗證CADe診斷模型的基礎上,前瞻性開展了診斷性試驗的隨機對照試驗(randomized controlled trials,RCT),比較使用CADe系統的結腸鏡與不使用CADe系統的標準結腸鏡識別腺瘤和息肉的差異。從2020年以來,基于不同深度學習模型的CADe系統與標準結腸鏡檢查比較的RCT不斷涌現,因此有必要采用Meta分析方法,系統評價CADe對不同大小、形態、位置或組織學息肉識別效果,為臨床醫生更好使用CADe系統提供證據參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
RCT。
1.1.2 研究對象
① 年齡≥18歲;② 行結直腸腫瘤篩查、息肉切除術后監測、糞便免疫化學監測陽性、具有疑似結直腸腫瘤體征或癥狀的患者。排除有直腸癌或炎癥性腸病的個人病史,既往結腸切除、在息肉切除后進行抗血栓治療的受試者。
1.1.3 干預措施
試驗組:CADe輔助腸鏡檢測;對照組:無CADe輔助的常規腸鏡檢測。
1.1.4 結局指標
① 腺瘤檢出率(adenoma detection rate,ADR);② 息肉檢出率(polyp detection rate,PDR);③ 腺瘤漏診率(adenoma miss rate,AMR);④ 息肉漏診率(polyp detection rate,PMR);⑤ 退鏡時間。
1.1.5 排除標準
① 非中、英文文獻;② 無法獲取全文或重復發表的文獻;③ 關鍵數據信息不完整或有誤的文獻。
1.2 文獻檢索策略
計算機檢索PubMed、Cochrane Library、Web of Science、Embase、CNKI、WanFang Data和VIP數據庫,檢索時間為2014年1月至2023年4月。以主題詞和自由詞相結合進行檢索,英文檢索詞包括:artificial intelligence、deep learning、artificial neural network、computer-aided diagnosis、adenomatous polyps、colonic polyps、colorectal neoplasms、endoscopes等;中文檢索詞包括:人工智能、深度學習、神經網絡、計算機、診斷、計算機輔助、腸息肉、結腸息肉、腺瘤性息肉、結直腸腫瘤、結腸鏡等。根據各數據庫特點進行調整。同時檢索納入研究的參考文獻,以補充獲取相關資料。以PubMed為例,其具體檢索策略見附件框1。
1.3 文獻篩選及資料提取
由2名研究者獨立篩選文獻、提取資料并交叉核對。如有分歧,則通過討論或與第三方協商解決。資料提取內容包括:① 研究的基本信息(第一作者、發表年份、國家、多中心、研究類型、研究人群、性別、平均年齡、樣本量、診斷金標準、患者基線情況);② 主要結局指標或可估計效應值的數據(包括腺瘤檢出率、息肉檢出率、腺瘤漏診率、息肉漏診率、退鏡時間等);③ RCT偏倚風險相關內容。
1.4 納入研究的偏倚風險評價
由2名研究者獨立評價納入研究的偏倚風險,并交叉核對結果,如有分歧,討論或與第三人討論解決。偏倚風險評價使用Cochrane協作網RCT偏倚風險評價工具(RoB)進行,每個條目判斷可分為高偏倚風險、低偏倚風險和不清楚。
1.5 統計分析
采用RevMan 5.3軟件進行Meta分析。計數資料采用相對危險度(relative risk,RR)及95%CI為分析統計量;連續性變量采用均數差(mean difference,MD)及95%CI為分析統計量。首先采用卡方檢驗進行異質性檢驗,當P≥0.1,I2<50%時,表明研究間統計學異質性較小,使用固定效應模型合并效應量。當P<0.1,I2≥50%時,表明研究間統計學異質性較大,但如納入研究間無臨床異質性,考慮使用隨機效應模型合并效應量;如存在明顯臨床異質性,則需分析異質性來源,行亞組分析或僅行描述性分析。按照息肉和腺瘤檢出和漏診的影響因素(息肉位置、大小、形態及退鏡時間等)進行亞組分析。因本文最終納入文獻數量少于10篇,因此未進行發表偏倚檢測。為了評估Meta分析結果的穩健性及可靠性,采用逐一剔除法進行敏感性分析。設定P<0.05為差異有統計學意義。
2 結果
2.1 文獻檢索結果
初檢出相關文獻768篇,包括PubMed(n=31)、Web of Science(n=41)、Cochrane Library(n=99)、Embase(n=449)、CNKI(n=12)、VIP(n=8)、WanFang Data(n=148)。經逐層篩選后,最終納入9個RCT[12-20]。文獻篩選流程及結果見附件圖1。
2.2 納入研究的基本特征
本文共納入9個RCT[12-20],包含6 393例受試者,納入研究的基本特征見表1。

2.3 偏倚風險評價結果
7個研究[12-16,18-20]采用計算機數字表法進行隨機分組,6個研究[12-14,16,18,20]報告采用了隨機分層方法,7個研究[12-16,18,20]進行了分配隱藏,5個研究[12-14,16,20]文獻采用了結局測量者盲法。納入RCT的偏倚風險評價結果見表2。

2.4 Meta分析結果
2.4.1 腺瘤檢出率
有8個RCT[12, 13, 15-20]報道了腺瘤檢出率,隨機效應模型分析結果顯示,CADe組的腺瘤檢出率比常規腸鏡組更高[RR=1.22,95%CI(1.10,1.35),P<0.01]。按照腺瘤的位置、大小、性質進行亞組分析,結果顯示,CADe組在≤5 mm、非息肉樣的腺瘤的檢出率比常規腸鏡組更高,差異具有統計學意義[RR=1.06,95%CI(1.00,1.11),P=0.04;RR=1.12,95%CI(1.00,1.26),P=0.05],見表3。

2.4.2 腺瘤漏診率
有3個RCT[13,14,16]報道了腺瘤漏診率,隨機效應模型分析結果顯示,CADe組的腺瘤漏診率低于常規腸鏡組[RR=0.48,95%CI(0.34,0.67),P<0.01]。按照腺瘤的大小、位置進行亞組分析,結果顯示,CADe組在盲腸、橫結腸、降結腸、乙狀結腸的腺瘤漏診率更低,見表3。
2.4.3 息肉檢出率
有6個RCT[13,15-19]報道了息肉檢出率,隨機效應模型分析結果顯示,CADe組的息肉檢出率比常規腸鏡組更高[RR=1.19,95%CI(1.04,1.36),P<0.01]。按照息肉的位置、大小、形態進行亞組分析,結果顯示,CADe組在近端、≤5 mm、無蒂息肉的檢出率比常規腸鏡組更高,差異具有統計學意義[RR=1.27,95%CI(1.19,1.35),P<0.01;RR=1.07,95%CI(1.02,1.11),P<0.01;RR=1.05,95%CI(0.99,1.11),P=0.01],見表4。

2.4.4 息肉漏診率
有3個RCT[13,14,16]報道了息肉漏診率,隨機效應模型分析結果顯示,CADe組的息肉漏診率比常規腸鏡組更低[RR=0.39,95%CI(0.25,0.59),P<0.01]。
2.4.5 退鏡時間
有5個RCT[12,15-18]報道了兩組退鏡時間,隨機效應模型分析結果顯示,CADe組與常規腸鏡組的退鏡時間無差別[MD=0.07,95%CI(?0.26,0.39),P=0.68]。
2.4.6 敏感性分析
我們對腺瘤檢出率、腺瘤漏診率、息肉檢出率、息肉漏診率、退鏡時間5個指標均采用逐一刪除每篇納入研究的方法進行了敏感性分析。敏感性分析結果顯示,大多數指標的敏感性分析結果未發生方向性改變,說明Meta分析結果的一致性較好。但在>10 mm息肉檢出率中,從4篇研究中剔除1篇研究[18]后,兩組息肉檢出率由有差異[RR=0.7,95%CI(0.55,0.89),P<0.01]變為無差異[RR=0.82,95%CI(0.6,1.12),P=0.2]。
3 討論
目前,標準結腸鏡檢查已成為早期篩查腺瘤及息肉最常見的臨床操作,但是由于結腸鏡檢查在很大程度上受經驗水平、腸道準備度、息肉的形態及其暴露程度等方面的影響,因此腺瘤和息肉識別失敗成為臨床上結腸鏡檢查最常見的問題,也是結直腸腫瘤漏診的主要因素[12,13]。隨著人工智能及深度學習理論和技術的進步,CADe系統主要通過卷積神經網絡對圖像分類[21],通過一系列圖像及視頻的病變數據集的訓練與驗證形成,能夠增加結腸鏡檢查識別病變的能力[22]。近十年來,不同國家和地區的研究者基于不同人種、醫院的回顧性結腸鏡檢查圖像,訓練和驗證了具有高靈敏度和特異度(均在90%以上)的CADe系統診斷模型[23,24]。現有研究顯示,CADe系統在腺瘤及息肉檢出率方面表現良好[25],但可能整體上不足以評估其與病變特征(如息肉大小、形態、位置或組織學)識別之間的關系,而且部分醫生對CADe系統的實際應用于臨床的效果仍抱有懷疑態度(如內鏡醫師操作經驗不足導致使用或不使用CADe的結腸鏡檢查結果無差異、或由于假陽性結果而浪費檢查時間)[26,27]。為解決以上臨床問題,從5年前開始,在完成了CADe系統診斷模型訓練和驗證的基礎上,部分研究者開始開展前瞻性RCT來比較使用CADe系統的結腸鏡與使用標準結腸鏡檢查的結果差異。CADe系統的臨床研究熱點逐步從模型建立向臨床真實效果評價進行轉移,因此有必要對RCT評價結果進行Meta分析。
本研究結果顯示,與常規腸鏡檢查相比,CADe系統明顯提高了腺瘤檢出率和息肉檢出率,降低了腺瘤漏診率及息肉漏診率,這與Thomas等[28]的定性系統評價結果一致,也在其他研究中得以證實[29],說明CADe系統相對于標準結腸鏡檢查,能夠更早、更準確地診斷腺瘤和息肉,從而阻礙結腸癌發生進程,降低結腸癌發生風險。此外,CADe系統在≤5 mm息肉的檢出率比標準結腸鏡組更高,這一研究結果也與傳統觀點[30,31]相符,即相比較大的息肉,小息肉更有可能在視野內被遺漏,CADe系統在小息肉檢出方面更具優勢。同時,本次Meta分析的敏感性分析結果顯示,從4篇研究中剔除1篇研究[18]后,>10 mm的息肉檢出率由有差異變為無差異,說明CADe系統可能在較大息肉檢測方面并不優于標準結腸鏡檢查,這一結果也與Deliwala等[30]的報道一致,未來可能需要針對>10 mm的息肉來建立優化后的CADe系統診斷模型。在不同形態息肉檢出率方面,由于僅納入2個研究,且原始研究結果矛盾,也需要更多研究驗證。本次Meta分析結果顯示,兩組在退鏡時間上差異無統計學.意義,表明臨床上使用CADe系統并不會增加假陽性結果,從而額外增加檢查時間。既往研究也已證明無論內鏡醫師的操作及經驗水平如何,CADe系統均可以顯著增加腺瘤息肉檢出率,降低漏診率[32]。由此可見,CADe系統有可能通過降低息肉漏診率,部分消除醫生操作/經驗水平等方面的差異,成為醫生的得力助手,并隨著AI技術的發展,達到更好的識別能力,從而提高結腸鏡早期篩查的水平。
本系統評價共納入9個RCT,其中大多數研究采用了計算機數字表法進行隨機分組,報告了分配隱藏情況,并采用了結局測量者盲法。6個研究為了盡量讓重要的混雜因素在兩組間一致,額外采用了隨機分層方法,總體而言,納入研究的潛在偏倚風險較小,Meta分析結果的可信度較高,絕大部分結局指標的敏感性分析結果穩定,未出現方向性改變。
本研究的局限性:① 雖然本研究對各大數據庫進行了系統檢索,但因為研究發表時間較新,最后僅納入英文文獻,可能存在語言和發表偏倚;② 納入RCT的偏倚風險評價結果顯示,大多數研究報告了采用的具體隨機方法并進行了隨機分層,但有部分研究未采用結局測量者盲法,可能存在測量偏倚風險,此外,大多數研究存在失訪但未進行ITT分析,可能導致高估CADe系統檢測結果的有效性;③ 由于納入研究來自不同國家、不同人群和不同類型醫院,且采用的CADe系統不同,導致研究間具有高度異質性,我們雖然進行了亞組分析,但并未發現異質性的確切來源,這可能影響結果的準確性,未來應對多中心不同人群進行更多研究。
綜上所述,計算機輔助檢測系統可以增加腺瘤及息肉檢出率,并降低漏診率,息肉檢出率與其位置、大小及形態相關,腺瘤漏診率與其位置相關。受納入研究數量和質量限制,未來需要更多中心、更大樣本的研究驗證。
結直腸息肉是源于黏膜及黏膜下層的隆起性病變[1]。病理上可將其分為腺瘤性息肉及非腺瘤性息肉。腺瘤性息肉是當前公認的最重要的結直腸腫瘤的癌前病變,與結直腸癌密切相關[2],因此及時切除息肉可以有效預防結直腸癌。結腸鏡檢查可以早期發現腺瘤及息肉的存在,從而有效預防結直腸癌。Corley等[3]研究顯示腺瘤檢出率每增加1%,結直腸癌風險會下降3%。但大量研究[4-6]表明結腸鏡檢查普遍存在息肉及腺瘤漏診的情況,且漏診率可達近26%,漏診原因主要與病變本身易被忽視、醫師識別失敗及黏膜暴露不完全有關。其中息肉識別失敗是漏診的主要決定因素。目前每次結腸鏡檢查影像由大約50 000幀圖片構成,意味著需要以每秒25~30幀速度進行息肉識別,而一個息肉可能僅能在幾幀內被識別出來,這就導致了無論內鏡設置如何,息肉識別失敗都可能發生。
近10年來,人工智能技術迅速發展,深度學習的理論和技術進步推動了計算機輔助檢測(computer-aided detection,CADe)系統的發展。基于回顧性圖像分析建立的不同CADe診斷模型在訓練集和驗證集中均顯示了高特異度和敏感度,可有效提高腺瘤及息肉檢出率,降低漏診率[7-11]。但基于回顧性影像建立的CADe診斷模型普遍存在診斷曲線過擬合等問題,其在真實世界環境中的外推診斷性能不如理想狀態,可能出現假陽性率(誤診率)上升,導致醫生需要反復核查腺瘤和息肉真偽,內鏡退出時間增加或誤切除率上升;同時受黏膜暴露程度、內鏡醫生技能、結直腸清潔水平、退出時間的速度等其他因素影響,腺瘤和息肉假陰性率(漏診率)上升;均可導致使用與不使用CADe系統的結腸鏡檢查結果沒有差異,甚至增加退鏡時間和醫生工作負擔。針對以上臨床質疑,部分研究者在已經建立和驗證CADe診斷模型的基礎上,前瞻性開展了診斷性試驗的隨機對照試驗(randomized controlled trials,RCT),比較使用CADe系統的結腸鏡與不使用CADe系統的標準結腸鏡識別腺瘤和息肉的差異。從2020年以來,基于不同深度學習模型的CADe系統與標準結腸鏡檢查比較的RCT不斷涌現,因此有必要采用Meta分析方法,系統評價CADe對不同大小、形態、位置或組織學息肉識別效果,為臨床醫生更好使用CADe系統提供證據參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
RCT。
1.1.2 研究對象
① 年齡≥18歲;② 行結直腸腫瘤篩查、息肉切除術后監測、糞便免疫化學監測陽性、具有疑似結直腸腫瘤體征或癥狀的患者。排除有直腸癌或炎癥性腸病的個人病史,既往結腸切除、在息肉切除后進行抗血栓治療的受試者。
1.1.3 干預措施
試驗組:CADe輔助腸鏡檢測;對照組:無CADe輔助的常規腸鏡檢測。
1.1.4 結局指標
① 腺瘤檢出率(adenoma detection rate,ADR);② 息肉檢出率(polyp detection rate,PDR);③ 腺瘤漏診率(adenoma miss rate,AMR);④ 息肉漏診率(polyp detection rate,PMR);⑤ 退鏡時間。
1.1.5 排除標準
① 非中、英文文獻;② 無法獲取全文或重復發表的文獻;③ 關鍵數據信息不完整或有誤的文獻。
1.2 文獻檢索策略
計算機檢索PubMed、Cochrane Library、Web of Science、Embase、CNKI、WanFang Data和VIP數據庫,檢索時間為2014年1月至2023年4月。以主題詞和自由詞相結合進行檢索,英文檢索詞包括:artificial intelligence、deep learning、artificial neural network、computer-aided diagnosis、adenomatous polyps、colonic polyps、colorectal neoplasms、endoscopes等;中文檢索詞包括:人工智能、深度學習、神經網絡、計算機、診斷、計算機輔助、腸息肉、結腸息肉、腺瘤性息肉、結直腸腫瘤、結腸鏡等。根據各數據庫特點進行調整。同時檢索納入研究的參考文獻,以補充獲取相關資料。以PubMed為例,其具體檢索策略見附件框1。
1.3 文獻篩選及資料提取
由2名研究者獨立篩選文獻、提取資料并交叉核對。如有分歧,則通過討論或與第三方協商解決。資料提取內容包括:① 研究的基本信息(第一作者、發表年份、國家、多中心、研究類型、研究人群、性別、平均年齡、樣本量、診斷金標準、患者基線情況);② 主要結局指標或可估計效應值的數據(包括腺瘤檢出率、息肉檢出率、腺瘤漏診率、息肉漏診率、退鏡時間等);③ RCT偏倚風險相關內容。
1.4 納入研究的偏倚風險評價
由2名研究者獨立評價納入研究的偏倚風險,并交叉核對結果,如有分歧,討論或與第三人討論解決。偏倚風險評價使用Cochrane協作網RCT偏倚風險評價工具(RoB)進行,每個條目判斷可分為高偏倚風險、低偏倚風險和不清楚。
1.5 統計分析
采用RevMan 5.3軟件進行Meta分析。計數資料采用相對危險度(relative risk,RR)及95%CI為分析統計量;連續性變量采用均數差(mean difference,MD)及95%CI為分析統計量。首先采用卡方檢驗進行異質性檢驗,當P≥0.1,I2<50%時,表明研究間統計學異質性較小,使用固定效應模型合并效應量。當P<0.1,I2≥50%時,表明研究間統計學異質性較大,但如納入研究間無臨床異質性,考慮使用隨機效應模型合并效應量;如存在明顯臨床異質性,則需分析異質性來源,行亞組分析或僅行描述性分析。按照息肉和腺瘤檢出和漏診的影響因素(息肉位置、大小、形態及退鏡時間等)進行亞組分析。因本文最終納入文獻數量少于10篇,因此未進行發表偏倚檢測。為了評估Meta分析結果的穩健性及可靠性,采用逐一剔除法進行敏感性分析。設定P<0.05為差異有統計學意義。
2 結果
2.1 文獻檢索結果
初檢出相關文獻768篇,包括PubMed(n=31)、Web of Science(n=41)、Cochrane Library(n=99)、Embase(n=449)、CNKI(n=12)、VIP(n=8)、WanFang Data(n=148)。經逐層篩選后,最終納入9個RCT[12-20]。文獻篩選流程及結果見附件圖1。
2.2 納入研究的基本特征
本文共納入9個RCT[12-20],包含6 393例受試者,納入研究的基本特征見表1。

2.3 偏倚風險評價結果
7個研究[12-16,18-20]采用計算機數字表法進行隨機分組,6個研究[12-14,16,18,20]報告采用了隨機分層方法,7個研究[12-16,18,20]進行了分配隱藏,5個研究[12-14,16,20]文獻采用了結局測量者盲法。納入RCT的偏倚風險評價結果見表2。

2.4 Meta分析結果
2.4.1 腺瘤檢出率
有8個RCT[12, 13, 15-20]報道了腺瘤檢出率,隨機效應模型分析結果顯示,CADe組的腺瘤檢出率比常規腸鏡組更高[RR=1.22,95%CI(1.10,1.35),P<0.01]。按照腺瘤的位置、大小、性質進行亞組分析,結果顯示,CADe組在≤5 mm、非息肉樣的腺瘤的檢出率比常規腸鏡組更高,差異具有統計學意義[RR=1.06,95%CI(1.00,1.11),P=0.04;RR=1.12,95%CI(1.00,1.26),P=0.05],見表3。

2.4.2 腺瘤漏診率
有3個RCT[13,14,16]報道了腺瘤漏診率,隨機效應模型分析結果顯示,CADe組的腺瘤漏診率低于常規腸鏡組[RR=0.48,95%CI(0.34,0.67),P<0.01]。按照腺瘤的大小、位置進行亞組分析,結果顯示,CADe組在盲腸、橫結腸、降結腸、乙狀結腸的腺瘤漏診率更低,見表3。
2.4.3 息肉檢出率
有6個RCT[13,15-19]報道了息肉檢出率,隨機效應模型分析結果顯示,CADe組的息肉檢出率比常規腸鏡組更高[RR=1.19,95%CI(1.04,1.36),P<0.01]。按照息肉的位置、大小、形態進行亞組分析,結果顯示,CADe組在近端、≤5 mm、無蒂息肉的檢出率比常規腸鏡組更高,差異具有統計學意義[RR=1.27,95%CI(1.19,1.35),P<0.01;RR=1.07,95%CI(1.02,1.11),P<0.01;RR=1.05,95%CI(0.99,1.11),P=0.01],見表4。

2.4.4 息肉漏診率
有3個RCT[13,14,16]報道了息肉漏診率,隨機效應模型分析結果顯示,CADe組的息肉漏診率比常規腸鏡組更低[RR=0.39,95%CI(0.25,0.59),P<0.01]。
2.4.5 退鏡時間
有5個RCT[12,15-18]報道了兩組退鏡時間,隨機效應模型分析結果顯示,CADe組與常規腸鏡組的退鏡時間無差別[MD=0.07,95%CI(?0.26,0.39),P=0.68]。
2.4.6 敏感性分析
我們對腺瘤檢出率、腺瘤漏診率、息肉檢出率、息肉漏診率、退鏡時間5個指標均采用逐一刪除每篇納入研究的方法進行了敏感性分析。敏感性分析結果顯示,大多數指標的敏感性分析結果未發生方向性改變,說明Meta分析結果的一致性較好。但在>10 mm息肉檢出率中,從4篇研究中剔除1篇研究[18]后,兩組息肉檢出率由有差異[RR=0.7,95%CI(0.55,0.89),P<0.01]變為無差異[RR=0.82,95%CI(0.6,1.12),P=0.2]。
3 討論
目前,標準結腸鏡檢查已成為早期篩查腺瘤及息肉最常見的臨床操作,但是由于結腸鏡檢查在很大程度上受經驗水平、腸道準備度、息肉的形態及其暴露程度等方面的影響,因此腺瘤和息肉識別失敗成為臨床上結腸鏡檢查最常見的問題,也是結直腸腫瘤漏診的主要因素[12,13]。隨著人工智能及深度學習理論和技術的進步,CADe系統主要通過卷積神經網絡對圖像分類[21],通過一系列圖像及視頻的病變數據集的訓練與驗證形成,能夠增加結腸鏡檢查識別病變的能力[22]。近十年來,不同國家和地區的研究者基于不同人種、醫院的回顧性結腸鏡檢查圖像,訓練和驗證了具有高靈敏度和特異度(均在90%以上)的CADe系統診斷模型[23,24]。現有研究顯示,CADe系統在腺瘤及息肉檢出率方面表現良好[25],但可能整體上不足以評估其與病變特征(如息肉大小、形態、位置或組織學)識別之間的關系,而且部分醫生對CADe系統的實際應用于臨床的效果仍抱有懷疑態度(如內鏡醫師操作經驗不足導致使用或不使用CADe的結腸鏡檢查結果無差異、或由于假陽性結果而浪費檢查時間)[26,27]。為解決以上臨床問題,從5年前開始,在完成了CADe系統診斷模型訓練和驗證的基礎上,部分研究者開始開展前瞻性RCT來比較使用CADe系統的結腸鏡與使用標準結腸鏡檢查的結果差異。CADe系統的臨床研究熱點逐步從模型建立向臨床真實效果評價進行轉移,因此有必要對RCT評價結果進行Meta分析。
本研究結果顯示,與常規腸鏡檢查相比,CADe系統明顯提高了腺瘤檢出率和息肉檢出率,降低了腺瘤漏診率及息肉漏診率,這與Thomas等[28]的定性系統評價結果一致,也在其他研究中得以證實[29],說明CADe系統相對于標準結腸鏡檢查,能夠更早、更準確地診斷腺瘤和息肉,從而阻礙結腸癌發生進程,降低結腸癌發生風險。此外,CADe系統在≤5 mm息肉的檢出率比標準結腸鏡組更高,這一研究結果也與傳統觀點[30,31]相符,即相比較大的息肉,小息肉更有可能在視野內被遺漏,CADe系統在小息肉檢出方面更具優勢。同時,本次Meta分析的敏感性分析結果顯示,從4篇研究中剔除1篇研究[18]后,>10 mm的息肉檢出率由有差異變為無差異,說明CADe系統可能在較大息肉檢測方面并不優于標準結腸鏡檢查,這一結果也與Deliwala等[30]的報道一致,未來可能需要針對>10 mm的息肉來建立優化后的CADe系統診斷模型。在不同形態息肉檢出率方面,由于僅納入2個研究,且原始研究結果矛盾,也需要更多研究驗證。本次Meta分析結果顯示,兩組在退鏡時間上差異無統計學.意義,表明臨床上使用CADe系統并不會增加假陽性結果,從而額外增加檢查時間。既往研究也已證明無論內鏡醫師的操作及經驗水平如何,CADe系統均可以顯著增加腺瘤息肉檢出率,降低漏診率[32]。由此可見,CADe系統有可能通過降低息肉漏診率,部分消除醫生操作/經驗水平等方面的差異,成為醫生的得力助手,并隨著AI技術的發展,達到更好的識別能力,從而提高結腸鏡早期篩查的水平。
本系統評價共納入9個RCT,其中大多數研究采用了計算機數字表法進行隨機分組,報告了分配隱藏情況,并采用了結局測量者盲法。6個研究為了盡量讓重要的混雜因素在兩組間一致,額外采用了隨機分層方法,總體而言,納入研究的潛在偏倚風險較小,Meta分析結果的可信度較高,絕大部分結局指標的敏感性分析結果穩定,未出現方向性改變。
本研究的局限性:① 雖然本研究對各大數據庫進行了系統檢索,但因為研究發表時間較新,最后僅納入英文文獻,可能存在語言和發表偏倚;② 納入RCT的偏倚風險評價結果顯示,大多數研究報告了采用的具體隨機方法并進行了隨機分層,但有部分研究未采用結局測量者盲法,可能存在測量偏倚風險,此外,大多數研究存在失訪但未進行ITT分析,可能導致高估CADe系統檢測結果的有效性;③ 由于納入研究來自不同國家、不同人群和不同類型醫院,且采用的CADe系統不同,導致研究間具有高度異質性,我們雖然進行了亞組分析,但并未發現異質性的確切來源,這可能影響結果的準確性,未來應對多中心不同人群進行更多研究。
綜上所述,計算機輔助檢測系統可以增加腺瘤及息肉檢出率,并降低漏診率,息肉檢出率與其位置、大小及形態相關,腺瘤漏診率與其位置相關。受納入研究數量和質量限制,未來需要更多中心、更大樣本的研究驗證。