引用本文: 趙太良, 王冰冰, 梁威, 程森, 高海東, 王建業, 壽記新. 基于18F-FDG PET/CT與結構MRI的人工智能輔助診斷系統在阿爾茨海默病中診斷準確性比較的Meta分析. 中國循證醫學雜志, 2024, 24(12): 1411-1418. doi: 10.7507/1672-2531.202405140 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
阿爾茨海默病(Alzheimer’s disease,AD)是一種起病隱匿、逐漸進展的神經系統退行性疾病。其主要臨床表現為認知功能減退和記憶障礙。目前,在美國,約有670萬65歲及以上的老年人受到AD的影響,而在中國,這一數字更是高達1 300萬以上[1, 2]。病程長,并發癥多的特點已經使AD成為本世紀最致命和負擔最重的疾病之一[3, 4]。
最新的診斷指南強調了神經影像學在AD診斷中的重要作用[5-7]。18氟-脫氧葡萄糖PET/CT(18F-deoxyglucose PET/CT,18F-FDG PET/CT)是目前應用最為廣泛的腦功能顯像技術。該技術利用被放射性元素標記的葡萄糖類似物來示蹤大腦內神經元的糖代謝變化。研究表明,在AD患者大腦病理結構發生改變之前,通過18F-FDG PET/CT 便可捕捉到AD患者顳頂聯合皮質、前扣帶回和后扣帶回葡萄糖代謝水平的降低[8]。此外,顳頂葉與海馬的萎縮與AD的發病密切相關,這些區域結構上的改變往往是AD病理過程的早期標志[9]。通過結構MRI(structural MRI,sMRI)測量顳頂葉和海馬的萎縮程度,可為AD臨床診斷提供重要的支持證據[10]。
人工智能(artificial Intelligence,AI)正在革新計算機系統,賦予它們模擬人類認知功能的能力。其工作原理在于利用高效的算法,經過大量數據集訓練后在給定數據集中獲得數據規律,進而對新數據進行分析預測的方法。值得一提的是,AI技術能夠自動識別出疾病的獨特模式和特征,從而實現對疾病的診斷。這一過程擺脫了傳統診斷方法中依賴預設標準的局限,展現了AI技術在醫療診斷領域的強大潛力和優勢。特別地,將AI技術與神經影像學相結合的方法,在AD的診斷中展現出巨大潛力[11]。在Kim等[12]的研究中,基于18F-FDG PET/CT的AI輔助診斷系統在區分AD患者與認知功能正常(normal cognitive,NC)人群時,展現了高達95%的準確率。Suk等[13]開發的基于sMRI的輔助AI診斷系統,在同樣的區分任務中,也實現了92%的準確率。盡管多項研究已經對基于18F-FDG PET/CT或sMRI的AI輔助診斷系統在AD診斷中準確性進行了評估,但全面總結現有證據的定量綜合仍然缺乏。最近的研究強調了根據醫療保健行業的數字化轉型對當前研究方法進行必要修改和調整的重要性[14]。因此,本研究旨在定量評估基于18F-FDG PET/CT與sMRI的AI輔助診斷系統的AD診斷準確性,以期為未來的研究和臨床實踐提供更多的參考依據。
1 資料與方法
本研究嚴格遵循《診斷試驗準確性研究的系統評價和Meta分析首選報告項目》的指南進行準備[15, 16]。在整個研究過程中,包括標題和摘要篩選、全文篩選、數據提取、對報告指南遵守情況的評估、偏倚和適用性評價等各個環節,均由兩位研究員獨立完成,并對最終結果進行交叉核對。在遇到爭議或分歧時,采取組內協商的方式。
1.1 納入與排除標準
1.1.1 研究類型
診斷性試驗,內容限定為在人類受試者中開發或驗證基于18F-FDG PET/CT或sMRI用于AD診斷的AI輔助診斷系統,文種限定為英文。
1.1.2 研究對象
接受18F-FDG PET/CT或sMRI檢查的AD患者,對于AD患者的年齡、國籍、種族和疾病嚴重程度不作限制。
1.1.3 待診斷試驗
18F-FDG PET/CT或sMRI行AD診斷,診斷金標準為臨床診斷。
1.1.4 結局指標
合并靈敏度、特異度、綜合受試者操作特征(summary receiver operating characteristic,SROC)曲線下面積(area under curve,AUC)。
1.1.5 排除標準
① 個案報道、動物實驗、綜述、信函、案例報告和會議摘要等類型研究;② 研究只報告了AI輔助診斷系統的準確性或SROC-AUC;③ 重復發表研究。
1.2 文獻檢索策略
兩位研究員采用主題詞結合自由詞的檢索策列,分別在PubMed、Web of Science和Embase數據庫中檢索從建庫至2024年4月期間公開發表的開發或驗證基于18F-FDG PET/CT或sMRI的AI輔助診斷系統在AD診斷中的診斷性研究。同時檢索納入研究的參考文獻,以補充獲取相關資料。英文檢索詞包括:Alzheimer's disease、Alzheimer syndrome、Alzheimer type dementia、Alzheimer diseases、Alzheimer's disease、dementia,senil或AD;fluorodeoxyglucose F18、2-Fluoro-2-deoxy-D-glucose 、18F-FDG;magnetic resonance imaging、NMR imaging、zeugmatography、MRI scans、magnetic resonance image、MRI;artificial intelligence、computer reasoning、machine intelligence、computational intelligence、deep learning、machine learning、ML、DL、AI;diagnosis、diagnosis computer assisted 、diagnoses、differential diagnoses、detection等。
1.3 文獻篩選與資料提取
兩位研究員(梁威與程森)嚴格按照上述納入標準和排除標準獨立篩選文獻。完成文獻篩選后,使用預先設計的數據提取表,分別提取各研究內相關數據。資料提取內容包括:第一作者姓名、研究發表年份、病例來源、模型算法、驗證方法,以及診斷效能的評估指標。
1.4 納入研究偏倚風險評估
兩位研究員分別采用預測模型偏倚風險評估工具(prediction model risk of bias assessment tool,PROBAST)對納入研究進行偏倚風險和臨床適用性評估[17]。PROBAST量表是專為預測模型開發的評價量表,量表涵蓋4個模塊,分別為研究對象、預測因子、結果和統計分析。在偏倚風險方面,所有模塊共20個條目按“是/可能是”“不是/可能不是”“沒有信息”依次進行評估。前三個模塊也會在臨床適用性方面分別進行“低適用風險”“高適用風險”和“不清楚風險”的評估。最終將文獻的偏倚風險分為三級:第一級為低偏倚風險,指所有標志性問題的評價結果均為“是/可能是”;第二級為不清楚偏倚風險,指1項及以上標志性問題的評價結果為“沒有信息”,其它標志性問題的評價結果均為“是/可能是”;第三級為高偏倚風險,指1項及以上標志性問題的評價結果為“不是/可能不是”。
1.5 統計分析
依據影像學測量方法的差異,將提取的列聯表分為兩個亞組,分別是18F-FDG PET/CT和sMRI亞組。隨后,針對這兩個亞組進行了獨立的Meta分析。通過各亞組內列聯表計算合并靈敏度、特異度和AUC。采用AUC評估診斷性能。當AUC≥0.90時,表明診斷準確性較高;當0.70≤AUC<0.90時,表明診斷準確性中等;當AUC<0.70時,表明診斷準確性較低[18]。
通過森林圖中的I2值,評估不同研究之間的異質性大小。I2值揭示了整體變異比例中,異質性因素而非偶然性因素所占的具體貢獻。當I2接近25%時,表明異質性較低;接近50%時,表明異質性中等;接近75%時,則表明異質性顯著[19]。采用單因素Meta回歸和亞組分析探討異質性來源。在單因素Meta回歸和亞組分析中,引入病例來源(ADNI數據庫/其他數據庫),算法類型(機器學習(machine learning,ML)/深度學習(deep learning,DL)),驗證策略(內部測試/外部驗證)等混雜因素,當聯合P<0.05表示在Meta回歸中的差異具有統計學意義。在數據分析過程中,使用Meta-Disc1.4和Stata17.0軟件。
2 結果
2.1 文獻檢索結果
初檢出相關文獻487篇,其中包括PubMed(n=167)、Embase(n=75)、Web of Science(n=245)以及通過其他檢索方式獲得的研究2篇[20,21]。經逐層篩選后,最終納入文獻26篇[12, 13, 21-44],共提供38項有關診斷性能的2×2列聯表。文獻的篩選流程及結果見附件圖1。
2.2 納入研究的基本特征
其中,24項列聯表基于18F-FDG PET/CT 區分AD患者與NC人群,13項列聯表采用了ML,11項列聯表采用DL;19項列聯表病例來源于ADNI數據庫,5項列聯表病例來源于其它數據庫;17項列聯表為模型的內部驗證,7項列聯表進行了模型的外部驗證。14項列聯表基于sMRI區分AD患者與NC人群,其中9項列聯表采用了ML,5項列聯表采用DL;10項列聯表病例來源于ADNI數據庫,4項列聯表病例來源于其它數據庫;9項列聯表為模型的內部驗證,5項列聯表進行了模型的外部驗證。納入研究的特征見表1。

2.3 納入研究偏倚風險評估
PROBAST工具的偏倚風險評估結果顯示:13項(50%)[12, 23, 24, 26, 28, 30-34, 37, 39, 43]研究具有高偏倚風險,主要原因是模型的小樣本量內部驗證或未進行外部驗證。由于入選和排除標準不明確,對5項(19%)[12, 24, 26, 31, 33]研究參與者選擇的適用性高度關注,總體而言,多數研究在結果和統計分析方面對偏倚風險的關注度較低。
2.4 診斷準確性
基于18F-FDG PET的AI輔助診斷系統的合并靈敏度為89%[95%CI(88%,91%),P=0.05];特異度為93%[95%CI(91%,94%),P<0.01];SROC-AUC為0.96[95%CI(0.93,0.97)]。基于sMRI的AI輔助診斷系統的合并靈敏度為85%[95%CI(85%,90%),P=0.05];特異度為90%[95%CI(87%,92%),P<0.01];AUC為0.97[95%CI(0.94,0.96)]。結果見圖1、圖2和表2。



2.5 異質性分析
單因素Meta回歸和亞組分析結果顯示,在針對18F-FDG PET/CT的研究中,DL相較于ML在診斷效能上表現出一定優勢,在敏感度(90% vs. 88%)和特異度(94% vs.91%)上有輕微提升。然而,這種差異不具有統計學意義(聯合P=0.05)。進一步分析表明,病例來源和驗證策略的差異均未對診斷準確性產生顯著影響。對于sMRI,與ML相比較,DL具有更高的診斷準確性(聯合P=0.02),而病例來源和驗證策略的差異未對診斷準確性產生顯著影響。單因素Meta回歸和亞組分析結果見表3。

2.6 閾值效應及發表偏倚檢驗
Spearman相關性檢驗結果表明,無論是針對18F-FDG PET/CT亞組還是sMRI亞組,亞組內各研究間均不存在閾值效應。具體來說,對于18F-FDG PET/CT,相關系數r=–0.014(P=0.95);對于sMRI,其相關系數r=–0.442(P=0.11)。此外,Deek’s漏斗圖顯示,對于18F-FDG PET/CT,各研究間存在發表偏倚(P=0.02);而對于sMRI,各研究間不存在發表偏倚(P=0.70)。
3 討論
在過去的二十年中,醫學影像技術取得了突飛猛進的發展,其在疾病診斷和治療中的關鍵作用日益顯著[45, 46]。然而,這一進步也帶來了影像科醫生工作量的急劇增加。據研究顯示,影像科醫生在工作日中平均每3至4秒就需要解讀一張CT或MRI圖像,以應對不斷攀升的工作需求[47]。這種高強度的工作節奏不可避免地引發了公眾對于醫療服務質量可能下降的擔憂。在2023年的人工智能社會和倫理的醫療保健大會上,來自世界各地的70多位與會者達成共識,呼吁醫療健康領域的領導者迅速采取行動,利用AI技術提升醫療實踐的效率和質量,并對AI的合理應用提供明確的指導[48]。
AI診斷系統相較于影像科醫生,在診斷過程中展現出了顯著的優勢。首先,它能夠消除由于醫生個人經驗和技能差異而可能引起的診斷誤差,確保了診斷結果的一致性和準確性。其次,AI系統具備持續工作的能力,不受時間限制,能夠實現24小時不間斷的診斷服務。這些特點使得AI在面對復雜和多變的臨床診斷環境時,表現出更高的適應性和潛力。
本次Meta分析結果表明,當使用18F-FDG PET/CT進行診斷時,AI輔助診斷系統的靈敏度達到了89%[95%CI(88%,91%)],而特異度達到了93%[95%CI(91%,94%)]。這一表現突顯了AI技術在提高診斷準確性方面的潛力。進一步的分析顯示,當利用sMRI進行診斷時,AI輔助診斷系統同樣展現出了優異的性能,其合并靈敏度為88%[95%CI(85%,90%)],特異度為90%[95%CI(87%,92%)]。盡管兩種技術在診斷準確性上不相上下,但sMRI在成本效益和診療過程中的易獲取性方面具有明顯優勢。與18F-FDG PET/CT相比,sMRI不僅成本更低,而且對患者的侵入性更小,這使得基于sMRI的AI輔助診斷系統在臨床實踐中具有更廣泛的應用前景。這一發現為臨床醫生在選擇診斷方法時提供了重要的參考依據,有助于推動AD診斷技術的進一步優化和發展。
盡管本研究的異質性分析結果在可以接受范圍內,我們仍然積極地探討了可能的異質性來源。通過單因素Meta回歸和亞組分析,我們發現在利用18F-FDG PET/CT進行診斷時,模型類型、病例來源以及模型驗證方法的差異并不是導致異質性的原因。對于sMRI,與ML相比,DL具有更高的準確性,且兩者的差異具有統計學意義(聯合P<0.05)。DL之所以能夠提高準確性,可能歸功于其技術優勢。DL通過模擬生物學神經元傳遞過程,實現了特征提取的整合,能夠自動學習特征集的特征,從而展現了更高的智能化水平[49]。此外,分析結果還表明,在利用sMRI進行診斷時,病例來源和模型驗證方法的不同,并不是導致異質性的因素。
本研究的成果表明,基于18F-FDG PET/CT或sMRI的AI輔助診斷系統在AD的診斷中顯示出相似的高準確性。然而,許多研究使用的方法學和數據集存在不足,這限制了AI輔助診斷系統在實際應用中的有效性。未來的研究需要著重于實用算法的開發,例如通過數據和代碼的共享來促進其他研究者的驗證工作[50, 51],以及作為讀者指南,各研究應對納入樣本量的充分性進行全面的評估[52]。此外,開發出能供實踐的工具,如植入移動設備的APP或基于網頁的計算器等,將是未來研究的重要方向。
本Meta分析存在以下局限性:① 只納入了英文出版物,可能因語種單一導致存在發表偏倚;② 大多數納入研究診斷AD時采用了臨床診斷標準,而沒有經過病理學驗證。
綜上所述,基于18F-FDG PET/CT與sMRI的AI輔助診斷系統在AD診斷具有較高的診斷準確性,但由于納入數據庫限制和未經外部檢驗驗證,AI輔助診斷系統可能存在過擬合等風險,未來需要通過進一步的高質量研究來加以驗證和支持。
阿爾茨海默病(Alzheimer’s disease,AD)是一種起病隱匿、逐漸進展的神經系統退行性疾病。其主要臨床表現為認知功能減退和記憶障礙。目前,在美國,約有670萬65歲及以上的老年人受到AD的影響,而在中國,這一數字更是高達1 300萬以上[1, 2]。病程長,并發癥多的特點已經使AD成為本世紀最致命和負擔最重的疾病之一[3, 4]。
最新的診斷指南強調了神經影像學在AD診斷中的重要作用[5-7]。18氟-脫氧葡萄糖PET/CT(18F-deoxyglucose PET/CT,18F-FDG PET/CT)是目前應用最為廣泛的腦功能顯像技術。該技術利用被放射性元素標記的葡萄糖類似物來示蹤大腦內神經元的糖代謝變化。研究表明,在AD患者大腦病理結構發生改變之前,通過18F-FDG PET/CT 便可捕捉到AD患者顳頂聯合皮質、前扣帶回和后扣帶回葡萄糖代謝水平的降低[8]。此外,顳頂葉與海馬的萎縮與AD的發病密切相關,這些區域結構上的改變往往是AD病理過程的早期標志[9]。通過結構MRI(structural MRI,sMRI)測量顳頂葉和海馬的萎縮程度,可為AD臨床診斷提供重要的支持證據[10]。
人工智能(artificial Intelligence,AI)正在革新計算機系統,賦予它們模擬人類認知功能的能力。其工作原理在于利用高效的算法,經過大量數據集訓練后在給定數據集中獲得數據規律,進而對新數據進行分析預測的方法。值得一提的是,AI技術能夠自動識別出疾病的獨特模式和特征,從而實現對疾病的診斷。這一過程擺脫了傳統診斷方法中依賴預設標準的局限,展現了AI技術在醫療診斷領域的強大潛力和優勢。特別地,將AI技術與神經影像學相結合的方法,在AD的診斷中展現出巨大潛力[11]。在Kim等[12]的研究中,基于18F-FDG PET/CT的AI輔助診斷系統在區分AD患者與認知功能正常(normal cognitive,NC)人群時,展現了高達95%的準確率。Suk等[13]開發的基于sMRI的輔助AI診斷系統,在同樣的區分任務中,也實現了92%的準確率。盡管多項研究已經對基于18F-FDG PET/CT或sMRI的AI輔助診斷系統在AD診斷中準確性進行了評估,但全面總結現有證據的定量綜合仍然缺乏。最近的研究強調了根據醫療保健行業的數字化轉型對當前研究方法進行必要修改和調整的重要性[14]。因此,本研究旨在定量評估基于18F-FDG PET/CT與sMRI的AI輔助診斷系統的AD診斷準確性,以期為未來的研究和臨床實踐提供更多的參考依據。
1 資料與方法
本研究嚴格遵循《診斷試驗準確性研究的系統評價和Meta分析首選報告項目》的指南進行準備[15, 16]。在整個研究過程中,包括標題和摘要篩選、全文篩選、數據提取、對報告指南遵守情況的評估、偏倚和適用性評價等各個環節,均由兩位研究員獨立完成,并對最終結果進行交叉核對。在遇到爭議或分歧時,采取組內協商的方式。
1.1 納入與排除標準
1.1.1 研究類型
診斷性試驗,內容限定為在人類受試者中開發或驗證基于18F-FDG PET/CT或sMRI用于AD診斷的AI輔助診斷系統,文種限定為英文。
1.1.2 研究對象
接受18F-FDG PET/CT或sMRI檢查的AD患者,對于AD患者的年齡、國籍、種族和疾病嚴重程度不作限制。
1.1.3 待診斷試驗
18F-FDG PET/CT或sMRI行AD診斷,診斷金標準為臨床診斷。
1.1.4 結局指標
合并靈敏度、特異度、綜合受試者操作特征(summary receiver operating characteristic,SROC)曲線下面積(area under curve,AUC)。
1.1.5 排除標準
① 個案報道、動物實驗、綜述、信函、案例報告和會議摘要等類型研究;② 研究只報告了AI輔助診斷系統的準確性或SROC-AUC;③ 重復發表研究。
1.2 文獻檢索策略
兩位研究員采用主題詞結合自由詞的檢索策列,分別在PubMed、Web of Science和Embase數據庫中檢索從建庫至2024年4月期間公開發表的開發或驗證基于18F-FDG PET/CT或sMRI的AI輔助診斷系統在AD診斷中的診斷性研究。同時檢索納入研究的參考文獻,以補充獲取相關資料。英文檢索詞包括:Alzheimer's disease、Alzheimer syndrome、Alzheimer type dementia、Alzheimer diseases、Alzheimer's disease、dementia,senil或AD;fluorodeoxyglucose F18、2-Fluoro-2-deoxy-D-glucose 、18F-FDG;magnetic resonance imaging、NMR imaging、zeugmatography、MRI scans、magnetic resonance image、MRI;artificial intelligence、computer reasoning、machine intelligence、computational intelligence、deep learning、machine learning、ML、DL、AI;diagnosis、diagnosis computer assisted 、diagnoses、differential diagnoses、detection等。
1.3 文獻篩選與資料提取
兩位研究員(梁威與程森)嚴格按照上述納入標準和排除標準獨立篩選文獻。完成文獻篩選后,使用預先設計的數據提取表,分別提取各研究內相關數據。資料提取內容包括:第一作者姓名、研究發表年份、病例來源、模型算法、驗證方法,以及診斷效能的評估指標。
1.4 納入研究偏倚風險評估
兩位研究員分別采用預測模型偏倚風險評估工具(prediction model risk of bias assessment tool,PROBAST)對納入研究進行偏倚風險和臨床適用性評估[17]。PROBAST量表是專為預測模型開發的評價量表,量表涵蓋4個模塊,分別為研究對象、預測因子、結果和統計分析。在偏倚風險方面,所有模塊共20個條目按“是/可能是”“不是/可能不是”“沒有信息”依次進行評估。前三個模塊也會在臨床適用性方面分別進行“低適用風險”“高適用風險”和“不清楚風險”的評估。最終將文獻的偏倚風險分為三級:第一級為低偏倚風險,指所有標志性問題的評價結果均為“是/可能是”;第二級為不清楚偏倚風險,指1項及以上標志性問題的評價結果為“沒有信息”,其它標志性問題的評價結果均為“是/可能是”;第三級為高偏倚風險,指1項及以上標志性問題的評價結果為“不是/可能不是”。
1.5 統計分析
依據影像學測量方法的差異,將提取的列聯表分為兩個亞組,分別是18F-FDG PET/CT和sMRI亞組。隨后,針對這兩個亞組進行了獨立的Meta分析。通過各亞組內列聯表計算合并靈敏度、特異度和AUC。采用AUC評估診斷性能。當AUC≥0.90時,表明診斷準確性較高;當0.70≤AUC<0.90時,表明診斷準確性中等;當AUC<0.70時,表明診斷準確性較低[18]。
通過森林圖中的I2值,評估不同研究之間的異質性大小。I2值揭示了整體變異比例中,異質性因素而非偶然性因素所占的具體貢獻。當I2接近25%時,表明異質性較低;接近50%時,表明異質性中等;接近75%時,則表明異質性顯著[19]。采用單因素Meta回歸和亞組分析探討異質性來源。在單因素Meta回歸和亞組分析中,引入病例來源(ADNI數據庫/其他數據庫),算法類型(機器學習(machine learning,ML)/深度學習(deep learning,DL)),驗證策略(內部測試/外部驗證)等混雜因素,當聯合P<0.05表示在Meta回歸中的差異具有統計學意義。在數據分析過程中,使用Meta-Disc1.4和Stata17.0軟件。
2 結果
2.1 文獻檢索結果
初檢出相關文獻487篇,其中包括PubMed(n=167)、Embase(n=75)、Web of Science(n=245)以及通過其他檢索方式獲得的研究2篇[20,21]。經逐層篩選后,最終納入文獻26篇[12, 13, 21-44],共提供38項有關診斷性能的2×2列聯表。文獻的篩選流程及結果見附件圖1。
2.2 納入研究的基本特征
其中,24項列聯表基于18F-FDG PET/CT 區分AD患者與NC人群,13項列聯表采用了ML,11項列聯表采用DL;19項列聯表病例來源于ADNI數據庫,5項列聯表病例來源于其它數據庫;17項列聯表為模型的內部驗證,7項列聯表進行了模型的外部驗證。14項列聯表基于sMRI區分AD患者與NC人群,其中9項列聯表采用了ML,5項列聯表采用DL;10項列聯表病例來源于ADNI數據庫,4項列聯表病例來源于其它數據庫;9項列聯表為模型的內部驗證,5項列聯表進行了模型的外部驗證。納入研究的特征見表1。

2.3 納入研究偏倚風險評估
PROBAST工具的偏倚風險評估結果顯示:13項(50%)[12, 23, 24, 26, 28, 30-34, 37, 39, 43]研究具有高偏倚風險,主要原因是模型的小樣本量內部驗證或未進行外部驗證。由于入選和排除標準不明確,對5項(19%)[12, 24, 26, 31, 33]研究參與者選擇的適用性高度關注,總體而言,多數研究在結果和統計分析方面對偏倚風險的關注度較低。
2.4 診斷準確性
基于18F-FDG PET的AI輔助診斷系統的合并靈敏度為89%[95%CI(88%,91%),P=0.05];特異度為93%[95%CI(91%,94%),P<0.01];SROC-AUC為0.96[95%CI(0.93,0.97)]。基于sMRI的AI輔助診斷系統的合并靈敏度為85%[95%CI(85%,90%),P=0.05];特異度為90%[95%CI(87%,92%),P<0.01];AUC為0.97[95%CI(0.94,0.96)]。結果見圖1、圖2和表2。



2.5 異質性分析
單因素Meta回歸和亞組分析結果顯示,在針對18F-FDG PET/CT的研究中,DL相較于ML在診斷效能上表現出一定優勢,在敏感度(90% vs. 88%)和特異度(94% vs.91%)上有輕微提升。然而,這種差異不具有統計學意義(聯合P=0.05)。進一步分析表明,病例來源和驗證策略的差異均未對診斷準確性產生顯著影響。對于sMRI,與ML相比較,DL具有更高的診斷準確性(聯合P=0.02),而病例來源和驗證策略的差異未對診斷準確性產生顯著影響。單因素Meta回歸和亞組分析結果見表3。

2.6 閾值效應及發表偏倚檢驗
Spearman相關性檢驗結果表明,無論是針對18F-FDG PET/CT亞組還是sMRI亞組,亞組內各研究間均不存在閾值效應。具體來說,對于18F-FDG PET/CT,相關系數r=–0.014(P=0.95);對于sMRI,其相關系數r=–0.442(P=0.11)。此外,Deek’s漏斗圖顯示,對于18F-FDG PET/CT,各研究間存在發表偏倚(P=0.02);而對于sMRI,各研究間不存在發表偏倚(P=0.70)。
3 討論
在過去的二十年中,醫學影像技術取得了突飛猛進的發展,其在疾病診斷和治療中的關鍵作用日益顯著[45, 46]。然而,這一進步也帶來了影像科醫生工作量的急劇增加。據研究顯示,影像科醫生在工作日中平均每3至4秒就需要解讀一張CT或MRI圖像,以應對不斷攀升的工作需求[47]。這種高強度的工作節奏不可避免地引發了公眾對于醫療服務質量可能下降的擔憂。在2023年的人工智能社會和倫理的醫療保健大會上,來自世界各地的70多位與會者達成共識,呼吁醫療健康領域的領導者迅速采取行動,利用AI技術提升醫療實踐的效率和質量,并對AI的合理應用提供明確的指導[48]。
AI診斷系統相較于影像科醫生,在診斷過程中展現出了顯著的優勢。首先,它能夠消除由于醫生個人經驗和技能差異而可能引起的診斷誤差,確保了診斷結果的一致性和準確性。其次,AI系統具備持續工作的能力,不受時間限制,能夠實現24小時不間斷的診斷服務。這些特點使得AI在面對復雜和多變的臨床診斷環境時,表現出更高的適應性和潛力。
本次Meta分析結果表明,當使用18F-FDG PET/CT進行診斷時,AI輔助診斷系統的靈敏度達到了89%[95%CI(88%,91%)],而特異度達到了93%[95%CI(91%,94%)]。這一表現突顯了AI技術在提高診斷準確性方面的潛力。進一步的分析顯示,當利用sMRI進行診斷時,AI輔助診斷系統同樣展現出了優異的性能,其合并靈敏度為88%[95%CI(85%,90%)],特異度為90%[95%CI(87%,92%)]。盡管兩種技術在診斷準確性上不相上下,但sMRI在成本效益和診療過程中的易獲取性方面具有明顯優勢。與18F-FDG PET/CT相比,sMRI不僅成本更低,而且對患者的侵入性更小,這使得基于sMRI的AI輔助診斷系統在臨床實踐中具有更廣泛的應用前景。這一發現為臨床醫生在選擇診斷方法時提供了重要的參考依據,有助于推動AD診斷技術的進一步優化和發展。
盡管本研究的異質性分析結果在可以接受范圍內,我們仍然積極地探討了可能的異質性來源。通過單因素Meta回歸和亞組分析,我們發現在利用18F-FDG PET/CT進行診斷時,模型類型、病例來源以及模型驗證方法的差異并不是導致異質性的原因。對于sMRI,與ML相比,DL具有更高的準確性,且兩者的差異具有統計學意義(聯合P<0.05)。DL之所以能夠提高準確性,可能歸功于其技術優勢。DL通過模擬生物學神經元傳遞過程,實現了特征提取的整合,能夠自動學習特征集的特征,從而展現了更高的智能化水平[49]。此外,分析結果還表明,在利用sMRI進行診斷時,病例來源和模型驗證方法的不同,并不是導致異質性的因素。
本研究的成果表明,基于18F-FDG PET/CT或sMRI的AI輔助診斷系統在AD的診斷中顯示出相似的高準確性。然而,許多研究使用的方法學和數據集存在不足,這限制了AI輔助診斷系統在實際應用中的有效性。未來的研究需要著重于實用算法的開發,例如通過數據和代碼的共享來促進其他研究者的驗證工作[50, 51],以及作為讀者指南,各研究應對納入樣本量的充分性進行全面的評估[52]。此外,開發出能供實踐的工具,如植入移動設備的APP或基于網頁的計算器等,將是未來研究的重要方向。
本Meta分析存在以下局限性:① 只納入了英文出版物,可能因語種單一導致存在發表偏倚;② 大多數納入研究診斷AD時采用了臨床診斷標準,而沒有經過病理學驗證。
綜上所述,基于18F-FDG PET/CT與sMRI的AI輔助診斷系統在AD診斷具有較高的診斷準確性,但由于納入數據庫限制和未經外部檢驗驗證,AI輔助診斷系統可能存在過擬合等風險,未來需要通過進一步的高質量研究來加以驗證和支持。