針對基于人工智能的診斷試驗準確性研究,本文總結了其方法學質量評價工具,并簡要介紹QUADAS-AI和改良的QUADAS-2工具。此外,總結了此類研究的報告規范,并簡要介紹人工智能研究報告清單以及口腔醫學人工智能研究清單。
引用本文: 高歌, 崔馨心, 曾夢雨, 曾維, 郭際香, 張韜, 湯煒, 劉暢. 基于人工智能的診斷試驗準確性研究(三):方法學評價與報告規范. 中國循證醫學雜志, 2024, 24(5): 598-604. doi: 10.7507/1672-2531.202310006 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
基于人工智能(artificial intelligence,AI)和機器學習(machine learning)的診斷試驗準確性研究(diagnostic accuracy test study,DTA)是近十余年來的醫學影像學的研究熱點之一,本團隊已歸納總結其研究設計[1]、測量指標[2]等方法學特征。本文是該系列文章的第三篇,介紹基于AI的DTA研究的常用的方法學質量評價工具以及報告規范。其中,方法學質量評價工具主要用于DTA系統評價中,用于評價納入的DTA原始研究的內部真實性(偏倚風險評價)以及外部真實性(適用性評價);報告規范用于DTA原始研究的報告,是作者在書寫、提交論文時自我檢查的清單。
1 基于AI的診斷準確性研究的方法學質量評價
1.1 常用方法學質量評價工具小結
診斷準確性研究質量評價工具QUADAS(quality assessment of diagnostic accuracy studies)首次發布于2003年[3,4],并于2011年更新為QUADAS-2工具[5-7]。QUADAS-2工具成為目前單個診斷試驗準確性研究(single diagnostic test accuracy study,SDTA)最常用的方法學質量評價工具。在QUADAS-2工具的基礎上,2021年發布的QUADAS-C工具則是針對診斷試驗準確性比較研究(comparative diagnostic test accuracy study,CDTA)而改良的工具[8-10]。2019年發布的預測模型偏倚風險評價工具PROBAST(prediction model risk of bias assessment tool)[11,12]可以用于評價建立了多元預測模型的診斷試驗或預后試驗準確性研究。另外,針對預后研究的QUIPS(quality in prognosis studies)[13,14]和QUAPAS(quality assessment of prognostic accuracy studies)[15,16]也涉及預測模型,故也總結在表1中。

因此DTA研究可以使用QUADAS-2、QUADAS-C、PROBAST等工具評價方法學質量;預后研究可以使用QUIPS、QUAPAS、PROBAST等工具評價方法學質量。然而,基于AI的臨床研究與傳統臨床研究在研究設計階段就有明顯區別[1],例如:AI研究可能會對研究對象的數據集進行分組(訓練集、驗證集、測試集),研究結果的精確性受到測試集樣本量以及算法的影響。故而,基于AI的臨床研究在使用傳統的方法學質量評價工具時或多或少會面臨適用性不足的問題,其相關偏倚風險評價側重點也會有所區別。為解決這些問題,臨床流行病學家和計算機領域專家也在上述傳統方法學質量評價工具的基礎上考慮AI研究的特殊要求,努力改進相關的方法學質量評價工具。本文將簡要地介紹QUADAS-AI(quality assessment of diagnostic accuracy studies-artificial intelligence)工具[17]以及Mohammad-Rahimi改良QUADAS-2工具[18]。
1.2 QUADAS-AI工具
QUADAS-AI是在QUADAS-2[5]和QUADAS-C工具[8]的基礎上考慮AI研究特征的擴展工具,對QUADAS-2和QUADAS-C工具的病例選擇、診斷試驗、參考標準、研究流程和時機4個相關領域的偏倚風險評價進行了補充(表2)。

QUADAS-AI工具對各個領域的偏倚風險考慮相對比較全面,然而美中不足之處在于:QUADAS-AI工具目前僅是一份草案,信號問題尚未成熟,因此只能由經驗豐富的系統評價作者在結合QUADAS-2和QUADAS-C工具的基礎上使用,故而限制了其使用與推廣。此外,基于PROBAST工具[11,12]的AI研究擴展工具PROBAST-AI工具[19]目前也尚在研發之中。
1.3 改良QUADAS-2工具
在Mohammad-Rahimi等[18]發表的基于深度學習的齲病影像診斷的系統評價中,研究者針對深度學習模型研究的特征,改進了QUADAS-2工具的信號問題,讀者可以作為參考,具體見表3。

Mohammad-Rahimi等[18]對QUADAS-2工具的改良主要優勢在于:考慮了數據不平衡(信號問題1.1)以及數據單一導致的泛化性不足等問題(信號問題3.4);強調了數據的排除偏倚(信號問題1.2);考慮了效度評價時測試集數據的獨立性(信號問題1.4);此外,還考慮了研究結果的可重現性(信號問題2.3)以及診斷模型的魯棒性(信號問題2.4),強調了標注過程中可能發生的測量誤差(信號問題3.3)。
相比較于QUADAS-AI工具[17],Mohammad-Rahimi等[18]改良QUADAS-2工具的優勢在于信號問題簡單明確,但是其缺點也顯而易見:對偏倚風險的領域劃分不夠清晰(例如信號問題3.4),甚至可能將偏倚領域劃分錯誤(例如信號問題1.4更適合在“待評價的診斷試驗”領域),但好在并未影響整體偏倚風險評價;沒有考慮數據源選擇(有問題的公開數據集)、數據管理流程(數據預處理)等造成的偏倚。
2 基于AI的診斷準確性研究的報告規范
2.1 常用報告規范小結
Bossuyt等[20]2003年首次發表診斷準確性研究報告規范STARD(standards for reporting of diagnostic accuracy)[21],并于2015年進行了更新[22-24]。Collins等[25]2015年發表了個體預后或診斷多元預測模型研究報告規范TRIPOD(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis)[26]。此外,口腔醫學診斷準確性研究報告規范PRIDASE(preferred reporting items for diagnostic accuracy studies in endodontics)目前也尚在醞釀之中[27]。
雖然DTA研究可以使用上述報告規范,但是考慮到基于AI的臨床研究與傳統臨床研究在研究設計階段就有明顯區別[1],因此非常有必要在研究報告時充分考慮AI相關的研究方法及研究結果。基于這種考量,Collins等[28]2019年開始計劃在TRIPOD的基礎上開發TRIPOD-AI報告規范,并于2021年發表了計劃書[19];Sounderajah等[29]2020年也計劃在STARD 2015版基礎上開發STARD-AI報告規范,并于2021年發表了計劃書[30]。
雖然TRIPOD-AI與STARD-AI報告規范尚未正式發表,但是Sounderajah等[31]對與AI相關的所有類型的臨床研究做出了共性的總結,不僅參考了尚未發表的TRIPOD-AI與STARD-AI報告規范,而且參考了已發表的隨機對照試驗CONSORT-AI報告規范[32-34]與臨床試驗計劃書SPIRIT-AI報告規范[35-37]。Sounderajah等[31]總結的清單包含4個主題、10項條目。此外,Mongan等[38]2020年發表了醫學影像學AI研究報告規范CLAIM(checklist for artificial intelligence in medical imaging)[39],包括42項條目,適用于包括DTA研究在內的基于AI的醫學影像學研究;Schwendicke等[40]2021年發表了口腔醫學AI研究清單,包括25項條目,適用于包括DTA研究在內的基于AI的口腔醫學研究的計劃、執行以及報告。相關報告規范見表4。本文將簡要地介紹Sounderajah等[31]總結的AI研究報告清單以及Schwendicke等[40]的口腔醫學AI研究清單。

2.2 AI研究報告清單
2022年,Sounderajah等[31]參考CONSORT-AI[32]、SPIRIT-AI[35]、STARD-AI[30]、TRIPOD-AI[19]等報告規范,總結了AI研究報告中常見的共性錯誤,形成了針對AI相關研究需要補充報告的條目,合計4個主題、10項條目,見表5。該清單可以作為CONSORT、SPIRIT、STARD、TRIPOD等報告規范的補充。

2.3 口腔醫學AI研究清單
Schwendicke等[40]2021年發表的口腔醫學AI研究清單,包括25項條目,其中第1~9項適用于研究計劃和執行,第10~25項適用于研究的報告,第14項“數據”有4項子條目,第17、23項各有1項子條目,具體見表6。

值得注意的,清單里面第6項提到了口腔醫學研究中特有的聚類效應(clustering),即同一個患者在相同時間點或者不同時間點,可能有多個相似的數據,例如:在同一時間點,同一個患者在相同的牙位可能同時有牙合翼片與根尖片;在不同時間點,同一個患者在相同的牙位可能重復拍攝根尖片進行復診[40]。如果這些相似的數據分散在訓練集與測試集中,那么在測試集里評估模型性能時遇到相似數據則很可能發生過擬合現象,從而高估模型性能,這種偏倚稱為“數據窺探偏倚”(data snooping bias)。避免數據窺探偏倚的方法是分組時進行整群抽樣(cluster sampling),將同一個患者的相似數據視為一個整群(cluster),要么全部進入訓練集,要么全部進入測試集。
3 AI在研究報告過程中的爭議
過去在研究報告中,研究者就已經廣泛使用傳統的AI技術作為輔助工具,例如:以微軟Word、金山WPS為代表的拼寫與語法錯誤檢查,以百度翻譯、谷歌翻譯為代表的傳統機器翻譯,以Grammarly為代表的語言潤色。以Chat GPT為代表的大語言模型問世以后,AI不再只是輔助工具,甚至可以基于用戶輸入的只言片語進行創作、輸出大量文本信息。然而,自然語言處理過程中生成的文本內容真偽難辨,無法保證其客觀真實[41]。
國際醫學期刊編輯委員會(International Committee of Medical Journal Editors,ICMJE)建議作者署名要同時符合以下4條標準:① 對研究的思路或設計有重要貢獻,或者為研究獲取、分析或解釋數據;② 起草研究論文或者對重要的知識內容進行批判性審查及修訂;③ 對將要發表的版本進行最終定稿;④ 同意對研究工作全面負責,確保與論文任何部分的準確性或誠信有關的質疑得到恰當的調查和解決[42]。
顯然,目前AI尚不能對其生成文本的真實性負責,不滿足ICMJE推薦規范[42]的作者署名第4條標準,因此以Springer Nature出版社為代表的諸多學術期刊均認為ChatGPT等AI模型不能夠作為研究報告的作者,但是AI模型對研究報告的創作貢獻應該在致謝部分予以聲明。
綜上所述,基于AI的DTA研究可選的方法學質量評價工具種類繁多,令人應接不暇;研究報告規范也各有千秋,使人眼花繚亂。本文簡要地介紹QUADAS-AI[17]、Mohammad-Rahimi改良QUADAS-2工具[18]這兩個方法學質量評價工具以及Sounderajah[31]AI研究報告清單、Schwendicke[40]口腔醫學AI研究清單這兩個報告規范,藉此拋磚引玉,其他工具或規范可查閱相關的參考文獻。讀者在進行二次研究時選擇合適的方法學質量評價工具,或者在進行原始研究時選擇合適的報告規范,應該考慮每個工具或規范的優缺點,結合自身研究的適用性以及研究者對工具或規范的掌握程度,選擇最適合自己的工具或規范。
基于人工智能(artificial intelligence,AI)和機器學習(machine learning)的診斷試驗準確性研究(diagnostic accuracy test study,DTA)是近十余年來的醫學影像學的研究熱點之一,本團隊已歸納總結其研究設計[1]、測量指標[2]等方法學特征。本文是該系列文章的第三篇,介紹基于AI的DTA研究的常用的方法學質量評價工具以及報告規范。其中,方法學質量評價工具主要用于DTA系統評價中,用于評價納入的DTA原始研究的內部真實性(偏倚風險評價)以及外部真實性(適用性評價);報告規范用于DTA原始研究的報告,是作者在書寫、提交論文時自我檢查的清單。
1 基于AI的診斷準確性研究的方法學質量評價
1.1 常用方法學質量評價工具小結
診斷準確性研究質量評價工具QUADAS(quality assessment of diagnostic accuracy studies)首次發布于2003年[3,4],并于2011年更新為QUADAS-2工具[5-7]。QUADAS-2工具成為目前單個診斷試驗準確性研究(single diagnostic test accuracy study,SDTA)最常用的方法學質量評價工具。在QUADAS-2工具的基礎上,2021年發布的QUADAS-C工具則是針對診斷試驗準確性比較研究(comparative diagnostic test accuracy study,CDTA)而改良的工具[8-10]。2019年發布的預測模型偏倚風險評價工具PROBAST(prediction model risk of bias assessment tool)[11,12]可以用于評價建立了多元預測模型的診斷試驗或預后試驗準確性研究。另外,針對預后研究的QUIPS(quality in prognosis studies)[13,14]和QUAPAS(quality assessment of prognostic accuracy studies)[15,16]也涉及預測模型,故也總結在表1中。

因此DTA研究可以使用QUADAS-2、QUADAS-C、PROBAST等工具評價方法學質量;預后研究可以使用QUIPS、QUAPAS、PROBAST等工具評價方法學質量。然而,基于AI的臨床研究與傳統臨床研究在研究設計階段就有明顯區別[1],例如:AI研究可能會對研究對象的數據集進行分組(訓練集、驗證集、測試集),研究結果的精確性受到測試集樣本量以及算法的影響。故而,基于AI的臨床研究在使用傳統的方法學質量評價工具時或多或少會面臨適用性不足的問題,其相關偏倚風險評價側重點也會有所區別。為解決這些問題,臨床流行病學家和計算機領域專家也在上述傳統方法學質量評價工具的基礎上考慮AI研究的特殊要求,努力改進相關的方法學質量評價工具。本文將簡要地介紹QUADAS-AI(quality assessment of diagnostic accuracy studies-artificial intelligence)工具[17]以及Mohammad-Rahimi改良QUADAS-2工具[18]。
1.2 QUADAS-AI工具
QUADAS-AI是在QUADAS-2[5]和QUADAS-C工具[8]的基礎上考慮AI研究特征的擴展工具,對QUADAS-2和QUADAS-C工具的病例選擇、診斷試驗、參考標準、研究流程和時機4個相關領域的偏倚風險評價進行了補充(表2)。

QUADAS-AI工具對各個領域的偏倚風險考慮相對比較全面,然而美中不足之處在于:QUADAS-AI工具目前僅是一份草案,信號問題尚未成熟,因此只能由經驗豐富的系統評價作者在結合QUADAS-2和QUADAS-C工具的基礎上使用,故而限制了其使用與推廣。此外,基于PROBAST工具[11,12]的AI研究擴展工具PROBAST-AI工具[19]目前也尚在研發之中。
1.3 改良QUADAS-2工具
在Mohammad-Rahimi等[18]發表的基于深度學習的齲病影像診斷的系統評價中,研究者針對深度學習模型研究的特征,改進了QUADAS-2工具的信號問題,讀者可以作為參考,具體見表3。

Mohammad-Rahimi等[18]對QUADAS-2工具的改良主要優勢在于:考慮了數據不平衡(信號問題1.1)以及數據單一導致的泛化性不足等問題(信號問題3.4);強調了數據的排除偏倚(信號問題1.2);考慮了效度評價時測試集數據的獨立性(信號問題1.4);此外,還考慮了研究結果的可重現性(信號問題2.3)以及診斷模型的魯棒性(信號問題2.4),強調了標注過程中可能發生的測量誤差(信號問題3.3)。
相比較于QUADAS-AI工具[17],Mohammad-Rahimi等[18]改良QUADAS-2工具的優勢在于信號問題簡單明確,但是其缺點也顯而易見:對偏倚風險的領域劃分不夠清晰(例如信號問題3.4),甚至可能將偏倚領域劃分錯誤(例如信號問題1.4更適合在“待評價的診斷試驗”領域),但好在并未影響整體偏倚風險評價;沒有考慮數據源選擇(有問題的公開數據集)、數據管理流程(數據預處理)等造成的偏倚。
2 基于AI的診斷準確性研究的報告規范
2.1 常用報告規范小結
Bossuyt等[20]2003年首次發表診斷準確性研究報告規范STARD(standards for reporting of diagnostic accuracy)[21],并于2015年進行了更新[22-24]。Collins等[25]2015年發表了個體預后或診斷多元預測模型研究報告規范TRIPOD(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis)[26]。此外,口腔醫學診斷準確性研究報告規范PRIDASE(preferred reporting items for diagnostic accuracy studies in endodontics)目前也尚在醞釀之中[27]。
雖然DTA研究可以使用上述報告規范,但是考慮到基于AI的臨床研究與傳統臨床研究在研究設計階段就有明顯區別[1],因此非常有必要在研究報告時充分考慮AI相關的研究方法及研究結果。基于這種考量,Collins等[28]2019年開始計劃在TRIPOD的基礎上開發TRIPOD-AI報告規范,并于2021年發表了計劃書[19];Sounderajah等[29]2020年也計劃在STARD 2015版基礎上開發STARD-AI報告規范,并于2021年發表了計劃書[30]。
雖然TRIPOD-AI與STARD-AI報告規范尚未正式發表,但是Sounderajah等[31]對與AI相關的所有類型的臨床研究做出了共性的總結,不僅參考了尚未發表的TRIPOD-AI與STARD-AI報告規范,而且參考了已發表的隨機對照試驗CONSORT-AI報告規范[32-34]與臨床試驗計劃書SPIRIT-AI報告規范[35-37]。Sounderajah等[31]總結的清單包含4個主題、10項條目。此外,Mongan等[38]2020年發表了醫學影像學AI研究報告規范CLAIM(checklist for artificial intelligence in medical imaging)[39],包括42項條目,適用于包括DTA研究在內的基于AI的醫學影像學研究;Schwendicke等[40]2021年發表了口腔醫學AI研究清單,包括25項條目,適用于包括DTA研究在內的基于AI的口腔醫學研究的計劃、執行以及報告。相關報告規范見表4。本文將簡要地介紹Sounderajah等[31]總結的AI研究報告清單以及Schwendicke等[40]的口腔醫學AI研究清單。

2.2 AI研究報告清單
2022年,Sounderajah等[31]參考CONSORT-AI[32]、SPIRIT-AI[35]、STARD-AI[30]、TRIPOD-AI[19]等報告規范,總結了AI研究報告中常見的共性錯誤,形成了針對AI相關研究需要補充報告的條目,合計4個主題、10項條目,見表5。該清單可以作為CONSORT、SPIRIT、STARD、TRIPOD等報告規范的補充。

2.3 口腔醫學AI研究清單
Schwendicke等[40]2021年發表的口腔醫學AI研究清單,包括25項條目,其中第1~9項適用于研究計劃和執行,第10~25項適用于研究的報告,第14項“數據”有4項子條目,第17、23項各有1項子條目,具體見表6。

值得注意的,清單里面第6項提到了口腔醫學研究中特有的聚類效應(clustering),即同一個患者在相同時間點或者不同時間點,可能有多個相似的數據,例如:在同一時間點,同一個患者在相同的牙位可能同時有牙合翼片與根尖片;在不同時間點,同一個患者在相同的牙位可能重復拍攝根尖片進行復診[40]。如果這些相似的數據分散在訓練集與測試集中,那么在測試集里評估模型性能時遇到相似數據則很可能發生過擬合現象,從而高估模型性能,這種偏倚稱為“數據窺探偏倚”(data snooping bias)。避免數據窺探偏倚的方法是分組時進行整群抽樣(cluster sampling),將同一個患者的相似數據視為一個整群(cluster),要么全部進入訓練集,要么全部進入測試集。
3 AI在研究報告過程中的爭議
過去在研究報告中,研究者就已經廣泛使用傳統的AI技術作為輔助工具,例如:以微軟Word、金山WPS為代表的拼寫與語法錯誤檢查,以百度翻譯、谷歌翻譯為代表的傳統機器翻譯,以Grammarly為代表的語言潤色。以Chat GPT為代表的大語言模型問世以后,AI不再只是輔助工具,甚至可以基于用戶輸入的只言片語進行創作、輸出大量文本信息。然而,自然語言處理過程中生成的文本內容真偽難辨,無法保證其客觀真實[41]。
國際醫學期刊編輯委員會(International Committee of Medical Journal Editors,ICMJE)建議作者署名要同時符合以下4條標準:① 對研究的思路或設計有重要貢獻,或者為研究獲取、分析或解釋數據;② 起草研究論文或者對重要的知識內容進行批判性審查及修訂;③ 對將要發表的版本進行最終定稿;④ 同意對研究工作全面負責,確保與論文任何部分的準確性或誠信有關的質疑得到恰當的調查和解決[42]。
顯然,目前AI尚不能對其生成文本的真實性負責,不滿足ICMJE推薦規范[42]的作者署名第4條標準,因此以Springer Nature出版社為代表的諸多學術期刊均認為ChatGPT等AI模型不能夠作為研究報告的作者,但是AI模型對研究報告的創作貢獻應該在致謝部分予以聲明。
綜上所述,基于AI的DTA研究可選的方法學質量評價工具種類繁多,令人應接不暇;研究報告規范也各有千秋,使人眼花繚亂。本文簡要地介紹QUADAS-AI[17]、Mohammad-Rahimi改良QUADAS-2工具[18]這兩個方法學質量評價工具以及Sounderajah[31]AI研究報告清單、Schwendicke[40]口腔醫學AI研究清單這兩個報告規范,藉此拋磚引玉,其他工具或規范可查閱相關的參考文獻。讀者在進行二次研究時選擇合適的方法學質量評價工具,或者在進行原始研究時選擇合適的報告規范,應該考慮每個工具或規范的優缺點,結合自身研究的適用性以及研究者對工具或規范的掌握程度,選擇最適合自己的工具或規范。