基于人工智能(AI)的醫學影像方法快速發展,為了促進AI醫學影像研究的報告完整性和一致性,AI醫學影像研究檢查清單(CLAIM)于2020年首次發布。然而,CLAIM在應用的過程中發現部分條目有待改進。因此,專家委員會對CLAIM進行了更新并發布了CLAIM 2024更新版。本文對CLAIM 2024進行介紹,以供國內學者及時跟進參考。
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
基于人工智能(AI)的醫學研究近年來得到長足發展,尤其是在醫學影像領域的應用格外突出[1-6]。目前已經發布了應用AI的臨床研究計劃書、隨機對照研究、決策支持系統早期臨床評估、臨床預測模型的報告規范[7-10]以及AI診斷準確性研究偏倚的評估指南[11]。用于AI診斷準確性研究的報告規范[12]和AI診斷和預測模型研究偏倚的評估指南[13]也在開發之中。
2020年,AI醫學影像研究檢查清單(CLAIM)首次發布[14],旨在促進AI醫學影像研究的報告完整性和一致性,并可用于評估已發表AI醫學影像研究的報告透明度[15-19]。CLAIM在涉及醫學影像和AI的研究領域中被廣泛采用,截至2024年5月31日,PubMed中已有325篇文獻引用了原版CLAIM。然而,在CLAIM的應用過程中也發現部分條目有待改進,如部分復雜的條目可能需要分別闡述,部分條目需要不斷更新以適應技術快速發展,以及部分項目并不完全適用于所有AI醫學影像研究等[20]。同時,現有的中譯原版CLAIM對條目的解讀存在一些誤譯和自行增刪的內容有待糾正[21],相關解讀文章2023年才在國內發表[22],限制了我國AI醫學影像研究的報告質量提升。
2024年5月29日,CLAIM更新委員會在Radiology: Artificial Intelligence雜志在線發布了更新版的CLAIM 2024[23]。本研究集結放射科醫師、方法學家、生物醫學工程專家、醫學期刊編輯及業界AI專家,對CLAIM 2024進行介紹并對比解讀,以供國內學者及時跟進參考。
1 CLAIM更新概述
1.1 更新過程
原版CLAIM由3名作者參照診斷準確性研究報告規范[24]、已有的機器學習模型評估指南[25-28]和一般文獻報告標準制訂[29,30]。此次的更新過程更為規范,已在提高生物醫學研究的質量和透明度(EQUATOR)協作網注冊。CLAIM更新委員會制定并進行了正式的德爾菲共識調查程序,以審查現有清單條目的適當性和重要性,并確定反映AI當前進展的新內容。委員會招募了79名志愿者,包括來自醫學影像相關專業的醫生、AI科學家、期刊編輯和統計學家,組成了CLAIM更新委員會;其中78名成員完成了兩輪調查。
1.2 更新要點
CLAIM 2024沿用了之前版本標題與摘要、引言、方法、結果、討論和其他信息6個部分的設置,但條目總數從42條增加到44條,條目清單及更新見表1。CLAIM 2024較原版CLAIM的更新要點如下。

1.2.1 條目報告
CLAIM 2024條目有3個可選項,即“是”“否”和“不適用”。CLAIM更新委員會認為部分條目可能不適用于所有研究,所以較前增加了“不適用”選項。報告“是”的條目,鼓勵作者在手稿中注明頁碼和行號;報告“否”或“不適用”的條目,鼓勵作者解釋原因。
1.2.2 術語“參考標準”
CLAIM 2024采用了“參考標準”(reference standard)一詞來代替“基本事實”(ground truth)。CLAIM更新委員會認為,在評估診斷測試的性能時,“參考標準”在技術評估和衛生服務研究中更為常用;而“基本事實”是統計學和機器學習的術語,指的是特定問題的正確或真實答案,通常是專家人工標注的標簽。此外,CLAIM更新委員會也不建議采用經濟學中的“金標準”(gold standard)。因此,CLAIM 2024中選擇使用“參考標準”以避免歧義,并與診斷準確性研究的報告規范保持一致[24]。
1.2.3 術語“測試”(testing)
CLAIM更新委員會認為“驗證”(validation)一詞不明確,并不鼓勵使用這一術語。機器學習的術語“驗證”可能會在醫學專業人員中引起混淆,將其解釋為測試模型的有效或真實性。因此,在使用“驗證”時需謹慎,并考慮使用“調試”(tuning)或“模型優化”(model optimization)來替代。CLAIM更新委員會鼓勵使用“內部測試”(internal testing)來描述使用特意保留的獨立于訓練集的數據的測試過程。“外部測試”(external testing)則比“外部驗證”(external validation)更適合描述使用外部數據的測試。
1.2.4 條目變化
原版CLAIM中條目11被刪除,無需再報告參考常規數據元素定義模型的輸入或輸出數據元素的內容。CLAIM 2024增加了條目13,要求提供有關圖像采集協議的詳細信息。其他部分條目較原版CLAIM也進行了調整,通過拆分和/或合并使條目更為合理。CLAIM 2024清單中對于條目內容的描述更為簡潔,在應用之前需要更仔細地理解其詳細描述。
1.2.5 應用范圍
CLAIM更新委員會達成共識,認為這一清單主要用于AI醫學影像研究,尚未擴展到成像生物標志物,如影像組學、病理組學等的研究,但可能對應用了AI方法的影像組學研究報告有一定幫助[18]。對于影像組學研究,本文建議使用其他小組制訂的專用報告清單和方法學規范[31-33]。
2 CLAIM條目解讀
以下是對CLAIM 2024條目的解讀。由于中譯原版CLAIM已結合實例對絕大多數條目進行解讀[21],本文僅就需要勘誤以及部分變化較大的條目與原版CLAIM進行對比解讀,以促進讀者正確地理解和應用更新后的CLAIM 2024工具,及時跟進AI醫學影像研究的最新進展。
2.1 標題與摘要
條目1:在文章的標題和/或摘要中明確研究中所使用的AI技術,如“視覺轉換器”或“深度學習”;并評估對AI技術的闡述是否足夠明確。
條目2:摘要應簡要介紹研究的設計、方法、結果和結論。提供研究人群的特征,如數據來源和公開數據集的使用、患者或檢查的數量、每個數據源的研究數量、成像方法、系列或序列;說明提供有關數據拆分的級別,如以患者為單位或以圖像為單位;明確為前瞻性或回顧性研究;并總結所使用的統計分析方法。應該使讀者清楚地理解研究的主要結果和意義,包括對于臨床的潛在影響。指出軟件、數據和/或模型是否可以公開獲取,如果可以公開獲取,則應提供更多相關信息。
2.2 引言
條目3:描述研究的基本原理、研究目標和預期影響。總結文獻描述目前的臨床實踐情況,并強調研究將如何改變現狀或如何在現有工作的基礎之上深入,引導讀者了解本研究背后的機理、方法的基本假設以及與先前研究之間的細微差別。
條目4:明確定義要解決的臨床或科學問題,避免對其模糊的描述。通過事先指定研究假設規避事后過度的數據挖掘。研究的假設和目標應決定了相應統計分析、樣本量計算以及該假設是否能得到數據支持。
2.3 方法
方法部分應以清晰、簡潔、完整的方式描述研究方法,使讀者能夠復現所描述的研究。如果對方法細節的描述超出了期刊的字數限制,應在方法部分總結相關內容,并在補充材料中提供更多細節。
2.3.1 研究設計
條目5:說明本研究是前瞻性的還是回顧性的,盡可能前瞻性地評估AI模型。
對比解讀:中譯原版CLAIM[21]將“盡可能前瞻性地評估AI模型”誤譯為“如為前瞻性研究需評估預測模型”。采用前瞻性設計可以更好地評估AI模型的真實效能,建議盡量在未來的研究中采用這一設計。
條目6:描述研究的設計和目標,如建立模型、探索性研究、可行性研究或非劣效性試驗。對于分類系統應說明預期用途,如風險評估、分診、診斷、篩查、分期、監測、隨訪、預測或預后評估。描述預測模型的類型、預測的結果以及模型將如何解決臨床或科學問題。
對比解讀:CLAIM 2024刪去了“說明AI相比于其他方法的優勢,如分類、替代或補充”的內容,讓本條目更為簡潔。
2.3.2 數據
條目7:說明數據來源,包括公開可用的數據集和/或合成圖像。描述建模所用數據與模型預期用途以及目標人群的一致性。如果可行,建議提供數據源和/或圖像的鏈接。鼓勵作者將用于建模或分析的數據和/或軟件存放在可公開訪問的數據庫中。
對比解讀:中譯原版CLAIM[21]將“描述建模所用數據與模型預期用途以及目標人群的一致性”誤譯為“指出數據與預測模型的擬合程度”。建模所用的數據應與模型預期用途以及目標人群一致,從而保證模型能夠在臨床環境中獲得更好的效能。
條目8:指定納入和排除標準,如地點、日期、患者來源、人口學數據(如年齡、性別、種族)、相關隨訪和先前檢查結果。定義如何、在何處以及何時確定潛在的參與者。明確患者納入時為連續、隨機或方便序列。
對比解讀:中譯原版CLAIM[21]自行增加了“報告樣本量及是否進行過樣本統計效力和樣本量的估算”內容。樣本量或統計效能計算的相關內容請參考CLAIM 2024條目4和條目21。
條目9:描述預處理步驟,以便其他研究人員可以重復研究。明確圖像均一化、圖像尺寸重采樣、色深度的改變和/或窗寬/窗位的調整。說明數據是否經過縮放、閾值限制(“二值化”)和/或圖像標準化處理。明確說明針對特定格式數據、手動輸入、數據不一致、數據缺失、數據類型錯誤、文件管理和匿名化缺失的方法。說明刪除異常值的標準。如果適用,需要說明包括軟件庫、軟件(制造商名稱和位置和版本號)以及所有選項和配置。
對比解讀:中譯原版CLAIM[21]將醫學影像學專業詞匯“窗寬/窗位的調整”誤譯為“調整窗口的設置”;同時混淆了“歸一化”(normalization)和“標準化”(standardization)的概念。
條目10:說明在預處理過程中是否選擇了原始數據集的子集,如描述研究是否選擇了圖像的子集、裁剪圖像的一部分或提取報告的一部分。如果這是一個自動化過程,需要描述所使用的工具和參數;如果是手動執行,需要描述執行人員所接受的培訓及執行過程中的操作標準。解釋這一手動方法在臨床實際或科學背景下的合理性;如果適用,需要描述圖像的縮放過程。
對比解讀:中譯原版CLAIM[21]自行刪去了“解釋這一手動方法在臨床實際或科學背景下的合理性”。作為AI模型的一部分,有必要詳細說明在圖像預處理中引入手動方法的必要性及其在臨床環境中的可行性,從而保證模型在臨床環境中可用。
條目11:說明數據去標識化的方法,以及如何刪除敏感的個人健康信息以滿足美國、歐盟或其他相關法規的要求。
對比解讀:CLAIM 2024刪去了“因為面部特征可以識別,所以應明確去除此類信息或使其無法識別的方式”的內容,讓本條目更為簡潔。
條目12:清晰描述如何處理缺失數據,如采用近似值、預測值或代理值替代。討論采用估算數據可能引入的偏倚。
條目13:描述圖像采集協議,如制造商、磁共振成像序列、超聲頻率、計算機斷層掃描所用X線最高能量、管電流、層厚、掃描范圍和掃描分辨率;包括所有相關參數,保證所述方法可以再現。
對比解讀:CLAIM 2024新增了這一條目。由于圖像采集方式的差異可能極大地影響AI模型的構建和效能,因此有必要報告相關內容。
2.3.3 參考標準
條目14:清晰詳細地描述獲得參考標準的方法,包括提供給標注者的具體標準指南,以便其他研究人員可以重復研究。避免諸如“腦白質病變程度”之類的模糊描述,應使用更精確的定義,如“病變位置(側腦室旁、皮質旁、幕下)”“三維測量的大小”和“顱腦磁共振圖像T2加權/液體衰減反轉恢復序列上測量的病變數量”。向標注者提供圖像示例,以說明輕、中、重度等主觀分級方案,并提供相關信息以供評議。
條目15:描述確定研究所采用的參考標準,而非其他標準的基本原理,包括有關該參考標準的潛在誤差、偏倚和局限。
條目16:明確標注者的數量及其資格。描述標注者接受的說明和/或培訓,可能時補充提供培訓材料。描述標注是否獨立以及解決標注差異的方法。
條目17:詳細說明標注測試集的過程,并提供足夠的細節,以便其他研究人員可以重復研究,包括為特定標注任務標準指示。明確用于手動標注的軟件及版本號。描述是否以及如何使用自然語言處理或循環神經網絡從影像報告或電子健康記錄中提取影像標簽。除了任何半自動或自動標注外,任何涉及手動標注的過程都應報告相關內容。
對比解讀:CLAIM 2024條目17較原版CLAIM對數據標注提出了更多細節要求,以期改善報告的完整性,提高研究可重復性。
條目18:描述評估標注者之間和標注者自身變異性的方法,減低變異性和/或解決標注者之間差異的方法。
2.3.4 數據拆分
條目19:明確模型訓練、模型優化(通常稱為“調參”或“驗證”)和模型測試的數據如何拆分,明確每個分組的數據比例并說明這一比例的合理性(如80/10/10)。明確拆分的數據之間是否存在系統性差異;如果存在需說明原因以及解決數據不平衡的方法。如果采用公開的數據,應使用文獻中的拆分方法以利與既往文獻比較。如果可以自由共享數據,需提供數據拆分方法,以便其他研究人員進行模型訓練和測試的比較。
對比解讀:CLAIM 2024條目19較原版CLAIM增加了有關公開數據和研究數據共享的內容,建議不同研究采用相同的數據拆分方法以利于不同研究之間的比較。
條目20:描述數據拆分成獨立分組時的級別(如依據患者拆分、依據一組圖像拆分、依據單張圖像拆分等)。醫學影像數據在拆分時通常應在患者級別或更高級別上相互獨立,以保證同一患者的圖像不會出現在多個分組中。
對比解讀:同一患者的圖像如果同時出現在訓練數據集和測試數據集中,會導致數據泄露,在AI模型性能評估時引入偏倚。
2.4.5 測試數據
條目21:描述研究樣本量以及如何確定樣本量。如果適用,應使用傳統的基于統計功效的計算方法來估計所需的樣本量。對于分類問題,在沒有可用的特定算法估計樣本量時,可以根據給定的曲線下面積和可信區間寬度估計樣本量。
對比解讀:CLAIM 2024條目21較原版CLAIM增加了針對分類問題的樣本量計算的建議,從而解決了AI醫學影像研究中的模型無法基于傳統方法計算樣本量的問題,進一步規范了此類研究。
2.3.6 模型
條目22:如果研究采用新的模型架構,應提供完整而詳細的模型結構,包括足夠詳細的輸入、輸出和所有中間層描述,以便其他研究人員可以準確地重建網絡。對于神經網絡模型,應描述包括池化層、歸一化層、正則化層和激活層的所有細節。模型輸入必須與預處理數據的形式相匹配;模型輸出必須符合所述臨床問題的要求,且應與監督學習中的參考標準標注形式相匹配。如果研究采用使用先前發布的模型架構,應引用相應的模型架構文獻,充分描述對模型架構所做的每次修改;應引用相應的專有模型的參考文獻。某些情況下,在補充材料的計算機代碼中提供模型架構可能更方便。
條目23:指定用于模型訓練和推理的所有軟件庫、模型框架和代碼包的名稱和版本號。當計算基準性能評估是研究重點時,詳細描述硬件條件可能會有所幫助。
條目24:說明模型的參數初始化方法。隨機初始化參數時,描述隨機值的分布;采用遷移學習來初始化參數時,明確初始權重的來源;結合隨機初始化和遷移學習時,明確模型的哪些部分采用哪些方法進行了初始化。
2.3.7 訓練
條目25:充分詳細地描述訓練過程和超參數,以便其他研究人員可以重復研究。為了充分記錄訓練過程,稿件應:① 描述訓練數據是如何增強的,如圖像的轉換類型和范圍;② 說明如何監測每個模型的訓練收斂情況以及停止訓練的標準;③ 指出每個超參數的數值,包括哪些超參數在模型之間發生變化,在什么范圍內以及使用什么搜索策略發生變化。對于神經網絡,超參數的描述應至少包括學習率規劃、優化算法、批訓練量大小,如果適用,還應描述丟棄率和正則化參數。討論研究采用的目標函數和選擇的理由,以及目標函數在多大程度上與臨床或科學事例所需的性能相匹配。定義最佳性能模型的選擇標準。如果模型的某些參數被凍結或限制修改(如訓練遷移學習模型時)應明確涉及哪些參數、限制這些的方法以及限制適用的訓練部分。在計算機代碼中簡潔的訓練腳本的形式描述模型細節可能更為簡潔,尤其是使用標準框架的神經網絡模型。
條目26:描述在所有訓練模型中選擇最佳性能模型的方法和指標,以便使用測試集數據進行評估。如果選擇了多個模型,應給出合適的原因。
條目27:如果最終的算法涉及模型的組合,應根據前述的條目對納入組合的每一個模型進行完整詳細的描述。說明納入組合的各個模型的輸出的加權和/或組合方式。
2.3.8 評估
條目28:描述用于評估模型性能的指標,并說明指標對于臨床或科學問題的重要性,比較稿件中的模型與以前發布的模型。
條目29:指出性能指標值的不確定性(如標準差和/或可信區間)。計算使用適當的統計顯著性測試比較性能指標;指出計算所用的統計軟件。
條目30:分析模型在各種假設或初始條件下的穩健性或敏感性。
條目31:如果適用,應描述解釋或解讀模型結果的方法,并提供這些方法的參數。描述這些解釋或解讀方法在當前研究中如何得到驗證。
對比解讀:中譯原版CLAIM[21]將“解釋或解讀”誤譯為“排除或解釋”。
條目32:記錄并描述在內部數據集中進行的模型評估結果。如果訓練集數據和內部測試集數據的標注或數據結構存在系統性差異,應解釋差異并說明為處理差異而采取的方法。記錄模型在訓練集數據和內部測試集數據中的性能是否一致。
條目33:描述用于評估模型評估的外部測試集數據。如果未進行外部測試,請指出并解釋這一局限性。如果訓練集數據和外部測試集數據之間的標注或數據結構存在系統性差異,應解釋差異并說明為處理差異而采取的方法。
對比解讀:原版CLAIM條目32被CLAIM 2024拆分為條目32和條目33,分別闡述了使用內部和外部測試數據集的模型性能評估。這一拆分只在強調使用內部和外部測試數據集評估模型性能的差異,前者注重評估模型的再現性而后者注重模型的外推性。
條目34:如果適用,應遵守國際醫學期刊編輯委員會(ICMJE)的臨床試驗注冊聲明。ICMJE建議所有醫學期刊要求在第一名患者招募時或之前在公共試驗登記處登記臨床試驗,并以此作為考慮發表的條件。在臨床試驗注冊登記中心(如ClinicalTrials.gov或世界衛生組織國際臨床試驗注冊平臺的一級注冊機構)注冊研究方案有助于避免重復或冗余的研究,并允許感興趣的方面聯系研究協調者。
2.4 結果
結果部分應充分詳細地介紹研究結果。如果對結果的描述超過了期刊的字數限制或其他要求,可以在補充材料中提供相關內容。
2.4.1 數據
條目35:根據研究的納入和排除標準,記錄納入和排除的患者、檢查或圖像的數量,包括流程圖或其他圖片,說明最初的患者群體和因任何原因被排除的患者。
條目36:說明每個分組和數據集中患者的人口學和臨床特征。指出可能與人口學和臨床特征差異相關的潛在偏倚,如性別分布、種族或民族代表性不足、疾病表型差異或治療差異。
2.4.2 模型性能
條目37:報告最終模型的性能,比較AI模型的性能與參考標準,如疾病的組織病理學結果或能采用明確方法解決分歧的醫學專家小組的討論結果。說明所有數據分組和數據集的性能指標,包括任何人口學特征亞組。
對比解讀:原版CLAIM條目34和條目35被CLAIM 2024調整為條目36和條目37,分別報告患者的人口學和臨床特征以及模型性能,避免了原版CLAIM中條目描述的重疊和混亂,讓條目更為清晰。
條目38:對于分類任務,包括診斷準確性及其不確定性的估計(如95%可信區間)使用適當的方法,如受試者工作特征曲線分析和/或校準曲線。當無法直接計算可信區間時,報告拔靴法對樣本的非參數估計。說明哪些變量可以預測應變量。確定預測模型有效性最高和最低的人群亞組。如果適用,識別數據不平衡存在(數據集內或數據集間的不均勻分布)并提供適當的指標來反映算法性能。
條目39:提供有助于理解模型錯誤結果的信息。如果分為兩個或多個類別的分類任務,應提供混淆矩陣,展示預測結果與實際結果的統計結果。考慮提供錯誤分類的示例,以幫助讀者更好地理解算法的優勢和局限性。在適當的醫學背景下,提供足夠的細節解釋不正確的結果。
2.5 討論
討論部分應提供四方面的信息,即研究結果概述、研究局限性、研究意義和未來研究方向。
條目40:確定研究的局限性,包括研究方法、材料、偏倚、統計不確定性、意外結果和可推廣性上的局限性。針對研究的局限性討論應在對結果進行簡明扼要的總結之后,結合適當的背景并解釋當前的工作如何提高了知識技術水平。
條目41:描述研究對實踐的影響,包括AI模型的預期用途和可能的臨床應用。描述研究可能對實踐產生的重要影響,包括當前臨床實踐的變化。在現有研究結果的基礎之上設想下一階段的研究,并討論可能阻礙該模型轉化到臨床實踐的問題。
2.6 其他信息
條目42:如果研究方案超出了期刊的字數限制,應向讀者提供可以訪問的完整研究方案或其他技術細節。對于臨床試驗,請參考條目34中引用的研究方案內容。對于實驗或臨床前研究,如果AI方法細節無法在稿件或補充材料中完整記錄,應提供參考文獻,以利讀者評估研究的有效性,以便其他研究人員可以重復研究。
條目43:提供研究相關的軟件、模型和/或數據的訪問方式,包括允許訪問這些資源的條件。充分詳細地描述算法和軟件,以便其他研究人員可以重復研究;應將用于建模和/或數據分析的所有計算機代碼儲存在可公開訪問的數據庫中。
對比解讀:原版CLAIM條目41被CLAIM 2024拆分為條目42和條目43,并增加了有關不同類型研究方法細節的提供方法的建議,更有利于完整報告AI醫學影像研究。
條目44:說明資金和其他支持的來源以及資助者在研究過程中的確切作用。說明作者在研究的每個階段是否具有獨立性。
3 討論
隨著AI在醫學影像研究中的應用不斷深入,AI醫學影像研究的文獻不斷增加。然而,目前醫學期刊對于AI相關報告清單的接受度堪憂,醫學影像領域的科學引文索引擴展版(SCIE)期刊絕大多數尚未要求投稿的論文提供AI相關報告清單[34,35]。建議期刊及時將AI相關報告清單引入作者須知、評審指南和編輯過程中,從源頭上規范AI醫學影像研究的報告[22,34,35]。
CLAIM 2024的更新基于對專家小組的德爾菲共識調查程序,有效跟進了AI醫學影像領域的技術進展,澄清了部分術語的定義和應用,并明確了CLAIM 2024的應用范圍。同時,該更新也解決了部分文獻內容報告可能無法完全符合CLAIM每項條目的問題,允許報告條目評價使用“不適用”的選項。這一更新為AI醫學影像研究提供了最新的“最佳實踐”清單,有望能提高這一領域研究的透明度和一致性,建議相關人員在報告、評審和編輯AI醫學影像研究的過程中及時跟進使用。
聲明 所有作者聲明本文不存在任何利益沖突。
致謝 感謝上海市同仁醫院影像科TRILOGY小組成員在本研究實施過程中的協助。
基于人工智能(AI)的醫學研究近年來得到長足發展,尤其是在醫學影像領域的應用格外突出[1-6]。目前已經發布了應用AI的臨床研究計劃書、隨機對照研究、決策支持系統早期臨床評估、臨床預測模型的報告規范[7-10]以及AI診斷準確性研究偏倚的評估指南[11]。用于AI診斷準確性研究的報告規范[12]和AI診斷和預測模型研究偏倚的評估指南[13]也在開發之中。
2020年,AI醫學影像研究檢查清單(CLAIM)首次發布[14],旨在促進AI醫學影像研究的報告完整性和一致性,并可用于評估已發表AI醫學影像研究的報告透明度[15-19]。CLAIM在涉及醫學影像和AI的研究領域中被廣泛采用,截至2024年5月31日,PubMed中已有325篇文獻引用了原版CLAIM。然而,在CLAIM的應用過程中也發現部分條目有待改進,如部分復雜的條目可能需要分別闡述,部分條目需要不斷更新以適應技術快速發展,以及部分項目并不完全適用于所有AI醫學影像研究等[20]。同時,現有的中譯原版CLAIM對條目的解讀存在一些誤譯和自行增刪的內容有待糾正[21],相關解讀文章2023年才在國內發表[22],限制了我國AI醫學影像研究的報告質量提升。
2024年5月29日,CLAIM更新委員會在Radiology: Artificial Intelligence雜志在線發布了更新版的CLAIM 2024[23]。本研究集結放射科醫師、方法學家、生物醫學工程專家、醫學期刊編輯及業界AI專家,對CLAIM 2024進行介紹并對比解讀,以供國內學者及時跟進參考。
1 CLAIM更新概述
1.1 更新過程
原版CLAIM由3名作者參照診斷準確性研究報告規范[24]、已有的機器學習模型評估指南[25-28]和一般文獻報告標準制訂[29,30]。此次的更新過程更為規范,已在提高生物醫學研究的質量和透明度(EQUATOR)協作網注冊。CLAIM更新委員會制定并進行了正式的德爾菲共識調查程序,以審查現有清單條目的適當性和重要性,并確定反映AI當前進展的新內容。委員會招募了79名志愿者,包括來自醫學影像相關專業的醫生、AI科學家、期刊編輯和統計學家,組成了CLAIM更新委員會;其中78名成員完成了兩輪調查。
1.2 更新要點
CLAIM 2024沿用了之前版本標題與摘要、引言、方法、結果、討論和其他信息6個部分的設置,但條目總數從42條增加到44條,條目清單及更新見表1。CLAIM 2024較原版CLAIM的更新要點如下。

1.2.1 條目報告
CLAIM 2024條目有3個可選項,即“是”“否”和“不適用”。CLAIM更新委員會認為部分條目可能不適用于所有研究,所以較前增加了“不適用”選項。報告“是”的條目,鼓勵作者在手稿中注明頁碼和行號;報告“否”或“不適用”的條目,鼓勵作者解釋原因。
1.2.2 術語“參考標準”
CLAIM 2024采用了“參考標準”(reference standard)一詞來代替“基本事實”(ground truth)。CLAIM更新委員會認為,在評估診斷測試的性能時,“參考標準”在技術評估和衛生服務研究中更為常用;而“基本事實”是統計學和機器學習的術語,指的是特定問題的正確或真實答案,通常是專家人工標注的標簽。此外,CLAIM更新委員會也不建議采用經濟學中的“金標準”(gold standard)。因此,CLAIM 2024中選擇使用“參考標準”以避免歧義,并與診斷準確性研究的報告規范保持一致[24]。
1.2.3 術語“測試”(testing)
CLAIM更新委員會認為“驗證”(validation)一詞不明確,并不鼓勵使用這一術語。機器學習的術語“驗證”可能會在醫學專業人員中引起混淆,將其解釋為測試模型的有效或真實性。因此,在使用“驗證”時需謹慎,并考慮使用“調試”(tuning)或“模型優化”(model optimization)來替代。CLAIM更新委員會鼓勵使用“內部測試”(internal testing)來描述使用特意保留的獨立于訓練集的數據的測試過程。“外部測試”(external testing)則比“外部驗證”(external validation)更適合描述使用外部數據的測試。
1.2.4 條目變化
原版CLAIM中條目11被刪除,無需再報告參考常規數據元素定義模型的輸入或輸出數據元素的內容。CLAIM 2024增加了條目13,要求提供有關圖像采集協議的詳細信息。其他部分條目較原版CLAIM也進行了調整,通過拆分和/或合并使條目更為合理。CLAIM 2024清單中對于條目內容的描述更為簡潔,在應用之前需要更仔細地理解其詳細描述。
1.2.5 應用范圍
CLAIM更新委員會達成共識,認為這一清單主要用于AI醫學影像研究,尚未擴展到成像生物標志物,如影像組學、病理組學等的研究,但可能對應用了AI方法的影像組學研究報告有一定幫助[18]。對于影像組學研究,本文建議使用其他小組制訂的專用報告清單和方法學規范[31-33]。
2 CLAIM條目解讀
以下是對CLAIM 2024條目的解讀。由于中譯原版CLAIM已結合實例對絕大多數條目進行解讀[21],本文僅就需要勘誤以及部分變化較大的條目與原版CLAIM進行對比解讀,以促進讀者正確地理解和應用更新后的CLAIM 2024工具,及時跟進AI醫學影像研究的最新進展。
2.1 標題與摘要
條目1:在文章的標題和/或摘要中明確研究中所使用的AI技術,如“視覺轉換器”或“深度學習”;并評估對AI技術的闡述是否足夠明確。
條目2:摘要應簡要介紹研究的設計、方法、結果和結論。提供研究人群的特征,如數據來源和公開數據集的使用、患者或檢查的數量、每個數據源的研究數量、成像方法、系列或序列;說明提供有關數據拆分的級別,如以患者為單位或以圖像為單位;明確為前瞻性或回顧性研究;并總結所使用的統計分析方法。應該使讀者清楚地理解研究的主要結果和意義,包括對于臨床的潛在影響。指出軟件、數據和/或模型是否可以公開獲取,如果可以公開獲取,則應提供更多相關信息。
2.2 引言
條目3:描述研究的基本原理、研究目標和預期影響。總結文獻描述目前的臨床實踐情況,并強調研究將如何改變現狀或如何在現有工作的基礎之上深入,引導讀者了解本研究背后的機理、方法的基本假設以及與先前研究之間的細微差別。
條目4:明確定義要解決的臨床或科學問題,避免對其模糊的描述。通過事先指定研究假設規避事后過度的數據挖掘。研究的假設和目標應決定了相應統計分析、樣本量計算以及該假設是否能得到數據支持。
2.3 方法
方法部分應以清晰、簡潔、完整的方式描述研究方法,使讀者能夠復現所描述的研究。如果對方法細節的描述超出了期刊的字數限制,應在方法部分總結相關內容,并在補充材料中提供更多細節。
2.3.1 研究設計
條目5:說明本研究是前瞻性的還是回顧性的,盡可能前瞻性地評估AI模型。
對比解讀:中譯原版CLAIM[21]將“盡可能前瞻性地評估AI模型”誤譯為“如為前瞻性研究需評估預測模型”。采用前瞻性設計可以更好地評估AI模型的真實效能,建議盡量在未來的研究中采用這一設計。
條目6:描述研究的設計和目標,如建立模型、探索性研究、可行性研究或非劣效性試驗。對于分類系統應說明預期用途,如風險評估、分診、診斷、篩查、分期、監測、隨訪、預測或預后評估。描述預測模型的類型、預測的結果以及模型將如何解決臨床或科學問題。
對比解讀:CLAIM 2024刪去了“說明AI相比于其他方法的優勢,如分類、替代或補充”的內容,讓本條目更為簡潔。
2.3.2 數據
條目7:說明數據來源,包括公開可用的數據集和/或合成圖像。描述建模所用數據與模型預期用途以及目標人群的一致性。如果可行,建議提供數據源和/或圖像的鏈接。鼓勵作者將用于建模或分析的數據和/或軟件存放在可公開訪問的數據庫中。
對比解讀:中譯原版CLAIM[21]將“描述建模所用數據與模型預期用途以及目標人群的一致性”誤譯為“指出數據與預測模型的擬合程度”。建模所用的數據應與模型預期用途以及目標人群一致,從而保證模型能夠在臨床環境中獲得更好的效能。
條目8:指定納入和排除標準,如地點、日期、患者來源、人口學數據(如年齡、性別、種族)、相關隨訪和先前檢查結果。定義如何、在何處以及何時確定潛在的參與者。明確患者納入時為連續、隨機或方便序列。
對比解讀:中譯原版CLAIM[21]自行增加了“報告樣本量及是否進行過樣本統計效力和樣本量的估算”內容。樣本量或統計效能計算的相關內容請參考CLAIM 2024條目4和條目21。
條目9:描述預處理步驟,以便其他研究人員可以重復研究。明確圖像均一化、圖像尺寸重采樣、色深度的改變和/或窗寬/窗位的調整。說明數據是否經過縮放、閾值限制(“二值化”)和/或圖像標準化處理。明確說明針對特定格式數據、手動輸入、數據不一致、數據缺失、數據類型錯誤、文件管理和匿名化缺失的方法。說明刪除異常值的標準。如果適用,需要說明包括軟件庫、軟件(制造商名稱和位置和版本號)以及所有選項和配置。
對比解讀:中譯原版CLAIM[21]將醫學影像學專業詞匯“窗寬/窗位的調整”誤譯為“調整窗口的設置”;同時混淆了“歸一化”(normalization)和“標準化”(standardization)的概念。
條目10:說明在預處理過程中是否選擇了原始數據集的子集,如描述研究是否選擇了圖像的子集、裁剪圖像的一部分或提取報告的一部分。如果這是一個自動化過程,需要描述所使用的工具和參數;如果是手動執行,需要描述執行人員所接受的培訓及執行過程中的操作標準。解釋這一手動方法在臨床實際或科學背景下的合理性;如果適用,需要描述圖像的縮放過程。
對比解讀:中譯原版CLAIM[21]自行刪去了“解釋這一手動方法在臨床實際或科學背景下的合理性”。作為AI模型的一部分,有必要詳細說明在圖像預處理中引入手動方法的必要性及其在臨床環境中的可行性,從而保證模型在臨床環境中可用。
條目11:說明數據去標識化的方法,以及如何刪除敏感的個人健康信息以滿足美國、歐盟或其他相關法規的要求。
對比解讀:CLAIM 2024刪去了“因為面部特征可以識別,所以應明確去除此類信息或使其無法識別的方式”的內容,讓本條目更為簡潔。
條目12:清晰描述如何處理缺失數據,如采用近似值、預測值或代理值替代。討論采用估算數據可能引入的偏倚。
條目13:描述圖像采集協議,如制造商、磁共振成像序列、超聲頻率、計算機斷層掃描所用X線最高能量、管電流、層厚、掃描范圍和掃描分辨率;包括所有相關參數,保證所述方法可以再現。
對比解讀:CLAIM 2024新增了這一條目。由于圖像采集方式的差異可能極大地影響AI模型的構建和效能,因此有必要報告相關內容。
2.3.3 參考標準
條目14:清晰詳細地描述獲得參考標準的方法,包括提供給標注者的具體標準指南,以便其他研究人員可以重復研究。避免諸如“腦白質病變程度”之類的模糊描述,應使用更精確的定義,如“病變位置(側腦室旁、皮質旁、幕下)”“三維測量的大小”和“顱腦磁共振圖像T2加權/液體衰減反轉恢復序列上測量的病變數量”。向標注者提供圖像示例,以說明輕、中、重度等主觀分級方案,并提供相關信息以供評議。
條目15:描述確定研究所采用的參考標準,而非其他標準的基本原理,包括有關該參考標準的潛在誤差、偏倚和局限。
條目16:明確標注者的數量及其資格。描述標注者接受的說明和/或培訓,可能時補充提供培訓材料。描述標注是否獨立以及解決標注差異的方法。
條目17:詳細說明標注測試集的過程,并提供足夠的細節,以便其他研究人員可以重復研究,包括為特定標注任務標準指示。明確用于手動標注的軟件及版本號。描述是否以及如何使用自然語言處理或循環神經網絡從影像報告或電子健康記錄中提取影像標簽。除了任何半自動或自動標注外,任何涉及手動標注的過程都應報告相關內容。
對比解讀:CLAIM 2024條目17較原版CLAIM對數據標注提出了更多細節要求,以期改善報告的完整性,提高研究可重復性。
條目18:描述評估標注者之間和標注者自身變異性的方法,減低變異性和/或解決標注者之間差異的方法。
2.3.4 數據拆分
條目19:明確模型訓練、模型優化(通常稱為“調參”或“驗證”)和模型測試的數據如何拆分,明確每個分組的數據比例并說明這一比例的合理性(如80/10/10)。明確拆分的數據之間是否存在系統性差異;如果存在需說明原因以及解決數據不平衡的方法。如果采用公開的數據,應使用文獻中的拆分方法以利與既往文獻比較。如果可以自由共享數據,需提供數據拆分方法,以便其他研究人員進行模型訓練和測試的比較。
對比解讀:CLAIM 2024條目19較原版CLAIM增加了有關公開數據和研究數據共享的內容,建議不同研究采用相同的數據拆分方法以利于不同研究之間的比較。
條目20:描述數據拆分成獨立分組時的級別(如依據患者拆分、依據一組圖像拆分、依據單張圖像拆分等)。醫學影像數據在拆分時通常應在患者級別或更高級別上相互獨立,以保證同一患者的圖像不會出現在多個分組中。
對比解讀:同一患者的圖像如果同時出現在訓練數據集和測試數據集中,會導致數據泄露,在AI模型性能評估時引入偏倚。
2.4.5 測試數據
條目21:描述研究樣本量以及如何確定樣本量。如果適用,應使用傳統的基于統計功效的計算方法來估計所需的樣本量。對于分類問題,在沒有可用的特定算法估計樣本量時,可以根據給定的曲線下面積和可信區間寬度估計樣本量。
對比解讀:CLAIM 2024條目21較原版CLAIM增加了針對分類問題的樣本量計算的建議,從而解決了AI醫學影像研究中的模型無法基于傳統方法計算樣本量的問題,進一步規范了此類研究。
2.3.6 模型
條目22:如果研究采用新的模型架構,應提供完整而詳細的模型結構,包括足夠詳細的輸入、輸出和所有中間層描述,以便其他研究人員可以準確地重建網絡。對于神經網絡模型,應描述包括池化層、歸一化層、正則化層和激活層的所有細節。模型輸入必須與預處理數據的形式相匹配;模型輸出必須符合所述臨床問題的要求,且應與監督學習中的參考標準標注形式相匹配。如果研究采用使用先前發布的模型架構,應引用相應的模型架構文獻,充分描述對模型架構所做的每次修改;應引用相應的專有模型的參考文獻。某些情況下,在補充材料的計算機代碼中提供模型架構可能更方便。
條目23:指定用于模型訓練和推理的所有軟件庫、模型框架和代碼包的名稱和版本號。當計算基準性能評估是研究重點時,詳細描述硬件條件可能會有所幫助。
條目24:說明模型的參數初始化方法。隨機初始化參數時,描述隨機值的分布;采用遷移學習來初始化參數時,明確初始權重的來源;結合隨機初始化和遷移學習時,明確模型的哪些部分采用哪些方法進行了初始化。
2.3.7 訓練
條目25:充分詳細地描述訓練過程和超參數,以便其他研究人員可以重復研究。為了充分記錄訓練過程,稿件應:① 描述訓練數據是如何增強的,如圖像的轉換類型和范圍;② 說明如何監測每個模型的訓練收斂情況以及停止訓練的標準;③ 指出每個超參數的數值,包括哪些超參數在模型之間發生變化,在什么范圍內以及使用什么搜索策略發生變化。對于神經網絡,超參數的描述應至少包括學習率規劃、優化算法、批訓練量大小,如果適用,還應描述丟棄率和正則化參數。討論研究采用的目標函數和選擇的理由,以及目標函數在多大程度上與臨床或科學事例所需的性能相匹配。定義最佳性能模型的選擇標準。如果模型的某些參數被凍結或限制修改(如訓練遷移學習模型時)應明確涉及哪些參數、限制這些的方法以及限制適用的訓練部分。在計算機代碼中簡潔的訓練腳本的形式描述模型細節可能更為簡潔,尤其是使用標準框架的神經網絡模型。
條目26:描述在所有訓練模型中選擇最佳性能模型的方法和指標,以便使用測試集數據進行評估。如果選擇了多個模型,應給出合適的原因。
條目27:如果最終的算法涉及模型的組合,應根據前述的條目對納入組合的每一個模型進行完整詳細的描述。說明納入組合的各個模型的輸出的加權和/或組合方式。
2.3.8 評估
條目28:描述用于評估模型性能的指標,并說明指標對于臨床或科學問題的重要性,比較稿件中的模型與以前發布的模型。
條目29:指出性能指標值的不確定性(如標準差和/或可信區間)。計算使用適當的統計顯著性測試比較性能指標;指出計算所用的統計軟件。
條目30:分析模型在各種假設或初始條件下的穩健性或敏感性。
條目31:如果適用,應描述解釋或解讀模型結果的方法,并提供這些方法的參數。描述這些解釋或解讀方法在當前研究中如何得到驗證。
對比解讀:中譯原版CLAIM[21]將“解釋或解讀”誤譯為“排除或解釋”。
條目32:記錄并描述在內部數據集中進行的模型評估結果。如果訓練集數據和內部測試集數據的標注或數據結構存在系統性差異,應解釋差異并說明為處理差異而采取的方法。記錄模型在訓練集數據和內部測試集數據中的性能是否一致。
條目33:描述用于評估模型評估的外部測試集數據。如果未進行外部測試,請指出并解釋這一局限性。如果訓練集數據和外部測試集數據之間的標注或數據結構存在系統性差異,應解釋差異并說明為處理差異而采取的方法。
對比解讀:原版CLAIM條目32被CLAIM 2024拆分為條目32和條目33,分別闡述了使用內部和外部測試數據集的模型性能評估。這一拆分只在強調使用內部和外部測試數據集評估模型性能的差異,前者注重評估模型的再現性而后者注重模型的外推性。
條目34:如果適用,應遵守國際醫學期刊編輯委員會(ICMJE)的臨床試驗注冊聲明。ICMJE建議所有醫學期刊要求在第一名患者招募時或之前在公共試驗登記處登記臨床試驗,并以此作為考慮發表的條件。在臨床試驗注冊登記中心(如ClinicalTrials.gov或世界衛生組織國際臨床試驗注冊平臺的一級注冊機構)注冊研究方案有助于避免重復或冗余的研究,并允許感興趣的方面聯系研究協調者。
2.4 結果
結果部分應充分詳細地介紹研究結果。如果對結果的描述超過了期刊的字數限制或其他要求,可以在補充材料中提供相關內容。
2.4.1 數據
條目35:根據研究的納入和排除標準,記錄納入和排除的患者、檢查或圖像的數量,包括流程圖或其他圖片,說明最初的患者群體和因任何原因被排除的患者。
條目36:說明每個分組和數據集中患者的人口學和臨床特征。指出可能與人口學和臨床特征差異相關的潛在偏倚,如性別分布、種族或民族代表性不足、疾病表型差異或治療差異。
2.4.2 模型性能
條目37:報告最終模型的性能,比較AI模型的性能與參考標準,如疾病的組織病理學結果或能采用明確方法解決分歧的醫學專家小組的討論結果。說明所有數據分組和數據集的性能指標,包括任何人口學特征亞組。
對比解讀:原版CLAIM條目34和條目35被CLAIM 2024調整為條目36和條目37,分別報告患者的人口學和臨床特征以及模型性能,避免了原版CLAIM中條目描述的重疊和混亂,讓條目更為清晰。
條目38:對于分類任務,包括診斷準確性及其不確定性的估計(如95%可信區間)使用適當的方法,如受試者工作特征曲線分析和/或校準曲線。當無法直接計算可信區間時,報告拔靴法對樣本的非參數估計。說明哪些變量可以預測應變量。確定預測模型有效性最高和最低的人群亞組。如果適用,識別數據不平衡存在(數據集內或數據集間的不均勻分布)并提供適當的指標來反映算法性能。
條目39:提供有助于理解模型錯誤結果的信息。如果分為兩個或多個類別的分類任務,應提供混淆矩陣,展示預測結果與實際結果的統計結果。考慮提供錯誤分類的示例,以幫助讀者更好地理解算法的優勢和局限性。在適當的醫學背景下,提供足夠的細節解釋不正確的結果。
2.5 討論
討論部分應提供四方面的信息,即研究結果概述、研究局限性、研究意義和未來研究方向。
條目40:確定研究的局限性,包括研究方法、材料、偏倚、統計不確定性、意外結果和可推廣性上的局限性。針對研究的局限性討論應在對結果進行簡明扼要的總結之后,結合適當的背景并解釋當前的工作如何提高了知識技術水平。
條目41:描述研究對實踐的影響,包括AI模型的預期用途和可能的臨床應用。描述研究可能對實踐產生的重要影響,包括當前臨床實踐的變化。在現有研究結果的基礎之上設想下一階段的研究,并討論可能阻礙該模型轉化到臨床實踐的問題。
2.6 其他信息
條目42:如果研究方案超出了期刊的字數限制,應向讀者提供可以訪問的完整研究方案或其他技術細節。對于臨床試驗,請參考條目34中引用的研究方案內容。對于實驗或臨床前研究,如果AI方法細節無法在稿件或補充材料中完整記錄,應提供參考文獻,以利讀者評估研究的有效性,以便其他研究人員可以重復研究。
條目43:提供研究相關的軟件、模型和/或數據的訪問方式,包括允許訪問這些資源的條件。充分詳細地描述算法和軟件,以便其他研究人員可以重復研究;應將用于建模和/或數據分析的所有計算機代碼儲存在可公開訪問的數據庫中。
對比解讀:原版CLAIM條目41被CLAIM 2024拆分為條目42和條目43,并增加了有關不同類型研究方法細節的提供方法的建議,更有利于完整報告AI醫學影像研究。
條目44:說明資金和其他支持的來源以及資助者在研究過程中的確切作用。說明作者在研究的每個階段是否具有獨立性。
3 討論
隨著AI在醫學影像研究中的應用不斷深入,AI醫學影像研究的文獻不斷增加。然而,目前醫學期刊對于AI相關報告清單的接受度堪憂,醫學影像領域的科學引文索引擴展版(SCIE)期刊絕大多數尚未要求投稿的論文提供AI相關報告清單[34,35]。建議期刊及時將AI相關報告清單引入作者須知、評審指南和編輯過程中,從源頭上規范AI醫學影像研究的報告[22,34,35]。
CLAIM 2024的更新基于對專家小組的德爾菲共識調查程序,有效跟進了AI醫學影像領域的技術進展,澄清了部分術語的定義和應用,并明確了CLAIM 2024的應用范圍。同時,該更新也解決了部分文獻內容報告可能無法完全符合CLAIM每項條目的問題,允許報告條目評價使用“不適用”的選項。這一更新為AI醫學影像研究提供了最新的“最佳實踐”清單,有望能提高這一領域研究的透明度和一致性,建議相關人員在報告、評審和編輯AI醫學影像研究的過程中及時跟進使用。
聲明 所有作者聲明本文不存在任何利益沖突。
致謝 感謝上海市同仁醫院影像科TRILOGY小組成員在本研究實施過程中的協助。