近年來,隨著機器學習方法逐漸應用于開發和評估臨床預測模型當中,已有的TRIPOD 2015報告規范清單表現出明顯的局限性。因此,2024年TRIPOD 2015進行了更新,發表了基于人工智能的TRIPOD報告規范,即TRIPOD+AI,旨在促進全面、準確和透明地開發或評估預測模型研究的報告。本文對TRIPOD+AI的重點內容與條目進行解讀,以期為臨床研究者提供幫助。
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
臨床預測模型,有“診斷模型”“預后模型”“風險評分”“預測準則”等諸多術語表述[1],是對多種因素(多元變量)分配不同權重以預測特定疾病風險或特定結局事件概率的一種統計模型[2, 3],對于臨床實踐具有重要的指導意義。近年來在醫學領域上的預測模型研究數量如雨后春筍般激增,但其研究報告質量有待改善。Mallett等[4]評估了發表于2005年的47篇預測模型報告,發現報告質量普遍較差,報告中變量及統計方法的缺陷等影響了預測模型的真實性和可靠性。為了提高預測模型研究的報告質量,Collins團隊于2015年發表了TRIPOD報告規范[5-7]。隨后,Collins團隊還針對預測模型研究的摘要制訂了TRIPOD for Abstracts報告規范[8],針對多源數據集的預測模型多中心研究制訂了TRIPOD-Cluster報告規范[9-12],針對系統評價制訂了TRIPOD-SRMA報告規范[13-15],豐富完善了臨床預測模型的各類研究的報告規范。
隨著機器學習等人工智能(AI)算法的普及,既往的TRIPOD報告規范因為重點關注于回歸模型,并不能夠完美地適用于所有臨床預測模型研究報告,因此客觀上需要一種可以涵蓋機器學習等多種AI算法研究的報告規范。基于此背景,Collins團隊2024年在BMJ上發表了可以同時針對回歸模型或機器學習等AI算法的臨床預測模型研究的報告規范(TRIPOD+AI)[16]。TRIPOD+AI是對TRIPOD 2015的更新,對使用回歸模型或者機器學習等AI算法的臨床預測模型均有指導意義。本文對TRIPOD+AI報告規范的重點內容與條目進行解讀,以期為臨床實踐相關人員提供借鑒和幫助。
1 TRIPOD+AI清單制訂過程
TRIPOD+AI清單的制訂過程經歷了以下幾個階段。第一階段,發表制訂TRIPOD+AI的申明[17],并由Gary S Collins和Karel G M Moons召集了8位具有廣泛的專業知識和經驗的指導小組以監督指導TRIPOD+AI的制訂過程。第二階段,申請通過倫理批準并獲得德爾菲調查參與者及共識會議參與者的知情同意。第三階段,由Gary S Collins和Karel G M Moons借鑒TRIPOD 2015起草了一份初步條目清單。隨后通過檢索收集其他相關文獻,并經過指導小組協商,形成了65個候選條目清單。第四階段,德爾菲調查。通過兩輪德爾菲調查以確定進入下一階段的具體條目。第一輪德爾菲調查于2021年4月19日至2021年5月13日期間進行,邀請了292名具有地域和學科多樣性的參與者進行調查,其中170名參與者完成調查;第二輪德爾菲調查于2021年12月16日至2022年1月17日期間進行,共邀請395名參與者進行調查,其中200名參與者完成調查。兩輪德爾菲調查最終確定了59個候選條目進入下一階段。第五階段,患者和公眾參與和參與會議。2022年4月8日,指導小組與英國健康數據研究負責患者和公眾參與和參與小組(PPIE)的九名成員舉行了一次在線會議,根據會議上收到的反饋以及會后撰寫的信函,對清單草案進行了修訂,提高了清單的清晰度。第六階段,共識會議。2022年7月5日,28名利益相關者參與了由Gary S Collins和Karel G M Moons主持的在線共識會議。會議對59個候選條目中的17個條目,包括1個在第2輪德爾菲調查中未達成共識的條目和16個在第2輪德爾菲調查后經過重新措辭的條目或TRIPOD 2015中未納入的新條目進行重點討論并投票,確定了最終的TRIPOD+AI清單。
2 TRIPOD+AI清單解讀
TRIPOD+AI報告規范包含TRIPOD+AI清單(附件表1)和TRIPOD+AI摘要清單(附件表2),TRIPOD+AI清單(附件表1)包括27個主要條目,其對應的內容分別為標題(條目1)、摘要(條目2)、前言(條目3~4)、研究方法(條目5~17)、開放科學(條目18)、患者和公眾參與(條目19)、結果(條目20~24)和討論(條目25~27),部分主要條目包含多個子條目。這些條目對于使用回歸或機器學習方法開發或評估(驗證)預測模型的研究進行良好的報告至關重要[16]。
2.1 標題
標題應明確研究內容為開發臨床預測模型或評估模型性能,明確目標人群以及預測的結局指標,從而提高文獻檢索時的敏感度與精確度,以幫助讀者或系統評價工作者更加精確、高效地檢索文獻。
2.2 摘要
詳見TRIPOD+AI摘要清單(附件表2),包括標題、背景、目的、方法、結果、討論、注冊,合計13個項目。
2.3 前言
2.3.1 背景
在背景部分應解釋模型的醫學背景,無論是對于新模型還是現有模型的研究,都應充分說明研究此預測模型的理由,并提供對于現有模型的引用和參考。通過描述預測模型的目標人群和預期目的,使用者能夠明確該模型的應用環境,提高模型的臨床效用。除此之外,還應描述不同社會人口群體之間是否存在已知的健康不平等問題。用于開發和評估預測模型的數據應該包括多性別,多種族,多年齡段,多健康狀況以及不同地區的人群,以使預測模型能充分適合于各個不同的社會人口群體,達到普遍的預測效果。
2.3.2 目的
應在報告中詳細描述其研究目的,明確研究是開發還是評估預測模型或兩者兼有。
2.4 研究方法
2.4.1 數據
應分別描述開發和評估數據集的數據來源,并詳細描述收集研究對象數據的日期,包括研究對象開始招募和結束招募的時間以及隨訪的結束時間。這是由于診斷預測研究本質上是探討診斷預測因素(患者特征和測試指標結果)與診斷結局(金標準)之間的橫斷面關系[6]。這要求診斷預測時間與診斷結局的時間是相同或相近的,報告收集研究對象數據的時間有利于判斷其是否由于時間因素而干擾了診斷的預測準確性。
2.4.2 研究對象
應詳細說明研究機構的關鍵信息,包括研究中心的數量和位置,詳細描述研究對象的納入排除標準。這是因為即使模型在開發該模型的人群中表現良好,但當應用于不同的環境或人群時,其表現可能會較弱[18],報告各研究機構的關鍵信息以及研究對象的納入排除標準,有利于讀者判斷此項預測模型的適用范圍及適用人群,判斷是否符合自己的需要,也有助于研究者開展驗證模型的研究。
2.4.3 數據準備
應描述數據預處理和數據質量檢查過程,包括這些過程在不同社會人口群體之間是否相似,這使得數據的處理過程更加公開透明,減少了數據處理過程中可能產生的偏倚。
2.4.4 結局指標和預測因素
結局指標和預測因素必須要有明確的定義以及確切的時間范圍,在確保結局指標合適的情況下也要保證結局指標評估方法的一致性,以減少偏倚的產生。對于需要主觀解釋的結局指標和預測因素,應描述評審員的資歷和人口特征,從而確保其主觀解釋的科學性、準確性、公平性及客觀性。對于預測結局指標的評估和預測因素指標的評價,都應確保盲法的順利實施,若出現數據泄露,會破壞訓練數據集和測試數據集之間的分離[19],人為的夸大預測因素和結局指標之間的關聯,掩蓋模型性能的缺陷,從而破壞預測模型的有效性。
2.4.5 分析方法
應詳細描述如何使用數據(例如:用于開發或者評估模型性能),包括如何對數據進行劃分,是否考慮樣本量要求以及確保在數據劃分過程中沒有數據的泄露;描述在分析中對預測因素的處理方法;詳細描述模型的類型、基本原理及模型的構建步驟;描述如何處理和量化模型參數及模型性能的估計值在不同群組(例如:醫院、國家)之間的異質性;詳細描述用于評估模型性能的所有測量指標和圖,及其原理,并且如果可能,還需比較多個模型;無論是針對總體還是針對特定社會人口統計群體或場所,都應描述基于模型評估過程產生的模型更新;對于模型評估,應描述如何計算模型預測值。
2.4.6 類別不平衡
類別不平衡既可以影響模型訓練階段的收斂,也可以影響模型在測試集上的泛化[20],它是機器學習應用中的一個常見的問題。因此如果類別不平衡,應在報告中說明為什么以及是怎樣處理的,并判斷其對于樣本量是否有影響。要說明后續重新校準模型或模型預測值的方法,以幫助讀者判斷該模型是否仍存在類別不平衡所造成的影響。
2.4.7 公平性
TRIPOD+AI相較TRIPOD 2015強調了公平性的問題。預測模型研究中存在的不公平因素會造成模型在一種人群中表現良好,但在另一種人群中則表現不佳[21],從而影響預測模型的準確性,導致其局限性的產生。隨著人工智能和機器學習方法被用于開發輔助決策的模型,預測模型研究中的公平性問題日益突出[16],因此應詳細描述用于解決模型公平性問題的方法及其原理,消除模型研究中的不公平因素。在開發預測模型和評估模型性能時,確保數據包含代表性群體(目標人群)非常重要。如果預測模型是使用代表性不足的群體的數據或者某些特定群體未被包括在內的數據來開發的,那么就需要在這些群體中使用具有代表性的數據進行評估,從而提高模型對超出開發和評估數據中個體或群體的泛化性。
2.4.8 模型輸出
應詳細描述預測模型的輸出,明確模型輸出的是概率還是分類(例如:低風險或者高風險),并根據醫學背景說明分類的理由及其閾值,以及其對臨床決策可能提供的幫助。
2.4.9 訓練集vs.測試集
在一個環境、中心或國家開發的預測模型不一定適用于另一個環境、中心或國家。不同來源數據的納入與排除標準、結局指標和預測因素的定義可能有所差異。描述用于開發預測模型的數據集和評估預測模型的數據集之間的差異有助于理解和解釋模型在原始模型開發數據背景下的性能和泛化性。
2.5 開放科學
在此部分中,TRIPOD+AI涵蓋了資金聲明、利益沖突、研究方案、研究注冊、數據共享和代碼共享等問題。開放科學旨在提高學術成果的可訪問性、透明度、可靠性和使用性(可重復),旨在向傳統科學界以外的邊緣學者和社會參與者開放科學知識的創造、評估和傳播[22],可以促進研究人員之間的透明度、可重復性和協作能力[23],對于預測模型的研究至關重要。
2.6 患者和公眾參與
在預測模型的研究中,應該讓患者、公眾及利益相關者參與預測模型的研究設計、實施、報告、解釋以及傳播過程當中,這是實現研究公平性的重要內容之一。
2.7 結果
2.7.1 研究對象
可使用流程圖描述研究對象的流程,包括有結局指標和沒有結局指標的研究對象人數。如果可能,總結隨訪時間。可利用表格報告每個數據源或場所的總體特征,包括關鍵時間、關鍵預測因素(包括人口學特征)、接受的治療措施、樣本量、結局事件數量、隨訪時間和數據缺失量。對于模型評估,要與模型開發的數據在重要變量分布(人口學統計、預測因素和結局指標)方面進行比較。
2.7.2 模型報告規范
對于模型的報告,分為模型開發、模型描述、模型性能以及模型更新四個部分。通過對模型各部分的詳細敘述,有助于讀者判斷預測模型的準確性以及適用范圍,并可為模型驗證提供一定依據。
2.8 討論
2.8.1 解釋及其局限性
對主要結果進行總體解釋,包括研究目標和已有研究背景下的公平性問題,但要確保解釋不超出模型開發和評估中報告的結果,以防止過度解釋或“曲解”的產生。承認研究存在一定的局限性是任何科學論文的一個重要方面。即使是設計再完善的模型,也不可避免存在局限性,我們應正視并承認局限性,并分析其對于預測模型研究造成的可能影響。
2.8.2 模型在當前醫學背景下的實用性
這是對如何正確使用該模型所做出的說明,使用者可從這部分內容中了解該模型對于專業知識水平的要求以及如何正確評估和處理輸入數據(例如:預測因素)質量低或不可使用的情況,減少了使用預測模型的難度,從而更好地幫助預測模型的實施,達到其預期使用效果。通過討論未來研究的后續方向,有利于模型的完善,增加模型的適用性和泛化性,擴展模型的應用范圍。
3 TRIPOD+AI摘要清單
摘要是對于全文主要內容的概括。好的摘要能使讀者快速了解研究目的、研究對象以及研究結果,從而幫助讀者判斷是否是其想要檢索的文獻,繼而決定是否有進一步閱讀全文的需要。TRIPOD+AI具有單獨的摘要報告清單,對預測模型報告的摘要部分做出了細致的規范。摘要應簡要說明研究的醫學背景和理由,明確研究目的,以更好地評判開發或評估預測模型的必要性及可行性,確認文章對于讀者的價值所在。在方法部分,作者應詳細描述模型數據的收集標準及收集地點,詳細描述模型預測的結局指標,詳細描述模型構建步驟以及內部驗證的方法,詳細描述模型性能的評估標準。讀者通過閱讀摘要,即可快速全面了解此研究的關鍵信息,簡要評判此研究是否契合自己的需求,并對研究方法的有效性、適用性及可能存在的偏倚作出初步評價。在結果部分,作者應報告研究對象和結局事件的數量,總結最終模型中的預測因素,報告模型性能的估計值(包括置信區間),以方便讀者快速評價模型效能,判斷模型是否具有廣泛的實用性。此外,摘要當中還應該對主要結果進行總體解釋,并提供注冊號和注冊平臺的名稱。
4 討論
TRIPOD+AI是對于TRIPOD 2015的更新,它彌補了TRIPOD 2015缺乏對機器學習等最新AI算法的臨床預測模型研究報告的缺陷。與TRIPOD 2015主要關注使用回歸分析開發的預測模型相比,TRIPOD+AI涵蓋了機器學習等AI算法的臨床預測模型,其適用范圍更廣,與日益進步的AI發展相適應。
與此同時,TRIPOD+AI特別強調了預測模型研究中的公平性問題。公平性的各個方面貫穿于整個清單當中,有利于提高研究者對于公平性的認識,并在報告中詳細描述用于解決模型公平性問題的方法及其原理,可在一定程度上提高預測模型在不同群體中的泛化性,提高預測模型的準確性。TRIPOD+AI新增了TRIPOD+AI摘要清單,詳細敘述了摘要應包含的內容,可用于指導摘要的報告。
此外,其還新增了患者和公眾參與以及開放科學的部分,較TRIPOD 2015而言,表現出更強的開放性,促進了知識的公開獲取,加強了研究的透明度和可信度,有利于推動科學研究的進步。與TRIPOD 2015相比,TRIPOD+AI修改了模型性能的相關條目,建議作者評估關鍵亞組(例如:社會人口學分組)中的模型性能,可以評估模型在這些亞組中的表現是否與整體人群一致,有助于發現并解決潛在的異質性問題,確保模型在不同環境和人群中的適用性和可靠性,增強模型的通用性,從而提升模型的實用價值和臨床應用意義。新的TRIPOD+AI清單取代了TRIPOD 2015清單,因此后者不應再使用。
依據TRIPOD+AI的各項條目進行報告,可以幫助用戶了解和評估研究方法的質量,提高研究結果的透明度,減少對研究結果的過度解釋,促進可重復性和再現性,并幫助實施預測模型[16],對于提高預測模型報告的質量起到了重要的作用,在各項臨床實踐中值得廣泛推廣并積極應用。
聲明 本研究不存在任何利益沖突。本團隊對TRIPOD+AI的翻譯工作已經獲得官方(https://www.tripod-statement.org/)授權。
臨床預測模型,有“診斷模型”“預后模型”“風險評分”“預測準則”等諸多術語表述[1],是對多種因素(多元變量)分配不同權重以預測特定疾病風險或特定結局事件概率的一種統計模型[2, 3],對于臨床實踐具有重要的指導意義。近年來在醫學領域上的預測模型研究數量如雨后春筍般激增,但其研究報告質量有待改善。Mallett等[4]評估了發表于2005年的47篇預測模型報告,發現報告質量普遍較差,報告中變量及統計方法的缺陷等影響了預測模型的真實性和可靠性。為了提高預測模型研究的報告質量,Collins團隊于2015年發表了TRIPOD報告規范[5-7]。隨后,Collins團隊還針對預測模型研究的摘要制訂了TRIPOD for Abstracts報告規范[8],針對多源數據集的預測模型多中心研究制訂了TRIPOD-Cluster報告規范[9-12],針對系統評價制訂了TRIPOD-SRMA報告規范[13-15],豐富完善了臨床預測模型的各類研究的報告規范。
隨著機器學習等人工智能(AI)算法的普及,既往的TRIPOD報告規范因為重點關注于回歸模型,并不能夠完美地適用于所有臨床預測模型研究報告,因此客觀上需要一種可以涵蓋機器學習等多種AI算法研究的報告規范。基于此背景,Collins團隊2024年在BMJ上發表了可以同時針對回歸模型或機器學習等AI算法的臨床預測模型研究的報告規范(TRIPOD+AI)[16]。TRIPOD+AI是對TRIPOD 2015的更新,對使用回歸模型或者機器學習等AI算法的臨床預測模型均有指導意義。本文對TRIPOD+AI報告規范的重點內容與條目進行解讀,以期為臨床實踐相關人員提供借鑒和幫助。
1 TRIPOD+AI清單制訂過程
TRIPOD+AI清單的制訂過程經歷了以下幾個階段。第一階段,發表制訂TRIPOD+AI的申明[17],并由Gary S Collins和Karel G M Moons召集了8位具有廣泛的專業知識和經驗的指導小組以監督指導TRIPOD+AI的制訂過程。第二階段,申請通過倫理批準并獲得德爾菲調查參與者及共識會議參與者的知情同意。第三階段,由Gary S Collins和Karel G M Moons借鑒TRIPOD 2015起草了一份初步條目清單。隨后通過檢索收集其他相關文獻,并經過指導小組協商,形成了65個候選條目清單。第四階段,德爾菲調查。通過兩輪德爾菲調查以確定進入下一階段的具體條目。第一輪德爾菲調查于2021年4月19日至2021年5月13日期間進行,邀請了292名具有地域和學科多樣性的參與者進行調查,其中170名參與者完成調查;第二輪德爾菲調查于2021年12月16日至2022年1月17日期間進行,共邀請395名參與者進行調查,其中200名參與者完成調查。兩輪德爾菲調查最終確定了59個候選條目進入下一階段。第五階段,患者和公眾參與和參與會議。2022年4月8日,指導小組與英國健康數據研究負責患者和公眾參與和參與小組(PPIE)的九名成員舉行了一次在線會議,根據會議上收到的反饋以及會后撰寫的信函,對清單草案進行了修訂,提高了清單的清晰度。第六階段,共識會議。2022年7月5日,28名利益相關者參與了由Gary S Collins和Karel G M Moons主持的在線共識會議。會議對59個候選條目中的17個條目,包括1個在第2輪德爾菲調查中未達成共識的條目和16個在第2輪德爾菲調查后經過重新措辭的條目或TRIPOD 2015中未納入的新條目進行重點討論并投票,確定了最終的TRIPOD+AI清單。
2 TRIPOD+AI清單解讀
TRIPOD+AI報告規范包含TRIPOD+AI清單(附件表1)和TRIPOD+AI摘要清單(附件表2),TRIPOD+AI清單(附件表1)包括27個主要條目,其對應的內容分別為標題(條目1)、摘要(條目2)、前言(條目3~4)、研究方法(條目5~17)、開放科學(條目18)、患者和公眾參與(條目19)、結果(條目20~24)和討論(條目25~27),部分主要條目包含多個子條目。這些條目對于使用回歸或機器學習方法開發或評估(驗證)預測模型的研究進行良好的報告至關重要[16]。
2.1 標題
標題應明確研究內容為開發臨床預測模型或評估模型性能,明確目標人群以及預測的結局指標,從而提高文獻檢索時的敏感度與精確度,以幫助讀者或系統評價工作者更加精確、高效地檢索文獻。
2.2 摘要
詳見TRIPOD+AI摘要清單(附件表2),包括標題、背景、目的、方法、結果、討論、注冊,合計13個項目。
2.3 前言
2.3.1 背景
在背景部分應解釋模型的醫學背景,無論是對于新模型還是現有模型的研究,都應充分說明研究此預測模型的理由,并提供對于現有模型的引用和參考。通過描述預測模型的目標人群和預期目的,使用者能夠明確該模型的應用環境,提高模型的臨床效用。除此之外,還應描述不同社會人口群體之間是否存在已知的健康不平等問題。用于開發和評估預測模型的數據應該包括多性別,多種族,多年齡段,多健康狀況以及不同地區的人群,以使預測模型能充分適合于各個不同的社會人口群體,達到普遍的預測效果。
2.3.2 目的
應在報告中詳細描述其研究目的,明確研究是開發還是評估預測模型或兩者兼有。
2.4 研究方法
2.4.1 數據
應分別描述開發和評估數據集的數據來源,并詳細描述收集研究對象數據的日期,包括研究對象開始招募和結束招募的時間以及隨訪的結束時間。這是由于診斷預測研究本質上是探討診斷預測因素(患者特征和測試指標結果)與診斷結局(金標準)之間的橫斷面關系[6]。這要求診斷預測時間與診斷結局的時間是相同或相近的,報告收集研究對象數據的時間有利于判斷其是否由于時間因素而干擾了診斷的預測準確性。
2.4.2 研究對象
應詳細說明研究機構的關鍵信息,包括研究中心的數量和位置,詳細描述研究對象的納入排除標準。這是因為即使模型在開發該模型的人群中表現良好,但當應用于不同的環境或人群時,其表現可能會較弱[18],報告各研究機構的關鍵信息以及研究對象的納入排除標準,有利于讀者判斷此項預測模型的適用范圍及適用人群,判斷是否符合自己的需要,也有助于研究者開展驗證模型的研究。
2.4.3 數據準備
應描述數據預處理和數據質量檢查過程,包括這些過程在不同社會人口群體之間是否相似,這使得數據的處理過程更加公開透明,減少了數據處理過程中可能產生的偏倚。
2.4.4 結局指標和預測因素
結局指標和預測因素必須要有明確的定義以及確切的時間范圍,在確保結局指標合適的情況下也要保證結局指標評估方法的一致性,以減少偏倚的產生。對于需要主觀解釋的結局指標和預測因素,應描述評審員的資歷和人口特征,從而確保其主觀解釋的科學性、準確性、公平性及客觀性。對于預測結局指標的評估和預測因素指標的評價,都應確保盲法的順利實施,若出現數據泄露,會破壞訓練數據集和測試數據集之間的分離[19],人為的夸大預測因素和結局指標之間的關聯,掩蓋模型性能的缺陷,從而破壞預測模型的有效性。
2.4.5 分析方法
應詳細描述如何使用數據(例如:用于開發或者評估模型性能),包括如何對數據進行劃分,是否考慮樣本量要求以及確保在數據劃分過程中沒有數據的泄露;描述在分析中對預測因素的處理方法;詳細描述模型的類型、基本原理及模型的構建步驟;描述如何處理和量化模型參數及模型性能的估計值在不同群組(例如:醫院、國家)之間的異質性;詳細描述用于評估模型性能的所有測量指標和圖,及其原理,并且如果可能,還需比較多個模型;無論是針對總體還是針對特定社會人口統計群體或場所,都應描述基于模型評估過程產生的模型更新;對于模型評估,應描述如何計算模型預測值。
2.4.6 類別不平衡
類別不平衡既可以影響模型訓練階段的收斂,也可以影響模型在測試集上的泛化[20],它是機器學習應用中的一個常見的問題。因此如果類別不平衡,應在報告中說明為什么以及是怎樣處理的,并判斷其對于樣本量是否有影響。要說明后續重新校準模型或模型預測值的方法,以幫助讀者判斷該模型是否仍存在類別不平衡所造成的影響。
2.4.7 公平性
TRIPOD+AI相較TRIPOD 2015強調了公平性的問題。預測模型研究中存在的不公平因素會造成模型在一種人群中表現良好,但在另一種人群中則表現不佳[21],從而影響預測模型的準確性,導致其局限性的產生。隨著人工智能和機器學習方法被用于開發輔助決策的模型,預測模型研究中的公平性問題日益突出[16],因此應詳細描述用于解決模型公平性問題的方法及其原理,消除模型研究中的不公平因素。在開發預測模型和評估模型性能時,確保數據包含代表性群體(目標人群)非常重要。如果預測模型是使用代表性不足的群體的數據或者某些特定群體未被包括在內的數據來開發的,那么就需要在這些群體中使用具有代表性的數據進行評估,從而提高模型對超出開發和評估數據中個體或群體的泛化性。
2.4.8 模型輸出
應詳細描述預測模型的輸出,明確模型輸出的是概率還是分類(例如:低風險或者高風險),并根據醫學背景說明分類的理由及其閾值,以及其對臨床決策可能提供的幫助。
2.4.9 訓練集vs.測試集
在一個環境、中心或國家開發的預測模型不一定適用于另一個環境、中心或國家。不同來源數據的納入與排除標準、結局指標和預測因素的定義可能有所差異。描述用于開發預測模型的數據集和評估預測模型的數據集之間的差異有助于理解和解釋模型在原始模型開發數據背景下的性能和泛化性。
2.5 開放科學
在此部分中,TRIPOD+AI涵蓋了資金聲明、利益沖突、研究方案、研究注冊、數據共享和代碼共享等問題。開放科學旨在提高學術成果的可訪問性、透明度、可靠性和使用性(可重復),旨在向傳統科學界以外的邊緣學者和社會參與者開放科學知識的創造、評估和傳播[22],可以促進研究人員之間的透明度、可重復性和協作能力[23],對于預測模型的研究至關重要。
2.6 患者和公眾參與
在預測模型的研究中,應該讓患者、公眾及利益相關者參與預測模型的研究設計、實施、報告、解釋以及傳播過程當中,這是實現研究公平性的重要內容之一。
2.7 結果
2.7.1 研究對象
可使用流程圖描述研究對象的流程,包括有結局指標和沒有結局指標的研究對象人數。如果可能,總結隨訪時間。可利用表格報告每個數據源或場所的總體特征,包括關鍵時間、關鍵預測因素(包括人口學特征)、接受的治療措施、樣本量、結局事件數量、隨訪時間和數據缺失量。對于模型評估,要與模型開發的數據在重要變量分布(人口學統計、預測因素和結局指標)方面進行比較。
2.7.2 模型報告規范
對于模型的報告,分為模型開發、模型描述、模型性能以及模型更新四個部分。通過對模型各部分的詳細敘述,有助于讀者判斷預測模型的準確性以及適用范圍,并可為模型驗證提供一定依據。
2.8 討論
2.8.1 解釋及其局限性
對主要結果進行總體解釋,包括研究目標和已有研究背景下的公平性問題,但要確保解釋不超出模型開發和評估中報告的結果,以防止過度解釋或“曲解”的產生。承認研究存在一定的局限性是任何科學論文的一個重要方面。即使是設計再完善的模型,也不可避免存在局限性,我們應正視并承認局限性,并分析其對于預測模型研究造成的可能影響。
2.8.2 模型在當前醫學背景下的實用性
這是對如何正確使用該模型所做出的說明,使用者可從這部分內容中了解該模型對于專業知識水平的要求以及如何正確評估和處理輸入數據(例如:預測因素)質量低或不可使用的情況,減少了使用預測模型的難度,從而更好地幫助預測模型的實施,達到其預期使用效果。通過討論未來研究的后續方向,有利于模型的完善,增加模型的適用性和泛化性,擴展模型的應用范圍。
3 TRIPOD+AI摘要清單
摘要是對于全文主要內容的概括。好的摘要能使讀者快速了解研究目的、研究對象以及研究結果,從而幫助讀者判斷是否是其想要檢索的文獻,繼而決定是否有進一步閱讀全文的需要。TRIPOD+AI具有單獨的摘要報告清單,對預測模型報告的摘要部分做出了細致的規范。摘要應簡要說明研究的醫學背景和理由,明確研究目的,以更好地評判開發或評估預測模型的必要性及可行性,確認文章對于讀者的價值所在。在方法部分,作者應詳細描述模型數據的收集標準及收集地點,詳細描述模型預測的結局指標,詳細描述模型構建步驟以及內部驗證的方法,詳細描述模型性能的評估標準。讀者通過閱讀摘要,即可快速全面了解此研究的關鍵信息,簡要評判此研究是否契合自己的需求,并對研究方法的有效性、適用性及可能存在的偏倚作出初步評價。在結果部分,作者應報告研究對象和結局事件的數量,總結最終模型中的預測因素,報告模型性能的估計值(包括置信區間),以方便讀者快速評價模型效能,判斷模型是否具有廣泛的實用性。此外,摘要當中還應該對主要結果進行總體解釋,并提供注冊號和注冊平臺的名稱。
4 討論
TRIPOD+AI是對于TRIPOD 2015的更新,它彌補了TRIPOD 2015缺乏對機器學習等最新AI算法的臨床預測模型研究報告的缺陷。與TRIPOD 2015主要關注使用回歸分析開發的預測模型相比,TRIPOD+AI涵蓋了機器學習等AI算法的臨床預測模型,其適用范圍更廣,與日益進步的AI發展相適應。
與此同時,TRIPOD+AI特別強調了預測模型研究中的公平性問題。公平性的各個方面貫穿于整個清單當中,有利于提高研究者對于公平性的認識,并在報告中詳細描述用于解決模型公平性問題的方法及其原理,可在一定程度上提高預測模型在不同群體中的泛化性,提高預測模型的準確性。TRIPOD+AI新增了TRIPOD+AI摘要清單,詳細敘述了摘要應包含的內容,可用于指導摘要的報告。
此外,其還新增了患者和公眾參與以及開放科學的部分,較TRIPOD 2015而言,表現出更強的開放性,促進了知識的公開獲取,加強了研究的透明度和可信度,有利于推動科學研究的進步。與TRIPOD 2015相比,TRIPOD+AI修改了模型性能的相關條目,建議作者評估關鍵亞組(例如:社會人口學分組)中的模型性能,可以評估模型在這些亞組中的表現是否與整體人群一致,有助于發現并解決潛在的異質性問題,確保模型在不同環境和人群中的適用性和可靠性,增強模型的通用性,從而提升模型的實用價值和臨床應用意義。新的TRIPOD+AI清單取代了TRIPOD 2015清單,因此后者不應再使用。
依據TRIPOD+AI的各項條目進行報告,可以幫助用戶了解和評估研究方法的質量,提高研究結果的透明度,減少對研究結果的過度解釋,促進可重復性和再現性,并幫助實施預測模型[16],對于提高預測模型報告的質量起到了重要的作用,在各項臨床實踐中值得廣泛推廣并積極應用。
聲明 本研究不存在任何利益沖突。本團隊對TRIPOD+AI的翻譯工作已經獲得官方(https://www.tripod-statement.org/)授權。