隨著臨床和生物大數據的極大豐富,機器學習技術通過結合多方面的信息以預測個體的健康結局,在科研及學術論文中應用日益廣泛,但關鍵信息報告的不足也逐漸顯現,包括數據偏倚、模型對不同群體的公平性、數據質量和適用性問題,以及在真實臨床環境中保持預測準確性和可解釋性的難度等,增加了將預測模型安全有效地應用于臨床實踐的復雜性。針對這些問題,多變量預測模型個體預后或診斷的透明報告(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis,TRIPOD)+人工智能(artificial intelligence,AI)聲明在TRIPOD的基礎上提出了針對機器學習模型的報告規范,以提升模型的透明性、可重復性和健康公平性,從而改善機器學習模型的應用質量。當前,國內基于機器學習技術的預測模型研究日益增多。為幫助國內讀者更好地理解和應用TRIPOD+AI,筆者結合實例對其進行了解讀,希望為研究人員報告質量提升提供支持。
版權信息: ?四川大學華西醫院華西期刊社《中國普外基礎與臨床雜志》版權所有,未經授權不得轉載、改編
隨著全球科技革命4.0、生命科學革命3.0時代的到來,在精準醫學理念下,醫學的數據化、精準化、智能化特征越來越明顯,醫學和生物科學領域數據得到極大豐富。由數據驅動的人工智能(artificial intelligence,AI)及機器學習(machine learning)技術的發展,以及在醫學領域的應用,使大規模、高維度、動態性的醫學大數據得以快速整合,其產生的判別或分類模型(discriminative model)和預測模型(predictive model)在醫學領域中被用來判別/區分不同的疾病狀態,預測發病風險或預后,展現出在疾病診斷、預后預測和治療決策支持中的巨大潛力[1-2]。但是,機器學習模型的應用也帶來了諸如數據偏倚、模型透明性、結果可重復性等挑戰[3],因此規范化的報告標準顯得尤為重要。為應對這一需求,構建起數據驅動的診斷、預后研究標準化體系刻不容緩。為此,Gary等發布了基于機器學習的多變量預測模型個體預后或診斷的透明報告(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis,TRIPOD)+AI聲明。為幫助學者更好地理解和應用TRIPOD+AI聲明,筆者結合實例對其進行了解讀,希望為研究人員提升報告質量提供支持。
1 TRIPOD+AI聲明的制訂背景
Moher等在2010年著手進行TRIPOD的開發,并在2015年發布(https:// www.tripod-statement.org/),旨在為開發或評估預測模型性能的研究提供最低限度的報告建議[4]。但隨著機器學習技術的興起,支持向量機、隨機森林、深度學習等機器學習算法給模型帶來了革命性的變革,雖然TRIPOD聲明與建模技術本身關聯不大,但制定之時主要針對的是由理論驅動的統計回歸模型,其與機器學習技術在建模策略、數據處理、評價目標等方面都有較大差別,對報告的透明度和完整性提出了新的要求,因此急需對聲明進行更新。TRIPOD團隊的領導者和合作學者于2019年4月啟動了TRIPOD+AI的開發,并于2022年7月最終確定了TRIPOD+AI的條目。其中的“+”表示其是以TRIPOD為基礎,適用于統計回歸模型或機器學習方法開發的預測模型的研究,同時為與現有涉及AI的研究報告指南保持一致,使用附加術語“AI”,但實際上支撐模型的為機器學習算法[5]。因此,為了便于閱讀,筆者仍然稱之為機器學習。
2 TRIPOD+AI聲明條目的解讀
該聲明適用于采用機器學習或傳統回歸方法,開發和(或)評估預測模型的研究報告,其核查清單涵蓋了題目、摘要、前言、方法、開放科學、患者與公眾參與、結果、討論8個部分,共27個主條目、52個子條目。另外,專門制定了13個條目的摘要核查清單。詳細參見補充材料1和補充材料2。
筆者以發表在European Journal of Heart Failure雜志的論文“Machine learning-based prediction of in-hospital death for patients with Takotsubo syndrome: the InterTAK-ML model”[6]為實例,在解釋條目的基礎上對例文進行分析。報告條目檢查清單詳見補充材料1,以幫助讀者更好地理解與應用TRIPOD+AI聲明。
2.1 標題
條目1:明確研究為開發和(或)評估多變量預測模型,以及適用的目標人群和所預測的結局。
解讀:與TRIPOD相比,TRIPOD+AI更強調研究的具體應用背景,包括是否涉及機器學習,同時明確目標人群、結局指標,以及研究是開發模型還是驗證模型。因此,標題應使用清晰且專業的術語,使讀者一目了然研究的核心內容和機器學習應用特點[7]。
例文的中文標題為“基于機器學習的Takotsubo綜合征患者住院死亡風險預測:InterTAK-ML模型”,明確了研究的核心內容,即通過機器學習模型預測Takotsubo綜合征患者的住院死亡風險。標題清晰地反映了研究的目標人群—Takotsubo綜合征患者,以及預測的結局—患者在住院期間死亡。標題明確提及了機器學習方法,并通過模型名稱“InterTAK-ML”進一步突出了研究的核心方法和成果,直接傳達了研究的目標和方法。然而,標題未明確區分研究是專注于模型的開發、評估,還是兩者兼顧,但從研究目的和結果來看,應是模型開發研究。整體而言,標題使用了簡潔的專業術語,基本符合該條目的要求。
2.2 摘要
條目2:參見TRIPOD+AI獲取摘要清單(具體見補充材料2)。摘要是論文的精簡概述,其目的是用簡潔清晰的語言向讀者傳遞研究過程及其核心發現。清單可以幫助研究人員確保摘要內容的全面性和結構化,主要包括:標題、背景、目的、方法、結果、討論、資金和注冊信息。
解讀:首先是背景部分,需要簡要說明所研究問題的醫學背景和研究進展,以明確構建或評估預測模型的動機,及其在臨床診療實踐中的必要性。該部分報告應簡潔充分,解釋為什么這項研究至關重要,并為研究目的的引出奠定基礎。其次是目的部分,應詳細說明研究的具體目標,尤其要明確研究是專注于模型的開發和(或)評估,從而清晰明確地傳遞研究的性質和研究的重點。第三是方法部分,必須明確報告以下內容:① 數據的來源及納入排除標準。例如數據的地理來源、樣本大小、數據的收集方式等,并報告數據的質量控制措施,以確保預測模型的有效性和外推性;② 尤其是對于預后模型而言,需要簡要描述模型預測的時間范圍,以明確預測結果的意義和價值;③ 概述模型類型,無論使用的是回歸模型、判別模型、深度學習模型,還是貝葉斯模型,均需簡要描述[8];④ 概述建模的關鍵步驟及內部驗證方法(如交叉驗證或留一法),以便讓讀者了解模型的魯棒性和可靠性[9]。第四是結果部分,應至少包括3方面內容:① 研究對象及所研究結局事件的數量;② 最終納入模型的預測因子,包括人口學變量、臨床特征、健康信息等;③ 模型的預測性能,例如ROC曲線下面積(area under curve,AUC)值及其置信區間。第五是討論部分,作者應從整體上解釋研究結果的意義,并指出模型的實際應用場景或局限性,有助于幫助讀者理解研究的影響以及未來可能的研究方向。第六是研究注冊信息,包括注冊號和注冊數據庫的名稱,以確保研究的透明性和可追溯性。
例文摘要沒有背景部分,因此沒有在摘要提出所研究問題的醫學背景和研究進展,但在目的、方法、結果及討論部分,數據來源清晰,模型類型明確,建模步驟、驗證方法到位,且研究對象、預測因子、模型性能指標報告完整。但在討論的部分比較欠缺,沒有指出模型可能存在的局限性,也缺乏對更進一步研究的建議,只提到了該模型的優越性。同時摘要部分也沒有資金和注冊信息。
2.3 前言
2.3.1 背景
條目3:3a,闡述研究的醫學背景(包括診斷或預后),以及開發或評估預測模型的理由,包括對既有模型的引用或參考;3b,描述目標人群和預測模型在臨床路徑中的預期用途,以及模型的預期使用者(如醫療保健專業人員、患者、公眾);3c,描述可能存在的健康不平等問題。
解讀:相比TRIPOD,TRIPOD+AI更關注機器學習技術處理多源性、高維度、動態性醫學大數據的優勢,要求通過高效且適當的算法妥善解決相關問題,從而提升醫療預測模型的質量和實用性,為醫療領域提供更精準、更個性化的服務。因此,可以在背景中報告機器學習模型在處理本研究真實數據情境下的獨特優勢或價值[10]。
由于機器學習模型主要是通過“學習”源數據表現出來的特征完成模型構建,其預測性能和有效性很大程度上也取決于其應用的目標人群和具體應用場景與源數據是否適配。因此,必須從人口社會學特征、生活行為方式、疾病特征等方面對目標人群進行準確定義,并對應用場景進行精確劃分,比如初次診斷、復發診斷、鑒別診斷,以及短期、長期預后等,以確保讀者能夠更好地了解模型的適用范圍和泛化能力。
由于受到數據來源、質量、預測因子選擇等諸多因素影響,常常導致應用于預測模型的源數據出現“偏向”特定群體的情況,而通用的模型預測性能評價指標往往也掩蓋了模型在不同群體中的表現,相比于傳統模型機器學習方法更容易出現健康不公平問題,因此要求作者要在模型的開發和評估階段,增加偏倚檢測與公平性評估的步驟,以避免模型對某些群體產生系統性誤差[11]。
例文在背景部分,詳細說明了Takotsubo綜合征的疾病特性及其嚴重性與InterTAK-ML模型開發理由,并明確目標人群與模型的預期用途,包括模型的作用和預期使用者,模型是預測短期預后,且相比于以往常用的德國和意大利壓力性心肌病(GEIST)評分系統,例文提出的新模型可以提供更精確的預測,減少傳統方法的局限性,但是在該部分沒有明確說明健康不平等問題。
2.3.2 目的
條目4:明確研究的目標,并說明研究是否涉及模型的開發、評估,或者兩者兼有。
解讀:與TRIPOD在前言目的部分寫作要求一致,TRIPOD+AI需要作者清晰地陳述研究的具體目標是什么,是為了開發一個新模型,還是評估既有模型的性能,還是同時進行模型的開發和評估。
例文在背景中明確地提到是進行模型的開發,模型評估未直接提及。
2.4 方法
2.4.1 數據
條目5:5a,分別描述用于模型開發和評估數據集的數據來源(例如隨機試驗、隊列、常規治療或注冊研究數據)、使用這些數據的理由以及數據的代表性;5b,明確收集數據的關鍵日期,包括對象招募的開始、結束日期,以及隨訪結束日期(如果適用)。
解讀:TRIPOD+AI與TRIPOD一致,都要求詳細描述數據的來源和收集時間,并解釋選擇利用這些數據的理由和數據的代表性,從而提供更多信息讓讀者能夠判斷模型時代背景,以及推廣到更廣泛的人群或臨床實踐中的可能性[11]。對于用于診斷的判別模型數據一般不涉及隨訪,而對于預后模型,隨訪時長無疑會對模型的開發和應用產生重要影響,必須對隨訪時長和預測的時間范圍做明確界定。同時,需要強調的是,在機器學習中為了保證模型的預測準確性和泛化能力,模型開發和評估應在不同的數據集上進行,因此應分別進行說明。
例文中明確說明了使用了兩個數據集,訓練和內部驗證隊列均來自國際Takotsubo登記研究(International Takotsubo Registry,InterTAK),具有較強的國際代表性,招募時間為2011年到2021年。外部驗證隊列來源于Takotsubo Italian Network,入組了2007年至2018年的患者,為獨立的來源數據。沒有提到隨訪的結束日期。
2.4.2 研究對象
條目6:6a,說明研究現場的基本特征(例如初級醫療機構、二級醫療機構、社區人群等),以及所選研究中心的數量和位置;6b,描述納入研究對象的納入和排除標準;6c,提供研究對象接受所有治療或其他醫學干預的詳細情況,且需說明在模型開發或評估期間如何處理干預特征。
解讀:TRIPOD+AI在研究對象的描述上延續了TRIPOD的要求,包括明確研究對象來源人群,以及研究對象的納入和排除標準,以便于讀者評估數據的質量、對象代表性與結果的外推性[12]。同時,TRIPOD+AI聲明特別強調了對于治療或其他干預措施的報告,這不僅是完整準確地報告數據特征的需要,以確保模型的可重復性和可比性。更重要的原因在于,干預可能通過改變數據特征,影響特征工程、挑戰模型結構機器參數等多個方面,進一步影響模型的準確性和泛化能力。因此,在模型開發或評估期間治療干預特征就顯得尤為重要,是必須報告的內容。
例文說明了數據來源于17個國家、58個心血管中心,但是未說明醫療機構層級和具體人群來源,提到以 InterTAK 診斷標準作為納入依據,但沒有列出具體的納入排除標準。只提到了收集干預相關數據,但是沒有明確說明具體干預特征,也未說明是否納入模型或進行控制。
2.4.3 數據準備
條目7:詳細描述所有數據預處理和質量核查的內容,并說明其在不同社會人口學特征群體中的一致性。
解讀:TRIPOD+AI要求詳細說明數據預處理和質量檢查流程,這一要求與機器學習模型的特點密切相關。機器學習數據質量的依賴度極高,數據噪聲、缺失值或信息偏倚會直接影響模型的準確性和泛化能力[13]。因此,研究者需在模型開發前進行數據核查,包括驗證數據是否合格(符合納入和排除標準),缺失值、異常值、邏輯錯誤的識別與處理等。在合并不同來源的數據時,應確保數據完整性,包括數據格式標準化、鍵值匹配、映射規則等的明確定義。此外,數據的質量問題可能因人群特征不同而出現不同的表現,在數據準備階段應保持核查策略和措施的一致性,以提高模型在不同人群的公平性和適用性[14]。
例文描述了缺失值處理、多重共線性分析等過程,提到數據通過標準化表格和臨床記錄審查收集,并剔除了高缺失變量,通過敏感性分析驗證了模型在不同群體中的性能一致性。
2.4.4 結局指標
條目8:8a,明確定義模型預測的結局指標和時間范圍,包括如何以及何時評估、選擇該指標的理由,并解釋評估方法在不同人群是否一致;8b,如果結局指標的測量需要主觀評估,應描述評估者的資質和人口學特征;8c,報告實現盲法評估的所有措施。
解讀:本條目中8a和8c延續了TRIPOD結局指標的要求,通過明確結局指標的定義、測量時間或時間窗口、測量方法等內容,以準確提供模型預測內容信息,如疾病狀態、是否復發、手術需求或治療效果等,研究者還需要解釋評估方法在不同群體中的一致性[15]。以上措施共同保障結局指標評估的科學性和公平性,并通過盲法測量減少人為干擾。此外,TRIPOD+AI新增了8b,類似于病理診斷、影像分析等結局指標,其結果依賴主觀判斷時,應詳細說明評估人員的專業背景和人口特征,包括學歷、臨床經驗及專業領域,以確保他們有能力進行準確評估,并幫助讀者判斷不同特征評估者是否存在潛在偏見的問題,提高研究的透明度和可靠性[16]。
例文明確說明模型預測的主要結局是住院死亡,時間范圍是患者住院期間的死亡事件,也提到了選擇該指標的理由,并討論了指標在不同人群中的一致性。而“住院死亡”是客觀指標,無需主觀評估。數據來源于注冊研究,流程較為標準化,有一定的盲法評估效果。
2.4.5 預測因子
條目9:9a,描述初始預測因子的選擇原因(例如參考相關文獻、既往模型、數據的可用性),及選擇過程;9b,明確定義所有預測因子,包括其測量方式和測量時間(以及實現盲法評估的所有措施);9c,如果預測因子的測量需要主觀評估,請說明預測因子評估者的資質和人口學特征。
解讀:雖然機器學習理論上能夠處理高維數據,但在實際應用中,如何從海量信息中篩選出關鍵特征,減少噪音特征干擾,同時縮短訓練時間、減少過擬合風險,從而提高模型的性能和可解釋性,進行預測因子選擇是機器學習必要的步驟。其中,初始預測因子的選擇可以基于文獻或既往模型研究、專家意見,以及行業慣例等依據,也需要綜合考慮數據獲取、質量保證的難易程度等現實情況,即數據的可用性。確定最終納入模型的預測因子階段,在機器學習中稱為特征選擇,可以基于數據探索、統計學方法、過濾技術等,比如選擇與結局變量相關系數更大的指標,或基于LASSO回歸等篩選預測因子。另外,一些高級的機器學習算法(如隨機森林、梯度提升樹等)本身具有特征重要性評估功能,可以利用其結果選擇重要的特征重新擬合模型。根據TRIPOD+AI的要求,以上內容均需要報告,以提高機器學習模型的透明性和可解釋性。9b、9c內容與結局指標報告要求基本一致,這里不再贅述。
例文中提到初始變量選擇基于臨床相關性、文獻和數據可用性,并結合嶺回歸進行篩選;定義了變量及其測量方式,明確了采集時間;但預測因子大多為客觀數據,主觀評估需求較少,因此沒有說明評估者的資質和人口學特征。
2.4.6 樣本量
條目10:解釋研究樣本量是如何確定的(分別針對模型開發和評估),包括所有樣本量計算的細節,并論證研究中的樣本量是否足以回答研究問題。
解讀:相比于TRIPOD的要求,TRIPOD+AI提出了關于樣本量更詳細的要求。這主要是因為在機器學習中,通常都需要大樣本量支持,以保證模型的性能、泛化能力,并可以一定程度上避免模型過擬合,以及訓練和評估模型時數據分布差異的問題。但樣本量過大勢必會增加數據清洗和預處理的難度,同時也會使模型訓練時間顯著增加,對計算資源需求大增。因此,在實際研究中仍需要根據研究目標、數據特征、模型復雜度,以及對模型性能的要求,合理確定樣本量的大小。有關的樣本量估計方法包括經驗法、基于分布理論的統計估計方法,以及數學模擬等方法[17-18]。但目前大部分有關機器學習的文獻,對樣本量提及均較少。
例文中并沒有明確說明樣本量是如何確定的,也未提供計算細節。因此,樣本量是否能充分回答研究問題存在一定的不確定性。
2.4.7 缺失值
條目11:說明缺失數據處理方法,以及數據剔除的原因。
解讀:TRIPOD+AI未對缺失值處理方法提出特定要求,允許研究者根據具體情況選擇適當方法。這主要是因為一些機器學習模型在處理缺失值方面更加靈活,比如決策樹及其集成算法(如隨機森林、梯度提升樹等)、神經網絡等,允許不對缺失值進行事先填補,而是在模型訓練過程中基于數據增強或遷移學習等數據驅動策略,自動適應缺失值的存在,根據其他完整信息以及缺失值本身的分布特點擬合模型,也同時避免了缺失值處理方式不當造成模型擬合錯誤的問題,顯示出比傳統插補方法更有效的特點。同時,如果在分析過程中忽略或剔除了某些數據,需解釋原因,以評估其合理性和公平性。
例文中提到對缺失值超過30%的變量直接剔除;在交叉驗證過程中,使用計量資料的中位數和計數資料的眾數進行插補缺失值,但未深入討論剔除數據或變量的特性及其對模型的影響。
2.4.8 統計分析方法
條目12:12a,描述數據的分析目的(如用于模型開發和性能評估),包括是否進行了數據集劃分,并考慮樣本量要求;12b,根據模型類型,描述預測因子在分析中的處理方式(如函數形式、重縮放、轉換、標準化等);12c,明確模型類型,解釋模型選擇理由,描述所有的模型構建步驟,包括超參數調整優化和內部驗證方法;12d,描述不同來源(如醫院、國家)的數據之間是否存在模型參數估計和性能評價中的異質性,并報告識別和處理方法,參考TRIPOD-Cluster聲明的特別注意事項[19-20];12e,明確定義研究中用于模型性能(如區分度、校準度、臨床效用等)評價的指標和圖表(以及選擇理由),明確模型選擇過程(如果適用);12f,描述在既有模型評估過程中是否進行了更新(如重新校準),包括模型整體層面的更新,或適用人口社會學群體或環境層面的更新;12g,對于模型評估,描述模型預測值是如何獲得的 [如公式、代碼、對象、應用程序編程接口(application programming interface,API)等]。
解讀:條目12包括7個子條目,其中a、b、c只針對模型開發研究;f、g只針對模型評估研究;d、e同時適用于兩種不同目的的研究。研究者需要準確報告相關內容,以提高研究的透明度,為其他研究者復現模型奠定基礎。
相比于傳統預測模型的構建,機器學習模型在開發、評估時,特別注重模型的預測準確性(內部有效性),并避免過擬合以提升模型的應用泛化能力(外部有效性),因此擴展和細化了許多要求,尤其對于深度學習,數據集劃分是標準步驟。根據分析目標不同,一般將數據集定義為了訓練集(training set)和測試集(testing set)。其中,用于模型開發或訓練的數據集稱為訓練集,在訓練過程中用于對模型結構、超參數等進行調整優化的數據集為驗證集(validation set)。而測試集是在模型開發完成后,用于最終評估模型性能的數據集。比如,可以采用靜態留出法劃分數據集,將原始數據集按照隨機抽取的方式將60%~80%的數據作為訓練集,10%~20%的數據作為驗證集,10%~20%的數據作為測試集。但該方法對數據的劃分方式比較敏感,不同的劃分方式可能得到不同結果,在模型訓練階段可以采取交叉驗證法(cross validation)進行,包括留一法、K折交叉驗證等,其基本思想是通過多次動態劃分訓練集和驗證集,將結果進行綜合作為訓練結果,尤其對于小樣本數據而言,能夠充分利用有限的數據進行學習和驗證,以保證模型的訓練結果和泛化能力,有效減低過擬合風險。
在分析中,預測因子的處理方式對預測模型開發至關重要,直接影響模型對數據的理解和利用能力,進而影響模型的預測性能。需要根據探索性分析的結果,明確預測因子納入模型的函數形式。例如,數據中預測因子與目標變量之間存在非線性關系,選擇非線性函數形式無疑更為恰當。當然,也可以通過數據轉換將非線性關系轉化為線性關系,以滿足特定算法的需求、提高數據的可學習性,避免欠擬合問題。同時,為了統一不同特征的尺度,提升模型收斂速度,并便于數據理解與比較,一般需要對因子進行歸一化、標準化等處理,這些都需要在方法部分進行報告。
無論是新模型開發還是既有模型的評估,預測模評估都是十分重要的內容,它不僅可以指導模型優化與選擇,而且可以了解模型性能的優劣,以確保模型的泛化能力和實際應用中的可信度。若根據應用目標、模型類型不同,開發出了多種指標供選擇,報告中應對相關指標進行明確定義,并說明選擇依據。
傳統模型通常沒有分層評估的需求,而在機器學習中,特別關注了不同群體或來源的數據間模型參數和性能估計結果的異質性問題,需要研究者說明對其的識別過程和處理方式,以確保模型在不同人群、不同醫院或地區等多樣環境中的泛化能力。
針對既有模型的評估,要求報告預測值獲取方法,需要提供有關預測值計算的公式、代碼、API等,以確保其透明性和評價的有效性[21]。
例文所選模型開發和內部驗證集來源于 InterTAK Registry,樣本按照75%∶25%隨機分配為訓練集和內部驗證集;外部測試集來自獨立的 Takotsubo Italian Network。數據預處理采用重縮放和缺失值處理,未提到是否進行了轉換或標準化。為了處理高維數據,且多變量之間存在共線性的問題,選擇嶺回歸進行特征選擇。例文詳細描述了模型構建步驟及內部驗證方法,也列出了模型性能評估的指標和選擇理由,但未直接提到對數據異質性的處理方法。例文的研究未涉及既有模型的更新,因此不需要描述更新內容。明確了預測值生成基于嶺回歸或logistic回歸模型,對輸入變量和來源進行了詳細描述。
2.4.9 類別不平衡
條目13:如果使用了解決類別不平衡方法,應說明理由和具體方法,以及后續重新校準模型或預測結果的方法。
解讀:類別不平衡是機器學習中的常見問題。例如,對于罕見病,當訓練數據集中患者和非患者人數相差非常懸殊,造成患者數量過少,即出現了類別不平衡。如果不進行特殊處理,多數類樣本會主導模型的學習優化過程,進而使模型在預測時更傾向于給出多數類的結果。因此TRIPOD+AI專門增加了對類別不平衡處理方法的要求,在數據層面可以采用過采樣、欠采樣,在算法層面采用加權損失函數或生成對抗網絡等進行處理[22]。處理類別不平衡后,可能需要對模型進行校準,以確保不同類別的預測概率真實反映實際情況,常用的方法有Platt scaling或Isotonic regression等[23]。
在例文中并沒有提到類別不平衡問題,因此也沒有對應方法的應用。
2.4.10 公平性
條目14:描述用于解決模型公平性問題的方法及其原理。
解讀:如前所述,與傳統預測模型相比,機器學習方法對數據本身的依賴性增強,在構建過程中更為復雜,因此保證模型在不同人群適用時的公平性就顯得尤為重要。除了前面在數據收集、預處理、特征選擇等方面的體現外,模型訓練過程中,可以通過對不平衡群體進行特殊調整、加權損失函數等方法進行處理。在模型評估中,可以使用特定的公平性指標,如均衡誤差率、差異影響、統計公平性等,或通過分層交叉驗證亞組獨立分析,比較不同群體的預測準確性、敏感性、特異性等指標,確保模型在不同特征群體表現的一致性或公平性[24]。
在例文中,并沒有明確提到模型公平性問題及其解決方法。
2.4.11 模型輸出結果
條目15:明確預測模型結果形式(如分類或分類概率),提供分類的詳細信息、分類依據,以及分類閾值的確定方法。
解讀:當預測模型用于狀態預測或分類任務時,模型一般是根據預測因子的取值,獲得屬于預定義分類類別的概率,進一步根據概率閾值標準,判斷出相應的類別,作為模型預測結果。比如,根據對象特征利用模型獲得有病的概率為58.2%,根據概率>50%判定為有病的閾值標準,則將對象判定為有病。條目要求報告確定分類閾值的依據,一般是根據應用場景,通過ROC曲線結合臨床意義,通過最大化敏感性和(或)特異性來設置閾值[25]。
例文中以住院死亡作為二分類任務的目標變量,模型性能通過AUC指標進行評估。
2.4.12 訓練與評估
條目16:識別模型開發與評估數據集在醫療環境、入選標準、結果和預測因子方面的任何差異。
解讀:機器學習模型與傳統預測模型都要求詳細描述模型開發過程中使用的數據,驗證或評估時所使用數據之間的差異,并分析其對模型性能的潛在影響,以確保模型在實際應用中的可靠性和適用性。TRIPOD+AI聲明還增加了對醫療環境和入選標準方面的要求。主要是因為開發數據和評估數據可能是不同來源的數據,比如不同醫院或不同的入選標準,如未充分考慮以上差異,可能會導致模型的預測效果顯著下降,或者模型無法很好地適應新的數據集[26-27]。
例文中提到開發數據集與外部驗證數據集來源不同,這說明研究開發的模型可以評估在不同地理和醫療環境下的泛化能力。兩組數據集均為InterTAK診斷標準納入患者,但未深入討論兩個數據集在預測因子分布和結局發生率上的差異及其影響。
2.4.13 倫理批準
條目17:列出批準本研究的機構研究委員會或倫理委員會,并說明是否已獲得研究對象的知情同意,或是否獲得了倫理委員會的豁免許可。
解讀:機器學習通常需要大量的患者數據來訓練和驗證模型,可能增大患者隱私和數據安全的敏感性。因此,TRIPOD+AI強調對數據使用的倫理審批和知情同意,以保護數據來源的合法性和道德性,確保研究在合法合規的前提下進行。
例文中,在方法部分并沒有提到知情同意及倫理審批。
2.5 開放科學
條目18:18a,提供本研究的資金來源及資助方在本研究中的角色;18b,聲明所有作者的利益沖突及財務披露情況;18c,說明研究方案的獲取途徑,或聲明未制定研究方案;18d,提供研究的注冊信息,包括注冊名稱和注冊編號,或聲明本研究未注冊;18e,提供獲取研究數據的詳細信息;18f,提供獲取分析代碼的詳細信息。
解讀:條目18的6個子條目主要規定了需要公開的信息內容。相比傳統預測模型,TRIPOD+AI特別強調公開透明化,委員會鼓勵研究者分享數據,以便其他研究者能夠驗證和重現結果。
在例文“提供資金”部分,作者明確說明了資金來源,并明確了資助方在研究中的角色,聲明了無利益沖突,但沒有提供研究注冊信息,也未聲明未注冊。同時也沒有提供代碼獲取的途徑,雖然研究使用了國際性數據集,但未明確說明數據是否公開,也沒有提供數據獲取的方式。
2.6 患者和公眾參與
條目19:提供在研究設計、實施、報告、解釋或傳播過程中,患者和公眾參與情況的詳細信息,或聲明無相關參與。
解讀:該條目體現了研究是否充分考慮到患者和公眾的觀點、需求和期望,即從對象的角度,考慮模型的實用性、可操作性和可讀性,從而提高醫學研究的質量和影響力。這是對傳統TRIPOD標準的一個重要補充。
例文中未提及患者和公眾的參與情況。
2.7 結果
2.7.1 研究對象
條目20:20a,描述研究過程中研究對象的變動情況,包括出現和未出結局事件的人數。對于隨訪性研究,還需提供隨訪時間的概要。使用圖表形式可能會使表達更清晰。20b,報告對象的整體特征,如果可能應報告不同來源或現場對象的特征,包括關鍵日期、關鍵預測因子(含人口學特征)、接受治療、樣本大小、結局事件數量、隨訪時間和數據缺失量。建議以表格形式報告。報告不同關鍵人口學特征對象間的差異。20c,在模型評估中,展示與開發數據中關鍵預測相關變量(人口學特征、預測因子和結局指標)分布的比較結果。
解讀:聲明特別建議研究者以變動流程圖的形式總結報告對象招募、排除、剔除的情況,并同時報告出現與不出現結局事件的人數。采用表格形式報告對象或數據的分布情況,并建議對于不同來源、醫院或研究中心的數據,進行分別報告,以及報告不同特征人群在預測因子方面的差異,主要目的仍然是增加研究的透明性,清晰地呈現出數據全貌,從而衡量數據的代表性和質量狀況,也提示研究者和讀者可能存在的類別不平衡等問題,為后續模型構建策略和評估奠定基礎,進而提高模型的公平性和可靠性。
對于模型評估而言,通過比較模型開發數據集和評估(或測試)數據集的分布,可以了解模型在從開發數據集到評估(或測試)數據集的轉換過程中,是否能夠適應不同的數據分布情況,從而評估模型的泛化能力。如果兩個數據集的分布差異過大,可能意味著模型在新的數據分布下性能會受到影響,無法很好地對未知數據進行準確預測。
例文未涉及長期隨訪,因此沒有相關的隨訪描述,但詳細列出了出現和未出現結局事件的人數。文章通過表格全面報告了患者的整體特征,包括人口學信息、預測因子和治療情況,明確了結局事件人數、總體患者數量以及住院死亡率。文章還提到剔除了缺失率較高的變量,但未在表格中單獨列出缺失情況。此外,未區分開發集和外部驗證集患者的詳細特征對比。研究還提供了外部驗證的性能評估,并指出預測因子的來源一致。
2.7.2 模型開發
條目21:明確說明各分析任務(如模型開發、超參數調整、模型評估)中研究對象和結局事件的數量。
解讀:該條目是TRIPOD+AI的一個獨有條目,其與對象中對樣本量的要求是基本一致的。研究對象和結局事件的數量直接關系到模型所能學習到的信息豐富程度。一般來說,較大的樣本量能讓模型接觸到更多的數據模式和特征關系,有助于提高模型的準確性和穩定性。在超參數調整過程中,研究對象的數量會影響超參數的選擇和調整策略。例如,在一個小樣本的機器學習任務中,對于決策樹模型的樹深度這一超參數,由于樣本量不足,可能無法準確判斷不同樹深度設置下模型的真實性能差異,從而難以選出最佳的超參數值。在模型評估階段,樣本量或結局數量過小可能導致評價結果不穩定,會影響對模型可靠性和泛化能力的判斷。因此,要求作者完整詳細地報告各分析階段的樣本量,可以更全面地理解模型開發的背景,幫助讀者評估模型的表現和合理性,也為其他研究者進行驗證和進一步研究提供了基礎信息[28]。
例文對模型開發階段的樣本量和結局事件信息有一定描述,提到使用交叉驗證方法進行了超參數調整;提供了外部驗證數據集和模型性能評估指標。
2.7.3 模型定義
條目22:提供完整預測模型的詳細信息(例如公式、代碼、對象、API),以便進行新個體預測和第三方評估、使用,包括關于獲取或重復使用的限制條件(例如可免費獲取、專有等)。
解讀:機器學習模型常伴隨有復雜的算法和大量的參數,其公式、代碼、對象、應用程序接口是理解和應用模型的基礎,如果只提供簡要描述,很難全面理解其內部機制。公開模型細節,如代碼和API,可以讓研究者和用戶更透明地了解模型的設計和預測流程,也促進了模型的傳播和應用。這也和前面的條目18呼應。
例文沒有提供完整的預測模型詳細信息(如公式、代碼或API),也未說明獲取模型的方式或限制條件。
2.7.4 模型性能
條目23:23a,報告模型性能評價指標的估計值及其置信區間,包括在關鍵亞組(如社會人口學特征)中的表現。可以考慮采用圖表形式進行展示。23b,如有評估,報告模型在不同人群間性能的差異,參見TRIPOD-Cluster[20]。
解讀:如方法中敘及的,模型的性能評價無論對于模型開發和評估都是十分重要的內容,應詳細報告模型性能評價指標的估計值及其置信區間。作者可參考 TRIPOD-Cluster 報告規范針對不同亞型人群進行模型性能評價,并進行適當的假設檢驗,如 t 檢驗、ANOVA 等,比較不同亞組模型性能的差異是否具有統計學意義[29]。基于統計結果,解釋和討論模型性能的差異來源,說明可能的異質性原因及其對模型應用的影響,如數據質量、群體特征和預測因子與結局之間的關系,并提出改進模型性能或應對異質性的建議。
例文提供了模型的主要性能指標(AUC、敏感性、特異性)及其置信區間,并通過外部驗證評估了模型在不同人群中的泛化能力。
2.7.5 模型更新
條目24:如果模型有更新,請報告所有更新結果,包括更新后的模型及其性能。
解讀:隨著新數據的積累,原有模型在某些特定人群或情境下的預測性能可能下降,因此模型必須不斷更新調整以提高自身性能。機器學習模型與傳統模型一樣,必須報告每次模型更新的結果,包括更新后的模型和后續性能。作者應提供更新后模型的詳細信息,包括模型的輸入、輸出、所有中間層和連接,以及任何新添加的預測因子或調整后的各項參數。作者還應報告更新后模型的性能表現,包括區分度、校準度以及其他相關性能指標,并指出未來研究的方向和局限性。
例文中沒有提到模型更新,因此并沒有提到模型更新的內容。
2.8 討論
2.8.1 解讀
條目25:對主要結果進行整體解讀,包括本研究目的,及在已有研究的回顧中討論公平性問題。
解讀:TRIPOD+AI要求研究者在討論部分對主要結果進行總體解讀,相比于傳統模型,機器學習模型必須考慮公平性問題。作者需要闡述主要的研究發現并引用關鍵數據、圖表或統計結果以提供支持,討論研究結果是否達到了預期的研究目的,將本研究的結果與以往相關研究進行對比,分析本研究的獨特貢獻和創新點。解讀結果時,特別需要關注公平性問題,通過探討樣本是否出現選擇偏倚、研究結果是否適用于所有相關人群等問題,從而提高研究的普適性和應用價值[30]。
例文在討論部分,提到文章缺乏全面的種族數據,該模型在歐洲和亞洲以外人群中的適用性有限。同時對納入研究的變量進行了簡化,可能會影響不同群體間的公平性。
2.8.2 局限性
條目26:討論該研究所存在的局限性(如樣本缺乏代表性、樣本大小、過擬合、缺失數據)及其所引起的偏倚、統計不確定性和外推性的影響。
解讀:TRIPOD+AI鼓勵研究者像構建傳統預測模型一樣,詳細討論研究中的各種局限性,并分析這些局限性可能對研究結果帶來的偏倚、不確定性以及對可推廣性的影響。機器學習模型的局限性主要在于數據質量與偏倚、模型解釋性、外部適應性、臨床整合難度、倫理和隱私問題[31-32]。作者應客觀、全面地探討這些局限性,以幫助讀者評估研究結果的可信度、適用性和可推廣性。
例文“討論”部分提到了研究設計的固有限制、種族多樣性的局限性、變量選擇的局限性、時間因素的局限等。
2.8.3 模型適用性
條目27:27a,描述在應用預測模型時,如何評估和處理低質量或不可得數據(如預測因子數據);27b,明確用戶在處理輸入數據或使用模型時是否需要進行交流合作,以及需要具備的專業知識水平;27c,討論下一步研究的方向和計劃,重點關注模型的適用性和可推廣性。
解讀:相比傳統預測模型,機器學習模型在實際應用中對實施指導的要求更為嚴格。由于現實情況下輸入數據可能因各種原因而質量差或不可用,因此TRIPOD+AI要求研究者在報告中詳細描述如何評估和處理這類數據,以確保模型的準確性和可靠性。作者應具體說明評估輸入數據質量所用的標準和方法,以及對質量差或缺失數據的處理策略,如數據插補、數據修正或刪除,并討論這些方法可能對模型擬合帶來的影響[33]。此外,TRIPOD+AI要求研究者明確用戶在使用模型時是否需要進行數據處理,并指出所需的專業知識水平,以確保模型被正確、有效地應用。
在例文中,模型采用了簡化設計,僅依賴10個最相關變量,從而在數據不完整的情況下仍能保持較高的實用性和可靠性。此外,論文提到,InterTAK-ML模型被開發為一種用戶友好的在線工具,用戶可以通過輸入簡單的變量實現操作,降低了使用門檻。對于未來的研究方向,論文提出了進一步驗證模型適用性和推廣性的必要性,同時強調探索模型在不同醫療環境中的表現,以確保其在廣泛臨床場景中的實用價值。
2.9 TRIPOD+AI清單的使用
TRIPOD+AI聲明作為TRIPOD的更新版,其檢查清單將完全取代TRIPOD(2015)。項目組極力倡導研究者在論文撰寫伊始便運用該清單,以明晰相關內容,并著手準備相關細節。
研究人員需要下載TRIPOD+AI清單文件,可從官方站點(https:// www.tripod-statement.org/)下載或從補充材料1獲取,并對照清單中的每一條目逐一進行檢查,并進行標記,以便于編輯或同行評審快速定位,提高評審效率。如果報告中有對應條目的內容,應標明頁碼或具體位置。如果條目不適用于本研究,需在清單中填寫“NA”(not applicable,不適用),并解釋不適用或無法提供的原因。如果由于文章篇幅限制,難以在正文中全部呈現,比如有關模型性能的指標或圖表、數據分析代碼或數據集說明等內容,可放入補充材料,并在主文中引用。此外,建議提供開放科學聲明,明確數據和代碼的共享情況(如通過公開鏈接訪問),以支持透明性和可重復性。完成報告后,可將清單作為附錄提交。
TRIPOD+AI項目組一再強調,該聲明僅用于提升預測模型研究報告的透明性和質量,不是質量評估工具。同時,TRIPOD+AI檢查表中的大部分條目雖然均考慮論文的自然順序,但有些條目是基于其特殊考慮進行的順序安排。因此,該清單并不推薦結構化格式,具體順序應取決于預測模型及目標刊物的格式要求。
3 小結
TRIPOD+AI作為針對機器學習預測模型的報告規范,系統涵蓋了從模型開發到評估的全過程,要求研究者明確數據來源、變量選擇依據、數據預處理步驟,并對模型性能進行全面評估。它并不是一個質量評估工具,而是為研究者提供最低限度報告要求的規范,旨在確保預測模型研究的透明性和完整性。相比傳統預測模型的報告要求,TRIPOD+AI增加了對公平性分析、偏差校正和結果透明化的細化要求,特別是在評估模型泛化能力時,需明確外部驗證的流程和結果,并分析不同人群中的表現差異。但TRIPOD+AI條目眾多,涵蓋了模型開發、評估、預測因子選擇、結果分析等多個方面,直接應用可能對研究者存在一定挑戰。為幫助國內研究者更好地理解和使用這一指南,筆者翻譯了相關條目,并結合具體文章進行解讀。這一工作將促進國內醫學AI研究的規范化發展,并為臨床實踐提供更可靠、更透明的支持工具。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:粟文和賴澤鵬共同負責原始英文論文的翻譯與解讀,撰寫初稿,并對文中的關鍵內容進行深入分析與闡釋。兩位作者對本研究的整體框架設計和具體內容貢獻均等。蔣昊林對翻譯內容和解讀的準確性進行了全面核對,并對文章結構和語言表達進行了優化,為最終稿的完成提供了重要支持。陳衛中和曾子倩負責全程指導,包括研究方向的選擇、學術規范的把控,以及論文最終版本的審閱與修改。
隨著全球科技革命4.0、生命科學革命3.0時代的到來,在精準醫學理念下,醫學的數據化、精準化、智能化特征越來越明顯,醫學和生物科學領域數據得到極大豐富。由數據驅動的人工智能(artificial intelligence,AI)及機器學習(machine learning)技術的發展,以及在醫學領域的應用,使大規模、高維度、動態性的醫學大數據得以快速整合,其產生的判別或分類模型(discriminative model)和預測模型(predictive model)在醫學領域中被用來判別/區分不同的疾病狀態,預測發病風險或預后,展現出在疾病診斷、預后預測和治療決策支持中的巨大潛力[1-2]。但是,機器學習模型的應用也帶來了諸如數據偏倚、模型透明性、結果可重復性等挑戰[3],因此規范化的報告標準顯得尤為重要。為應對這一需求,構建起數據驅動的診斷、預后研究標準化體系刻不容緩。為此,Gary等發布了基于機器學習的多變量預測模型個體預后或診斷的透明報告(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis,TRIPOD)+AI聲明。為幫助學者更好地理解和應用TRIPOD+AI聲明,筆者結合實例對其進行了解讀,希望為研究人員提升報告質量提供支持。
1 TRIPOD+AI聲明的制訂背景
Moher等在2010年著手進行TRIPOD的開發,并在2015年發布(https:// www.tripod-statement.org/),旨在為開發或評估預測模型性能的研究提供最低限度的報告建議[4]。但隨著機器學習技術的興起,支持向量機、隨機森林、深度學習等機器學習算法給模型帶來了革命性的變革,雖然TRIPOD聲明與建模技術本身關聯不大,但制定之時主要針對的是由理論驅動的統計回歸模型,其與機器學習技術在建模策略、數據處理、評價目標等方面都有較大差別,對報告的透明度和完整性提出了新的要求,因此急需對聲明進行更新。TRIPOD團隊的領導者和合作學者于2019年4月啟動了TRIPOD+AI的開發,并于2022年7月最終確定了TRIPOD+AI的條目。其中的“+”表示其是以TRIPOD為基礎,適用于統計回歸模型或機器學習方法開發的預測模型的研究,同時為與現有涉及AI的研究報告指南保持一致,使用附加術語“AI”,但實際上支撐模型的為機器學習算法[5]。因此,為了便于閱讀,筆者仍然稱之為機器學習。
2 TRIPOD+AI聲明條目的解讀
該聲明適用于采用機器學習或傳統回歸方法,開發和(或)評估預測模型的研究報告,其核查清單涵蓋了題目、摘要、前言、方法、開放科學、患者與公眾參與、結果、討論8個部分,共27個主條目、52個子條目。另外,專門制定了13個條目的摘要核查清單。詳細參見補充材料1和補充材料2。
筆者以發表在European Journal of Heart Failure雜志的論文“Machine learning-based prediction of in-hospital death for patients with Takotsubo syndrome: the InterTAK-ML model”[6]為實例,在解釋條目的基礎上對例文進行分析。報告條目檢查清單詳見補充材料1,以幫助讀者更好地理解與應用TRIPOD+AI聲明。
2.1 標題
條目1:明確研究為開發和(或)評估多變量預測模型,以及適用的目標人群和所預測的結局。
解讀:與TRIPOD相比,TRIPOD+AI更強調研究的具體應用背景,包括是否涉及機器學習,同時明確目標人群、結局指標,以及研究是開發模型還是驗證模型。因此,標題應使用清晰且專業的術語,使讀者一目了然研究的核心內容和機器學習應用特點[7]。
例文的中文標題為“基于機器學習的Takotsubo綜合征患者住院死亡風險預測:InterTAK-ML模型”,明確了研究的核心內容,即通過機器學習模型預測Takotsubo綜合征患者的住院死亡風險。標題清晰地反映了研究的目標人群—Takotsubo綜合征患者,以及預測的結局—患者在住院期間死亡。標題明確提及了機器學習方法,并通過模型名稱“InterTAK-ML”進一步突出了研究的核心方法和成果,直接傳達了研究的目標和方法。然而,標題未明確區分研究是專注于模型的開發、評估,還是兩者兼顧,但從研究目的和結果來看,應是模型開發研究。整體而言,標題使用了簡潔的專業術語,基本符合該條目的要求。
2.2 摘要
條目2:參見TRIPOD+AI獲取摘要清單(具體見補充材料2)。摘要是論文的精簡概述,其目的是用簡潔清晰的語言向讀者傳遞研究過程及其核心發現。清單可以幫助研究人員確保摘要內容的全面性和結構化,主要包括:標題、背景、目的、方法、結果、討論、資金和注冊信息。
解讀:首先是背景部分,需要簡要說明所研究問題的醫學背景和研究進展,以明確構建或評估預測模型的動機,及其在臨床診療實踐中的必要性。該部分報告應簡潔充分,解釋為什么這項研究至關重要,并為研究目的的引出奠定基礎。其次是目的部分,應詳細說明研究的具體目標,尤其要明確研究是專注于模型的開發和(或)評估,從而清晰明確地傳遞研究的性質和研究的重點。第三是方法部分,必須明確報告以下內容:① 數據的來源及納入排除標準。例如數據的地理來源、樣本大小、數據的收集方式等,并報告數據的質量控制措施,以確保預測模型的有效性和外推性;② 尤其是對于預后模型而言,需要簡要描述模型預測的時間范圍,以明確預測結果的意義和價值;③ 概述模型類型,無論使用的是回歸模型、判別模型、深度學習模型,還是貝葉斯模型,均需簡要描述[8];④ 概述建模的關鍵步驟及內部驗證方法(如交叉驗證或留一法),以便讓讀者了解模型的魯棒性和可靠性[9]。第四是結果部分,應至少包括3方面內容:① 研究對象及所研究結局事件的數量;② 最終納入模型的預測因子,包括人口學變量、臨床特征、健康信息等;③ 模型的預測性能,例如ROC曲線下面積(area under curve,AUC)值及其置信區間。第五是討論部分,作者應從整體上解釋研究結果的意義,并指出模型的實際應用場景或局限性,有助于幫助讀者理解研究的影響以及未來可能的研究方向。第六是研究注冊信息,包括注冊號和注冊數據庫的名稱,以確保研究的透明性和可追溯性。
例文摘要沒有背景部分,因此沒有在摘要提出所研究問題的醫學背景和研究進展,但在目的、方法、結果及討論部分,數據來源清晰,模型類型明確,建模步驟、驗證方法到位,且研究對象、預測因子、模型性能指標報告完整。但在討論的部分比較欠缺,沒有指出模型可能存在的局限性,也缺乏對更進一步研究的建議,只提到了該模型的優越性。同時摘要部分也沒有資金和注冊信息。
2.3 前言
2.3.1 背景
條目3:3a,闡述研究的醫學背景(包括診斷或預后),以及開發或評估預測模型的理由,包括對既有模型的引用或參考;3b,描述目標人群和預測模型在臨床路徑中的預期用途,以及模型的預期使用者(如醫療保健專業人員、患者、公眾);3c,描述可能存在的健康不平等問題。
解讀:相比TRIPOD,TRIPOD+AI更關注機器學習技術處理多源性、高維度、動態性醫學大數據的優勢,要求通過高效且適當的算法妥善解決相關問題,從而提升醫療預測模型的質量和實用性,為醫療領域提供更精準、更個性化的服務。因此,可以在背景中報告機器學習模型在處理本研究真實數據情境下的獨特優勢或價值[10]。
由于機器學習模型主要是通過“學習”源數據表現出來的特征完成模型構建,其預測性能和有效性很大程度上也取決于其應用的目標人群和具體應用場景與源數據是否適配。因此,必須從人口社會學特征、生活行為方式、疾病特征等方面對目標人群進行準確定義,并對應用場景進行精確劃分,比如初次診斷、復發診斷、鑒別診斷,以及短期、長期預后等,以確保讀者能夠更好地了解模型的適用范圍和泛化能力。
由于受到數據來源、質量、預測因子選擇等諸多因素影響,常常導致應用于預測模型的源數據出現“偏向”特定群體的情況,而通用的模型預測性能評價指標往往也掩蓋了模型在不同群體中的表現,相比于傳統模型機器學習方法更容易出現健康不公平問題,因此要求作者要在模型的開發和評估階段,增加偏倚檢測與公平性評估的步驟,以避免模型對某些群體產生系統性誤差[11]。
例文在背景部分,詳細說明了Takotsubo綜合征的疾病特性及其嚴重性與InterTAK-ML模型開發理由,并明確目標人群與模型的預期用途,包括模型的作用和預期使用者,模型是預測短期預后,且相比于以往常用的德國和意大利壓力性心肌病(GEIST)評分系統,例文提出的新模型可以提供更精確的預測,減少傳統方法的局限性,但是在該部分沒有明確說明健康不平等問題。
2.3.2 目的
條目4:明確研究的目標,并說明研究是否涉及模型的開發、評估,或者兩者兼有。
解讀:與TRIPOD在前言目的部分寫作要求一致,TRIPOD+AI需要作者清晰地陳述研究的具體目標是什么,是為了開發一個新模型,還是評估既有模型的性能,還是同時進行模型的開發和評估。
例文在背景中明確地提到是進行模型的開發,模型評估未直接提及。
2.4 方法
2.4.1 數據
條目5:5a,分別描述用于模型開發和評估數據集的數據來源(例如隨機試驗、隊列、常規治療或注冊研究數據)、使用這些數據的理由以及數據的代表性;5b,明確收集數據的關鍵日期,包括對象招募的開始、結束日期,以及隨訪結束日期(如果適用)。
解讀:TRIPOD+AI與TRIPOD一致,都要求詳細描述數據的來源和收集時間,并解釋選擇利用這些數據的理由和數據的代表性,從而提供更多信息讓讀者能夠判斷模型時代背景,以及推廣到更廣泛的人群或臨床實踐中的可能性[11]。對于用于診斷的判別模型數據一般不涉及隨訪,而對于預后模型,隨訪時長無疑會對模型的開發和應用產生重要影響,必須對隨訪時長和預測的時間范圍做明確界定。同時,需要強調的是,在機器學習中為了保證模型的預測準確性和泛化能力,模型開發和評估應在不同的數據集上進行,因此應分別進行說明。
例文中明確說明了使用了兩個數據集,訓練和內部驗證隊列均來自國際Takotsubo登記研究(International Takotsubo Registry,InterTAK),具有較強的國際代表性,招募時間為2011年到2021年。外部驗證隊列來源于Takotsubo Italian Network,入組了2007年至2018年的患者,為獨立的來源數據。沒有提到隨訪的結束日期。
2.4.2 研究對象
條目6:6a,說明研究現場的基本特征(例如初級醫療機構、二級醫療機構、社區人群等),以及所選研究中心的數量和位置;6b,描述納入研究對象的納入和排除標準;6c,提供研究對象接受所有治療或其他醫學干預的詳細情況,且需說明在模型開發或評估期間如何處理干預特征。
解讀:TRIPOD+AI在研究對象的描述上延續了TRIPOD的要求,包括明確研究對象來源人群,以及研究對象的納入和排除標準,以便于讀者評估數據的質量、對象代表性與結果的外推性[12]。同時,TRIPOD+AI聲明特別強調了對于治療或其他干預措施的報告,這不僅是完整準確地報告數據特征的需要,以確保模型的可重復性和可比性。更重要的原因在于,干預可能通過改變數據特征,影響特征工程、挑戰模型結構機器參數等多個方面,進一步影響模型的準確性和泛化能力。因此,在模型開發或評估期間治療干預特征就顯得尤為重要,是必須報告的內容。
例文說明了數據來源于17個國家、58個心血管中心,但是未說明醫療機構層級和具體人群來源,提到以 InterTAK 診斷標準作為納入依據,但沒有列出具體的納入排除標準。只提到了收集干預相關數據,但是沒有明確說明具體干預特征,也未說明是否納入模型或進行控制。
2.4.3 數據準備
條目7:詳細描述所有數據預處理和質量核查的內容,并說明其在不同社會人口學特征群體中的一致性。
解讀:TRIPOD+AI要求詳細說明數據預處理和質量檢查流程,這一要求與機器學習模型的特點密切相關。機器學習數據質量的依賴度極高,數據噪聲、缺失值或信息偏倚會直接影響模型的準確性和泛化能力[13]。因此,研究者需在模型開發前進行數據核查,包括驗證數據是否合格(符合納入和排除標準),缺失值、異常值、邏輯錯誤的識別與處理等。在合并不同來源的數據時,應確保數據完整性,包括數據格式標準化、鍵值匹配、映射規則等的明確定義。此外,數據的質量問題可能因人群特征不同而出現不同的表現,在數據準備階段應保持核查策略和措施的一致性,以提高模型在不同人群的公平性和適用性[14]。
例文描述了缺失值處理、多重共線性分析等過程,提到數據通過標準化表格和臨床記錄審查收集,并剔除了高缺失變量,通過敏感性分析驗證了模型在不同群體中的性能一致性。
2.4.4 結局指標
條目8:8a,明確定義模型預測的結局指標和時間范圍,包括如何以及何時評估、選擇該指標的理由,并解釋評估方法在不同人群是否一致;8b,如果結局指標的測量需要主觀評估,應描述評估者的資質和人口學特征;8c,報告實現盲法評估的所有措施。
解讀:本條目中8a和8c延續了TRIPOD結局指標的要求,通過明確結局指標的定義、測量時間或時間窗口、測量方法等內容,以準確提供模型預測內容信息,如疾病狀態、是否復發、手術需求或治療效果等,研究者還需要解釋評估方法在不同群體中的一致性[15]。以上措施共同保障結局指標評估的科學性和公平性,并通過盲法測量減少人為干擾。此外,TRIPOD+AI新增了8b,類似于病理診斷、影像分析等結局指標,其結果依賴主觀判斷時,應詳細說明評估人員的專業背景和人口特征,包括學歷、臨床經驗及專業領域,以確保他們有能力進行準確評估,并幫助讀者判斷不同特征評估者是否存在潛在偏見的問題,提高研究的透明度和可靠性[16]。
例文明確說明模型預測的主要結局是住院死亡,時間范圍是患者住院期間的死亡事件,也提到了選擇該指標的理由,并討論了指標在不同人群中的一致性。而“住院死亡”是客觀指標,無需主觀評估。數據來源于注冊研究,流程較為標準化,有一定的盲法評估效果。
2.4.5 預測因子
條目9:9a,描述初始預測因子的選擇原因(例如參考相關文獻、既往模型、數據的可用性),及選擇過程;9b,明確定義所有預測因子,包括其測量方式和測量時間(以及實現盲法評估的所有措施);9c,如果預測因子的測量需要主觀評估,請說明預測因子評估者的資質和人口學特征。
解讀:雖然機器學習理論上能夠處理高維數據,但在實際應用中,如何從海量信息中篩選出關鍵特征,減少噪音特征干擾,同時縮短訓練時間、減少過擬合風險,從而提高模型的性能和可解釋性,進行預測因子選擇是機器學習必要的步驟。其中,初始預測因子的選擇可以基于文獻或既往模型研究、專家意見,以及行業慣例等依據,也需要綜合考慮數據獲取、質量保證的難易程度等現實情況,即數據的可用性。確定最終納入模型的預測因子階段,在機器學習中稱為特征選擇,可以基于數據探索、統計學方法、過濾技術等,比如選擇與結局變量相關系數更大的指標,或基于LASSO回歸等篩選預測因子。另外,一些高級的機器學習算法(如隨機森林、梯度提升樹等)本身具有特征重要性評估功能,可以利用其結果選擇重要的特征重新擬合模型。根據TRIPOD+AI的要求,以上內容均需要報告,以提高機器學習模型的透明性和可解釋性。9b、9c內容與結局指標報告要求基本一致,這里不再贅述。
例文中提到初始變量選擇基于臨床相關性、文獻和數據可用性,并結合嶺回歸進行篩選;定義了變量及其測量方式,明確了采集時間;但預測因子大多為客觀數據,主觀評估需求較少,因此沒有說明評估者的資質和人口學特征。
2.4.6 樣本量
條目10:解釋研究樣本量是如何確定的(分別針對模型開發和評估),包括所有樣本量計算的細節,并論證研究中的樣本量是否足以回答研究問題。
解讀:相比于TRIPOD的要求,TRIPOD+AI提出了關于樣本量更詳細的要求。這主要是因為在機器學習中,通常都需要大樣本量支持,以保證模型的性能、泛化能力,并可以一定程度上避免模型過擬合,以及訓練和評估模型時數據分布差異的問題。但樣本量過大勢必會增加數據清洗和預處理的難度,同時也會使模型訓練時間顯著增加,對計算資源需求大增。因此,在實際研究中仍需要根據研究目標、數據特征、模型復雜度,以及對模型性能的要求,合理確定樣本量的大小。有關的樣本量估計方法包括經驗法、基于分布理論的統計估計方法,以及數學模擬等方法[17-18]。但目前大部分有關機器學習的文獻,對樣本量提及均較少。
例文中并沒有明確說明樣本量是如何確定的,也未提供計算細節。因此,樣本量是否能充分回答研究問題存在一定的不確定性。
2.4.7 缺失值
條目11:說明缺失數據處理方法,以及數據剔除的原因。
解讀:TRIPOD+AI未對缺失值處理方法提出特定要求,允許研究者根據具體情況選擇適當方法。這主要是因為一些機器學習模型在處理缺失值方面更加靈活,比如決策樹及其集成算法(如隨機森林、梯度提升樹等)、神經網絡等,允許不對缺失值進行事先填補,而是在模型訓練過程中基于數據增強或遷移學習等數據驅動策略,自動適應缺失值的存在,根據其他完整信息以及缺失值本身的分布特點擬合模型,也同時避免了缺失值處理方式不當造成模型擬合錯誤的問題,顯示出比傳統插補方法更有效的特點。同時,如果在分析過程中忽略或剔除了某些數據,需解釋原因,以評估其合理性和公平性。
例文中提到對缺失值超過30%的變量直接剔除;在交叉驗證過程中,使用計量資料的中位數和計數資料的眾數進行插補缺失值,但未深入討論剔除數據或變量的特性及其對模型的影響。
2.4.8 統計分析方法
條目12:12a,描述數據的分析目的(如用于模型開發和性能評估),包括是否進行了數據集劃分,并考慮樣本量要求;12b,根據模型類型,描述預測因子在分析中的處理方式(如函數形式、重縮放、轉換、標準化等);12c,明確模型類型,解釋模型選擇理由,描述所有的模型構建步驟,包括超參數調整優化和內部驗證方法;12d,描述不同來源(如醫院、國家)的數據之間是否存在模型參數估計和性能評價中的異質性,并報告識別和處理方法,參考TRIPOD-Cluster聲明的特別注意事項[19-20];12e,明確定義研究中用于模型性能(如區分度、校準度、臨床效用等)評價的指標和圖表(以及選擇理由),明確模型選擇過程(如果適用);12f,描述在既有模型評估過程中是否進行了更新(如重新校準),包括模型整體層面的更新,或適用人口社會學群體或環境層面的更新;12g,對于模型評估,描述模型預測值是如何獲得的 [如公式、代碼、對象、應用程序編程接口(application programming interface,API)等]。
解讀:條目12包括7個子條目,其中a、b、c只針對模型開發研究;f、g只針對模型評估研究;d、e同時適用于兩種不同目的的研究。研究者需要準確報告相關內容,以提高研究的透明度,為其他研究者復現模型奠定基礎。
相比于傳統預測模型的構建,機器學習模型在開發、評估時,特別注重模型的預測準確性(內部有效性),并避免過擬合以提升模型的應用泛化能力(外部有效性),因此擴展和細化了許多要求,尤其對于深度學習,數據集劃分是標準步驟。根據分析目標不同,一般將數據集定義為了訓練集(training set)和測試集(testing set)。其中,用于模型開發或訓練的數據集稱為訓練集,在訓練過程中用于對模型結構、超參數等進行調整優化的數據集為驗證集(validation set)。而測試集是在模型開發完成后,用于最終評估模型性能的數據集。比如,可以采用靜態留出法劃分數據集,將原始數據集按照隨機抽取的方式將60%~80%的數據作為訓練集,10%~20%的數據作為驗證集,10%~20%的數據作為測試集。但該方法對數據的劃分方式比較敏感,不同的劃分方式可能得到不同結果,在模型訓練階段可以采取交叉驗證法(cross validation)進行,包括留一法、K折交叉驗證等,其基本思想是通過多次動態劃分訓練集和驗證集,將結果進行綜合作為訓練結果,尤其對于小樣本數據而言,能夠充分利用有限的數據進行學習和驗證,以保證模型的訓練結果和泛化能力,有效減低過擬合風險。
在分析中,預測因子的處理方式對預測模型開發至關重要,直接影響模型對數據的理解和利用能力,進而影響模型的預測性能。需要根據探索性分析的結果,明確預測因子納入模型的函數形式。例如,數據中預測因子與目標變量之間存在非線性關系,選擇非線性函數形式無疑更為恰當。當然,也可以通過數據轉換將非線性關系轉化為線性關系,以滿足特定算法的需求、提高數據的可學習性,避免欠擬合問題。同時,為了統一不同特征的尺度,提升模型收斂速度,并便于數據理解與比較,一般需要對因子進行歸一化、標準化等處理,這些都需要在方法部分進行報告。
無論是新模型開發還是既有模型的評估,預測模評估都是十分重要的內容,它不僅可以指導模型優化與選擇,而且可以了解模型性能的優劣,以確保模型的泛化能力和實際應用中的可信度。若根據應用目標、模型類型不同,開發出了多種指標供選擇,報告中應對相關指標進行明確定義,并說明選擇依據。
傳統模型通常沒有分層評估的需求,而在機器學習中,特別關注了不同群體或來源的數據間模型參數和性能估計結果的異質性問題,需要研究者說明對其的識別過程和處理方式,以確保模型在不同人群、不同醫院或地區等多樣環境中的泛化能力。
針對既有模型的評估,要求報告預測值獲取方法,需要提供有關預測值計算的公式、代碼、API等,以確保其透明性和評價的有效性[21]。
例文所選模型開發和內部驗證集來源于 InterTAK Registry,樣本按照75%∶25%隨機分配為訓練集和內部驗證集;外部測試集來自獨立的 Takotsubo Italian Network。數據預處理采用重縮放和缺失值處理,未提到是否進行了轉換或標準化。為了處理高維數據,且多變量之間存在共線性的問題,選擇嶺回歸進行特征選擇。例文詳細描述了模型構建步驟及內部驗證方法,也列出了模型性能評估的指標和選擇理由,但未直接提到對數據異質性的處理方法。例文的研究未涉及既有模型的更新,因此不需要描述更新內容。明確了預測值生成基于嶺回歸或logistic回歸模型,對輸入變量和來源進行了詳細描述。
2.4.9 類別不平衡
條目13:如果使用了解決類別不平衡方法,應說明理由和具體方法,以及后續重新校準模型或預測結果的方法。
解讀:類別不平衡是機器學習中的常見問題。例如,對于罕見病,當訓練數據集中患者和非患者人數相差非常懸殊,造成患者數量過少,即出現了類別不平衡。如果不進行特殊處理,多數類樣本會主導模型的學習優化過程,進而使模型在預測時更傾向于給出多數類的結果。因此TRIPOD+AI專門增加了對類別不平衡處理方法的要求,在數據層面可以采用過采樣、欠采樣,在算法層面采用加權損失函數或生成對抗網絡等進行處理[22]。處理類別不平衡后,可能需要對模型進行校準,以確保不同類別的預測概率真實反映實際情況,常用的方法有Platt scaling或Isotonic regression等[23]。
在例文中并沒有提到類別不平衡問題,因此也沒有對應方法的應用。
2.4.10 公平性
條目14:描述用于解決模型公平性問題的方法及其原理。
解讀:如前所述,與傳統預測模型相比,機器學習方法對數據本身的依賴性增強,在構建過程中更為復雜,因此保證模型在不同人群適用時的公平性就顯得尤為重要。除了前面在數據收集、預處理、特征選擇等方面的體現外,模型訓練過程中,可以通過對不平衡群體進行特殊調整、加權損失函數等方法進行處理。在模型評估中,可以使用特定的公平性指標,如均衡誤差率、差異影響、統計公平性等,或通過分層交叉驗證亞組獨立分析,比較不同群體的預測準確性、敏感性、特異性等指標,確保模型在不同特征群體表現的一致性或公平性[24]。
在例文中,并沒有明確提到模型公平性問題及其解決方法。
2.4.11 模型輸出結果
條目15:明確預測模型結果形式(如分類或分類概率),提供分類的詳細信息、分類依據,以及分類閾值的確定方法。
解讀:當預測模型用于狀態預測或分類任務時,模型一般是根據預測因子的取值,獲得屬于預定義分類類別的概率,進一步根據概率閾值標準,判斷出相應的類別,作為模型預測結果。比如,根據對象特征利用模型獲得有病的概率為58.2%,根據概率>50%判定為有病的閾值標準,則將對象判定為有病。條目要求報告確定分類閾值的依據,一般是根據應用場景,通過ROC曲線結合臨床意義,通過最大化敏感性和(或)特異性來設置閾值[25]。
例文中以住院死亡作為二分類任務的目標變量,模型性能通過AUC指標進行評估。
2.4.12 訓練與評估
條目16:識別模型開發與評估數據集在醫療環境、入選標準、結果和預測因子方面的任何差異。
解讀:機器學習模型與傳統預測模型都要求詳細描述模型開發過程中使用的數據,驗證或評估時所使用數據之間的差異,并分析其對模型性能的潛在影響,以確保模型在實際應用中的可靠性和適用性。TRIPOD+AI聲明還增加了對醫療環境和入選標準方面的要求。主要是因為開發數據和評估數據可能是不同來源的數據,比如不同醫院或不同的入選標準,如未充分考慮以上差異,可能會導致模型的預測效果顯著下降,或者模型無法很好地適應新的數據集[26-27]。
例文中提到開發數據集與外部驗證數據集來源不同,這說明研究開發的模型可以評估在不同地理和醫療環境下的泛化能力。兩組數據集均為InterTAK診斷標準納入患者,但未深入討論兩個數據集在預測因子分布和結局發生率上的差異及其影響。
2.4.13 倫理批準
條目17:列出批準本研究的機構研究委員會或倫理委員會,并說明是否已獲得研究對象的知情同意,或是否獲得了倫理委員會的豁免許可。
解讀:機器學習通常需要大量的患者數據來訓練和驗證模型,可能增大患者隱私和數據安全的敏感性。因此,TRIPOD+AI強調對數據使用的倫理審批和知情同意,以保護數據來源的合法性和道德性,確保研究在合法合規的前提下進行。
例文中,在方法部分并沒有提到知情同意及倫理審批。
2.5 開放科學
條目18:18a,提供本研究的資金來源及資助方在本研究中的角色;18b,聲明所有作者的利益沖突及財務披露情況;18c,說明研究方案的獲取途徑,或聲明未制定研究方案;18d,提供研究的注冊信息,包括注冊名稱和注冊編號,或聲明本研究未注冊;18e,提供獲取研究數據的詳細信息;18f,提供獲取分析代碼的詳細信息。
解讀:條目18的6個子條目主要規定了需要公開的信息內容。相比傳統預測模型,TRIPOD+AI特別強調公開透明化,委員會鼓勵研究者分享數據,以便其他研究者能夠驗證和重現結果。
在例文“提供資金”部分,作者明確說明了資金來源,并明確了資助方在研究中的角色,聲明了無利益沖突,但沒有提供研究注冊信息,也未聲明未注冊。同時也沒有提供代碼獲取的途徑,雖然研究使用了國際性數據集,但未明確說明數據是否公開,也沒有提供數據獲取的方式。
2.6 患者和公眾參與
條目19:提供在研究設計、實施、報告、解釋或傳播過程中,患者和公眾參與情況的詳細信息,或聲明無相關參與。
解讀:該條目體現了研究是否充分考慮到患者和公眾的觀點、需求和期望,即從對象的角度,考慮模型的實用性、可操作性和可讀性,從而提高醫學研究的質量和影響力。這是對傳統TRIPOD標準的一個重要補充。
例文中未提及患者和公眾的參與情況。
2.7 結果
2.7.1 研究對象
條目20:20a,描述研究過程中研究對象的變動情況,包括出現和未出結局事件的人數。對于隨訪性研究,還需提供隨訪時間的概要。使用圖表形式可能會使表達更清晰。20b,報告對象的整體特征,如果可能應報告不同來源或現場對象的特征,包括關鍵日期、關鍵預測因子(含人口學特征)、接受治療、樣本大小、結局事件數量、隨訪時間和數據缺失量。建議以表格形式報告。報告不同關鍵人口學特征對象間的差異。20c,在模型評估中,展示與開發數據中關鍵預測相關變量(人口學特征、預測因子和結局指標)分布的比較結果。
解讀:聲明特別建議研究者以變動流程圖的形式總結報告對象招募、排除、剔除的情況,并同時報告出現與不出現結局事件的人數。采用表格形式報告對象或數據的分布情況,并建議對于不同來源、醫院或研究中心的數據,進行分別報告,以及報告不同特征人群在預測因子方面的差異,主要目的仍然是增加研究的透明性,清晰地呈現出數據全貌,從而衡量數據的代表性和質量狀況,也提示研究者和讀者可能存在的類別不平衡等問題,為后續模型構建策略和評估奠定基礎,進而提高模型的公平性和可靠性。
對于模型評估而言,通過比較模型開發數據集和評估(或測試)數據集的分布,可以了解模型在從開發數據集到評估(或測試)數據集的轉換過程中,是否能夠適應不同的數據分布情況,從而評估模型的泛化能力。如果兩個數據集的分布差異過大,可能意味著模型在新的數據分布下性能會受到影響,無法很好地對未知數據進行準確預測。
例文未涉及長期隨訪,因此沒有相關的隨訪描述,但詳細列出了出現和未出現結局事件的人數。文章通過表格全面報告了患者的整體特征,包括人口學信息、預測因子和治療情況,明確了結局事件人數、總體患者數量以及住院死亡率。文章還提到剔除了缺失率較高的變量,但未在表格中單獨列出缺失情況。此外,未區分開發集和外部驗證集患者的詳細特征對比。研究還提供了外部驗證的性能評估,并指出預測因子的來源一致。
2.7.2 模型開發
條目21:明確說明各分析任務(如模型開發、超參數調整、模型評估)中研究對象和結局事件的數量。
解讀:該條目是TRIPOD+AI的一個獨有條目,其與對象中對樣本量的要求是基本一致的。研究對象和結局事件的數量直接關系到模型所能學習到的信息豐富程度。一般來說,較大的樣本量能讓模型接觸到更多的數據模式和特征關系,有助于提高模型的準確性和穩定性。在超參數調整過程中,研究對象的數量會影響超參數的選擇和調整策略。例如,在一個小樣本的機器學習任務中,對于決策樹模型的樹深度這一超參數,由于樣本量不足,可能無法準確判斷不同樹深度設置下模型的真實性能差異,從而難以選出最佳的超參數值。在模型評估階段,樣本量或結局數量過小可能導致評價結果不穩定,會影響對模型可靠性和泛化能力的判斷。因此,要求作者完整詳細地報告各分析階段的樣本量,可以更全面地理解模型開發的背景,幫助讀者評估模型的表現和合理性,也為其他研究者進行驗證和進一步研究提供了基礎信息[28]。
例文對模型開發階段的樣本量和結局事件信息有一定描述,提到使用交叉驗證方法進行了超參數調整;提供了外部驗證數據集和模型性能評估指標。
2.7.3 模型定義
條目22:提供完整預測模型的詳細信息(例如公式、代碼、對象、API),以便進行新個體預測和第三方評估、使用,包括關于獲取或重復使用的限制條件(例如可免費獲取、專有等)。
解讀:機器學習模型常伴隨有復雜的算法和大量的參數,其公式、代碼、對象、應用程序接口是理解和應用模型的基礎,如果只提供簡要描述,很難全面理解其內部機制。公開模型細節,如代碼和API,可以讓研究者和用戶更透明地了解模型的設計和預測流程,也促進了模型的傳播和應用。這也和前面的條目18呼應。
例文沒有提供完整的預測模型詳細信息(如公式、代碼或API),也未說明獲取模型的方式或限制條件。
2.7.4 模型性能
條目23:23a,報告模型性能評價指標的估計值及其置信區間,包括在關鍵亞組(如社會人口學特征)中的表現。可以考慮采用圖表形式進行展示。23b,如有評估,報告模型在不同人群間性能的差異,參見TRIPOD-Cluster[20]。
解讀:如方法中敘及的,模型的性能評價無論對于模型開發和評估都是十分重要的內容,應詳細報告模型性能評價指標的估計值及其置信區間。作者可參考 TRIPOD-Cluster 報告規范針對不同亞型人群進行模型性能評價,并進行適當的假設檢驗,如 t 檢驗、ANOVA 等,比較不同亞組模型性能的差異是否具有統計學意義[29]。基于統計結果,解釋和討論模型性能的差異來源,說明可能的異質性原因及其對模型應用的影響,如數據質量、群體特征和預測因子與結局之間的關系,并提出改進模型性能或應對異質性的建議。
例文提供了模型的主要性能指標(AUC、敏感性、特異性)及其置信區間,并通過外部驗證評估了模型在不同人群中的泛化能力。
2.7.5 模型更新
條目24:如果模型有更新,請報告所有更新結果,包括更新后的模型及其性能。
解讀:隨著新數據的積累,原有模型在某些特定人群或情境下的預測性能可能下降,因此模型必須不斷更新調整以提高自身性能。機器學習模型與傳統模型一樣,必須報告每次模型更新的結果,包括更新后的模型和后續性能。作者應提供更新后模型的詳細信息,包括模型的輸入、輸出、所有中間層和連接,以及任何新添加的預測因子或調整后的各項參數。作者還應報告更新后模型的性能表現,包括區分度、校準度以及其他相關性能指標,并指出未來研究的方向和局限性。
例文中沒有提到模型更新,因此并沒有提到模型更新的內容。
2.8 討論
2.8.1 解讀
條目25:對主要結果進行整體解讀,包括本研究目的,及在已有研究的回顧中討論公平性問題。
解讀:TRIPOD+AI要求研究者在討論部分對主要結果進行總體解讀,相比于傳統模型,機器學習模型必須考慮公平性問題。作者需要闡述主要的研究發現并引用關鍵數據、圖表或統計結果以提供支持,討論研究結果是否達到了預期的研究目的,將本研究的結果與以往相關研究進行對比,分析本研究的獨特貢獻和創新點。解讀結果時,特別需要關注公平性問題,通過探討樣本是否出現選擇偏倚、研究結果是否適用于所有相關人群等問題,從而提高研究的普適性和應用價值[30]。
例文在討論部分,提到文章缺乏全面的種族數據,該模型在歐洲和亞洲以外人群中的適用性有限。同時對納入研究的變量進行了簡化,可能會影響不同群體間的公平性。
2.8.2 局限性
條目26:討論該研究所存在的局限性(如樣本缺乏代表性、樣本大小、過擬合、缺失數據)及其所引起的偏倚、統計不確定性和外推性的影響。
解讀:TRIPOD+AI鼓勵研究者像構建傳統預測模型一樣,詳細討論研究中的各種局限性,并分析這些局限性可能對研究結果帶來的偏倚、不確定性以及對可推廣性的影響。機器學習模型的局限性主要在于數據質量與偏倚、模型解釋性、外部適應性、臨床整合難度、倫理和隱私問題[31-32]。作者應客觀、全面地探討這些局限性,以幫助讀者評估研究結果的可信度、適用性和可推廣性。
例文“討論”部分提到了研究設計的固有限制、種族多樣性的局限性、變量選擇的局限性、時間因素的局限等。
2.8.3 模型適用性
條目27:27a,描述在應用預測模型時,如何評估和處理低質量或不可得數據(如預測因子數據);27b,明確用戶在處理輸入數據或使用模型時是否需要進行交流合作,以及需要具備的專業知識水平;27c,討論下一步研究的方向和計劃,重點關注模型的適用性和可推廣性。
解讀:相比傳統預測模型,機器學習模型在實際應用中對實施指導的要求更為嚴格。由于現實情況下輸入數據可能因各種原因而質量差或不可用,因此TRIPOD+AI要求研究者在報告中詳細描述如何評估和處理這類數據,以確保模型的準確性和可靠性。作者應具體說明評估輸入數據質量所用的標準和方法,以及對質量差或缺失數據的處理策略,如數據插補、數據修正或刪除,并討論這些方法可能對模型擬合帶來的影響[33]。此外,TRIPOD+AI要求研究者明確用戶在使用模型時是否需要進行數據處理,并指出所需的專業知識水平,以確保模型被正確、有效地應用。
在例文中,模型采用了簡化設計,僅依賴10個最相關變量,從而在數據不完整的情況下仍能保持較高的實用性和可靠性。此外,論文提到,InterTAK-ML模型被開發為一種用戶友好的在線工具,用戶可以通過輸入簡單的變量實現操作,降低了使用門檻。對于未來的研究方向,論文提出了進一步驗證模型適用性和推廣性的必要性,同時強調探索模型在不同醫療環境中的表現,以確保其在廣泛臨床場景中的實用價值。
2.9 TRIPOD+AI清單的使用
TRIPOD+AI聲明作為TRIPOD的更新版,其檢查清單將完全取代TRIPOD(2015)。項目組極力倡導研究者在論文撰寫伊始便運用該清單,以明晰相關內容,并著手準備相關細節。
研究人員需要下載TRIPOD+AI清單文件,可從官方站點(https:// www.tripod-statement.org/)下載或從補充材料1獲取,并對照清單中的每一條目逐一進行檢查,并進行標記,以便于編輯或同行評審快速定位,提高評審效率。如果報告中有對應條目的內容,應標明頁碼或具體位置。如果條目不適用于本研究,需在清單中填寫“NA”(not applicable,不適用),并解釋不適用或無法提供的原因。如果由于文章篇幅限制,難以在正文中全部呈現,比如有關模型性能的指標或圖表、數據分析代碼或數據集說明等內容,可放入補充材料,并在主文中引用。此外,建議提供開放科學聲明,明確數據和代碼的共享情況(如通過公開鏈接訪問),以支持透明性和可重復性。完成報告后,可將清單作為附錄提交。
TRIPOD+AI項目組一再強調,該聲明僅用于提升預測模型研究報告的透明性和質量,不是質量評估工具。同時,TRIPOD+AI檢查表中的大部分條目雖然均考慮論文的自然順序,但有些條目是基于其特殊考慮進行的順序安排。因此,該清單并不推薦結構化格式,具體順序應取決于預測模型及目標刊物的格式要求。
3 小結
TRIPOD+AI作為針對機器學習預測模型的報告規范,系統涵蓋了從模型開發到評估的全過程,要求研究者明確數據來源、變量選擇依據、數據預處理步驟,并對模型性能進行全面評估。它并不是一個質量評估工具,而是為研究者提供最低限度報告要求的規范,旨在確保預測模型研究的透明性和完整性。相比傳統預測模型的報告要求,TRIPOD+AI增加了對公平性分析、偏差校正和結果透明化的細化要求,特別是在評估模型泛化能力時,需明確外部驗證的流程和結果,并分析不同人群中的表現差異。但TRIPOD+AI條目眾多,涵蓋了模型開發、評估、預測因子選擇、結果分析等多個方面,直接應用可能對研究者存在一定挑戰。為幫助國內研究者更好地理解和使用這一指南,筆者翻譯了相關條目,并結合具體文章進行解讀。這一工作將促進國內醫學AI研究的規范化發展,并為臨床實踐提供更可靠、更透明的支持工具。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:粟文和賴澤鵬共同負責原始英文論文的翻譯與解讀,撰寫初稿,并對文中的關鍵內容進行深入分析與闡釋。兩位作者對本研究的整體框架設計和具體內容貢獻均等。蔣昊林對翻譯內容和解讀的準確性進行了全面核對,并對文章結構和語言表達進行了優化,為最終稿的完成提供了重要支持。陳衛中和曾子倩負責全程指導,包括研究方向的選擇、學術規范的把控,以及論文最終版本的審閱與修改。