引用本文: 閆明海, 朱映璇, 林小瑩, 李衛, 王楊. 基于隨機對照試驗的個體處理效應預測模型的系統評價. 中國循證醫學雜志, 2024, 24(11): 1299-1304. doi: 10.7507/1672-2531.202403114 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
人類正努力向精準醫學時代邁進,其目標是根據個體患者獨特的臨床特征,找到正確治療方法,邁向個性化精準醫療的重要一步是通過開發預測模型來估計個體效應[1]。臨床醫生常使用預后模型對患者進行風險預測,將風險增加或降低的患者分別給予新興或保守診療方案。但出于研究設計的限制,預后模型只識別出了基線風險較高的患者,并未準確識別出接受治療后受益的特定人群[2]。換言之,并非所有新興療法都能較好地適用于預后模型預測的未來結局事件風險高的患者,需要構建直接指導臨床治療決策的模型。
個體處理效應(individual treatment effect,ITE)模型是以隨機對照試驗(randomized controlled trial,RCT)為基礎,估計個體在不同處理下結局發生概率,概率差異用于確定最適合患者的治療決策[3]。ITE模型將RCT反映的試驗組和對照組間平均治療效果轉變為個體治療效果[4],并提供接受其他治療方案的比較風險和潛在獲益信息[5],有望解決個體治療效果存在異質性的臨床難題。但ITE模型建立原則和方法受到關注有限,缺少針對性評價工具,模型開發的統計學方法研究仍處于起步階段。因此,本文旨在回顧基于RCT開發的ITE模型,通過模型整理與描述,系統總結模型開發現狀,評價偏倚風險,以期為未來預測模型開發、評價與臨床實際應用提供參考。
1 資料與方法
1.1 文獻檢索策略
計算機檢索PubMed和Embase數據庫,檢索時限為1990年1月1日至2024年6月14日。檢索策略為:(“randomized controlled trial” OR “randomized clinical trial” OR “clinical trial” OR “RCT”) AND (“predict” OR “prediction model” OR “individual treatment effect” OR “ITE” OR “calibration” OR “AUC” OR “area under the curve” OR “C statistic”) NOT (“prognostic model”)。
1.2 納入與排除標準
納入標準:基于RCT的ITE模型開發或驗證;排除標準:① 會議、評論或綜述等非原創性研究;② 評估新預測因子對現有模型的增量價值研究;③ 試驗組為生活方式等非治療干預;④ 預印本或無法獲取全文等。
1.3 資料提取
兩名研究者同時檢索文章標題和摘要,對篩選到的文章進行全文檢索,提取數據。提取項目清單是基于CHARMS預測模型研究系統回顧數據提取和關鍵評估指南[6]。提取的項目包括研究設計、人群、國家、結果、預測范圍、建模方法、內部驗證方法、研究參與者和結局事件的數量、預測因子數量和類型、模型表示和預測性能測量。如果一篇文章描述了多個模型,則對每個模型分別進行數據提取。
采用個體預后模型透明報告[7](transparent reporting of prediction model for individual prognosis or diagnosis,TRIPOD)中建議的評估預測模型性能的方法來系統回顧建模效果,包括區分度、校準度和臨床有效性三方面。模型驗證形式分兩類:內部驗證(引導驗證、交叉驗證和隨機分割等)和外部驗證(在獨立數據庫中評估)。有些研究開發了多個模型,有些模型在多個研究中進行了驗證,除非另有說明,分析單位是研究中的主開發模型。考慮到ITE模型與預后模型不同的建模場景,資料提取與評價時也重點關注ITE模型的獨有特點,以彌補工具的不足。
1.4 偏倚風險評價
采用PROBAST[8]工具評估預測模型的偏倚風險,涉及研究對象、預測因子、結局和統計分析4個領域。預測模型整體偏倚風險分3類:“高風險”“低風險”和“不清楚”。只要有1個領域認定為“高風險”,模型整體評價結果為“高風險”。
1.5 統計分析
結果分析采用描述性統計方法,以頻數和構成比呈現。系統評價報告時考慮PRISMA[9]和TRIPOD指南建議的各方面。使用Zotero 6.0軟件管理文獻,R 4.2.0軟件統計分析。
2 結果
2.1 文獻篩選結果
初檢出相關文獻10 579篇,經逐層篩選后,最終納入11篇文獻[1,10–19]。文獻篩選流程及結果見附件圖1。
2.2 預測模型構建情況
2.2.1 研究概述
11篇文章共描述了19個ITE模型的開發(每篇文章模型數量為1~5個不等)。9個(47.4%)ITE模型屬于國際多中心RCT研究,未發現使用來自中、低收入國家人群數據開發的模型。研究領域涉及心腦血管疾病(n=10,52.6%)和精神疾病(n=7,36.8%)等。模型開發的參與者數量在107~14 963例之間,事件數在47~7 923件之間(表1)。

2.2.2 預測因子與結局
模型包含預測因子數為3~14個,最常見的預測因子是年齡、性別、吸煙、收縮壓和糖尿病史。模型間預測結局有較大差別,10個(52.6%)預測模型以疾病進展為結局,4個(21.1%)模型以全因死亡為結局。模型預測范圍為3小時至4年,心血管或癌癥模型預測時間偏長,精神疾病模型偏短。
2.2.3 建模方法
ITE模型建模方式歸納為3類:含交互作用項的回歸模型(n=8,42.1%),是指通過識別治療與預測因子的交互項(即調節因子),再將預測因子與調節因子一起納入多變量方程,如logistic回歸、Cox比例風險回歸、基于Weibull分布的加速失效時間模型等,最終組合成ITE模型;機器學習(n=6,31.6%),是指基于樹或神經網絡的算法考慮多變量間復雜關系,識別導致異質性處理效應的變量,再組合成模型,如隨機森林、LASSO回歸和神經網絡分析等;雙方程模型(n=5,26.3%),是指試驗組和對照組分別建模,個體處理效應估計為組間預測概率差異,如Cox比例風險回歸(n=3)和Logistic回歸(n=2)。
2.2.4 模型評價與驗證
15個(78.9%)模型報告了區分度,如C統計量或AUC。11個(57.9%)模型報告了校準度,2個(10.5%)模型評價了臨床有效性。9個(47.4%)模型同時報告了區分度和校準度,僅1個(5.3%)模型報告了區分度、校準度和臨床有效性,未見其ITE模型評價指標報告(表2)。

18個(94.7)模型進行了內部驗證,13個(68.4%)模型進行了外部驗證,12個(63.2%)模型同時進行了內、外部驗證。內部驗證方法為自舉重采樣(n=8)、交叉驗證(n=7)和隨機分割(n=3)。
2.3 偏倚風險評估
PROBAST評價結果提示,大多數新開發模型偏倚風險較高(n=14,73.7%),僅4個ITE模型為低風險偏倚,表明實際使用時模型的預測性能可能低于報道的結果,見附件圖2。
1個(5.3%)ITE模型在研究對象納入領域具有高偏倚風險,表明建模樣本可能不代表模型目標人群。7個(36.8%)預測模型未明確參與者納入,偏倚風險評價不明確。預測因子領域偏倚風險評估表明模型在預測窗內可用,因子定義較明確,受結果測量影響較小。多數研究使用了易于評估的結果(如死亡),因此11個(57.9%)模型的結局領域被評為低風險。5個ITE模型的結果則包含了預測因子,判為高偏倚風險,值得關注。
統計分析是偏倚風險最高的領域,14個(73.7%)ITE模型在該領域存在高偏倚風險。ITE模型最常見的統計分析問題是缺失數據處理不正確(n=15,78.9%)及不恰當考慮模型過度擬合、欠擬合和最優擬合(n=5,26.3%);來自這些模型的性能數據可能過于樂觀,臨床應用需謹慎。
綜上,對基于RCT的ITE模型進行了特征總結,并與預后模型相比較區分(表3)。

3 討論
本篇基于RCT的ITE預測模型系統評價中,確定并嚴格評估了11項研究中描述的19個模型。本研究發現構建交互項、雙方程理論和機器學習是ITE模型開發的常用方法。目前,ITE模型數量較少,質量較差,其預測因子篩選與納入、建模方法選擇和模型表現評價的方法復雜,且需要更新,缺失數據處理、擬合優度考慮等統計分析細節需要關注。
含交互作用項的ITE模型通過允許構建協變量交互作用項來包含治療這一干預措施,這對于確定治療效果、優化治療選擇非常重要[20]。受試者特征與治療分配的相互作用既可以用來定義具有相似預期治療效果的患者亞組,也可以用來預測未來患者個體化治療效果[21]。但每個交互項所需的事件數量是單個預測因子的多倍,使用傳統回歸方法選擇“統計學顯著”交互作用項,可能會對層內效應估計產生夸大或誤導性估計[20]。通過P值選擇相對效應修飾因子,在許多方面都與單變量亞組分析相同,而且有許多相似弱點,如理論薄弱和噪聲數據,增加“假陽性”風險。一種折中的方法是在先驗臨床知識基礎上選擇一組預期成為相對效果修飾因子的變量,再通過Omnibus檢驗判斷交互作用顯著性。如果這個整體檢驗結果具有統計學意義,所有交互作用都包括在模型中;否則,都不是[20]。此外,含交互作用項的ITE模型容易過擬合,PATH聲明建議應避免使用不考慮模型復雜性的回歸方法來估計系數[21]。可考慮懲罰回歸方法(如彈性網正則化回歸等),縮小模型系數。本系統評價發現,部分含交互項的ITE模型未明確報告如何通過懲罰方法收縮預測因子系數,其可能產生的偏倚有待進一步研究。
雙方程模型是分別建立試驗組和對照組方程來模擬各自條件下的結局風險,兩組風險差值即為ITE。它的優點是適用性強,缺點是對研究樣本量、事件發生率要求較高。含交互作用項的回歸模型和雙方程模型應用范圍相似,適用于處理效應具有線性或非線性關系,并且處理效應可能受個體特征影響的情況。除了系統評價提及的方法,越來越多機器學習方法應用在ITE模型中,如隨機森林[22]、因果森林[23]、增益隨機森林[24]等,但這些建模方法需要更嚴格審視偏倚風險,并進行全面驗證。機器學習方法可自動捕捉數據中的復雜關系,包括非線性關系和交互作用,適應于處理效應可能受到多個因素的復雜影響,或不確定處理效應函數形式的情況。
ITE模型用于預測不同臨床干預下患者個體治療效果,即根據個體患者特征預測不同治療下的結局差異,進而決定一種治療是否可能比另一種治療更有益(或有害)[25]。例如,基于交互的單方程ITE模型,構建SYNTAX評分Ⅱ,指導冠狀動脈旁路移植術和經皮冠狀動脈介入治療的決策[13];基于雙方程ITE模型,構建PRECISE-DAPT評分,解決了雙聯抗血小板治療出血或缺血的風險-獲益難題[17];基于機器學習ITE模型,提供個體化抗抑郁藥物選擇方案,改善抑郁癥患者預后[12]。在臨床實踐中,ITE模型常用于解決治療效果大小和方向上存在非隨機變異的臨床問題,且該問題在RCT傳統亞組分析中常常無法解決。在未來,很多迫切解決的臨床問題,如強化降壓適應癥人群選擇;阿司匹林一級預防人群定位;雙聯降壓的個體化方案;激素治療患者減停策略等,ITE模型或許能給出新方案。
ITE模型的區分度、校準度和臨床有效性評價需引起關注。區分度告知研究者發生或不發生結局事件患者個人風險如何區分,校準度告知研究者模型給出的預測風險是否準確。因無法觀察到個體反事實替代干預下的結局,傳統C指數衡量ITE模型獲益預測的判別能力受限,可能會高估模型性能。Steyerberg提出使用C-for-benefit克服該問題[26],匹配試驗組與對照組具有相似ITE的患者,比較對子內實際結局發生的一致性,進而將觀察到的獲益分為三類:獲益、無獲益或傷害,C-for-benefit反映ITE模型在此三元結果基礎上區分配對患者的程度。此外,系統評價顯示只有極少數模型采取有效性評價,這提示研究者應從追求預測準確性向以模型的臨床效用為目標轉變。
需采用完整報告和合適的統計學方法,降低預測模型的風險偏倚。超半數預測模型被評估為具有較高或不確定的偏倚風險,這意味著模型在新樣本中的表現可能會比研究人員報告的更差[27]。超三分之二的模型在統計分析領域存在高偏倚風險,表明數據收集和研究設計充分,采取更優的統計分析可避免這些問題。導致偏倚的常見原因有:未充分解釋缺失數據,忽略模型校準,及不恰當的內、外部驗證方法。這些偏倚容易使模型估計結果過于樂觀,降低模型的臨床適用性,影響臨床決策。
本研究局限性如下:由于ITE模型數目較少,本研究沒有細分疾病領域進行系統評價。PROBAST更適用于預后模型,未來應針對ITE的場景下擴展評價要素,開發新的評價工具。盡管如此,ITE模型和傳統預后模型在開發和驗證方面具有相似性,作者在PROBAST工具基礎上考慮了ITE模型的特殊性,這可能一定程度上削弱了無特異性ITE模型評價工具造成的偏倚,研究結果可信。
綜上所述,以RCT為基礎的ITE模型在確定治療效果和優化治療選擇中起重要作用,特別是在醫療資源有限的中、低收入國家。含交互項、雙方程和機器學習等是常見的建模方法,但ITE模型開發數目少、統計學方法復雜與不完善、文章報告不規范等限制了其走向臨床實踐,建議未來增加ITE模型開發、新型模型評價工具研究。
聲明 所有作者聲明無利益沖突。
致謝 感謝本次科研及論文協作過程中導師及科室同事的指導和大力支持。
人類正努力向精準醫學時代邁進,其目標是根據個體患者獨特的臨床特征,找到正確治療方法,邁向個性化精準醫療的重要一步是通過開發預測模型來估計個體效應[1]。臨床醫生常使用預后模型對患者進行風險預測,將風險增加或降低的患者分別給予新興或保守診療方案。但出于研究設計的限制,預后模型只識別出了基線風險較高的患者,并未準確識別出接受治療后受益的特定人群[2]。換言之,并非所有新興療法都能較好地適用于預后模型預測的未來結局事件風險高的患者,需要構建直接指導臨床治療決策的模型。
個體處理效應(individual treatment effect,ITE)模型是以隨機對照試驗(randomized controlled trial,RCT)為基礎,估計個體在不同處理下結局發生概率,概率差異用于確定最適合患者的治療決策[3]。ITE模型將RCT反映的試驗組和對照組間平均治療效果轉變為個體治療效果[4],并提供接受其他治療方案的比較風險和潛在獲益信息[5],有望解決個體治療效果存在異質性的臨床難題。但ITE模型建立原則和方法受到關注有限,缺少針對性評價工具,模型開發的統計學方法研究仍處于起步階段。因此,本文旨在回顧基于RCT開發的ITE模型,通過模型整理與描述,系統總結模型開發現狀,評價偏倚風險,以期為未來預測模型開發、評價與臨床實際應用提供參考。
1 資料與方法
1.1 文獻檢索策略
計算機檢索PubMed和Embase數據庫,檢索時限為1990年1月1日至2024年6月14日。檢索策略為:(“randomized controlled trial” OR “randomized clinical trial” OR “clinical trial” OR “RCT”) AND (“predict” OR “prediction model” OR “individual treatment effect” OR “ITE” OR “calibration” OR “AUC” OR “area under the curve” OR “C statistic”) NOT (“prognostic model”)。
1.2 納入與排除標準
納入標準:基于RCT的ITE模型開發或驗證;排除標準:① 會議、評論或綜述等非原創性研究;② 評估新預測因子對現有模型的增量價值研究;③ 試驗組為生活方式等非治療干預;④ 預印本或無法獲取全文等。
1.3 資料提取
兩名研究者同時檢索文章標題和摘要,對篩選到的文章進行全文檢索,提取數據。提取項目清單是基于CHARMS預測模型研究系統回顧數據提取和關鍵評估指南[6]。提取的項目包括研究設計、人群、國家、結果、預測范圍、建模方法、內部驗證方法、研究參與者和結局事件的數量、預測因子數量和類型、模型表示和預測性能測量。如果一篇文章描述了多個模型,則對每個模型分別進行數據提取。
采用個體預后模型透明報告[7](transparent reporting of prediction model for individual prognosis or diagnosis,TRIPOD)中建議的評估預測模型性能的方法來系統回顧建模效果,包括區分度、校準度和臨床有效性三方面。模型驗證形式分兩類:內部驗證(引導驗證、交叉驗證和隨機分割等)和外部驗證(在獨立數據庫中評估)。有些研究開發了多個模型,有些模型在多個研究中進行了驗證,除非另有說明,分析單位是研究中的主開發模型。考慮到ITE模型與預后模型不同的建模場景,資料提取與評價時也重點關注ITE模型的獨有特點,以彌補工具的不足。
1.4 偏倚風險評價
采用PROBAST[8]工具評估預測模型的偏倚風險,涉及研究對象、預測因子、結局和統計分析4個領域。預測模型整體偏倚風險分3類:“高風險”“低風險”和“不清楚”。只要有1個領域認定為“高風險”,模型整體評價結果為“高風險”。
1.5 統計分析
結果分析采用描述性統計方法,以頻數和構成比呈現。系統評價報告時考慮PRISMA[9]和TRIPOD指南建議的各方面。使用Zotero 6.0軟件管理文獻,R 4.2.0軟件統計分析。
2 結果
2.1 文獻篩選結果
初檢出相關文獻10 579篇,經逐層篩選后,最終納入11篇文獻[1,10–19]。文獻篩選流程及結果見附件圖1。
2.2 預測模型構建情況
2.2.1 研究概述
11篇文章共描述了19個ITE模型的開發(每篇文章模型數量為1~5個不等)。9個(47.4%)ITE模型屬于國際多中心RCT研究,未發現使用來自中、低收入國家人群數據開發的模型。研究領域涉及心腦血管疾病(n=10,52.6%)和精神疾病(n=7,36.8%)等。模型開發的參與者數量在107~14 963例之間,事件數在47~7 923件之間(表1)。

2.2.2 預測因子與結局
模型包含預測因子數為3~14個,最常見的預測因子是年齡、性別、吸煙、收縮壓和糖尿病史。模型間預測結局有較大差別,10個(52.6%)預測模型以疾病進展為結局,4個(21.1%)模型以全因死亡為結局。模型預測范圍為3小時至4年,心血管或癌癥模型預測時間偏長,精神疾病模型偏短。
2.2.3 建模方法
ITE模型建模方式歸納為3類:含交互作用項的回歸模型(n=8,42.1%),是指通過識別治療與預測因子的交互項(即調節因子),再將預測因子與調節因子一起納入多變量方程,如logistic回歸、Cox比例風險回歸、基于Weibull分布的加速失效時間模型等,最終組合成ITE模型;機器學習(n=6,31.6%),是指基于樹或神經網絡的算法考慮多變量間復雜關系,識別導致異質性處理效應的變量,再組合成模型,如隨機森林、LASSO回歸和神經網絡分析等;雙方程模型(n=5,26.3%),是指試驗組和對照組分別建模,個體處理效應估計為組間預測概率差異,如Cox比例風險回歸(n=3)和Logistic回歸(n=2)。
2.2.4 模型評價與驗證
15個(78.9%)模型報告了區分度,如C統計量或AUC。11個(57.9%)模型報告了校準度,2個(10.5%)模型評價了臨床有效性。9個(47.4%)模型同時報告了區分度和校準度,僅1個(5.3%)模型報告了區分度、校準度和臨床有效性,未見其ITE模型評價指標報告(表2)。

18個(94.7)模型進行了內部驗證,13個(68.4%)模型進行了外部驗證,12個(63.2%)模型同時進行了內、外部驗證。內部驗證方法為自舉重采樣(n=8)、交叉驗證(n=7)和隨機分割(n=3)。
2.3 偏倚風險評估
PROBAST評價結果提示,大多數新開發模型偏倚風險較高(n=14,73.7%),僅4個ITE模型為低風險偏倚,表明實際使用時模型的預測性能可能低于報道的結果,見附件圖2。
1個(5.3%)ITE模型在研究對象納入領域具有高偏倚風險,表明建模樣本可能不代表模型目標人群。7個(36.8%)預測模型未明確參與者納入,偏倚風險評價不明確。預測因子領域偏倚風險評估表明模型在預測窗內可用,因子定義較明確,受結果測量影響較小。多數研究使用了易于評估的結果(如死亡),因此11個(57.9%)模型的結局領域被評為低風險。5個ITE模型的結果則包含了預測因子,判為高偏倚風險,值得關注。
統計分析是偏倚風險最高的領域,14個(73.7%)ITE模型在該領域存在高偏倚風險。ITE模型最常見的統計分析問題是缺失數據處理不正確(n=15,78.9%)及不恰當考慮模型過度擬合、欠擬合和最優擬合(n=5,26.3%);來自這些模型的性能數據可能過于樂觀,臨床應用需謹慎。
綜上,對基于RCT的ITE模型進行了特征總結,并與預后模型相比較區分(表3)。

3 討論
本篇基于RCT的ITE預測模型系統評價中,確定并嚴格評估了11項研究中描述的19個模型。本研究發現構建交互項、雙方程理論和機器學習是ITE模型開發的常用方法。目前,ITE模型數量較少,質量較差,其預測因子篩選與納入、建模方法選擇和模型表現評價的方法復雜,且需要更新,缺失數據處理、擬合優度考慮等統計分析細節需要關注。
含交互作用項的ITE模型通過允許構建協變量交互作用項來包含治療這一干預措施,這對于確定治療效果、優化治療選擇非常重要[20]。受試者特征與治療分配的相互作用既可以用來定義具有相似預期治療效果的患者亞組,也可以用來預測未來患者個體化治療效果[21]。但每個交互項所需的事件數量是單個預測因子的多倍,使用傳統回歸方法選擇“統計學顯著”交互作用項,可能會對層內效應估計產生夸大或誤導性估計[20]。通過P值選擇相對效應修飾因子,在許多方面都與單變量亞組分析相同,而且有許多相似弱點,如理論薄弱和噪聲數據,增加“假陽性”風險。一種折中的方法是在先驗臨床知識基礎上選擇一組預期成為相對效果修飾因子的變量,再通過Omnibus檢驗判斷交互作用顯著性。如果這個整體檢驗結果具有統計學意義,所有交互作用都包括在模型中;否則,都不是[20]。此外,含交互作用項的ITE模型容易過擬合,PATH聲明建議應避免使用不考慮模型復雜性的回歸方法來估計系數[21]。可考慮懲罰回歸方法(如彈性網正則化回歸等),縮小模型系數。本系統評價發現,部分含交互項的ITE模型未明確報告如何通過懲罰方法收縮預測因子系數,其可能產生的偏倚有待進一步研究。
雙方程模型是分別建立試驗組和對照組方程來模擬各自條件下的結局風險,兩組風險差值即為ITE。它的優點是適用性強,缺點是對研究樣本量、事件發生率要求較高。含交互作用項的回歸模型和雙方程模型應用范圍相似,適用于處理效應具有線性或非線性關系,并且處理效應可能受個體特征影響的情況。除了系統評價提及的方法,越來越多機器學習方法應用在ITE模型中,如隨機森林[22]、因果森林[23]、增益隨機森林[24]等,但這些建模方法需要更嚴格審視偏倚風險,并進行全面驗證。機器學習方法可自動捕捉數據中的復雜關系,包括非線性關系和交互作用,適應于處理效應可能受到多個因素的復雜影響,或不確定處理效應函數形式的情況。
ITE模型用于預測不同臨床干預下患者個體治療效果,即根據個體患者特征預測不同治療下的結局差異,進而決定一種治療是否可能比另一種治療更有益(或有害)[25]。例如,基于交互的單方程ITE模型,構建SYNTAX評分Ⅱ,指導冠狀動脈旁路移植術和經皮冠狀動脈介入治療的決策[13];基于雙方程ITE模型,構建PRECISE-DAPT評分,解決了雙聯抗血小板治療出血或缺血的風險-獲益難題[17];基于機器學習ITE模型,提供個體化抗抑郁藥物選擇方案,改善抑郁癥患者預后[12]。在臨床實踐中,ITE模型常用于解決治療效果大小和方向上存在非隨機變異的臨床問題,且該問題在RCT傳統亞組分析中常常無法解決。在未來,很多迫切解決的臨床問題,如強化降壓適應癥人群選擇;阿司匹林一級預防人群定位;雙聯降壓的個體化方案;激素治療患者減停策略等,ITE模型或許能給出新方案。
ITE模型的區分度、校準度和臨床有效性評價需引起關注。區分度告知研究者發生或不發生結局事件患者個人風險如何區分,校準度告知研究者模型給出的預測風險是否準確。因無法觀察到個體反事實替代干預下的結局,傳統C指數衡量ITE模型獲益預測的判別能力受限,可能會高估模型性能。Steyerberg提出使用C-for-benefit克服該問題[26],匹配試驗組與對照組具有相似ITE的患者,比較對子內實際結局發生的一致性,進而將觀察到的獲益分為三類:獲益、無獲益或傷害,C-for-benefit反映ITE模型在此三元結果基礎上區分配對患者的程度。此外,系統評價顯示只有極少數模型采取有效性評價,這提示研究者應從追求預測準確性向以模型的臨床效用為目標轉變。
需采用完整報告和合適的統計學方法,降低預測模型的風險偏倚。超半數預測模型被評估為具有較高或不確定的偏倚風險,這意味著模型在新樣本中的表現可能會比研究人員報告的更差[27]。超三分之二的模型在統計分析領域存在高偏倚風險,表明數據收集和研究設計充分,采取更優的統計分析可避免這些問題。導致偏倚的常見原因有:未充分解釋缺失數據,忽略模型校準,及不恰當的內、外部驗證方法。這些偏倚容易使模型估計結果過于樂觀,降低模型的臨床適用性,影響臨床決策。
本研究局限性如下:由于ITE模型數目較少,本研究沒有細分疾病領域進行系統評價。PROBAST更適用于預后模型,未來應針對ITE的場景下擴展評價要素,開發新的評價工具。盡管如此,ITE模型和傳統預后模型在開發和驗證方面具有相似性,作者在PROBAST工具基礎上考慮了ITE模型的特殊性,這可能一定程度上削弱了無特異性ITE模型評價工具造成的偏倚,研究結果可信。
綜上所述,以RCT為基礎的ITE模型在確定治療效果和優化治療選擇中起重要作用,特別是在醫療資源有限的中、低收入國家。含交互項、雙方程和機器學習等是常見的建模方法,但ITE模型開發數目少、統計學方法復雜與不完善、文章報告不規范等限制了其走向臨床實踐,建議未來增加ITE模型開發、新型模型評價工具研究。
聲明 所有作者聲明無利益沖突。
致謝 感謝本次科研及論文協作過程中導師及科室同事的指導和大力支持。