引用本文: 胡錦蕊, 趙紅, 彭雨琪, 何以晴, 謝倫芳. 直腸癌患者術后低位前切除綜合征發生風險預測模型的系統評價. 中國循證醫學雜志, 2024, 24(3): 295-302. doi: 10.7507/1672-2531.202306144 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
低位前切除綜合征(low anterior resection syndrome,LARS)是直腸癌患者接受前切除手術后的一種常見并發癥,表現為排便頻率增加、反復排便疼痛、排空困難、大便失禁等腸道功能障礙性癥狀,造成患者廁所依賴、過于關注腸功能等后果[1]。因研究設計、樣本量、評估時間和方法上存在差異,不同研究報道的LARS的發生率有所不同,一項Meta分析結果顯示,嚴重LARS的估計患病率為41%[2]。研究表明,LARS癥狀可能在患者術后第一年趨于改善,但隨著時間推移,仍存在癥狀的患者可能會伴隨長期甚至永久LARS[3],部分患者會因難以耐受嚴重腸功能障礙再次行永久性腸造瘺[4]。持續的嚴重LARS對患者生活質量產生了重大影響[5],而目前尚無基于循證醫學高質量證據的LARS治療方案[6],因此早期識別發生LARS的高風險人群,采取正確預防和干預手段至關重要。臨床預測模型基于多個預測變量建立統計模型,可用來預測相關結局事件發生的概率[7]。若能通過預測模型對LARS發生概率和嚴重程度進行可靠預測,將有助于在醫患術前共同決策過程中提供更多信息,促進術后早期干預方案的制定。近年來,關于LARS發生風險的預測模型逐漸增多,但模型質量和可用性尚不清楚。本研究旨在系統評價直腸癌患者術后LARS發生風險預測模型,以期為臨床醫護人員確定或開發可靠的預后風險評估工具提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
隊列研究、病例-對照研究和橫斷面研究。
1.1.2 研究對象
年齡≥18歲的直腸癌術后患者。
1.1.3 研究內容
直腸癌術后患者LARS發生風險的預測模型,詳細說明了模型的構建、驗證及評價的過程。
1.1.4 排除標準
① 非中、英文文獻;② 會議摘要、綜述、述評、信件等研究資料;③ 重復發表的文獻;④ 數據不完整或原文無法獲取;⑤ 僅分析危險因素,未進行預測模型構建;⑥ 模型包含的預測因子<2個。
1.2 文獻檢索策略
計算機檢索PubMed、Web of Science、Embase、Cochrane Library、Scopus、CINHAL、CNKI、CBM、WangFang Data和VIP數據庫,搜集有關直腸癌患者術后LARS發生風險預測模型的研究,檢索時限均為建庫至2023年6月13日。此外,追溯納入文獻的參考文獻,以補充獲取相關文獻。檢索采取主題詞和自由詞相結合的方式。英文檢索詞包括:rectal neoplasms、low anterior resection syndrome、predict*、prognos*、prediction model、prognostic model、risk prediction、risk score、risk assessment等;中文檢索詞包括:直腸腫瘤、低位前切除綜合征、風險預測、模型、風險評估、風險評分、危險因素等。
1.3 文獻篩選與資料提取
由2位研究者獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷,缺乏的資料盡量與作者聯系予以補充。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。本研究基于預測模型研究系統評價的關鍵評估和數據提取清單(critical appraisal and data extraction for systematic reviews of prediction modeling studies,CHARMS)[8]制作標準化表格進行資料提取,提取內容包括:第一作者、發表年份、國家、研究設計、研究對象、研究類型、隨訪時間、預測結果、候選變量、樣本量、缺失數據、建模方法、模型性能、驗證方法和模型呈現形式等。
1.4 納入研究的偏倚風險和適用性評價
由2名研究者依據預測模型研究的偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)[9]獨立對納入研究的偏倚風險和適用性進行評價,并交叉核對結果,如遇分歧,則咨詢第三方協助判斷。
1.5 統計分析
對研究結果進行描述性分析。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻1 162篇,包括PubMed(n=106)、Web of Science(n=161)、Embase(n=167)、Cochrane Library(n=29)、Scopus(n=339)、CINAHL(n=10)、CNKI(n=147)、CBM(n=91)、VIP(n=21)和WanFang Data(n=91)。經逐層篩選后,最終納入14項研究[10-23]。
2.2 納入研究的基本特征
納入研究的基本特征見表1。數據均來自臨床資料數據庫和患者報告。預測結局LARS的測量大多采用丹麥學者Emmertsen等[24]提出的低位前切除綜合征評分(low anterior resection syndrome score,LARSS)來評估。

2.3 預測模型的構建情況
納入的14項研究的潛在預測變量為5~22個,僅3項研究[10,20,23]保持了連續變量的連續性,其余研究均將連續變量離散化處理。樣本總量為110~1 651例,結局事件數為39~929例。缺失數據方面,8項研究[12-14,16,17,19,21,22]未報告是否存在缺失數據,Battersby等[10]通過多重插補和直接排除處理缺失值,Zhang等[20]則將存在缺失數據的研究對象直接排除。在模型建立方法上,1項研究[10]應用普通最小二乘法回歸構建模型,12項研究[11-22]采用Logistic回歸建模,Wang等[23]通過對比Logistic回歸、隨機森林、支持向量機、極限梯度提升4種不同的機器學習算法選取最優模型。候選變量選擇方面,1項研究[10]通過LASSO回歸篩選變量,還有1項研究[23]基于Boruta算法進行變量選擇,其余研究均采用單因素分析方法進行變量篩選。模型構建情況見表2。

2.4 模型性能和預測因子
納入的14項研究中包含17個預測模型,模型的區分能力主要通過受試者工作特征曲線下面積(area under the curve,AUC)和一致性指數(concordance index,C-index)進行評價。所有研究均報告了模型區分度,其中龐雪瀅等[21]的研究僅報告了內部驗證時的模型區分度。2項研究[10,14]使用C-index作為模型區分度指標,3項研究[16,17,21]同時使用AUC和C-index評價模型區分度,其余研究[11-13,15,18-20,22,23]則采用AUC報告區分度。除Battersby等[10]的研究,其余研究建模AUC/C-index(范圍:0.707~0.869)均>0.7,顯示出較好的區分度。10項研究[10,11,14,16-19,21-23]報告了校準,主要校準方法為校準曲線、Hosmer-Lemeshow擬合優度檢驗、Brier得分。模型驗證方面,8項研究[10,14,16-19,21,23]進行了內部驗證,主要方法為隨機拆分法和Bootstrap法,5項研究[10,14,18,22,23]進行了外部驗證,4項研究[10,14,18,23]采用內外部驗證相結合的方式進行模型評價,經外部驗證后模型AUC/C-index為0.625~0.852。納入模型最終包含2~8個獨立預測因子,出現頻率最多的預測因子是腫瘤位置(腫瘤距肛緣的距離)、新輔助治療、吻合口瘺、BMI。模型最終呈現形式以列線圖為主,另外,3項研究[11,13,20]以各因子β系數的風險公式展現結果,1項研究[10]還形成了在線風險評估工具。具體見表3。

2.5 偏倚風險與適用性評價
根據PROBAST評價標準對納入研究進行偏倚風險和適用性評價,具體結果見表4。

2.5.1 偏倚風險評價
納入的14項研究均呈現高偏倚風險,在研究對象領域,13項研究[10-17,19-23]被評為高偏倚風險,主要是因為采用了回顧性的研究設計。預測因子領域,3項研究[10,12,15]被評為高偏倚風險:2項研究[10,15]使用了多中心的數據,各中心預測因子的評估方式可能不同。1項研究[12]在結果已知的情況下評估預測因子。在結果領域,8項研究[11-15,18,19,22]被評為高風險,原因是:① 1項研究[19]結果的分類方法不合理;② 7項研究[11-15,19,22]可能未使用標準的結果定義;③ 4項研究[11,12,14,18]的預測因子測量和結果確定的時間間隔較短。所有研究分析領域均被評為高偏倚風險:① 13項研究[10-22]中自變量的事件數(events per variable,EPV)均<20;② 11項研究[11-19,21,22]將連續變量離散化處理;③ 12項研究[11-22]基于單因素分析篩選預測變量;④ 5項研究[11-13,15,20]未報道或僅使用Hosmer-Lemeshow擬合優度檢驗評估校準;⑤ 在模型擬合情況上,9項研究[11-13,15,17,19,20,22,23]未使用內部驗證或僅使用隨機拆分驗證法。
2.5.2 適用性評價
適用性方面,研究對象領域中3項研究[13,20,22]被評為高適用性風險:① 1項研究[13]的研究對象局限于年齡≥65歲的患者;② 1項研究[20]僅針對接受新輔助放化療的患者;③ 1項研究[22]僅針對進行回腸造口術并接受化療的患者。4項研究[11,12,14,18]在結果領域被評為高風險,原因是預測因子評估和結果確定的時間間隔較短。2項研究[16,17]的整體適用性被判定為不清楚,原因是未報告明確的結局隨訪時間。剩余5項研究[10,15,19,21,23]適用性良好。
3 討論
本研究共納入14項研究,包括17個預測模型,國內外關于直腸癌患者術后LARS發生風險的預測模型研究均始于2018年,尚處于初步發展階段。納入研究整體上顯示了良好的區分度,但并非所有研究都評估或正確評估了校準,且多數研究缺乏外部驗證。此外,在偏倚風險和適用性評價中,納入研究也存在著明顯的局限性,模型的具體可用性有待商榷。
良好的預測模型應具有較高的模型性能并進行嚴格的內外部驗證。然而在納入研究中僅4項研究[10,14,18,23]同時評估了區分和校準并開展了內外部驗證。Battersby等[10]利用兩個最大的國際LARS數據集創建了第一個直腸癌患者術后LARS發生風險預測模型(POLARS評分),該模型在建模和驗模組的C-index分別為0.615和0.625,呈現出可接受的區分度,但因種族差異等因素影響,模型是否適用于我國人群尚不可知。Wang等[23]基于我國2個醫療中心開發并比較了4種機器學習預測模型,其中隨機森林模型在開發和驗證隊列中均表現出優良的預測性能(AUC=0.869和0.852),且經研究者檢驗,該模型的預測性能明顯優于POLARS評分。然而,該研究外部驗證樣本量較小,研究對象的結果發生數不足100例,其模型性能可能被高估[25]。同樣,另外2項研究[14,18]也存在結果事件數不足的問題。上述模型雖進行了完整的性能評估和內外部驗證,但缺乏更新校準和多中心驗證,模型的廣泛適用性及穩定性仍有待考證,臨床醫護人員應結合實際情況審慎選擇已有模型。
當預測模型研究的研究設計、實施方法或統計分析存在問題,就會導致偏倚的發生,影響模型性能估計。本次評價中所有模型均呈高偏倚風險。風險集中于研究對象、結果和分析領域。研究對象領域中,回顧性研究多為二手數據收集,其測量和記錄可能與實際存在偏差[25]。結果領域中,首先,現有研究關于LARS的結果定義并不統一,涵蓋LARS最新定義的國際共識[1]發表于2020年,因此,該定義對現有預測模型研究的指導可能有限。其次,由于LARS癥狀可能會隨著時間的推移而改善,盡管確定LARS結局的最合適隨訪時間仍需進一步研究,但有研究報告,短暫隨訪期的結果可能不足以評估患者的腸道功能,在恢復至少12個月的腸道連續性后評定LARS是可接受的[26]。本次評價的4項研究[11,12,14,18]在患者術后一年內即開始隨訪,最短隨訪時間僅為術后3個月,因此其預測因子評估和LARS結果確定的時間間隔可能不合理。分析領域的偏倚風險主要體現在:① 樣本量不足:根據PROBAST[25],在模型開發研究中,為防止模型過度擬合,EPV應≥20,在外部驗證研究中,為減少模型性能估計的偏倚風險,結果事件應≥100。然而僅1項研究[23]滿足模型開發樣本量要求,1項研究[10]滿足模型驗證樣本量要求。② 預測因子處理欠佳:大多數研究將連續變量離散化處理,這可能導致信息丟失,降低模型預測能力[27]。③ 缺失數據處理不當:2項研究[10,20]直接排除了缺失數據,而更多研究甚至并未報告數據缺失的信息。簡單排除或單一插補會造成模型性能偏差,建議使用多重插補方法處理缺失數據[28],并在研究中公開報告。④ 預測因子篩選方法欠佳:12項研究[11-22]均使用單因素分析選擇變量,這可能會遺漏重要的預測因子,可考慮前向選擇、向后消除、逐步回歸、LASSO回歸等統計方法進行篩選[29]。此外,預測因子應結合文獻研究和專家意見進行選擇,需充分考量臨床重要性、模型運用時預測因子的可用性以及收集預測因子的便利性和成本等[25]。⑤ 缺乏對模型性能的完整評估:為充分衡量模型,應同時評估區分和校準。校準反映了預測風險與實際發生風險的一致程度,通常使用校準圖、校準斜率、校準截距和Brier得分衡量,而非僅報告Hosmer-Lemeshow擬合優度檢驗。但本次評價中有4項研究[12,13,15,20]未評估校準,1項研究[11]僅使用Hosmer-Lemeshow擬合優度檢驗校準。⑥ 未對模型進行(合理的)內部驗證:6項研究[11-13,15,20,22]未進行內部驗證,無法判斷模型的擬合程度。另有3項研究[17,19,23]使用隨機拆分驗證,由于隨機拆分法在樣本量較小的情況下會對開發數據造成極大浪費[30],推薦首選Bootstrap方法進行內部驗證[31]。鑒于現有研究存在較高的偏倚風險,建議未來研究在進行模型開發與驗證研究時遵循最新共識的LARS定義,同時應更審慎地選擇結局隨訪期,可參考個體預后或診斷多變量預測模型透明報告[32]對研究設計和研究報告進行規范。
本研究中納入模型最終包含的預測因子不盡相同,但仍存在一定共性。腫瘤位置、新輔助治療、吻合口瘺、BMI是出現頻率最多的預測因子。腫瘤距離肛緣的距離越近,術后殘余直腸長度越短,周圍肌肉神經受損越嚴重,患者發生腸功能障礙的風險則越高[21]。而新輔助治療雖可減少復發,提高保肛率,但放化療均會造成直腸功能損害,尤其是放療會引起直腸周圍纖維化,降低殘余直腸的順應性[33],導致LARS發生風險增加。此外,吻合口瘺和BMI也被認為與LARS發生相關。當患者發生吻合口瘺后,吻合口愈合過程中會形成瘢痕,影響新直腸的容積和順應性[34]。BMI在不同研究中的臨界值不同,但既往研究報告,高BMI的患者手術空間通常狹小,會增加手術難度,可能會影響包括腸功能障礙在內的整體功能預后[35]。因此,臨床醫護人員應對腫瘤位置較低、接受新輔助治療、發生吻合口瘺和高BMI的患者給予更多關注以便早期識別LARS風險。針對高風險患者,臨床醫護人員應充分做好術前咨詢以提高患者對LARS的風險認知并選擇最佳手術方案,在保肛術后應加強患者隨訪及癥狀管理,可采取飲食管理、盆底肌鍛煉、生物反饋療法、經肛門沖洗等干預措施[36],幫助患者減輕腸道癥狀困擾,最大程度改善腸道功能結局。值得注意的是,目前關于LARS的病理生理學機制仍不明確,且當前有關LARS的危險因素研究多為回顧性觀察研究,為增強結果的可靠性,未來應加強機制研究同時著力開展大型前瞻性研究,在較長的隨訪時間點里多次測量腸道功能[35],以提高研究者和臨床醫護人員對潛在風險因素的理解。
本研究的局限性:① 本系統評價僅納入中、英文文獻,可能存在發表偏倚;② 由于文獻檢索策略的限制,納入的研究可能不夠全面;③ 由于不同研究的納入標準和適用對象存在一定的異質性,因此未進行定量分析,導致評價結果相對局限。
綜上所述,直腸癌患者術后LARS發生風險的預測模型雖然呈現較好的預測性能,但仍存在諸多不足,模型可用性仍有待商榷。在今后的研究中,可考慮對現有模型進行重新驗證和更新校準。為支持最佳臨床實踐,更建議研究者深入挖掘LARS發生的病理生理機制,在明確潛在風險因素的基礎上,參照方法學指南構建新的預測模型并在不同地區和人群中展開驗證。此外,研究者可將模型轉化為網頁計算器和APP等形式,并將風險程度進行分級,以便臨床醫護人員實施針對性的分層預防和管理策略。值得注意的是,隨著LARS最新定義的確立,目前常用的LARS評估工具LARS評分的可靠性和全面性也在不斷承受著沖擊,確立更加全面的腸道功能評估方法并將其運用到直腸癌患者術后LARS發生風險預測模型研究中,可能是未來重要的研究方向。
低位前切除綜合征(low anterior resection syndrome,LARS)是直腸癌患者接受前切除手術后的一種常見并發癥,表現為排便頻率增加、反復排便疼痛、排空困難、大便失禁等腸道功能障礙性癥狀,造成患者廁所依賴、過于關注腸功能等后果[1]。因研究設計、樣本量、評估時間和方法上存在差異,不同研究報道的LARS的發生率有所不同,一項Meta分析結果顯示,嚴重LARS的估計患病率為41%[2]。研究表明,LARS癥狀可能在患者術后第一年趨于改善,但隨著時間推移,仍存在癥狀的患者可能會伴隨長期甚至永久LARS[3],部分患者會因難以耐受嚴重腸功能障礙再次行永久性腸造瘺[4]。持續的嚴重LARS對患者生活質量產生了重大影響[5],而目前尚無基于循證醫學高質量證據的LARS治療方案[6],因此早期識別發生LARS的高風險人群,采取正確預防和干預手段至關重要。臨床預測模型基于多個預測變量建立統計模型,可用來預測相關結局事件發生的概率[7]。若能通過預測模型對LARS發生概率和嚴重程度進行可靠預測,將有助于在醫患術前共同決策過程中提供更多信息,促進術后早期干預方案的制定。近年來,關于LARS發生風險的預測模型逐漸增多,但模型質量和可用性尚不清楚。本研究旨在系統評價直腸癌患者術后LARS發生風險預測模型,以期為臨床醫護人員確定或開發可靠的預后風險評估工具提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
隊列研究、病例-對照研究和橫斷面研究。
1.1.2 研究對象
年齡≥18歲的直腸癌術后患者。
1.1.3 研究內容
直腸癌術后患者LARS發生風險的預測模型,詳細說明了模型的構建、驗證及評價的過程。
1.1.4 排除標準
① 非中、英文文獻;② 會議摘要、綜述、述評、信件等研究資料;③ 重復發表的文獻;④ 數據不完整或原文無法獲取;⑤ 僅分析危險因素,未進行預測模型構建;⑥ 模型包含的預測因子<2個。
1.2 文獻檢索策略
計算機檢索PubMed、Web of Science、Embase、Cochrane Library、Scopus、CINHAL、CNKI、CBM、WangFang Data和VIP數據庫,搜集有關直腸癌患者術后LARS發生風險預測模型的研究,檢索時限均為建庫至2023年6月13日。此外,追溯納入文獻的參考文獻,以補充獲取相關文獻。檢索采取主題詞和自由詞相結合的方式。英文檢索詞包括:rectal neoplasms、low anterior resection syndrome、predict*、prognos*、prediction model、prognostic model、risk prediction、risk score、risk assessment等;中文檢索詞包括:直腸腫瘤、低位前切除綜合征、風險預測、模型、風險評估、風險評分、危險因素等。
1.3 文獻篩選與資料提取
由2位研究者獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷,缺乏的資料盡量與作者聯系予以補充。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。本研究基于預測模型研究系統評價的關鍵評估和數據提取清單(critical appraisal and data extraction for systematic reviews of prediction modeling studies,CHARMS)[8]制作標準化表格進行資料提取,提取內容包括:第一作者、發表年份、國家、研究設計、研究對象、研究類型、隨訪時間、預測結果、候選變量、樣本量、缺失數據、建模方法、模型性能、驗證方法和模型呈現形式等。
1.4 納入研究的偏倚風險和適用性評價
由2名研究者依據預測模型研究的偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)[9]獨立對納入研究的偏倚風險和適用性進行評價,并交叉核對結果,如遇分歧,則咨詢第三方協助判斷。
1.5 統計分析
對研究結果進行描述性分析。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻1 162篇,包括PubMed(n=106)、Web of Science(n=161)、Embase(n=167)、Cochrane Library(n=29)、Scopus(n=339)、CINAHL(n=10)、CNKI(n=147)、CBM(n=91)、VIP(n=21)和WanFang Data(n=91)。經逐層篩選后,最終納入14項研究[10-23]。
2.2 納入研究的基本特征
納入研究的基本特征見表1。數據均來自臨床資料數據庫和患者報告。預測結局LARS的測量大多采用丹麥學者Emmertsen等[24]提出的低位前切除綜合征評分(low anterior resection syndrome score,LARSS)來評估。

2.3 預測模型的構建情況
納入的14項研究的潛在預測變量為5~22個,僅3項研究[10,20,23]保持了連續變量的連續性,其余研究均將連續變量離散化處理。樣本總量為110~1 651例,結局事件數為39~929例。缺失數據方面,8項研究[12-14,16,17,19,21,22]未報告是否存在缺失數據,Battersby等[10]通過多重插補和直接排除處理缺失值,Zhang等[20]則將存在缺失數據的研究對象直接排除。在模型建立方法上,1項研究[10]應用普通最小二乘法回歸構建模型,12項研究[11-22]采用Logistic回歸建模,Wang等[23]通過對比Logistic回歸、隨機森林、支持向量機、極限梯度提升4種不同的機器學習算法選取最優模型。候選變量選擇方面,1項研究[10]通過LASSO回歸篩選變量,還有1項研究[23]基于Boruta算法進行變量選擇,其余研究均采用單因素分析方法進行變量篩選。模型構建情況見表2。

2.4 模型性能和預測因子
納入的14項研究中包含17個預測模型,模型的區分能力主要通過受試者工作特征曲線下面積(area under the curve,AUC)和一致性指數(concordance index,C-index)進行評價。所有研究均報告了模型區分度,其中龐雪瀅等[21]的研究僅報告了內部驗證時的模型區分度。2項研究[10,14]使用C-index作為模型區分度指標,3項研究[16,17,21]同時使用AUC和C-index評價模型區分度,其余研究[11-13,15,18-20,22,23]則采用AUC報告區分度。除Battersby等[10]的研究,其余研究建模AUC/C-index(范圍:0.707~0.869)均>0.7,顯示出較好的區分度。10項研究[10,11,14,16-19,21-23]報告了校準,主要校準方法為校準曲線、Hosmer-Lemeshow擬合優度檢驗、Brier得分。模型驗證方面,8項研究[10,14,16-19,21,23]進行了內部驗證,主要方法為隨機拆分法和Bootstrap法,5項研究[10,14,18,22,23]進行了外部驗證,4項研究[10,14,18,23]采用內外部驗證相結合的方式進行模型評價,經外部驗證后模型AUC/C-index為0.625~0.852。納入模型最終包含2~8個獨立預測因子,出現頻率最多的預測因子是腫瘤位置(腫瘤距肛緣的距離)、新輔助治療、吻合口瘺、BMI。模型最終呈現形式以列線圖為主,另外,3項研究[11,13,20]以各因子β系數的風險公式展現結果,1項研究[10]還形成了在線風險評估工具。具體見表3。

2.5 偏倚風險與適用性評價
根據PROBAST評價標準對納入研究進行偏倚風險和適用性評價,具體結果見表4。

2.5.1 偏倚風險評價
納入的14項研究均呈現高偏倚風險,在研究對象領域,13項研究[10-17,19-23]被評為高偏倚風險,主要是因為采用了回顧性的研究設計。預測因子領域,3項研究[10,12,15]被評為高偏倚風險:2項研究[10,15]使用了多中心的數據,各中心預測因子的評估方式可能不同。1項研究[12]在結果已知的情況下評估預測因子。在結果領域,8項研究[11-15,18,19,22]被評為高風險,原因是:① 1項研究[19]結果的分類方法不合理;② 7項研究[11-15,19,22]可能未使用標準的結果定義;③ 4項研究[11,12,14,18]的預測因子測量和結果確定的時間間隔較短。所有研究分析領域均被評為高偏倚風險:① 13項研究[10-22]中自變量的事件數(events per variable,EPV)均<20;② 11項研究[11-19,21,22]將連續變量離散化處理;③ 12項研究[11-22]基于單因素分析篩選預測變量;④ 5項研究[11-13,15,20]未報道或僅使用Hosmer-Lemeshow擬合優度檢驗評估校準;⑤ 在模型擬合情況上,9項研究[11-13,15,17,19,20,22,23]未使用內部驗證或僅使用隨機拆分驗證法。
2.5.2 適用性評價
適用性方面,研究對象領域中3項研究[13,20,22]被評為高適用性風險:① 1項研究[13]的研究對象局限于年齡≥65歲的患者;② 1項研究[20]僅針對接受新輔助放化療的患者;③ 1項研究[22]僅針對進行回腸造口術并接受化療的患者。4項研究[11,12,14,18]在結果領域被評為高風險,原因是預測因子評估和結果確定的時間間隔較短。2項研究[16,17]的整體適用性被判定為不清楚,原因是未報告明確的結局隨訪時間。剩余5項研究[10,15,19,21,23]適用性良好。
3 討論
本研究共納入14項研究,包括17個預測模型,國內外關于直腸癌患者術后LARS發生風險的預測模型研究均始于2018年,尚處于初步發展階段。納入研究整體上顯示了良好的區分度,但并非所有研究都評估或正確評估了校準,且多數研究缺乏外部驗證。此外,在偏倚風險和適用性評價中,納入研究也存在著明顯的局限性,模型的具體可用性有待商榷。
良好的預測模型應具有較高的模型性能并進行嚴格的內外部驗證。然而在納入研究中僅4項研究[10,14,18,23]同時評估了區分和校準并開展了內外部驗證。Battersby等[10]利用兩個最大的國際LARS數據集創建了第一個直腸癌患者術后LARS發生風險預測模型(POLARS評分),該模型在建模和驗模組的C-index分別為0.615和0.625,呈現出可接受的區分度,但因種族差異等因素影響,模型是否適用于我國人群尚不可知。Wang等[23]基于我國2個醫療中心開發并比較了4種機器學習預測模型,其中隨機森林模型在開發和驗證隊列中均表現出優良的預測性能(AUC=0.869和0.852),且經研究者檢驗,該模型的預測性能明顯優于POLARS評分。然而,該研究外部驗證樣本量較小,研究對象的結果發生數不足100例,其模型性能可能被高估[25]。同樣,另外2項研究[14,18]也存在結果事件數不足的問題。上述模型雖進行了完整的性能評估和內外部驗證,但缺乏更新校準和多中心驗證,模型的廣泛適用性及穩定性仍有待考證,臨床醫護人員應結合實際情況審慎選擇已有模型。
當預測模型研究的研究設計、實施方法或統計分析存在問題,就會導致偏倚的發生,影響模型性能估計。本次評價中所有模型均呈高偏倚風險。風險集中于研究對象、結果和分析領域。研究對象領域中,回顧性研究多為二手數據收集,其測量和記錄可能與實際存在偏差[25]。結果領域中,首先,現有研究關于LARS的結果定義并不統一,涵蓋LARS最新定義的國際共識[1]發表于2020年,因此,該定義對現有預測模型研究的指導可能有限。其次,由于LARS癥狀可能會隨著時間的推移而改善,盡管確定LARS結局的最合適隨訪時間仍需進一步研究,但有研究報告,短暫隨訪期的結果可能不足以評估患者的腸道功能,在恢復至少12個月的腸道連續性后評定LARS是可接受的[26]。本次評價的4項研究[11,12,14,18]在患者術后一年內即開始隨訪,最短隨訪時間僅為術后3個月,因此其預測因子評估和LARS結果確定的時間間隔可能不合理。分析領域的偏倚風險主要體現在:① 樣本量不足:根據PROBAST[25],在模型開發研究中,為防止模型過度擬合,EPV應≥20,在外部驗證研究中,為減少模型性能估計的偏倚風險,結果事件應≥100。然而僅1項研究[23]滿足模型開發樣本量要求,1項研究[10]滿足模型驗證樣本量要求。② 預測因子處理欠佳:大多數研究將連續變量離散化處理,這可能導致信息丟失,降低模型預測能力[27]。③ 缺失數據處理不當:2項研究[10,20]直接排除了缺失數據,而更多研究甚至并未報告數據缺失的信息。簡單排除或單一插補會造成模型性能偏差,建議使用多重插補方法處理缺失數據[28],并在研究中公開報告。④ 預測因子篩選方法欠佳:12項研究[11-22]均使用單因素分析選擇變量,這可能會遺漏重要的預測因子,可考慮前向選擇、向后消除、逐步回歸、LASSO回歸等統計方法進行篩選[29]。此外,預測因子應結合文獻研究和專家意見進行選擇,需充分考量臨床重要性、模型運用時預測因子的可用性以及收集預測因子的便利性和成本等[25]。⑤ 缺乏對模型性能的完整評估:為充分衡量模型,應同時評估區分和校準。校準反映了預測風險與實際發生風險的一致程度,通常使用校準圖、校準斜率、校準截距和Brier得分衡量,而非僅報告Hosmer-Lemeshow擬合優度檢驗。但本次評價中有4項研究[12,13,15,20]未評估校準,1項研究[11]僅使用Hosmer-Lemeshow擬合優度檢驗校準。⑥ 未對模型進行(合理的)內部驗證:6項研究[11-13,15,20,22]未進行內部驗證,無法判斷模型的擬合程度。另有3項研究[17,19,23]使用隨機拆分驗證,由于隨機拆分法在樣本量較小的情況下會對開發數據造成極大浪費[30],推薦首選Bootstrap方法進行內部驗證[31]。鑒于現有研究存在較高的偏倚風險,建議未來研究在進行模型開發與驗證研究時遵循最新共識的LARS定義,同時應更審慎地選擇結局隨訪期,可參考個體預后或診斷多變量預測模型透明報告[32]對研究設計和研究報告進行規范。
本研究中納入模型最終包含的預測因子不盡相同,但仍存在一定共性。腫瘤位置、新輔助治療、吻合口瘺、BMI是出現頻率最多的預測因子。腫瘤距離肛緣的距離越近,術后殘余直腸長度越短,周圍肌肉神經受損越嚴重,患者發生腸功能障礙的風險則越高[21]。而新輔助治療雖可減少復發,提高保肛率,但放化療均會造成直腸功能損害,尤其是放療會引起直腸周圍纖維化,降低殘余直腸的順應性[33],導致LARS發生風險增加。此外,吻合口瘺和BMI也被認為與LARS發生相關。當患者發生吻合口瘺后,吻合口愈合過程中會形成瘢痕,影響新直腸的容積和順應性[34]。BMI在不同研究中的臨界值不同,但既往研究報告,高BMI的患者手術空間通常狹小,會增加手術難度,可能會影響包括腸功能障礙在內的整體功能預后[35]。因此,臨床醫護人員應對腫瘤位置較低、接受新輔助治療、發生吻合口瘺和高BMI的患者給予更多關注以便早期識別LARS風險。針對高風險患者,臨床醫護人員應充分做好術前咨詢以提高患者對LARS的風險認知并選擇最佳手術方案,在保肛術后應加強患者隨訪及癥狀管理,可采取飲食管理、盆底肌鍛煉、生物反饋療法、經肛門沖洗等干預措施[36],幫助患者減輕腸道癥狀困擾,最大程度改善腸道功能結局。值得注意的是,目前關于LARS的病理生理學機制仍不明確,且當前有關LARS的危險因素研究多為回顧性觀察研究,為增強結果的可靠性,未來應加強機制研究同時著力開展大型前瞻性研究,在較長的隨訪時間點里多次測量腸道功能[35],以提高研究者和臨床醫護人員對潛在風險因素的理解。
本研究的局限性:① 本系統評價僅納入中、英文文獻,可能存在發表偏倚;② 由于文獻檢索策略的限制,納入的研究可能不夠全面;③ 由于不同研究的納入標準和適用對象存在一定的異質性,因此未進行定量分析,導致評價結果相對局限。
綜上所述,直腸癌患者術后LARS發生風險的預測模型雖然呈現較好的預測性能,但仍存在諸多不足,模型可用性仍有待商榷。在今后的研究中,可考慮對現有模型進行重新驗證和更新校準。為支持最佳臨床實踐,更建議研究者深入挖掘LARS發生的病理生理機制,在明確潛在風險因素的基礎上,參照方法學指南構建新的預測模型并在不同地區和人群中展開驗證。此外,研究者可將模型轉化為網頁計算器和APP等形式,并將風險程度進行分級,以便臨床醫護人員實施針對性的分層預防和管理策略。值得注意的是,隨著LARS最新定義的確立,目前常用的LARS評估工具LARS評分的可靠性和全面性也在不斷承受著沖擊,確立更加全面的腸道功能評估方法并將其運用到直腸癌患者術后LARS發生風險預測模型研究中,可能是未來重要的研究方向。