肺癌術后肺部并發癥(postoperative pulmonary complications,PPCs)風險預測模型能幫助醫護人員識別患者PPCs概率,為臨床醫護人員快速決策提供依據。本文評估和總結肺癌PPCs風險預測模型的研究現狀,從模型類型、構建方法、模型性能、臨床應用等方面分析其優勢、不足與挑戰。發現目前肺癌PPCs風險預測模型對PPCs發生有一定的預測效能,但其在研究設計、臨床應用及透明化報告等方面存在一定的不足。建議今后開展大樣本、前瞻性和多中心研究,構建多組學預測模型,實現精準預測,促進臨床轉化應用與推廣。
引用本文: 鄧婷, 宋佳美, 李金, 吳曉燕, 吳俐姍, 諶紹林. 肺癌術后肺部并發癥風險預測模型的研究進展. 中國胸心血管外科臨床雜志, 2025, 32(2): 263-269. doi: 10.7507/1007-4848.202405056 復制
版權信息: ?四川大學華西醫院華西期刊社《中國胸心血管外科臨床雜志》版權所有,未經授權不得轉載、改編
肺癌是全球最常見的惡性腫瘤,也是癌癥患者死亡的主要原因,占全球癌癥死亡人數的18.7%[1]。手術是非小細胞肺癌(non-small cell lung cancer,NSCLC)Ⅰ~Ⅱ期及可切除Ⅲ期的首選治療方法[2],但由于術中肺組織切除、術中損傷、麻醉、手術時間等原因,使肺癌術后肺部并發癥(postoperative pulmonary complications,PPCs)發生率高達40%,導致患者肺功能下降[3]、重癥監護病房(intensive care unit,ICU)入住率增加、住院時間延長、30 d再入院率增加和總生存率及長期生活質量降低[3-4]。因此,早期識別并篩選出肺癌PPCs高危患者,制定針對性預防干預措施是降低PPCs發生率的關鍵。而風險預測模型是以疾病的多風險因素為基礎,按因素影響程度大小賦值,來預測某些可能存在的特定疾病以及病癥(診斷模型)或未來將發生特定事件(預后模型)的概率或風險的一種評估方法[5],其在疾病診斷、預測不良結局(如死亡、并發癥等)以及疾病嚴重程度分級等方面,能幫助醫護人員識別患者疾病/事件風險發生概率,篩查出高危患者,進行快速臨床決策,制定并實施針對性預防干預措施,以改善患者結局[6]。本文旨在評估和總結現有肺癌PPCs風險預測模型的研究現狀,包括模型類型、構建方法、模型性能、臨床應用等方面,分析其優勢、不足與挑戰,提出優化與改進策略及未來的研究方向,為今后模型開發及臨床運用提供參考借鑒。
1 診斷標準
PPCs是肺癌術后最常見的并發癥之一[7],但PPCs的定義暫不統一,尚缺乏統一的診斷金標準[8]。根據美國胸外科醫師學會/歐洲胸外科醫師學會(STS/ESTS)標準,PPCs包括肺不張、肺炎、急性呼吸窘迫綜合征(acute respiratory distress syndrome,ARDS)、機械通氣>48 h、氣胸且持續漏氣>7 d、任何原因導致的再插管、氣管切開、膿胸、乳糜胸及支氣管胸膜漏[9]。歐洲圍手術期臨床結局(European Perioperative Clinical Outcome,EPCO)的標準則是符合以下任意一項即可診斷,包括肺部感染、呼吸衰竭、胸腔積液、肺不張、氣胸、支氣管痙攣及吸入性肺炎[10];圍手術期醫學標準化終點系統評價和共識(a systematic review and consensus definitions for standardized end-points in perioperative medicine,StEP)則推薦符合以下任意一項即可診斷:① 影像學提示肺不張;② 根據美國疾病控制中心標準診斷的肺炎;③ 柏林共識定義的ARDS;④ 有明確檢查及病史的吸入性肺炎[11]。Clavien-Dindo分級系統則是基于術后并發癥的嚴重程度以及是否需要治療進行分級,在目前已發表的多數文獻中,研究者多將PPCs分為Ⅰ~Ⅴ級,常以Ⅱ級為分界線,Ⅱ級并發癥最常見[12-14],該系統的定義適用于多數術后并發癥[15]。由此可見,由于PPCs定義不統一,將影響因變量測量的準確性,從而影響模型預測和驗證效果。因此,需制定統一的PPCs診斷標準以利于精準預測。
2 風險預測模型常見類型
肺癌PPCs風險預測模型多采用患者病史、病理學、術前實驗室檢查、肺功能檢查、術中相關因素等作為自變量進行建模,建模方法主要包括傳統建模方法(如logistic回歸模型、列線圖),計數死亡率和發病率的生理學和手術嚴重性評分系統(Physiological and Operative Severity Score for the Umeration of Mortality and Morbidity,POSSUM),機器學習(如隨機森林、神經網絡、決策樹等)[16-17]。
2.1 傳統建模方法
2.1.1 Logistic回歸模型
Song等[18]納入了2012—2019年間行胸腔鏡手術的1 585例老年肺癌患者,通過最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)篩選變量,構建了以性別、吸煙、慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)病史、手術時間、白細胞計數、術中膠體輸注和術中注射激素7個獨立危險因素的logistic回歸模型,在另兩家醫院進行了外部驗證。該模型內部及外部驗證敏感度和特異度分別為0.633、0.613及0.412、0.831,曲線下面積(area under the curve,AUC)為0.67和0.71,算法的X-截距和Y-截距都接近于0,提示擬合度較好。雖然該研究進行了多中心外部驗證,但存在以下局限:因是回顧性收集數據,可能存在偏倚;未納入淋巴細胞、組織學類型、病理分期、肺功能指標、基因分型等重要危險因素;時間跨度大,隨著醫療水平和環境快速發展,不一定能反映目前的醫療環境。因此,該模型仍有待進一步優化。
2.1.2 列線圖模型
Zhao等[19] 對2021—2022年854例接受肺葉切除術的老年肺癌患者構建列線圖模型,logistic回歸分析顯示年齡、COPD、手術方法、手術時間、第一秒用力呼氣容積(forced expiratory volume in one second,FEV1)和肺一氧化碳彌散量(diffusing capacity of the lungs for carbon monoxide,DLCO)是PPCs的獨立預測因子,再通過列線圖預測PPCs概率危險因素的重要性排序,結果表明,肺癌合并COPD的老年人(≥70歲),FEV1%和DLCO%預測值<80%、手術時間≥120 min是PPCs的重要危險因素;并使用其他中心數據進行外部驗證,用10倍交叉驗證模型的泛化性,AUC為0.839,敏感度為0.949,特異度為0.450;模型開發及外部驗證AUC值分別為0.844、0.796,均體現出列線圖的高分辨力;還結合了校準曲線和 Hosmer-Lemeshow檢驗來評估列線圖的準確性,外部驗證及預測性能的多重比較均表現出良好效果;此外,該模型還轉化成了網頁版計算器,通過輸入相應指標,可預測PPCs風險。但該研究為回顧性研究,未納入麻醉、治療數據、實驗室檢查、影像學資料、基因分型等因素,且只針對老年患者,一定程度上影響了模型的外推性。
肺炎是最常見的肺癌PPCs之一[20]。Jin等[21]納入2019—2020年1 252例肺癌手術患者,用LASSO回歸篩選變量,根據術后肺炎的獨立危險因素和重要臨床因素構建了肺癌術后肺炎列線圖模型,結果顯示,糖尿病、術前化療、開胸手術、美國麻醉醫師協會(American Society of Anaesthesiologists,ASA)分級、手術持續時間5個因素與術后肺炎相關。此外,雖在多因素分析中,吸煙無統計學意義,但吸煙是術后肺炎的重要危險因素,且其LASSO回歸系數更大,研究者將吸煙納入了列線圖模型。模型訓練集與驗證集校正的C指數分別為0.710、0.709,擬合優度檢驗均>0.05。同時,校準曲線在預測結果和實際情況分別表現出良好的一致性。該研究用LASSO回歸篩選變量,有效地避免了過擬合,使模型更精細[22],還從多角度評估模型特征并選擇最優模型,有助于推廣和應用。但該研究為單中心回顧性研究,未納入術后肺炎的某些重要因素,如術后疼痛、霧化吸入等,未進行外部驗證,其適用性和預測性能還需進一步驗證。
2.2 POSSUM評分系統
Copeland等[23]于1991年構建了POSSUM評分系統,包含12項術前指標及6項術中指標,每項指標賦值1、2、4、8分,通過計算評分來預測術后并發癥發生率和死亡率。但Whiteley等[24]發現,應用原始POSSUM方程,總體死亡率被高估了2倍。因此,部分研究者根據疾病特點對該系統進行優化,形成了改良POSSUM評分系統[25-26]。許川等[27]通過多元回歸分析后對指標賦值,構建了基于改良POSSUM評分系統預測模型,該模型的特異性為0.977,敏感度為0.896,預測效果較好,模型臨界值為0.135時,提示患者大概率會發生PPCs,提醒醫務人員需做好應對工作。但該研究為單中心研究,樣本量較小,未納入DLCO、呼吸峰值流速(peak expiratory flow,PEF)、影像學檢查、基因分型及白細胞計數等重要指標,未進行外部驗證,未提及是否應用于臨床,模型的性能、預測價值及結果外推性仍有待驗證。
楊福耀[28]將改良POSSUM評分與Clavien-Dindo分級聯合應用,將年齡、體重指數(body mass index,BMI)、第一秒用力呼氣容積占用力肺活量百分比(forced expiratory volume in one second/forced vital capacity,FEV1/FVC)、吸煙指數、手術時間、手術方式6個PPCs的獨立因素納入改良POSSUM評分系統,結果表明,AUC>0.5,證明改良POSSUM評分系統聯合Clavien-Dindo分級應用的可行性,并預測PPCs的發生率,Ⅰ級(非嚴重并發癥)發生率為43.1%,Ⅱ~Ⅴ級(嚴重并發癥)發生率為56.9%。該研究結合兩種并發癥定義,有效避免POSSUM評分系統只能預測PPCs的發生率,而不能預測其嚴重程度的問題。但該研究只針對≥70歲患者,隊列樣本量差異較大,可能會影響人群推廣性及預測結果;且僅用AUC來分析其性能,未分析精確度、特異度等指標,未解釋外部驗證數據,模型預測效能還有待進一步探討。
2.3 機器學習模型
機器學習具有一套強大的算法,包括決策樹、隨機森林(random forest,RF)、K近鄰算法(K-nearest neighbor,KNN)、支持向量機(support vector machine,SVM)、神經網絡(neural network,NN)等方法,可對數據進行描述、學習、分析和預測等[29-30]。常多種方法聯合使用,找出最優模型。
2.3.1 決策樹模型
王新等[31]回顧性分析了2017—2020年352例胸腔鏡手術肺癌患者的臨床資料,分別建立決策樹模型及logistic回歸模型。結果顯示,年齡、糖尿病、COPD是兩種模型篩出的相同危險因素,兩者AUC相近。其中,決策樹AUC、靈敏度、特異度分別為0.868、0.796及0.785,提示模型預測效果較好。決策樹模型預測COPD肺癌患者PPCs發生率約為35%,而同時患有COPD及糖尿病的肺癌患者PPCs風險增至78.6%。決策樹模型可有效展示各變量之間的交互作用[32],而logistic回歸模型可展示各危險因素之間的相對危險程度,但該研究未納入重要的實驗室和肺功能指標,不能全面預測PPCs的風險;決策樹易出現過擬合現象,該研究的樣本量較少可能導致結果偏差[33]。因此,模型預測效能還有待進一步探討。
2.3.2 多種機器學習模型聯合預測
Jin等[34]分析2007—2015年NSCLC伴主要支氣管浸潤及完全性阻塞性肺炎/肺不張的26 833例患者資料,采用RF、KNN、極致梯度提升(extreme gradient boosting,XGBoost)、SVM等6種機器學習模型來預測該類患者5年生存率。結果顯示,主要支氣管浸潤組和完全性阻塞性肺炎/肺不張組的AUC分別為0.814和0.853,XGBoost模型在兩組人群中均最佳。該研究在預測模型的基礎上建立了網絡應用程序,用戶輸入自身臨床特征,即可預測生存率和生存狀態。雖然該研究針對術后生存率,而非PPCs,但可借鑒其研究思路來預測PPCs,并進行臨床轉化。但該研究仍有一定的局限:未納入具有重要診斷價值的部分腫瘤標志物和血液指標;缺乏詳細的治療方案信息,如免疫治療和靶向治療等;研究納入9年前數據,且為回顧性分析,存在一定偏倚,不一定適用于目前的醫療環境。因此,有必要開展前瞻性研究及外部驗證明確是否適用現階段臨床發展。
Zhou等[17]回顧性分析BioStudies醫學數據庫中905例接受胸腔鏡手術的患者資料,利用決策樹、RF、KNN、卷積神經網絡(convolutional neural network,CNN)等16種算法構建預測模型并進行內部驗證。結果顯示,PPCs的主要預測因素有單肺通氣時間、吸煙史、手術時間、ASA評分和血糖。其中,修剪貝葉斯神經網絡(pruning Bayesian neural network,PBNN)對PPCs預測方面優于其他算法,其驗證集AUC、準確性、精確度、特異度分別為0.869、0.820、0.627及0.914。雖然該研究對PPCs預測效果較好,但存在以下問題:一是未分析PPCs發生率;二是未公開數據代碼,影響其可重復性;三是回顧性研究且未收集實驗室檢查指標、影像學檢查、基因分型及治療情況,未說明缺失值及其處理方法,可能導致模型預測偏倚和發生過擬合現象。因此,模型預測效能還有待進一步探討。
綜上所述,目前常見的PPCs風險預測模型的納入變量差異性較大,有較多研究實驗室指標和肺功能指標納入不全,未納入影像組學、基因組學等變量,一定程度上可能影響預測效能。
3 影像組學預測模型
影像組學通過分析肺部影像數據,如基礎形態、微妙的紋理特征及復雜的高維特征[35],可能在預測肺癌PPCs方面有一定的潛力,但目前暫無影像組學結合機器學習方法開展肺癌PPCs預測模型的研究。
Tane等[36]納入2013—2018年471例術前接受肺活量測定和CT并行胸腔鏡肺葉切除術的肺癌患者,構建了肺氣腫聚類分析的D值預測PPCs風險預測模型。D值是評估肺部結構質量的指標之一,也是低衰減區(percentage of low attenuation area,LAA%)分布在對數-對數圖上繪制時遵循近似的直線,被認為是一個冪律,這種分布的斜率,可隨著肺氣腫的進展趨于平緩[36]。該模型的AUC值為0.72,PPCs發生率為12.9%,并發現D值與肺癌PPCs的關系明顯強于其他危險因素,說明代表肺泡結構復雜程度的D值是PPCs的有力預測指標,但該檢查并不屬于常規檢查,臨床實施難度較大;且研究未納入重要肺功能指標DLCO,無法確定兩者哪個預測效果更好;納入數據時間跨度較大,易因手術技術及條件等因素產生偏倚,影響預測效果;且該研究為單中心研究,樣本量較小,需進一步開展多中心大樣本研究。
Li等[37]回顧性分析2019—2021年進行手術并在24 h內行胸部X線檢查242例患者的臨床資料。使用肺水腫放射學評估評分(Radiographic Assessment of Lung Edema score,RALE)和胸部X線評分系統(被命名為Brixia評分)來預測急性低氧血癥性呼吸衰竭,分別評價兩者的預測效果。RALE評分根據每張胸部X線片被劃分為4個象限,實變評分代表每個象限內肺泡混濁程度(0:無,1:<25%,2:25%~49%,3:50%~75%,4:>75%);此外,密度評分表示整體混濁密度(1=朦朧,2=中等,3=密集)。RALE評分范圍從0(無浸潤)到48(每個象限超過75%的肺實變)。Brixia評分將胸部X線片的前后位(AP)或后前位(PA)切面分為6個區域,根據肺部異常的特征和程度進行評分:0~3分,總分為18分。該研究采用傾向性評分匹配,結果顯示,匹配后RALE評分預測效果更好,其AUC、準確度、精確度及特異度分別為0.710、0.811、0.632及0.912。該研究有以下優點:(1)通過兩種胸部X線片評分系統對比,使用傾向性評分匹配方法,防止數據偏差和混雜變量的影響,減少了兩組之間協變量的不平衡[38],使兩者更有比較意義;(2)該研究使用模型報告清單進行研究設計和文章書寫[39],保證了研究的透明度和質量。但該研究未進行前瞻性驗證,未說明樣本量的估算方法,樣本量較小,可能導致結果偏差,后期仍需探討該模型的臨床適用性。
各模型優缺點見附件表1。
4 研究趨勢及啟示
4.1 模型數據集需標準化,需開展大樣本、多中心、多組學肺癌術后肺部并發癥預測模型構建研究
開發標準化、有代表性的數據集,對后期預測模型精準有效服務目標人群至關重要[40]。目前肺癌PPCs預測模型研究多使用單中心的患者數據,均為回顧性研究,暫無前瞻性研究。回顧性研究雖可方便快捷地提取臨床資料,但存在臨床數據缺失值較多和不能保證數據同質性等問題,從而影響模型的預測效果。前瞻性研究可有效避免以上問題,能真實反映臨床環境,保證數據完整、真實、可靠及同質化。
此外,PPCs定義不同也會導致變量差異,有必要統一PPCs的診斷標準,并對PPCs的嚴重程度進行分層。如Zhao等[19]使用EPCO的PPCs診斷標準,結合Clavien-Dindo分級系統,有利于醫護人員把控PPCs針對性預防強度,對減少PPCs的發生至關重要。納入變量類型、分析數據等差異也會嚴重影響研究結果,不同研究納入的危險因素不同,每個危險因素在PPCs發揮的作用也不明確。目前大部分PPCs預測模型的研究忽略了影像組學變量,暫無研究使用基因組學、蛋白組學、代謝組學等變量,很少有研究考慮患者治療方法、生活方式改變等變量對PPCs的影響。此外,不同研究多建立了自己的數據集,可能會造成數據、時間、經費等資源的浪費。
建議今后開展前瞻性、多中心、大樣本研究,增加影像組學、基因組學、蛋白組學、代謝組學等指標,參照美國國家癌癥數據庫(National Cancer Database,NCDB)等,形成全國多中心、標準化、可視化、信息化及實用化的圍手術期肺癌專屬數據庫[41],實現數據共通、共建、共享。此外,還可探索如何將大型專病數據庫、醫院數據系統、國家臨床中心數據庫等無縫隙連接,自動提取、分析數據。建議通過循證、專家咨詢或專家會議等方法,充分納入潛在的危險因素變量,或在以上大數據的基礎上,開展多組學預測模型研究,以確保數據全面、可靠、科學,實現精準預測。而面臨的挑戰是如何保證數據一致性、安全性、科學性和實時性,如何提高模型的可解釋性和透明度等。
4.2 風險預測模型需與人工智能及臨床應用相結合
肺癌PPCs風險預測模型的建模方法多采用傳統logistic回歸模型、列線圖等。隨著大數據、機器學習和人工智能的發展,這些技術已成為疾病風險預測模型領域的研究熱點,但其在肺癌PPCs風險預測中仍處于初始階段。未來可結合上述技術構建模型,并比較其性能,以確定PPCs最優模型;也可使用多種模型,進行優勢互補,以達到最佳預測效果。
目前,實際應用于臨床的PPCs風險預測模型較少。主要原因有:(1)大多數研究僅進行了內部驗證,開展外部驗證研究較少,影響了研究質量和模型外推性[42],從而影響了臨床實用價值[21, 34, 36, 43]。(2)各預測模型所納入變量差異性較大,有的較為復雜。且部分研究未開發方便實用的應用程序或預測系統,未與醫院HIS系統連接,不能自動識別。醫務人員工作繁忙,如果預測模型復雜或需要手動輸入相關參數,勢必會增加醫務人員負擔,使預測模型難以在臨床使用,成為研究與實踐的鴻溝。由于基于智能計算、機器學習及可在線訪問的風險預測模型將成為大趨勢,線上程序在未來有更廣闊的開發空間。未來可將模型進一步優化并簡潔化,轉化開發醫院HIS系統的自動識別并自動輸出結果的預測系統,以便快速、科學高效、提前預警風險人群,從而實現預測模型的臨床轉化及應用。上述系統將幫助醫務人員快速決策,及時制定針對性預防干預措施,減輕患者痛苦,促進康復,減少臨床工作量,提高醫護人員臨床工作質量。
4.3 規范并優化風險預測模型構建及驗證過程,報告需透明化
盡管國際上已發布風險預測模型研究規范性報告聲明(Transparent Reporting of a multivariable model for Individual Prognosis Or Diagnosis,TRIPOD)[6, 39]和風險預測模型研究偏倚風險評估工具[5, 44],但目前僅2個研究[19, 37]使用TRIPOD清單進行報告。大多數研究的模型構建及驗證過程仍存在一定問題:報告欠透明化,使讀者不明確模型構建及驗證過程和方法學,如較少研究[45-46]估計樣本量,而充分的樣本量能保證預測變量與結局之間關聯的穩健性;多數研究未曾提及缺失值處理;部分研究模型性能檢測指標評估不完整,僅報告了模型的AUC值,未報告準確度、敏感度、特異度等指標,增加了模型預測效果的不確定性,可能會導致讀者無法判斷模型效能[28, 36];僅少數研究[21, 34, 36, 43]進行外部驗證,影響了研究質量和模型的實用價值。此外,還應描述目標人群接受干預治療的具體細節,包括基線或出院隨訪時接受的任何治療及干預措施等[34, 36],因為這些干預措施也可能會改變結局,從而影響預測模型的準確性。
因此,建議今后的研究參考預測模型報告清單,特別是最新發表的TRIPOD+AI清單[6]或風險預測模型研究偏倚風險評估工具[5, 44]來規范并優化風險預測模型的構建與驗證過程,開展嚴謹的科研設計,提高模型的可解釋性和透明度,以確保模型的可重復性、嚴謹性及穩健性。
5 小結
綜上所述,目前肺癌PPCs風險預測模型對PPCs發生有一定的預測效能,機器學習和人工智能是近年研究的發展趨勢。但其研究設計、模型評價、模型驗證、臨床應用及透明化報告等方面存在一定的不足。由于本文為敘述性綜述,未評價各研究質量,僅總結了研究存在的不足,可能存在一定的局限性。建議今后開展系統評價,進行定量合成,評價目前模型的預測效能及研究質量。此外,建議今后建立標準化的數據集,開展前瞻性、多中心、大樣本研究,構建并優化多組學預測模型,以確保數據全面、可靠、科學,實現精準預測;重視模型預測性能的評價和外部驗證,提高模型的預測效能、穩定性和可推廣性;開發自動識別肺癌PPCs高風險患者的預警系統,實現預測模型的臨床轉化及應用;應用TRIPOD+AI清單進行透明化研究報告,并采取有效措施促進預測模型的臨床推廣與應用,幫助醫護人員快速精準決策,制定并實施針對性預防干預措施,改善患者結局,提高醫療護理質量。
利益沖突:無。
作者貢獻:鄧婷、宋佳美、諶紹林確立選題、設計研究及終審文章;李金、吳曉燕、吳俐姍收集、分析、總結資料;鄧婷、宋佳美撰寫文章初稿;李金、吳曉燕、吳俐姍及諶紹林提出修改意見,解答專家意見并審閱文章。
本文附件表1見本刊網站電子版。
肺癌是全球最常見的惡性腫瘤,也是癌癥患者死亡的主要原因,占全球癌癥死亡人數的18.7%[1]。手術是非小細胞肺癌(non-small cell lung cancer,NSCLC)Ⅰ~Ⅱ期及可切除Ⅲ期的首選治療方法[2],但由于術中肺組織切除、術中損傷、麻醉、手術時間等原因,使肺癌術后肺部并發癥(postoperative pulmonary complications,PPCs)發生率高達40%,導致患者肺功能下降[3]、重癥監護病房(intensive care unit,ICU)入住率增加、住院時間延長、30 d再入院率增加和總生存率及長期生活質量降低[3-4]。因此,早期識別并篩選出肺癌PPCs高危患者,制定針對性預防干預措施是降低PPCs發生率的關鍵。而風險預測模型是以疾病的多風險因素為基礎,按因素影響程度大小賦值,來預測某些可能存在的特定疾病以及病癥(診斷模型)或未來將發生特定事件(預后模型)的概率或風險的一種評估方法[5],其在疾病診斷、預測不良結局(如死亡、并發癥等)以及疾病嚴重程度分級等方面,能幫助醫護人員識別患者疾病/事件風險發生概率,篩查出高危患者,進行快速臨床決策,制定并實施針對性預防干預措施,以改善患者結局[6]。本文旨在評估和總結現有肺癌PPCs風險預測模型的研究現狀,包括模型類型、構建方法、模型性能、臨床應用等方面,分析其優勢、不足與挑戰,提出優化與改進策略及未來的研究方向,為今后模型開發及臨床運用提供參考借鑒。
1 診斷標準
PPCs是肺癌術后最常見的并發癥之一[7],但PPCs的定義暫不統一,尚缺乏統一的診斷金標準[8]。根據美國胸外科醫師學會/歐洲胸外科醫師學會(STS/ESTS)標準,PPCs包括肺不張、肺炎、急性呼吸窘迫綜合征(acute respiratory distress syndrome,ARDS)、機械通氣>48 h、氣胸且持續漏氣>7 d、任何原因導致的再插管、氣管切開、膿胸、乳糜胸及支氣管胸膜漏[9]。歐洲圍手術期臨床結局(European Perioperative Clinical Outcome,EPCO)的標準則是符合以下任意一項即可診斷,包括肺部感染、呼吸衰竭、胸腔積液、肺不張、氣胸、支氣管痙攣及吸入性肺炎[10];圍手術期醫學標準化終點系統評價和共識(a systematic review and consensus definitions for standardized end-points in perioperative medicine,StEP)則推薦符合以下任意一項即可診斷:① 影像學提示肺不張;② 根據美國疾病控制中心標準診斷的肺炎;③ 柏林共識定義的ARDS;④ 有明確檢查及病史的吸入性肺炎[11]。Clavien-Dindo分級系統則是基于術后并發癥的嚴重程度以及是否需要治療進行分級,在目前已發表的多數文獻中,研究者多將PPCs分為Ⅰ~Ⅴ級,常以Ⅱ級為分界線,Ⅱ級并發癥最常見[12-14],該系統的定義適用于多數術后并發癥[15]。由此可見,由于PPCs定義不統一,將影響因變量測量的準確性,從而影響模型預測和驗證效果。因此,需制定統一的PPCs診斷標準以利于精準預測。
2 風險預測模型常見類型
肺癌PPCs風險預測模型多采用患者病史、病理學、術前實驗室檢查、肺功能檢查、術中相關因素等作為自變量進行建模,建模方法主要包括傳統建模方法(如logistic回歸模型、列線圖),計數死亡率和發病率的生理學和手術嚴重性評分系統(Physiological and Operative Severity Score for the Umeration of Mortality and Morbidity,POSSUM),機器學習(如隨機森林、神經網絡、決策樹等)[16-17]。
2.1 傳統建模方法
2.1.1 Logistic回歸模型
Song等[18]納入了2012—2019年間行胸腔鏡手術的1 585例老年肺癌患者,通過最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)篩選變量,構建了以性別、吸煙、慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)病史、手術時間、白細胞計數、術中膠體輸注和術中注射激素7個獨立危險因素的logistic回歸模型,在另兩家醫院進行了外部驗證。該模型內部及外部驗證敏感度和特異度分別為0.633、0.613及0.412、0.831,曲線下面積(area under the curve,AUC)為0.67和0.71,算法的X-截距和Y-截距都接近于0,提示擬合度較好。雖然該研究進行了多中心外部驗證,但存在以下局限:因是回顧性收集數據,可能存在偏倚;未納入淋巴細胞、組織學類型、病理分期、肺功能指標、基因分型等重要危險因素;時間跨度大,隨著醫療水平和環境快速發展,不一定能反映目前的醫療環境。因此,該模型仍有待進一步優化。
2.1.2 列線圖模型
Zhao等[19] 對2021—2022年854例接受肺葉切除術的老年肺癌患者構建列線圖模型,logistic回歸分析顯示年齡、COPD、手術方法、手術時間、第一秒用力呼氣容積(forced expiratory volume in one second,FEV1)和肺一氧化碳彌散量(diffusing capacity of the lungs for carbon monoxide,DLCO)是PPCs的獨立預測因子,再通過列線圖預測PPCs概率危險因素的重要性排序,結果表明,肺癌合并COPD的老年人(≥70歲),FEV1%和DLCO%預測值<80%、手術時間≥120 min是PPCs的重要危險因素;并使用其他中心數據進行外部驗證,用10倍交叉驗證模型的泛化性,AUC為0.839,敏感度為0.949,特異度為0.450;模型開發及外部驗證AUC值分別為0.844、0.796,均體現出列線圖的高分辨力;還結合了校準曲線和 Hosmer-Lemeshow檢驗來評估列線圖的準確性,外部驗證及預測性能的多重比較均表現出良好效果;此外,該模型還轉化成了網頁版計算器,通過輸入相應指標,可預測PPCs風險。但該研究為回顧性研究,未納入麻醉、治療數據、實驗室檢查、影像學資料、基因分型等因素,且只針對老年患者,一定程度上影響了模型的外推性。
肺炎是最常見的肺癌PPCs之一[20]。Jin等[21]納入2019—2020年1 252例肺癌手術患者,用LASSO回歸篩選變量,根據術后肺炎的獨立危險因素和重要臨床因素構建了肺癌術后肺炎列線圖模型,結果顯示,糖尿病、術前化療、開胸手術、美國麻醉醫師協會(American Society of Anaesthesiologists,ASA)分級、手術持續時間5個因素與術后肺炎相關。此外,雖在多因素分析中,吸煙無統計學意義,但吸煙是術后肺炎的重要危險因素,且其LASSO回歸系數更大,研究者將吸煙納入了列線圖模型。模型訓練集與驗證集校正的C指數分別為0.710、0.709,擬合優度檢驗均>0.05。同時,校準曲線在預測結果和實際情況分別表現出良好的一致性。該研究用LASSO回歸篩選變量,有效地避免了過擬合,使模型更精細[22],還從多角度評估模型特征并選擇最優模型,有助于推廣和應用。但該研究為單中心回顧性研究,未納入術后肺炎的某些重要因素,如術后疼痛、霧化吸入等,未進行外部驗證,其適用性和預測性能還需進一步驗證。
2.2 POSSUM評分系統
Copeland等[23]于1991年構建了POSSUM評分系統,包含12項術前指標及6項術中指標,每項指標賦值1、2、4、8分,通過計算評分來預測術后并發癥發生率和死亡率。但Whiteley等[24]發現,應用原始POSSUM方程,總體死亡率被高估了2倍。因此,部分研究者根據疾病特點對該系統進行優化,形成了改良POSSUM評分系統[25-26]。許川等[27]通過多元回歸分析后對指標賦值,構建了基于改良POSSUM評分系統預測模型,該模型的特異性為0.977,敏感度為0.896,預測效果較好,模型臨界值為0.135時,提示患者大概率會發生PPCs,提醒醫務人員需做好應對工作。但該研究為單中心研究,樣本量較小,未納入DLCO、呼吸峰值流速(peak expiratory flow,PEF)、影像學檢查、基因分型及白細胞計數等重要指標,未進行外部驗證,未提及是否應用于臨床,模型的性能、預測價值及結果外推性仍有待驗證。
楊福耀[28]將改良POSSUM評分與Clavien-Dindo分級聯合應用,將年齡、體重指數(body mass index,BMI)、第一秒用力呼氣容積占用力肺活量百分比(forced expiratory volume in one second/forced vital capacity,FEV1/FVC)、吸煙指數、手術時間、手術方式6個PPCs的獨立因素納入改良POSSUM評分系統,結果表明,AUC>0.5,證明改良POSSUM評分系統聯合Clavien-Dindo分級應用的可行性,并預測PPCs的發生率,Ⅰ級(非嚴重并發癥)發生率為43.1%,Ⅱ~Ⅴ級(嚴重并發癥)發生率為56.9%。該研究結合兩種并發癥定義,有效避免POSSUM評分系統只能預測PPCs的發生率,而不能預測其嚴重程度的問題。但該研究只針對≥70歲患者,隊列樣本量差異較大,可能會影響人群推廣性及預測結果;且僅用AUC來分析其性能,未分析精確度、特異度等指標,未解釋外部驗證數據,模型預測效能還有待進一步探討。
2.3 機器學習模型
機器學習具有一套強大的算法,包括決策樹、隨機森林(random forest,RF)、K近鄰算法(K-nearest neighbor,KNN)、支持向量機(support vector machine,SVM)、神經網絡(neural network,NN)等方法,可對數據進行描述、學習、分析和預測等[29-30]。常多種方法聯合使用,找出最優模型。
2.3.1 決策樹模型
王新等[31]回顧性分析了2017—2020年352例胸腔鏡手術肺癌患者的臨床資料,分別建立決策樹模型及logistic回歸模型。結果顯示,年齡、糖尿病、COPD是兩種模型篩出的相同危險因素,兩者AUC相近。其中,決策樹AUC、靈敏度、特異度分別為0.868、0.796及0.785,提示模型預測效果較好。決策樹模型預測COPD肺癌患者PPCs發生率約為35%,而同時患有COPD及糖尿病的肺癌患者PPCs風險增至78.6%。決策樹模型可有效展示各變量之間的交互作用[32],而logistic回歸模型可展示各危險因素之間的相對危險程度,但該研究未納入重要的實驗室和肺功能指標,不能全面預測PPCs的風險;決策樹易出現過擬合現象,該研究的樣本量較少可能導致結果偏差[33]。因此,模型預測效能還有待進一步探討。
2.3.2 多種機器學習模型聯合預測
Jin等[34]分析2007—2015年NSCLC伴主要支氣管浸潤及完全性阻塞性肺炎/肺不張的26 833例患者資料,采用RF、KNN、極致梯度提升(extreme gradient boosting,XGBoost)、SVM等6種機器學習模型來預測該類患者5年生存率。結果顯示,主要支氣管浸潤組和完全性阻塞性肺炎/肺不張組的AUC分別為0.814和0.853,XGBoost模型在兩組人群中均最佳。該研究在預測模型的基礎上建立了網絡應用程序,用戶輸入自身臨床特征,即可預測生存率和生存狀態。雖然該研究針對術后生存率,而非PPCs,但可借鑒其研究思路來預測PPCs,并進行臨床轉化。但該研究仍有一定的局限:未納入具有重要診斷價值的部分腫瘤標志物和血液指標;缺乏詳細的治療方案信息,如免疫治療和靶向治療等;研究納入9年前數據,且為回顧性分析,存在一定偏倚,不一定適用于目前的醫療環境。因此,有必要開展前瞻性研究及外部驗證明確是否適用現階段臨床發展。
Zhou等[17]回顧性分析BioStudies醫學數據庫中905例接受胸腔鏡手術的患者資料,利用決策樹、RF、KNN、卷積神經網絡(convolutional neural network,CNN)等16種算法構建預測模型并進行內部驗證。結果顯示,PPCs的主要預測因素有單肺通氣時間、吸煙史、手術時間、ASA評分和血糖。其中,修剪貝葉斯神經網絡(pruning Bayesian neural network,PBNN)對PPCs預測方面優于其他算法,其驗證集AUC、準確性、精確度、特異度分別為0.869、0.820、0.627及0.914。雖然該研究對PPCs預測效果較好,但存在以下問題:一是未分析PPCs發生率;二是未公開數據代碼,影響其可重復性;三是回顧性研究且未收集實驗室檢查指標、影像學檢查、基因分型及治療情況,未說明缺失值及其處理方法,可能導致模型預測偏倚和發生過擬合現象。因此,模型預測效能還有待進一步探討。
綜上所述,目前常見的PPCs風險預測模型的納入變量差異性較大,有較多研究實驗室指標和肺功能指標納入不全,未納入影像組學、基因組學等變量,一定程度上可能影響預測效能。
3 影像組學預測模型
影像組學通過分析肺部影像數據,如基礎形態、微妙的紋理特征及復雜的高維特征[35],可能在預測肺癌PPCs方面有一定的潛力,但目前暫無影像組學結合機器學習方法開展肺癌PPCs預測模型的研究。
Tane等[36]納入2013—2018年471例術前接受肺活量測定和CT并行胸腔鏡肺葉切除術的肺癌患者,構建了肺氣腫聚類分析的D值預測PPCs風險預測模型。D值是評估肺部結構質量的指標之一,也是低衰減區(percentage of low attenuation area,LAA%)分布在對數-對數圖上繪制時遵循近似的直線,被認為是一個冪律,這種分布的斜率,可隨著肺氣腫的進展趨于平緩[36]。該模型的AUC值為0.72,PPCs發生率為12.9%,并發現D值與肺癌PPCs的關系明顯強于其他危險因素,說明代表肺泡結構復雜程度的D值是PPCs的有力預測指標,但該檢查并不屬于常規檢查,臨床實施難度較大;且研究未納入重要肺功能指標DLCO,無法確定兩者哪個預測效果更好;納入數據時間跨度較大,易因手術技術及條件等因素產生偏倚,影響預測效果;且該研究為單中心研究,樣本量較小,需進一步開展多中心大樣本研究。
Li等[37]回顧性分析2019—2021年進行手術并在24 h內行胸部X線檢查242例患者的臨床資料。使用肺水腫放射學評估評分(Radiographic Assessment of Lung Edema score,RALE)和胸部X線評分系統(被命名為Brixia評分)來預測急性低氧血癥性呼吸衰竭,分別評價兩者的預測效果。RALE評分根據每張胸部X線片被劃分為4個象限,實變評分代表每個象限內肺泡混濁程度(0:無,1:<25%,2:25%~49%,3:50%~75%,4:>75%);此外,密度評分表示整體混濁密度(1=朦朧,2=中等,3=密集)。RALE評分范圍從0(無浸潤)到48(每個象限超過75%的肺實變)。Brixia評分將胸部X線片的前后位(AP)或后前位(PA)切面分為6個區域,根據肺部異常的特征和程度進行評分:0~3分,總分為18分。該研究采用傾向性評分匹配,結果顯示,匹配后RALE評分預測效果更好,其AUC、準確度、精確度及特異度分別為0.710、0.811、0.632及0.912。該研究有以下優點:(1)通過兩種胸部X線片評分系統對比,使用傾向性評分匹配方法,防止數據偏差和混雜變量的影響,減少了兩組之間協變量的不平衡[38],使兩者更有比較意義;(2)該研究使用模型報告清單進行研究設計和文章書寫[39],保證了研究的透明度和質量。但該研究未進行前瞻性驗證,未說明樣本量的估算方法,樣本量較小,可能導致結果偏差,后期仍需探討該模型的臨床適用性。
各模型優缺點見附件表1。
4 研究趨勢及啟示
4.1 模型數據集需標準化,需開展大樣本、多中心、多組學肺癌術后肺部并發癥預測模型構建研究
開發標準化、有代表性的數據集,對后期預測模型精準有效服務目標人群至關重要[40]。目前肺癌PPCs預測模型研究多使用單中心的患者數據,均為回顧性研究,暫無前瞻性研究。回顧性研究雖可方便快捷地提取臨床資料,但存在臨床數據缺失值較多和不能保證數據同質性等問題,從而影響模型的預測效果。前瞻性研究可有效避免以上問題,能真實反映臨床環境,保證數據完整、真實、可靠及同質化。
此外,PPCs定義不同也會導致變量差異,有必要統一PPCs的診斷標準,并對PPCs的嚴重程度進行分層。如Zhao等[19]使用EPCO的PPCs診斷標準,結合Clavien-Dindo分級系統,有利于醫護人員把控PPCs針對性預防強度,對減少PPCs的發生至關重要。納入變量類型、分析數據等差異也會嚴重影響研究結果,不同研究納入的危險因素不同,每個危險因素在PPCs發揮的作用也不明確。目前大部分PPCs預測模型的研究忽略了影像組學變量,暫無研究使用基因組學、蛋白組學、代謝組學等變量,很少有研究考慮患者治療方法、生活方式改變等變量對PPCs的影響。此外,不同研究多建立了自己的數據集,可能會造成數據、時間、經費等資源的浪費。
建議今后開展前瞻性、多中心、大樣本研究,增加影像組學、基因組學、蛋白組學、代謝組學等指標,參照美國國家癌癥數據庫(National Cancer Database,NCDB)等,形成全國多中心、標準化、可視化、信息化及實用化的圍手術期肺癌專屬數據庫[41],實現數據共通、共建、共享。此外,還可探索如何將大型專病數據庫、醫院數據系統、國家臨床中心數據庫等無縫隙連接,自動提取、分析數據。建議通過循證、專家咨詢或專家會議等方法,充分納入潛在的危險因素變量,或在以上大數據的基礎上,開展多組學預測模型研究,以確保數據全面、可靠、科學,實現精準預測。而面臨的挑戰是如何保證數據一致性、安全性、科學性和實時性,如何提高模型的可解釋性和透明度等。
4.2 風險預測模型需與人工智能及臨床應用相結合
肺癌PPCs風險預測模型的建模方法多采用傳統logistic回歸模型、列線圖等。隨著大數據、機器學習和人工智能的發展,這些技術已成為疾病風險預測模型領域的研究熱點,但其在肺癌PPCs風險預測中仍處于初始階段。未來可結合上述技術構建模型,并比較其性能,以確定PPCs最優模型;也可使用多種模型,進行優勢互補,以達到最佳預測效果。
目前,實際應用于臨床的PPCs風險預測模型較少。主要原因有:(1)大多數研究僅進行了內部驗證,開展外部驗證研究較少,影響了研究質量和模型外推性[42],從而影響了臨床實用價值[21, 34, 36, 43]。(2)各預測模型所納入變量差異性較大,有的較為復雜。且部分研究未開發方便實用的應用程序或預測系統,未與醫院HIS系統連接,不能自動識別。醫務人員工作繁忙,如果預測模型復雜或需要手動輸入相關參數,勢必會增加醫務人員負擔,使預測模型難以在臨床使用,成為研究與實踐的鴻溝。由于基于智能計算、機器學習及可在線訪問的風險預測模型將成為大趨勢,線上程序在未來有更廣闊的開發空間。未來可將模型進一步優化并簡潔化,轉化開發醫院HIS系統的自動識別并自動輸出結果的預測系統,以便快速、科學高效、提前預警風險人群,從而實現預測模型的臨床轉化及應用。上述系統將幫助醫務人員快速決策,及時制定針對性預防干預措施,減輕患者痛苦,促進康復,減少臨床工作量,提高醫護人員臨床工作質量。
4.3 規范并優化風險預測模型構建及驗證過程,報告需透明化
盡管國際上已發布風險預測模型研究規范性報告聲明(Transparent Reporting of a multivariable model for Individual Prognosis Or Diagnosis,TRIPOD)[6, 39]和風險預測模型研究偏倚風險評估工具[5, 44],但目前僅2個研究[19, 37]使用TRIPOD清單進行報告。大多數研究的模型構建及驗證過程仍存在一定問題:報告欠透明化,使讀者不明確模型構建及驗證過程和方法學,如較少研究[45-46]估計樣本量,而充分的樣本量能保證預測變量與結局之間關聯的穩健性;多數研究未曾提及缺失值處理;部分研究模型性能檢測指標評估不完整,僅報告了模型的AUC值,未報告準確度、敏感度、特異度等指標,增加了模型預測效果的不確定性,可能會導致讀者無法判斷模型效能[28, 36];僅少數研究[21, 34, 36, 43]進行外部驗證,影響了研究質量和模型的實用價值。此外,還應描述目標人群接受干預治療的具體細節,包括基線或出院隨訪時接受的任何治療及干預措施等[34, 36],因為這些干預措施也可能會改變結局,從而影響預測模型的準確性。
因此,建議今后的研究參考預測模型報告清單,特別是最新發表的TRIPOD+AI清單[6]或風險預測模型研究偏倚風險評估工具[5, 44]來規范并優化風險預測模型的構建與驗證過程,開展嚴謹的科研設計,提高模型的可解釋性和透明度,以確保模型的可重復性、嚴謹性及穩健性。
5 小結
綜上所述,目前肺癌PPCs風險預測模型對PPCs發生有一定的預測效能,機器學習和人工智能是近年研究的發展趨勢。但其研究設計、模型評價、模型驗證、臨床應用及透明化報告等方面存在一定的不足。由于本文為敘述性綜述,未評價各研究質量,僅總結了研究存在的不足,可能存在一定的局限性。建議今后開展系統評價,進行定量合成,評價目前模型的預測效能及研究質量。此外,建議今后建立標準化的數據集,開展前瞻性、多中心、大樣本研究,構建并優化多組學預測模型,以確保數據全面、可靠、科學,實現精準預測;重視模型預測性能的評價和外部驗證,提高模型的預測效能、穩定性和可推廣性;開發自動識別肺癌PPCs高風險患者的預警系統,實現預測模型的臨床轉化及應用;應用TRIPOD+AI清單進行透明化研究報告,并采取有效措施促進預測模型的臨床推廣與應用,幫助醫護人員快速精準決策,制定并實施針對性預防干預措施,改善患者結局,提高醫療護理質量。
利益沖突:無。
作者貢獻:鄧婷、宋佳美、諶紹林確立選題、設計研究及終審文章;李金、吳曉燕、吳俐姍收集、分析、總結資料;鄧婷、宋佳美撰寫文章初稿;李金、吳曉燕、吳俐姍及諶紹林提出修改意見,解答專家意見并審閱文章。
本文附件表1見本刊網站電子版。