版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
膿毒性休克是一種嚴重的臨床綜合征,主要表現為持續的低血壓和微循環障礙,是兒童患者死亡的主要原因之一[1]。膿毒癥的患病率與經濟社會發展水平有關。發達國家嚴重膿毒癥發生率為6%~8%,死亡率為21%~32%;而亞洲和南美洲的發生率為15%~16%,死亡率分別為40%和11%;南非的發生率為25%,死亡率為40%[2]。由于病情發展迅速,入院48小時內有12%的嚴重感染患者可能會進展為膿毒性休克[3]。且兒童膿毒性休克的臨床表現和體征早期并不具有特異性,因此僅依靠這些因素來識別和診斷膿毒性休克可能存在一定困難。目前臨床上常用危重評分系統評價兒童膿毒癥的病情嚴重程度[4–8],例如兒童早期預警評分(PEWS)、兒童危重病例評分(PCIS)及兒童序貫器官功能障礙評分(pSOFA)等。盡管這些評分系統能夠快速進行評價和風險分層,但它們在診斷準確性方面仍有待提高[6,9,10]。
近年來,機器學習算法在臨床數據分析領域得到廣泛應用,尤其是在評估危急患者的臨床結局方面[11]。機器學習是基于數據進行自動建模的技術[12],相對于傳統建模方法,機器學習技術可以更有效地處理復雜、高維和交互式變量[13]。其中不乏國內外學者研究如何利用機器學習技術預測兒童膿毒性休克及預后,目前已有23個模型對患兒膿毒性休克進行預測,主要通過對患兒臨床表現和實驗室指標進行特征篩選,利用機器學習算法構建最優預測模型。由于臨床方面迫切需要兒童膿毒性休克的早期預警模型,且尚無綜述性研究全面評估機器學習在識別兒童膿毒性休克方面的有效性。因此本文采用系統評價和Meta分析方法對機器學習在兒童膿毒性休克預測研究中的應用進行全方面梳理,評估機器學習模型在兒童膿毒性休克中的預測性能,為后續研究提供更好的研究方法,并討論其在臨床的應用價值及改進方向。
1 資料與方法
1.1 納入與排除標準
納入標準:① 年齡:28天~18歲兒童;② 預測嚴重膿毒癥或膿毒性休克的發展風險;③ 采用常規數據,如人口統計學、生命體征、實驗室檢驗及生物基因標志物等進行建模和預測;④ 采用機器學習模型進行風險預測。
排除標準:① 僅預測嚴重細菌感染不包括膿毒性休克的研究;② 非機器學習方法的預測研究;③ 未對臨床表現或實驗室指標進行預測的研究。
1.2 文獻檢索策略
計算機檢索PubMed、Embase、Web of Science、ScienceDirect、CNKI、WanFang Data數據庫,檢索時限均為建庫至2024年4月1日,搜集有關機器學習預測兒童膿毒性休克的研究。研究內容及檢索策略在國際化前瞻性系統評價注冊數據庫(PROSPERO)網站注冊(注冊號:CRD42024572596)。中文檢索詞包括膿毒性休克、兒童、預測、機器學習等;英文檢索詞包括septic shock、children、predict、machine learning等。
1.3 文獻篩選與資料提取
兩位研究者根據納入和排除標準對標題和摘要進行篩選,符合標準的研究將進入全文閱讀階段。全文閱讀也是由兩名研究者進行獨立審查。如果兩位研究者之間出現意見分歧,將由第三位研究者進行裁定。所有納入的研究文獻提取相關信息:① 基本信息:文獻發表時間;② 研究數據:數據來源、樣本數量;③ 研究設計:研究類型、入組標準、自變量、缺失值的處理方式、結局變量;④ 預測模型:機器學習算法、特征變量、模型性能、外部驗證等。
1.4 納入研究的偏倚風險評價
偏倚風險評估采用預測模型風險評估工具(PROBAST),評估內容包括研究對象、預測變量、結局和分析方法,以及整體偏倚等級(前四部分)和整體適用性等級(前三部分)。風險等級分為低風險、未知風險和高風險三類。
1.5 統計分析
根據系統評價和預測模型性能Meta分析指南中的方法及已有預測模型Meta分析[14–16],模型表現通過區分度進行評估,其反映了模型識別特定事件結果的能力,使用ROC曲線的AUC進行評估。對于研究中報告了AUC但未提到標準誤的研究,使用限制性最大似然估計計算標準誤[17,18]。同時,由于納入研究間的異質性,采用隨機效應模型進行Meta分析。發表偏倚通過漏斗圖評估,并使用剔除極端AUC值后的模型,判斷異常值對合并AUC的影響。此外,通過亞組分析探討異質性的來源,具體包括研究間隔時間、樣本量、機器學習模型、預測變量類型、預測變量個數。Meta分析在MedCalc中進行。
2 結果
2.1 文獻檢索結果
初檢出相關文獻98篇,經逐層篩選后,最終納入11篇研究。文獻篩選流程及結果見附件圖1。
2.2 納入研究的基本特征
本研究共納入11篇文獻,包括英文文獻7篇,中文文獻4篇。最早的相關研究發表于2012年[19],2020年前僅有3篇相關研究被發表[19–21],而2020年后相關研究論文數量有明顯增加。從數據來源的角度分析,納入研究使用到的數據包括公開和非公開的電子病歷數據庫。公開數據庫只有NCBI基因表達綜合數據庫[22],而非公開數據庫包括國內外醫療機構的患者病例信息庫。納入文獻研究設計包括6項回顧性研究[21–26],2項前瞻性研究[19,20],還有3項隊列研究[27–29],由于前瞻性研究耗時耗力所以研究較少。從入組標準分析,國外4項研究采用了基于Sepsis-3標準的變形(pSOFA≥2)或2005年發表的兒童膿毒癥國際共識標準[19–21,28],而國內研究根據《兒童膿毒性休克(感染性休克)診治專家共識(2015版)》[23–25],以及國際疾病分類標準-9編碼(ICD-9)對膿毒癥定義[21]進行納入。
從預測變量來看,構建預測模型主要選擇的特征類別為人口統計學特征(主要為年齡、性別、住院時長等)、生命體征(主要為心率、呼吸頻率、體溫、收縮壓、舒張壓等)、實驗室檢查(主要為血常規、血糖、生化、凝血功能、血清標志物等)及血清生物基因標志物。
納入研究用到的機器學習模型包括邏輯回歸、隨機森林、支持向量機和XGBoost等,顯示出機器學習算法在預測兒童膿毒性休克方面的可行性,但其篩選出的特征變量存在差異。在生命體征中Le等[21]提到體溫和心率是重要特征,Xiang等[24]則認為呼吸、脈搏和體溫是特征變量。在實驗室指標中,Xiang等[24]提取出11項危險因素(白細胞、中性粒細胞、血小板、嗜堿性粒細胞、淋巴細胞百分比、平均血紅蛋白量、血鉀、離子鈣水平、ALT水平、APTT和CRP);龔軍等[23]從66項指標中提取出10項危險因素(尿微量白蛋白、乳酸脫氫酶、白蛋白、鈣離子、肌紅蛋白、降鈣素原、大便白細胞、尿蛋白、尿酸、肌酸激酶同工酶),而Liu等[28]則認為乳酸是最重要的特征;Wong等通過血清生物基因標志物進行預測,認為趨化因子配體3、熱休克蛋白70kDa1B、白細胞介素8、顆粒酶B、基質金屬蛋白酶8等為特征變量。其中生命體征和實驗室檢查便于獲取,而并非所有患兒在膿毒癥早期會進行基因檢測得到血清生物基因標志物,其實用性有待驗證。并且可以看出基于不同數據庫構建的預測模型出現了不同的特征變量結果,確定預測模型的關鍵變量還需要在其他數據集上進行進一步的驗證。
從預測時間來說,Le等[21]能夠在休克發生前4小時進行預測,同樣Xiang等[24]在膿毒性休克發生前4、8、12和24小時提供預警,這對于早期識別和治療具有重要意義,大多數研究設置已發生休克為時間節點,所以其時效性有待進一步探究。其中評價兒童膿毒性休克預測模型性能的指標有AUC、AUCPR、靈敏度、特異性、精確度、準確度以及F1分數。AUC是ROC曲線下的面積,是評價模型整體性能的度量,11篇文獻均評價了模型的AUC,但僅有4項研究進行了外部驗證。所以大多數研究的泛化能力尚未得到驗證。
2.3 納入研究的偏倚風險評價結果
基于PROBAST評估的結果顯示,在前四個條目中多項研究存在“未知風險”,所以整體偏倚風險大多為“未知風險”。有6篇研究的整體適用性偏倚風險被評估為“未知風險”,占大多數。
2.4 Meta分析結果
隨機效應Meta分析結果見附件圖2,異質性檢驗結果顯示I2=99.66%(P<0.001),合并后的AUC為0.812[95%CI(0.763,0.860)]。AUC>0.8所以模型區分度較好,但I2>50%表明大多數亞組內存在異質性較大,我們采用亞組分析來探討納入研究間的異質性來源。
亞組間的比較通過AUC的95%CI是否重疊來確認,無重疊有統計學意義,有重疊則無統計學意義。亞組分析結果顯示,樣本量較大(≥1 000例)的模型的預測性能優于樣本量較小(<1 000例)的模型的預測能力。六類機器學習模型均表現較好,其中決策樹類型預測性能最好AUC=0.859[95%CI(0.794,0.924)],但與其他模型的差異無統計學意義。預測變量類型中生物基因標志物預測能力的AUC=0.890[95%CI(0.859,0.921)]比其他兩種類型預測能力高。模型預測變量個數≥10個的AUC=0.820[95%CI(0.765,0.874)]預測性能更高,但與<10個相比差異無統計學意義(表1)。

發表偏倚與敏感性分析:漏斗圖顯示出納入研究存在發表偏倚(附件圖3)。剔除極端AUC值(AUC=0.630、AUC=0.943)的模型后,Meta分析結果為AUC=0.815[95%CI(0.769,0.861),P<0.001],異質性I2=99.28%。對比所有模型Meta分析結果AUC=0.812[95%CI(0.763,0.860),P<0.001],異質性I2=99.66%,可以看出合并后的AUC對異常值不敏感。
3 討論
由本Meta分析可見,機器學習模型預測兒童膿毒性休克的能力AUC=0.812[95%CI(0.763,0.860)],表明模型區分度較好。但為了進一步優化其預測性能,有必要深入了解影響不同研究結果差異的因素。
亞組分析用來探討納入研究的異質性來源。亞組分析顯示,較大的樣本量(≥1 000例)可以顯著提高模型的預測能力,這一點與機器學習算法能從豐富的數據樣本中學習的特點相吻合[30]。預測變量類型來看,生物基因標志物預測能力較好,表明其可以更好地反映疾病相關的病理過程[31],但并非所有患兒在膿毒癥早期都會進行基因檢測,實用性有待考驗。納入研究常規的機器學習技術包括隨機森林、支持向量機、XGBoost等,其中隨機森林通過集成多個決策樹的預測結果來提高整體的準確性,但由于訓練過程中引入了隨機性,不同的運行可能會產生不同的結果;支持向量機通過選擇支持向量來構建模型,它通常能夠較好地泛化到新數據上,從而減少過擬合,但其對新數據的適應性較差,需要重新訓練模型以適應新數據;XGBoost內置了L1和L2正則化,有助于防止模型過擬合,且提供了豐富的參數,允許根據具體問題調整模型,但模型本身的解釋性不如其他模型。根據亞組分析顯示,不同技術預測性能差異不明顯,這與已有研究結果相符[32],但在不考慮模型的可解釋性和過擬合問題,多數研究傾向于利用較復雜的模型進行預測。從預測變量個數來看,模型預測變量個數≥10個時具有更好的預測性能,但可能由于指標數量較多,臨床推廣應用面臨一定困難,其價值需要進一步探索。
偏倚風險評估表明,大多數研究的質量存在問題:研究納入的研究對象廣泛,包括了嚴重膿毒癥患兒,存在選擇偏倚;結局標準不明確,沒有明確規定何種表現為休克發病的時間節點;沒有提供足夠的方法學細節,導致無法準確評估偏倚風險,造成未知風險較多。這與缺乏機器學習模型建模和預測的報告規范有關[33],從而影響研究質量。同時,預測變量的類型往往對結果產生決定性影響,導致難以消除或減弱因預測變量引起的異質性。根據文獻信息描述可知,基于不同數據庫構建的預測模型出現了不同的特征變量結果,因此確定預測模型的關鍵變量還需要在其他數據集上進行進一步的驗證。
此外,通過觀察發表偏倚漏斗圖,我們注意到數據點的分布并不平衡,這可能與目前納入的11項研究均未直接報告AUC的標準誤差有關。在這些研究中,AUC的標準誤是間接方法得出的,而這些推算值不能完全代表真實的標準誤,從而引入了一定的偏倚。在未來的研究中,我們可以考慮利用現有的指標更準確地合并AUC值,以減少這種偏倚。
研究存在的局限性:① 合并后AUC是根據標準誤計算得到的,而許多研究并沒有直接提供標準誤,所以,我們通過間接計算的方法合并AUC,這在一定程度上影響了結果的準確性。② 納入研究不僅僅使用AUC作為模型預測性能的評價指標,還包括靈敏度、特異性、精確度及準確度等指標也應考慮納入。③ 由于研究納入的研究對象所對應的診斷標準存在差異,一定程度上影響了該研究的結果。
在系統評價時發現,成人嚴重膿毒癥及膿毒性休克的機器學習研究較為豐富,而兒童膿毒癥的研究相對較少。這可能與成人膿毒癥的定義已經得到廣泛認可有關,相比之下,兒童膿毒癥的定義在全球范圍內缺乏足夠的適用性和有效性[34]。目前,大多數研究集中于對兒童重癥監護病房(PICU)中的患兒進行膿毒性休克的診斷或預后預測。然而,對于未收入PICU如普通住院病房感染的兒童,尚缺乏簡便有效的預警模型來預測他們發展為膿毒癥或膿毒性休克的風險。開發這樣的預警模型對于及時識別需要收入PICU的患兒至關重要,這不僅可以防止病情惡化、降低病死率,還能更合理地分配醫療資源。綜上所述,機器學習技術在預測兒童膿毒性休克方面展示出一定的潛力,但現有研究在質量上還有待加強,未來的研究工作應提升研究的質量,有針對性的增強其預測效能,以期達到更準確的預測結果。
聲明 本研究不存在任何利益沖突。
膿毒性休克是一種嚴重的臨床綜合征,主要表現為持續的低血壓和微循環障礙,是兒童患者死亡的主要原因之一[1]。膿毒癥的患病率與經濟社會發展水平有關。發達國家嚴重膿毒癥發生率為6%~8%,死亡率為21%~32%;而亞洲和南美洲的發生率為15%~16%,死亡率分別為40%和11%;南非的發生率為25%,死亡率為40%[2]。由于病情發展迅速,入院48小時內有12%的嚴重感染患者可能會進展為膿毒性休克[3]。且兒童膿毒性休克的臨床表現和體征早期并不具有特異性,因此僅依靠這些因素來識別和診斷膿毒性休克可能存在一定困難。目前臨床上常用危重評分系統評價兒童膿毒癥的病情嚴重程度[4–8],例如兒童早期預警評分(PEWS)、兒童危重病例評分(PCIS)及兒童序貫器官功能障礙評分(pSOFA)等。盡管這些評分系統能夠快速進行評價和風險分層,但它們在診斷準確性方面仍有待提高[6,9,10]。
近年來,機器學習算法在臨床數據分析領域得到廣泛應用,尤其是在評估危急患者的臨床結局方面[11]。機器學習是基于數據進行自動建模的技術[12],相對于傳統建模方法,機器學習技術可以更有效地處理復雜、高維和交互式變量[13]。其中不乏國內外學者研究如何利用機器學習技術預測兒童膿毒性休克及預后,目前已有23個模型對患兒膿毒性休克進行預測,主要通過對患兒臨床表現和實驗室指標進行特征篩選,利用機器學習算法構建最優預測模型。由于臨床方面迫切需要兒童膿毒性休克的早期預警模型,且尚無綜述性研究全面評估機器學習在識別兒童膿毒性休克方面的有效性。因此本文采用系統評價和Meta分析方法對機器學習在兒童膿毒性休克預測研究中的應用進行全方面梳理,評估機器學習模型在兒童膿毒性休克中的預測性能,為后續研究提供更好的研究方法,并討論其在臨床的應用價值及改進方向。
1 資料與方法
1.1 納入與排除標準
納入標準:① 年齡:28天~18歲兒童;② 預測嚴重膿毒癥或膿毒性休克的發展風險;③ 采用常規數據,如人口統計學、生命體征、實驗室檢驗及生物基因標志物等進行建模和預測;④ 采用機器學習模型進行風險預測。
排除標準:① 僅預測嚴重細菌感染不包括膿毒性休克的研究;② 非機器學習方法的預測研究;③ 未對臨床表現或實驗室指標進行預測的研究。
1.2 文獻檢索策略
計算機檢索PubMed、Embase、Web of Science、ScienceDirect、CNKI、WanFang Data數據庫,檢索時限均為建庫至2024年4月1日,搜集有關機器學習預測兒童膿毒性休克的研究。研究內容及檢索策略在國際化前瞻性系統評價注冊數據庫(PROSPERO)網站注冊(注冊號:CRD42024572596)。中文檢索詞包括膿毒性休克、兒童、預測、機器學習等;英文檢索詞包括septic shock、children、predict、machine learning等。
1.3 文獻篩選與資料提取
兩位研究者根據納入和排除標準對標題和摘要進行篩選,符合標準的研究將進入全文閱讀階段。全文閱讀也是由兩名研究者進行獨立審查。如果兩位研究者之間出現意見分歧,將由第三位研究者進行裁定。所有納入的研究文獻提取相關信息:① 基本信息:文獻發表時間;② 研究數據:數據來源、樣本數量;③ 研究設計:研究類型、入組標準、自變量、缺失值的處理方式、結局變量;④ 預測模型:機器學習算法、特征變量、模型性能、外部驗證等。
1.4 納入研究的偏倚風險評價
偏倚風險評估采用預測模型風險評估工具(PROBAST),評估內容包括研究對象、預測變量、結局和分析方法,以及整體偏倚等級(前四部分)和整體適用性等級(前三部分)。風險等級分為低風險、未知風險和高風險三類。
1.5 統計分析
根據系統評價和預測模型性能Meta分析指南中的方法及已有預測模型Meta分析[14–16],模型表現通過區分度進行評估,其反映了模型識別特定事件結果的能力,使用ROC曲線的AUC進行評估。對于研究中報告了AUC但未提到標準誤的研究,使用限制性最大似然估計計算標準誤[17,18]。同時,由于納入研究間的異質性,采用隨機效應模型進行Meta分析。發表偏倚通過漏斗圖評估,并使用剔除極端AUC值后的模型,判斷異常值對合并AUC的影響。此外,通過亞組分析探討異質性的來源,具體包括研究間隔時間、樣本量、機器學習模型、預測變量類型、預測變量個數。Meta分析在MedCalc中進行。
2 結果
2.1 文獻檢索結果
初檢出相關文獻98篇,經逐層篩選后,最終納入11篇研究。文獻篩選流程及結果見附件圖1。
2.2 納入研究的基本特征
本研究共納入11篇文獻,包括英文文獻7篇,中文文獻4篇。最早的相關研究發表于2012年[19],2020年前僅有3篇相關研究被發表[19–21],而2020年后相關研究論文數量有明顯增加。從數據來源的角度分析,納入研究使用到的數據包括公開和非公開的電子病歷數據庫。公開數據庫只有NCBI基因表達綜合數據庫[22],而非公開數據庫包括國內外醫療機構的患者病例信息庫。納入文獻研究設計包括6項回顧性研究[21–26],2項前瞻性研究[19,20],還有3項隊列研究[27–29],由于前瞻性研究耗時耗力所以研究較少。從入組標準分析,國外4項研究采用了基于Sepsis-3標準的變形(pSOFA≥2)或2005年發表的兒童膿毒癥國際共識標準[19–21,28],而國內研究根據《兒童膿毒性休克(感染性休克)診治專家共識(2015版)》[23–25],以及國際疾病分類標準-9編碼(ICD-9)對膿毒癥定義[21]進行納入。
從預測變量來看,構建預測模型主要選擇的特征類別為人口統計學特征(主要為年齡、性別、住院時長等)、生命體征(主要為心率、呼吸頻率、體溫、收縮壓、舒張壓等)、實驗室檢查(主要為血常規、血糖、生化、凝血功能、血清標志物等)及血清生物基因標志物。
納入研究用到的機器學習模型包括邏輯回歸、隨機森林、支持向量機和XGBoost等,顯示出機器學習算法在預測兒童膿毒性休克方面的可行性,但其篩選出的特征變量存在差異。在生命體征中Le等[21]提到體溫和心率是重要特征,Xiang等[24]則認為呼吸、脈搏和體溫是特征變量。在實驗室指標中,Xiang等[24]提取出11項危險因素(白細胞、中性粒細胞、血小板、嗜堿性粒細胞、淋巴細胞百分比、平均血紅蛋白量、血鉀、離子鈣水平、ALT水平、APTT和CRP);龔軍等[23]從66項指標中提取出10項危險因素(尿微量白蛋白、乳酸脫氫酶、白蛋白、鈣離子、肌紅蛋白、降鈣素原、大便白細胞、尿蛋白、尿酸、肌酸激酶同工酶),而Liu等[28]則認為乳酸是最重要的特征;Wong等通過血清生物基因標志物進行預測,認為趨化因子配體3、熱休克蛋白70kDa1B、白細胞介素8、顆粒酶B、基質金屬蛋白酶8等為特征變量。其中生命體征和實驗室檢查便于獲取,而并非所有患兒在膿毒癥早期會進行基因檢測得到血清生物基因標志物,其實用性有待驗證。并且可以看出基于不同數據庫構建的預測模型出現了不同的特征變量結果,確定預測模型的關鍵變量還需要在其他數據集上進行進一步的驗證。
從預測時間來說,Le等[21]能夠在休克發生前4小時進行預測,同樣Xiang等[24]在膿毒性休克發生前4、8、12和24小時提供預警,這對于早期識別和治療具有重要意義,大多數研究設置已發生休克為時間節點,所以其時效性有待進一步探究。其中評價兒童膿毒性休克預測模型性能的指標有AUC、AUCPR、靈敏度、特異性、精確度、準確度以及F1分數。AUC是ROC曲線下的面積,是評價模型整體性能的度量,11篇文獻均評價了模型的AUC,但僅有4項研究進行了外部驗證。所以大多數研究的泛化能力尚未得到驗證。
2.3 納入研究的偏倚風險評價結果
基于PROBAST評估的結果顯示,在前四個條目中多項研究存在“未知風險”,所以整體偏倚風險大多為“未知風險”。有6篇研究的整體適用性偏倚風險被評估為“未知風險”,占大多數。
2.4 Meta分析結果
隨機效應Meta分析結果見附件圖2,異質性檢驗結果顯示I2=99.66%(P<0.001),合并后的AUC為0.812[95%CI(0.763,0.860)]。AUC>0.8所以模型區分度較好,但I2>50%表明大多數亞組內存在異質性較大,我們采用亞組分析來探討納入研究間的異質性來源。
亞組間的比較通過AUC的95%CI是否重疊來確認,無重疊有統計學意義,有重疊則無統計學意義。亞組分析結果顯示,樣本量較大(≥1 000例)的模型的預測性能優于樣本量較小(<1 000例)的模型的預測能力。六類機器學習模型均表現較好,其中決策樹類型預測性能最好AUC=0.859[95%CI(0.794,0.924)],但與其他模型的差異無統計學意義。預測變量類型中生物基因標志物預測能力的AUC=0.890[95%CI(0.859,0.921)]比其他兩種類型預測能力高。模型預測變量個數≥10個的AUC=0.820[95%CI(0.765,0.874)]預測性能更高,但與<10個相比差異無統計學意義(表1)。

發表偏倚與敏感性分析:漏斗圖顯示出納入研究存在發表偏倚(附件圖3)。剔除極端AUC值(AUC=0.630、AUC=0.943)的模型后,Meta分析結果為AUC=0.815[95%CI(0.769,0.861),P<0.001],異質性I2=99.28%。對比所有模型Meta分析結果AUC=0.812[95%CI(0.763,0.860),P<0.001],異質性I2=99.66%,可以看出合并后的AUC對異常值不敏感。
3 討論
由本Meta分析可見,機器學習模型預測兒童膿毒性休克的能力AUC=0.812[95%CI(0.763,0.860)],表明模型區分度較好。但為了進一步優化其預測性能,有必要深入了解影響不同研究結果差異的因素。
亞組分析用來探討納入研究的異質性來源。亞組分析顯示,較大的樣本量(≥1 000例)可以顯著提高模型的預測能力,這一點與機器學習算法能從豐富的數據樣本中學習的特點相吻合[30]。預測變量類型來看,生物基因標志物預測能力較好,表明其可以更好地反映疾病相關的病理過程[31],但并非所有患兒在膿毒癥早期都會進行基因檢測,實用性有待考驗。納入研究常規的機器學習技術包括隨機森林、支持向量機、XGBoost等,其中隨機森林通過集成多個決策樹的預測結果來提高整體的準確性,但由于訓練過程中引入了隨機性,不同的運行可能會產生不同的結果;支持向量機通過選擇支持向量來構建模型,它通常能夠較好地泛化到新數據上,從而減少過擬合,但其對新數據的適應性較差,需要重新訓練模型以適應新數據;XGBoost內置了L1和L2正則化,有助于防止模型過擬合,且提供了豐富的參數,允許根據具體問題調整模型,但模型本身的解釋性不如其他模型。根據亞組分析顯示,不同技術預測性能差異不明顯,這與已有研究結果相符[32],但在不考慮模型的可解釋性和過擬合問題,多數研究傾向于利用較復雜的模型進行預測。從預測變量個數來看,模型預測變量個數≥10個時具有更好的預測性能,但可能由于指標數量較多,臨床推廣應用面臨一定困難,其價值需要進一步探索。
偏倚風險評估表明,大多數研究的質量存在問題:研究納入的研究對象廣泛,包括了嚴重膿毒癥患兒,存在選擇偏倚;結局標準不明確,沒有明確規定何種表現為休克發病的時間節點;沒有提供足夠的方法學細節,導致無法準確評估偏倚風險,造成未知風險較多。這與缺乏機器學習模型建模和預測的報告規范有關[33],從而影響研究質量。同時,預測變量的類型往往對結果產生決定性影響,導致難以消除或減弱因預測變量引起的異質性。根據文獻信息描述可知,基于不同數據庫構建的預測模型出現了不同的特征變量結果,因此確定預測模型的關鍵變量還需要在其他數據集上進行進一步的驗證。
此外,通過觀察發表偏倚漏斗圖,我們注意到數據點的分布并不平衡,這可能與目前納入的11項研究均未直接報告AUC的標準誤差有關。在這些研究中,AUC的標準誤是間接方法得出的,而這些推算值不能完全代表真實的標準誤,從而引入了一定的偏倚。在未來的研究中,我們可以考慮利用現有的指標更準確地合并AUC值,以減少這種偏倚。
研究存在的局限性:① 合并后AUC是根據標準誤計算得到的,而許多研究并沒有直接提供標準誤,所以,我們通過間接計算的方法合并AUC,這在一定程度上影響了結果的準確性。② 納入研究不僅僅使用AUC作為模型預測性能的評價指標,還包括靈敏度、特異性、精確度及準確度等指標也應考慮納入。③ 由于研究納入的研究對象所對應的診斷標準存在差異,一定程度上影響了該研究的結果。
在系統評價時發現,成人嚴重膿毒癥及膿毒性休克的機器學習研究較為豐富,而兒童膿毒癥的研究相對較少。這可能與成人膿毒癥的定義已經得到廣泛認可有關,相比之下,兒童膿毒癥的定義在全球范圍內缺乏足夠的適用性和有效性[34]。目前,大多數研究集中于對兒童重癥監護病房(PICU)中的患兒進行膿毒性休克的診斷或預后預測。然而,對于未收入PICU如普通住院病房感染的兒童,尚缺乏簡便有效的預警模型來預測他們發展為膿毒癥或膿毒性休克的風險。開發這樣的預警模型對于及時識別需要收入PICU的患兒至關重要,這不僅可以防止病情惡化、降低病死率,還能更合理地分配醫療資源。綜上所述,機器學習技術在預測兒童膿毒性休克方面展示出一定的潛力,但現有研究在質量上還有待加強,未來的研究工作應提升研究的質量,有針對性的增強其預測效能,以期達到更準確的預測結果。
聲明 本研究不存在任何利益沖突。