版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
高質量系統評價與Meta分析作為循證醫學的最高級別證據,是當前進行臨床實踐與制訂臨床指南的基礎[1-3]。然而,在循證決策中,通常依賴于P值確定治療組與對照組在療效和安全性的差異是否存在統計學意義。傳統上,將P值的閾值設為0.05,如果P值小于0.05,則認為發生Ⅰ類錯誤的可能性較小,從而得出兩組間的差異存在統計學意義[4]。這種方法最早由Fisher在20世紀初提出,至今仍被廣泛應用[5-8]。然而,Chavalarias[9]發現,大部分研究的P值往往集中在0.05和0.001附近,這意味著這些研究結果的穩健性可能不足。Walsh等[10]首次使用脆性指數(FI)來評估醫學研究結果的穩健性。FI是指在治療組或對照組中,導致結果統計學意義發生改變所需的事件最小變化量。例如,一個FI為2且具有統計學意義的隨機對照試驗意味著,只需試驗組或對照組的結局事件發生數量變化2個單位,其結果的統計學意義就會發生變化。如果在這樣的試驗中存在超過兩個失訪或退出的受試者,那么該研究的結果和結論就會受到嚴重質疑。
FI作為結果穩健性評價指標,較多應用于醫學研究領域的隨機對照試驗,如腫瘤學[11]、顱內出血[12]、血管外科手術[13]、神經外科[14]等。僅有少數作者使用FI評價了Meta分析的穩健性[15-17]。尚未有專門針對兒科學的系統評價和Meta分析進行穩健性評估的研究。而隨著兒科學領域的不斷發展,越來越多的兒科臨床研究和循證證據發表并應用于臨床,兒科的臨床治療不斷走向規范化,此時,應該更加注重對臨床證據的應用。因此,本研究關注兒童藥物干預的Meta分析,采用FI來評估系統評價和Meta分析的穩健性,為兒科藥物的臨床使用提供更有價值的指導。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 基于隨機對照試驗的系統評價和Meta分析;② 研究內容為藥物治療的有效性或安全性;③ 研究人群為兒童青少年(0~18歲);④ 全文必須報告每個納入的隨機對照試驗中干預組和對照組的事件數量和總數,以便能夠計算FI。
1.1.2 排除標準
① 敘述性綜述;② 未進行Meta分析的系統評價;③ 納入非隨機對照試驗,包括動物試驗、橫斷面研究、病例-對照研究、隊列研究等原始研究;④ 回信、社論、勘誤、評論等特殊類型的文獻;⑤ 網狀Meta分析。
1.2 文獻檢索策略
確定Scopus收錄的兒科學期刊,剔除其中的掠奪性期刊。以“meta analysis、meta-analysis、pool* analysis、systematic review*”為主要檢索詞,在PubMed、Embase和Scopus數據庫中檢索所有發表于兒科學期刊的系統評價和Meta分析類型的文章,檢索時限均為建庫至2022年8月26日。
1.3 文獻篩選與數據提取
由2名研究者獨立篩選文獻、提取資料并交叉核對。如有分歧,則通過討論或與第三方協商解決。資料提取內容包括:第一作者、發表年份、效應模型(隨機/固定)、合成方法(Inverse variance/Peto OR/DerSimonian Laird Classic Method/Mantel-Haenszel)、效應量(RR/OR/RD)、干預藥物、對照組藥物、結局、結局類型、亞組分析的具體類型、各隨機對照試驗的第一作者和發表年份、治療組和對照組的事件數和總數。
1.4 統計分析
本研究使用Lin等[18]開發的R軟件包“fragility”計算Meta分析的FI。Meta分析的FI為使Meta分析結果的統計學意義發生變化的最小事件數量。在公式(1)中,左邊的矩陣表示包含i項研究的Meta數據。在每項研究中,r1和n1表示試驗組的事件數和總數,r2和n2表示對照組的事件數和總數。右邊的矩陣表示,每個研究的事件數的改變量的組合[,
, ...,
]可以改變Meta分析結果的統計學意義。公式(2)中的
代表這個組合的總和。Meta分析的FI為
中的最小值。
![]() |
![]() |
![]() |
不同的Meta分析中使用不同的效應量表明結果,包括RR、OR、RD。因此,為保證FI的可比性,本研究設定以原始文章中使用的效應量來計算FI(未報告時,默認使用OR值作為效應量),采用隨機效應進行估計避免算法過于復雜導致的運算錯誤。同時,采用連續性校正的方法處理Meta分析中的零事件[19,20]。
采用例數和百分比來描述計數資料,均值和標準差描述正態分布的連續性數據,而中位數和四分位數范圍(IQR)描述非正態分布的連續性數據。直方圖用來描述FI的分布情況。根據原始結果的統計學意義和結果類型,將研究分為統計學意義顯著組和非顯著組,或安全性組和有效性組,分別觀察FI的分布。參考Atal的假設,以5和10為FI的界限,將Meta分析分為低穩健性(FI≤5)、中等穩健性(5<FI≤10)和高穩健性(FI>10),描述各組的樣本量的差別,并運用Mann-Whitney檢驗進行差異性檢驗[21]。此外,繪制FI隨時間的變化趨勢,并通過Spearman秩相關檢驗分析兩者相關性。以上分析和作圖均采用R 4.3.1軟件。本研究涉及的檢驗均為雙側檢驗,檢驗水準為α=0.05。
2 結果
本研究檢索范圍內包括318本兒科學期刊,其中未包含掠奪性期刊。按期刊在三個數據庫中共檢索到44 401條相關記錄。使用EndNote X9發現并刪除了18 611條重復記錄。去重后,按標題和摘要篩選剩余的25 740條記錄,排除掉23 188條記錄,原因包括:干預不符、研究設計不符、發表類型不符(如社論、評論、信件)和重復。對2 552篇文獻進行閱讀全文復篩,最終納入152篇研究。文獻納入流程見附件圖1。
2.1 納入研究的基線特征
在152篇合格的系統評價中,涉及573項Meta分析,每個系統評價納入的Meta分析中位數為3項,IQR為(2,4)。每個Meta分析納入的隨機對照試驗中位數為3(IQR:2,5)。37個系統評價包含亞組分析。在573項Meta分析中有300項(57.4%)采用固定效應模型,237項采用隨機效應模型,36項(6.3%)Meta分析未報告相關信息。最常用的合成方法是Mantel-Haenszel方法,占71.9%,19.5%的Meta分析沒有報告具體的方法。RR是最常用的效應量(67.5%),RD則較少使用(3.8%),見表1。

2.2 系統評價和Meta分析的FI
573項Meta分析的FI的中位數為6(IQR:3,10),其中48.5%的Meta分析的FI小于或等于5,29.1%的FI在5到10之間,而其余22.3%的FI大于10。根據結果類型進一步將Meta分析分為安全性組和有效性組。安全性組的Meta分析的中位FI為6(IQR:3,10),而有效性組的Meta分析的中位FI為5(IQR:3,10)。Mann-Whitney檢驗結果顯示兩組間FI的差異無統計學意義(P=0.397)。根據Meta分析結果的統計學意義,將Meta分析分為統計學意義顯著組和非顯著組。統計學意義顯著組Meta分析的中位FI為5(IQR:2,13)。統計學意義非顯著組Meta分析的FI為6(IQR:3,9)。同樣未發現組間的統計學差異(P=0.520),見圖1、圖2。


2.3 樣本量與FI
根據Meta分析的FI大小分為三組:分別為低穩健性(FI≤5)、中等穩健性(5<FI≤10)和高穩健性(FI>10)。三組Meta分析的樣本量分別為303(IQR:125,653)、357(IQR:186,674)、954(IQR:546,1 601),見圖3。采用Kruskal-Wallis檢驗的結果顯示,差異有統計學意義(P<0.001)。隨后,在不分類的情況下采用Spearman相關性檢驗分析FI與總樣本量的相關性,相關系數r為0.39,關聯存在統計學意義(P<0.001)。

2.4 發表時間與FI
最早的納入文獻發表于1990年,2021年發表的文獻最多,隨著發表年份越晚,未見FI的明顯增加,中位FI值始終接近于5,Spearman相關性檢驗的結果表明,FI的大小與發表年份無統計學關聯(P=0.235),見圖4。

3 討論
本研究使用FI評估兒科學領域系統評價和Meta分析的穩健性,結果顯示納入的573項Meta分析的中位FI為6(IQR:3,10),高穩健性的循證證據僅占22.3%。本研究表明,當前兒科學循證證據穩健性普遍較差,這提示基于此類證據的臨床應用存在風險。Meta分析的FI與樣本量具有正相關關系,樣本量越大,FI越大。
本研究發現,兒科學領域循證證據的穩健性無法用結局類型、結果有無統計學意義和發表年份來解釋。針對有效性的Meta分析存在較大的發表偏倚,而針對安全性結局的Meta分析結果往往不顯著。然而,我們未能發現安全性和有效性Meta分析之間的FI差異[22]。Lin[23]的研究發現FI與原始結果有無統計學意義有關。然而,本研究未發現結果統計學意義顯著組和不顯著組的FI有統計學差異,而是與Atal[23]的研究結果相似,即結果顯著的Meta分析與結果不顯著的Meta分析的穩健性相似,這可能是由于研究數據對應的領域不同所致[21]。本研究也發現FI與出版年份沒有關系,這意味著Meta分析的穩健性仍未改善。
本研究具有以下優勢:首先,本研究納入了153項系統評價,是關于兒科臨床藥物安全性研究的最大證據集。同時,在數據提取過程中,經過兩輪培訓,雙人背對背提取的方式,可以確保數據準確無誤。與其他FI的研究相比,本研究的大樣本數據集可以提供更具代表性和可靠性的結果。其次,對于Meta分析的FI計算,沒有限制在結果統計學意義顯著的研究,也考慮了結果統計學意義不顯著的研究。統計學意義不顯著并不意味著結果是穩定的,正如Lin[23]研究中提到的,FI的大小與設定的有無統計學意義的界值有關。第三,本研究根據結局類型分組,根本上是在探討發表偏倚對FI的影響,并描述了FI的逐年變化。本研究結果探討了FI的可能影響因素,幫助相關研究者進一步了解FI的機制。
本研究存在一些局限性:首先,由于使用了系統評價中包含的隨機對照試驗,可能漏掉了近兩年的試驗和其他相關的隨機對照試驗,這可能影響本研究在隨機對照試驗中FI結果的代表性。其次,雖然收集了每個試驗中的失訪者數據,但已有研究比較了FI和失訪人數,這些比較可能更有助于支持關于試驗穩健性的結論[24-26]。第三,本研究并未探究不同效應量、不同證據合成方法和不同模型假設對FI的影響,僅專注于納入研究的結果的穩健性。
綜上所述,當前兒科學領域的系統評價和Meta分析穩健性不足。未來的Meta分析應報告FI來表明研究結果的穩健性,以便于研究者深入了解其研究結果和結論的可靠性。同時,應對FI與失訪數進行比較,分析失訪是否會對結果造成影響。其次,Meta分析納入的樣本量越大,則該Meta分析的FI越大。因此建議納入更多試驗和人群以便于增加Meta分析結果的穩健性。
高質量系統評價與Meta分析作為循證醫學的最高級別證據,是當前進行臨床實踐與制訂臨床指南的基礎[1-3]。然而,在循證決策中,通常依賴于P值確定治療組與對照組在療效和安全性的差異是否存在統計學意義。傳統上,將P值的閾值設為0.05,如果P值小于0.05,則認為發生Ⅰ類錯誤的可能性較小,從而得出兩組間的差異存在統計學意義[4]。這種方法最早由Fisher在20世紀初提出,至今仍被廣泛應用[5-8]。然而,Chavalarias[9]發現,大部分研究的P值往往集中在0.05和0.001附近,這意味著這些研究結果的穩健性可能不足。Walsh等[10]首次使用脆性指數(FI)來評估醫學研究結果的穩健性。FI是指在治療組或對照組中,導致結果統計學意義發生改變所需的事件最小變化量。例如,一個FI為2且具有統計學意義的隨機對照試驗意味著,只需試驗組或對照組的結局事件發生數量變化2個單位,其結果的統計學意義就會發生變化。如果在這樣的試驗中存在超過兩個失訪或退出的受試者,那么該研究的結果和結論就會受到嚴重質疑。
FI作為結果穩健性評價指標,較多應用于醫學研究領域的隨機對照試驗,如腫瘤學[11]、顱內出血[12]、血管外科手術[13]、神經外科[14]等。僅有少數作者使用FI評價了Meta分析的穩健性[15-17]。尚未有專門針對兒科學的系統評價和Meta分析進行穩健性評估的研究。而隨著兒科學領域的不斷發展,越來越多的兒科臨床研究和循證證據發表并應用于臨床,兒科的臨床治療不斷走向規范化,此時,應該更加注重對臨床證據的應用。因此,本研究關注兒童藥物干預的Meta分析,采用FI來評估系統評價和Meta分析的穩健性,為兒科藥物的臨床使用提供更有價值的指導。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 基于隨機對照試驗的系統評價和Meta分析;② 研究內容為藥物治療的有效性或安全性;③ 研究人群為兒童青少年(0~18歲);④ 全文必須報告每個納入的隨機對照試驗中干預組和對照組的事件數量和總數,以便能夠計算FI。
1.1.2 排除標準
① 敘述性綜述;② 未進行Meta分析的系統評價;③ 納入非隨機對照試驗,包括動物試驗、橫斷面研究、病例-對照研究、隊列研究等原始研究;④ 回信、社論、勘誤、評論等特殊類型的文獻;⑤ 網狀Meta分析。
1.2 文獻檢索策略
確定Scopus收錄的兒科學期刊,剔除其中的掠奪性期刊。以“meta analysis、meta-analysis、pool* analysis、systematic review*”為主要檢索詞,在PubMed、Embase和Scopus數據庫中檢索所有發表于兒科學期刊的系統評價和Meta分析類型的文章,檢索時限均為建庫至2022年8月26日。
1.3 文獻篩選與數據提取
由2名研究者獨立篩選文獻、提取資料并交叉核對。如有分歧,則通過討論或與第三方協商解決。資料提取內容包括:第一作者、發表年份、效應模型(隨機/固定)、合成方法(Inverse variance/Peto OR/DerSimonian Laird Classic Method/Mantel-Haenszel)、效應量(RR/OR/RD)、干預藥物、對照組藥物、結局、結局類型、亞組分析的具體類型、各隨機對照試驗的第一作者和發表年份、治療組和對照組的事件數和總數。
1.4 統計分析
本研究使用Lin等[18]開發的R軟件包“fragility”計算Meta分析的FI。Meta分析的FI為使Meta分析結果的統計學意義發生變化的最小事件數量。在公式(1)中,左邊的矩陣表示包含i項研究的Meta數據。在每項研究中,r1和n1表示試驗組的事件數和總數,r2和n2表示對照組的事件數和總數。右邊的矩陣表示,每個研究的事件數的改變量的組合[,
, ...,
]可以改變Meta分析結果的統計學意義。公式(2)中的
代表這個組合的總和。Meta分析的FI為
中的最小值。
![]() |
![]() |
![]() |
不同的Meta分析中使用不同的效應量表明結果,包括RR、OR、RD。因此,為保證FI的可比性,本研究設定以原始文章中使用的效應量來計算FI(未報告時,默認使用OR值作為效應量),采用隨機效應進行估計避免算法過于復雜導致的運算錯誤。同時,采用連續性校正的方法處理Meta分析中的零事件[19,20]。
采用例數和百分比來描述計數資料,均值和標準差描述正態分布的連續性數據,而中位數和四分位數范圍(IQR)描述非正態分布的連續性數據。直方圖用來描述FI的分布情況。根據原始結果的統計學意義和結果類型,將研究分為統計學意義顯著組和非顯著組,或安全性組和有效性組,分別觀察FI的分布。參考Atal的假設,以5和10為FI的界限,將Meta分析分為低穩健性(FI≤5)、中等穩健性(5<FI≤10)和高穩健性(FI>10),描述各組的樣本量的差別,并運用Mann-Whitney檢驗進行差異性檢驗[21]。此外,繪制FI隨時間的變化趨勢,并通過Spearman秩相關檢驗分析兩者相關性。以上分析和作圖均采用R 4.3.1軟件。本研究涉及的檢驗均為雙側檢驗,檢驗水準為α=0.05。
2 結果
本研究檢索范圍內包括318本兒科學期刊,其中未包含掠奪性期刊。按期刊在三個數據庫中共檢索到44 401條相關記錄。使用EndNote X9發現并刪除了18 611條重復記錄。去重后,按標題和摘要篩選剩余的25 740條記錄,排除掉23 188條記錄,原因包括:干預不符、研究設計不符、發表類型不符(如社論、評論、信件)和重復。對2 552篇文獻進行閱讀全文復篩,最終納入152篇研究。文獻納入流程見附件圖1。
2.1 納入研究的基線特征
在152篇合格的系統評價中,涉及573項Meta分析,每個系統評價納入的Meta分析中位數為3項,IQR為(2,4)。每個Meta分析納入的隨機對照試驗中位數為3(IQR:2,5)。37個系統評價包含亞組分析。在573項Meta分析中有300項(57.4%)采用固定效應模型,237項采用隨機效應模型,36項(6.3%)Meta分析未報告相關信息。最常用的合成方法是Mantel-Haenszel方法,占71.9%,19.5%的Meta分析沒有報告具體的方法。RR是最常用的效應量(67.5%),RD則較少使用(3.8%),見表1。

2.2 系統評價和Meta分析的FI
573項Meta分析的FI的中位數為6(IQR:3,10),其中48.5%的Meta分析的FI小于或等于5,29.1%的FI在5到10之間,而其余22.3%的FI大于10。根據結果類型進一步將Meta分析分為安全性組和有效性組。安全性組的Meta分析的中位FI為6(IQR:3,10),而有效性組的Meta分析的中位FI為5(IQR:3,10)。Mann-Whitney檢驗結果顯示兩組間FI的差異無統計學意義(P=0.397)。根據Meta分析結果的統計學意義,將Meta分析分為統計學意義顯著組和非顯著組。統計學意義顯著組Meta分析的中位FI為5(IQR:2,13)。統計學意義非顯著組Meta分析的FI為6(IQR:3,9)。同樣未發現組間的統計學差異(P=0.520),見圖1、圖2。


2.3 樣本量與FI
根據Meta分析的FI大小分為三組:分別為低穩健性(FI≤5)、中等穩健性(5<FI≤10)和高穩健性(FI>10)。三組Meta分析的樣本量分別為303(IQR:125,653)、357(IQR:186,674)、954(IQR:546,1 601),見圖3。采用Kruskal-Wallis檢驗的結果顯示,差異有統計學意義(P<0.001)。隨后,在不分類的情況下采用Spearman相關性檢驗分析FI與總樣本量的相關性,相關系數r為0.39,關聯存在統計學意義(P<0.001)。

2.4 發表時間與FI
最早的納入文獻發表于1990年,2021年發表的文獻最多,隨著發表年份越晚,未見FI的明顯增加,中位FI值始終接近于5,Spearman相關性檢驗的結果表明,FI的大小與發表年份無統計學關聯(P=0.235),見圖4。

3 討論
本研究使用FI評估兒科學領域系統評價和Meta分析的穩健性,結果顯示納入的573項Meta分析的中位FI為6(IQR:3,10),高穩健性的循證證據僅占22.3%。本研究表明,當前兒科學循證證據穩健性普遍較差,這提示基于此類證據的臨床應用存在風險。Meta分析的FI與樣本量具有正相關關系,樣本量越大,FI越大。
本研究發現,兒科學領域循證證據的穩健性無法用結局類型、結果有無統計學意義和發表年份來解釋。針對有效性的Meta分析存在較大的發表偏倚,而針對安全性結局的Meta分析結果往往不顯著。然而,我們未能發現安全性和有效性Meta分析之間的FI差異[22]。Lin[23]的研究發現FI與原始結果有無統計學意義有關。然而,本研究未發現結果統計學意義顯著組和不顯著組的FI有統計學差異,而是與Atal[23]的研究結果相似,即結果顯著的Meta分析與結果不顯著的Meta分析的穩健性相似,這可能是由于研究數據對應的領域不同所致[21]。本研究也發現FI與出版年份沒有關系,這意味著Meta分析的穩健性仍未改善。
本研究具有以下優勢:首先,本研究納入了153項系統評價,是關于兒科臨床藥物安全性研究的最大證據集。同時,在數據提取過程中,經過兩輪培訓,雙人背對背提取的方式,可以確保數據準確無誤。與其他FI的研究相比,本研究的大樣本數據集可以提供更具代表性和可靠性的結果。其次,對于Meta分析的FI計算,沒有限制在結果統計學意義顯著的研究,也考慮了結果統計學意義不顯著的研究。統計學意義不顯著并不意味著結果是穩定的,正如Lin[23]研究中提到的,FI的大小與設定的有無統計學意義的界值有關。第三,本研究根據結局類型分組,根本上是在探討發表偏倚對FI的影響,并描述了FI的逐年變化。本研究結果探討了FI的可能影響因素,幫助相關研究者進一步了解FI的機制。
本研究存在一些局限性:首先,由于使用了系統評價中包含的隨機對照試驗,可能漏掉了近兩年的試驗和其他相關的隨機對照試驗,這可能影響本研究在隨機對照試驗中FI結果的代表性。其次,雖然收集了每個試驗中的失訪者數據,但已有研究比較了FI和失訪人數,這些比較可能更有助于支持關于試驗穩健性的結論[24-26]。第三,本研究并未探究不同效應量、不同證據合成方法和不同模型假設對FI的影響,僅專注于納入研究的結果的穩健性。
綜上所述,當前兒科學領域的系統評價和Meta分析穩健性不足。未來的Meta分析應報告FI來表明研究結果的穩健性,以便于研究者深入了解其研究結果和結論的可靠性。同時,應對FI與失訪數進行比較,分析失訪是否會對結果造成影響。其次,Meta分析納入的樣本量越大,則該Meta分析的FI越大。因此建議納入更多試驗和人群以便于增加Meta分析結果的穩健性。