網狀Meta分析(network meta-analysis,NMA)能夠實現對不同干預措施效果的比較和排序,在證據轉化與循證決策中具有重要作用。2014年,GRADE工作組首次介紹了NMA證據確信度分級的GRADE方法,此后其方法體系逐步得到補充和完善,筆者團隊于2020年也對相關前沿和進展進行了介紹。近年來,GRADE工作組進一步完善了NMA中對不可傳遞性和不精確性的評價方法,并針對NMA結果的呈現和解讀作出推薦,形成由6個步驟組成的NMA證據確信度分級與結果解讀的完整方法學鏈條。鑒于此,本團隊結合具體案例,對GRADE在NMA中應用的方法體系進行更新,以期為相關研究人員提供參考。
引用本文: 黃嘉杰, 賴鴻皓, 劉佳寧, 趙威龍, 孫銘謠, 葉紫瑩, 李穎, 潘蓓, 田金徽, 栗夢婷, 葛龍. 網狀Meta分析證據確信度分級與結果解讀:方法與案例. 中國循證醫學雜志, 2024, 24(10): 1231-1240. doi: 10.7507/1672-2531.202310039 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
網狀Meta分析(network meta-analysis,NMA)是傳統雙臂Meta分析(pairwise meta-analysis)的擴展,其優勢在于能夠針對某一結局,同時比較多種干預措施的效果差異[1,2];即使當網狀結構中的某兩項干預措施之間沒有形成直接比較時,NMA仍能計算兩者的間接比較結果[3],并基于直接證據和間接證據,實現對各種干預措施效果的排序,從而為臨床醫生和患者選擇最佳治療方案提供參考[4]。推薦分級的評價、制訂與評估(grading of recommendations assessment,development,and evaluation,GRADE)方法用于評估NMA證據確信度已日趨成熟。2014年,GRADE工作組首次發布了相關方法學指南[5]。2018年,工作組認為該方法“在具有許多干預措施的網絡中可能顯得繁瑣”,并提出了兩份提高流程效率的修改建議,同時強調了在對比組層面對不一致性評估的重要性[6]。此后,工作組陸續推出評估不一致性[7]、使用最小背景化框架和部分背景化框架對NMA結果進行解讀的詳細指導[8-11]。
雖然GRADE方法的創建已超過20年,在醫學領域得到了普遍的認可,但研究顯示GRADE系統在國內的應用仍然不夠廣泛[12,13]。而研究者在使用GRADE方法時也存在重復降級、報告不充分等情況。尤其是NMA的GRADE分級,由于方法流程較為復雜,其具體實踐存在挑戰[14]。近期,GRADE工作組整合了NMA中使用GRADE的應用經驗、不精確性[15]和不可傳遞性[10]評價方法等最新進展,在BMJ發表了應用GRADE評價NMA證據確信度的完整流程和注意事項[16]。MERGE工作組—一個專注于循證醫學方法學創新并在多學科交叉、融合和應用的團隊,已于2020年前后對系列方法進行了介紹和解讀[17-20],為研究人員更高效、準確地使用GRADE方法評估NMA證據確信度提供詳細、可操作的幫助,MERGE工作組在整合最新前沿方法基礎上,系統介紹NMA中GRADE證據分級方法進展,并選取一篇本團隊發表于Drugs上的NMA作為案例(聚焦失眠藥物治療的有效性和安全性,共納入153項試驗,46 412例患者和8個類別的36種失眠藥物[21]),對其分級過程進行實例演示。
1 NMA證據確信度分級流程
總體上看,應用GRADE方法對NMA結果進行分級并形成結論可分為6步:① 呈現直接、間接和NMA證據數據、森林圖和網狀關系圖;② 評估直接證據確信度(圖1 A1);③ 基于間接證據主要一階環路中直接比較證據確信度最低的證據(就低原則)(圖1 B1),并考慮不可傳遞性確定間接證據的初始確信度(preliminary certainty of evidence)(未考慮不精確性的確信度)(圖1 B2);④ 根據直接證據與間接證據對NMA證據貢獻度的高低確定NMA確信度分級的起點(圖1 C1),并進一步考慮不一致性(圖1 C2)和不精確性(圖1 C3)以確定NMA的最終確信度;⑤ 根據NMA證據是否存在不一致性和是否比直接證據和間接證據更精確,選擇直接、間接和NMA證據中確信度最高的證據作為NMA的最佳證據(圖1 D1);⑥ 在合適的背景化框架下解讀NMA結果并形成結論。圖1呈現了使用GRADE方法評估NMA證據確信度的主要步驟和流程[16]。本文將對上述步驟的規范操作方法及相關注意事項逐一進行介紹。

1.1 數據準備
在正式開始評估前,研究者需準備必要的評估信息,包括每個結局的網狀關系圖,直接證據森林圖、直接證據、間接證據和NMA證據的效應值及其95%可信區間(confidence interval,CI),以及偏倚風險評估結果。由于采用相對效應在判斷干預措施效果差異的重要性時存在局限性,GRADE工作組建議在使用最小背景化框架或部分背景化框架時將相對效應轉化為絕對效應。
以案例研究中扎來普隆與安慰劑對照組的主觀睡眠發作潛伏期結局為例,直接、間接和NMA證據的效應值及其95%CI呈現方式可參考表1、表2和表3;偏倚風險評價結果呈現可參考表4;森林圖和網狀關系網呈現方式可參考附件圖1和附件圖2[21]。




1.2 直接證據確信度分級
1.2.1 分級原理
NMA的主要優勢之一是提高結果的精確性,因此在對直接證據和間接證據進行GRADE分級時可暫不考慮不精確性領域。直接證據確信度分級方法與傳統Meta分析方法一致,需對NMA中每個結局涉及的所有對比組逐一進行分級。基于隨機對照試驗的直接證據的起始確信度為高,考慮偏倚風險、異質性(為避免混淆,本文采用異質性指代直接證據中各研究的不一致性)、間接性和發表偏倚是否存在嚴重局限性后,可將證據初始等級降低到中、低或極低(圖1 A1)[6,16]。
1.2.2 案例
本文選取的案例是基于隨機對照試驗的NMA,直接證據的起始確信度為高。表4顯示扎來普隆與安慰劑對比組納入研究的偏倚風險均為高,偏倚風險降一級;森林圖(附件圖1)顯示直接證據的異質性較大,降一級;根據研究基本信息表可知,納入研究人群、干預、對照、結局指標等特征與研究主題一致,間接性不降級;該結局納入研究數量小于10,不進行發表偏倚檢測。綜上,在不考慮不精確性的情況下,扎來普隆與安慰劑對比組直接證據的初始確信度為低。若要考慮不精確性,因為直接證據樣本量符合OIS,但效應量的CI較寬,不精確性降一級,直接證據最終確信度為極低(表5)[21]。

1.3 間接證據確信度分級
1.3.1 環路選擇
NMA間接證據的形成基于間接比較環路中所有研究間效應修飾因子(影響效應量的因素)相似的假設[22],而環路中研究的相似性隨著研究數量的增多而逐漸變差。因此,每個間接比較都應選擇在兩個干預措施之間經過節點最少的環路。理想狀態下,所有的間接比較都應選擇經過共同對照的環路即一階環路(附件圖2,天藍色環路)[21];當對比組的干預措施沒有共同對照時(即沒有一階環路時),應選擇連接兩個干預措施之間節點最少的環路,如二階環路(附件圖2,橙色環路)。當同時存在多個一階環路或者二階環路時,應選擇包含參與者數量和納入研究最多的環路(貢獻度最大,也可基于貢獻度大小進行選擇),該信息可通過觀察節點的大小和連接這些節點的線的寬度判斷。例如附件圖2唑吡坦與安慰劑對比組的間接證據環路中,存在經扎來普隆的一階環路和替馬西泮的一階環路等多個一階環路可選,因經扎來普隆的環路中的參與者數量和納入研究數量較多,最終選擇經扎來普隆的一階環路為主要一階環路。
1.3.2 不可傳遞性
GRADE工作組將不可傳遞性定義為間接證據環路中各研究在人群基線特征、對照干預和結果測量的顯著差異。這種差異使間接比較環路中的研究不滿足相似性(統計學稱為“傳遞性”)假設,該環路不具有傳遞性,間接證據的可信程度降低。即對于通過共同對照C比較A和B的間接證據,任何改變干預措施效果的人群基線特征(P)、對照干預(C)或結局測量(O)在比較A與C的試驗和比較B與C的試驗之間存在差異,都會導致PCOAC≠PCOBC,使間接證據效應量與PCOAC=PCOBC的間接證據的效應量不同,從而導致間接證據產生偏倚,對不可傳遞性降級(附件圖3)。由于間接環路中直接證據的偏倚風險和間接性都能導致不可傳遞性,因此,在對不可傳遞性進行降級時應考慮不可傳遞性是否是由直接證據的偏倚風險和間接性所導致的,避免在偏倚風險和間接性領域重復降級。
在考慮不可傳遞性時,可對以下三個方面進行考量:① 效應修飾的可信度:效應修飾是指干預措施與結局的關聯或效應在某個第三因素的不同水平中存在差異[23]。當效應修飾的可信度低時,該效應修飾很可能由偶然造成,不必對不可傳遞性降級。效應修飾的可信度可用傳統Meta分析效應修飾可信度清單或效應修飾可信度評估工具(instrument to assess the credibility of effect modification analyses,ICEMAN)評估[24,25];② 效應修飾的強度:不可傳遞性的嚴重程度隨效應修飾強度的增大而加重,例如當附件圖3中試驗AC與試驗BC人群的平均年齡存在一定年齡差時,干預措施對不同年齡段的效果差距越大,A與B比較的間接證據的不可傳遞性越嚴重;③ 效應修飾因子的分布:不可傳遞性存在的根本原因是效應修飾因子在間接證據環路中的分布存在差異。當效應修飾因子在間接證據的環路中均等分布時,環路中的研究滿足間接證據的相似性假設,存在的效應修飾不會對間接證據的不可傳遞性造成影響。例如,附件圖3試驗AC與試驗BC人群的平均年齡相等,對照干預和結局測量方式相似,即PCOAC=PCOBC,不對不可傳遞性降級[10]。
1.3.3 分級原理
如直接證據的初始確信度“高”且直接證據對NMA證據的貢獻顯著大于間接證據,則可忽略對間接證據確信度的分級,選用直接證據的初始確信度作為NMA證據的初始確信度[6];否則,需對間接證據進行確信度分級。間接證據的初始確信度采用就低原則,基于間接證據主要一階環路中各直接比較證據最低的確信度(圖1 B1),并考慮不可傳遞性確定間接證據的初始確信度(圖1 B2)[16]。
1.3.4 案例
根據扎來普隆與安慰劑對比組直接證據、間接證據以及NMA證據的CI可判斷出直接證據對NMA證據的貢獻度占主導,因直接證據的確信度為低,需對間接證據的確信度進行評估。附件圖3顯示經唑吡坦的一階環路為扎來普隆與安慰劑對照組的間接證據環路中參與者和納入研究數量最多的一階環路[21]。基于就低原則確定間接證據的初始確信度為低。扎來普隆與安慰劑對照組年齡效應修飾可信度評估結果為低(表6);網狀Meta回歸顯示年齡對扎來普隆與安慰劑的回歸系數為?2.82[95%CI(?8.24,2.58)],回歸系數的CI跨越無效線,提示年齡對主觀睡眠發作潛伏期結局可能沒有影響;附件圖4顯示年齡在扎來普隆、唑吡坦和安慰劑中的分布大致相似。綜上可判斷扎來普隆與安慰劑對照組的間接證據不存在不可傳遞性,不考慮對不可傳遞性降級,間接證據的初始確信度為低。若需應考慮不精確性,因間接證據的CI未跨過無效線;間接證據的有效樣本量為130,未達到OIS,考慮對不精確性降一級,間接證據的最終確信度為極低(表7)[21]。


1.4 NMA證據確信度分級
1.4.1 不一致性
直接證據與間接證據滿足NMA的一致性假設是NMA證據有效的重要前提[22],當直接證據與間接證據不一致時,NMA證據的效應值CI通常會比兩者更寬,造成結果精確性降低。導致NMA證據不一致性的原因很多,根據GRADE的降級因素大致可分為三類:① 研究的方法學質量(偏倚風險)和(或)發表偏倚對直接和(或)間接證據效應值產生影響而導致直接證據效應值與間接證據效應值的不一致;② 直接證據和(或)間接證據的效應量受到間接性的影響;③ 不可傳遞性造成的間接證據效應量的偏差,進一步導致直接證據與間接證據效應量的不一致。當直接證據和間接證據的不一致無法用偶然來解釋時,需要進一步探討不一致的來源,并考慮是否需要對不一致性進行降級[7,17]。
1.4.2 不精確性
NMA證據在考慮不精確性時遵循與傳統雙臂Meta分析相同的基本邏輯,即當CI跨越了預定的閾值或者樣本量未滿足OIS時,需考慮對不精確性降級。但在考察樣本量是否滿足OIS時,兩者的樣本量計算方法卻有所不同,傳統雙臂Meta分析在考慮OIS問題時采用報告結局中所有研究的樣本量相加計算的方式獲得總樣本量;而NMA證據效應量是通過直接證據和間接證據的效應量計算而來,無法獲取具體的樣本量。雖然當NMA證據的CI與直接證據的CI相似(間接證據對NMA證據貢獻度很低)時,可以將直接比較兩種干預的試驗中的參與者人數相加獲得總樣本量,但在直接證據和間接證據效應量一致時,僅考慮直接證據將低估對NMA證據的有效樣本量;而在直接證據和間接證據效應量不一致時,僅考慮直接證據將高估對NMA證據的有效樣本量。因此若NMA證據是由直接證據與間接證據結合而成,則考慮NMA證據的不精確性時需計算NMA證據的有效樣本量以確保不對不精確性的評估產生誤導。NMA有效樣本量在三種不同結局指標的計算方式如下所示[15,26]。
(1)結局指標為相對危險度(relative risk,RR)時:由于在雙臂等樣本試驗中,試驗的標準誤(standard error,SE)可通過點估計值(RR)、對照組結局發生率(pc)和單臂樣本量(n)計算[公式(1)],而NMA證據的SE可通過效應量的CI上下限以e為底的對數計算[公式(2)],因此假設NMA證據來自于一個雙臂等樣本試驗,則SE試驗=SENMA,NMA的單臂樣本量計算方法為公式(3)。
![]() |
![]() |
![]() |
(2)當結局指標為比值比(odds ratio,OR)時:假定NMA證據來自于一個雙臂等樣本試驗,該試驗的SE可通過點估計值(OR)、對照組結局發生率(pc)、試驗/觀察組結局發生率(pt)和單臂樣本量(n)計算[公式(4)],pt可由OR和pc計算[公式(5)],則NMA的單臂樣本量計算方法為公式(6)。
![]() |
![]() |
![]() |
(3)當結局指標為連續變量時:雙臂等樣本試驗中SE可由平均差(stand deviation,SD)和單臂樣本量(n)計算[公式(7)];NMA證據的SE可通過效應量的上下限計算[公式(8)],假定兩者相等,則NMA的單臂樣本量計算方法為公式(9)。
![]() |
![]() |
![]() |
為簡化NMA證據確信度分級流程,降低分級難度,在出現以下兩種情況時,無需考察OIS,可直接根據CI判斷證據的不精確性:① 證據的CI過寬。例如當RR的CI的上限與下限之比高于3或OR的CI的上限與下限之比高于2.5時,無論效應大小、最小重要差異和基線風險如何,NMA的有效樣本量都不會滿足OIS[15];② 證據效應量的大小適中并合理,且CI沒有跨過預定的閾值。當效應量大小適中且符合常理或臨床判斷時,狹窄且未超過相關閾值的CI表明NMA具有足夠的樣本量,此時增加樣本量也不會對結論造成影響。反之,由于過少的樣本量可能夸大干預措施的效果,當證據的效應量過大且CI沒有跨過閾值時,也需要評估有效樣本量是否滿足OIS。為方便研究人員判斷有效樣本量與OIS之間的關系,可將相對危險度減少25%或0.2個標準差作為結局的最小重要差異來對OIS進行計算[27],但GRADE工作組也強調這只是一種基于經驗的做法,可能會提供錯誤的信息。準確的OIS應基于不同背景的需要選擇生理學上合理的效應、真正的最小重要差異或背景化下的特定效應計算[28]。
綜上所述,如NMA證據CI跨越了閾值,則對不精確性進行降級,如未跨越,則進一步考慮證據效應量的大小;如效應量適中或效應量很大且樣本量滿足OIS,則無需降級;如效應量很大且樣本量不滿足OIS,則對不精確性進行降級(圖2)。同時在對不精確性進行降級時,如果直接證據與間接證據不一致,則應檢查是否因不一致性而導致的不精確,防止在同一領域重復降級[7];在稀疏網絡的NMA中還需考慮導致NMA證據CI更寬的原因是否為數據不足或研究之間采用共同的異質性參數[11,17],以避免對NMA證據的不精確性產生錯誤判斷。

1.4.3 分級原理
NMA證據由直接證據和間接證據組合而成。因此,NMA證據的確信度與直接和間接證據的確信度密切相關,可基于直接或間接證據的確信度形成NMA證據的確信度。NMA證據的GRADE分級共有三種情況:① 僅有直接證據或者間接證據時,NMA證據直接以直接證據或間接證據的確信度為NMA證據的確信度;② 直接證據與間接證據對NMA證據的貢獻度相等時,則NMA證據采用就高原則以較高的確信度為起點;③ 直接證據與間接證據對NMA證據的貢獻度不等,則NMA證據基于以主導證據的確信度為起點(圖1 C2)[16,29]。直接證據和間接證據對NMA的貢獻度可通過觀察直接、間接和NMA的CI或者通過貢獻比例矩陣等方式判斷[7,30]。當處于情況②和③時,需檢測直接證據與間接證據是否不一致,基于檢測結果考慮是否對不一致性降級,并考慮不精確性確定NMA證據確信度。
1.4.4 案例
扎來普隆與安慰劑對照組具有直接證據和間接證據,且直接證據確信度與間接證據確信度相等,不一致性檢測結果顯示直接證據與間接證據一致,不對不一致性進行降級;NMA證據效應量的CI未跨越無效線,但效應量較大,根據公式(7)(8)(9)計算有效樣本量為418,符合OIS,不考慮對不精確性降級,NMA證據的確信度為低(表8)[21]。

1.5 NMA最佳證據
1.5.1 選取原理
當NMA證據存在高異質性和不一致性時,直接證據和間接證據的確信度可能會高于NMA證據,在該情況下NMA證據并不是支持決策的最佳證據。因此在選擇NMA最佳證據時應判斷NMA證據是否具有不一致性以及NMA證據是否比直接證據和間接證據更精確,當NMA證據同時滿足這兩個條件時,可直接選擇NMA證據作為NMA的最佳證據;反之,應基于就高原則從直接證據、間接證據或NMA證據中選擇確信度最高的證據作為NMA的最佳證據(當NMA證據確信度與其他證據確信度級并列時,首選NMA證據)[16,29]。
1.5.2 案例
因直接證據與間接證據一致,選擇NMA證據作為NMA的最佳證據(表9)[21]。

2 基于GRADE分級結果形成結論
NMA的優勢之一是能將所有納入措施進行量化比較,并對某一結局中所有干預措施的效果優劣進行排序。然而,實際臨床決策需從效應量,證據確信度以及安全性等多維度對干預措施進行考量,僅依據效應量的高低難以判斷一種干預措施絕對優于其他所有的干預措施確信度[31],且排序高與排序低的干預措施之間并不一定存在重要差異,這種情況在納入研究數量較多的NMA中更為常見[32]。因此,在對NMA結果進行解釋并形成結論時,不能單純考慮干預措施的排序結果,還需同時考慮干預措施效應量大小和證據確信度,避免對決策和指南制作產生誤導,從而影響決策的進行和指南的實施[33-35]。為此,GRADE工作組開發了最小背景化和部分背景化兩種方法學框架指導研究人員對NMA結果進行解讀分析[8,9]。兩者均以尋找最有效干預措施為目標,根據各個措施的效應量,排序和證據確信度,基于較高類別可能比較低類別的干預措施更有效的推論,判斷出最有效且可靠的干預措施為決策提供支持[18,19]。
兩者的基本步驟相似:① 選擇參考組和決策閾值;② 基于對比參考組對干預措施進行分類;③ 基于證據確信度對干預措施進行分類;④ 檢查成對比較與排序結果的一致性。區別在于最小背景化更多關注決策閾值以及證據本身,通過CI相對于決策閾值的位置來判斷干預措施的效果,并基于干預措施間的差異對干預措施進行第二次分類,形成從最有效到最無效/有害的類別,會更加強調證據的不精確性,最大限度地減少了對特定背景的判斷需求,以確保結論在不同環境中的簡便性和適用性。而部分背景化框架則更依賴研究人員通過干預措施效果的潛在益處或危害的程度形成結論,根據證據的點估計值將干預措施最終分為無效、較小、中等和重大效應的類別,適用于醫療保健指南等需要判斷健康益處與利弊平衡的情況[8,9]。
以案例文章中使用最小背景化對主觀睡眠發作潛伏期結局形成結論為例:① 案例中安慰劑與NMA其他干預措施的連接最為緊密,因此選擇安慰劑作為參考組,以無效值為決策閾值;② 根據治療失眠藥物與安慰劑比較效應值的CI是否跨過無效線,將各藥物分為有效的藥物和與無效的藥物兩類(附件表1);③ 基于是否與無效的藥物類別中的所有藥物的比較效應值的CI均未跨越無效線,將有效的藥物類別中的藥物再次分為最有效的藥物之一和優于無效但次于最有效的藥物兩類(附件表2);④ 如附件表3所示,基于治療失眠藥物與安慰劑比較的最佳證據的確信度,將干預措施再次分為兩個大類:高確信度證據(高和中等確信度)和低確信度證據(低和極低確信度);⑤ 檢查發現主觀睡眠發作潛伏期結局中各藥物與非安慰劑之間的比較結果與比較安慰劑的結果排序一致,不對分類進行更改[21]。最后對不同干預措施治療失眠在主觀睡眠發作潛伏期結局上的療效按最小背景化框架進行總結,結論見表10。

3 小結
本文對NMA中GRADE證據分級的整體流程進行了梳理,并通過與實際案例相結合的方式對該流程及其要點進行介紹。目前GRADE在NMA中的應用已逐漸趨于成熟,但依舊存在較大的復雜性和一定的主觀性。由于對NMA證據進行確信度分級時所需要考慮較多且邏輯復雜的內容以及NMA對比組的龐大數量,導致研究人員既需要對方法有足夠的了解,又需要投入較多的精力,尤其是在進行動態指南和動態循證要覽制作時,快速準確地對NMA證據進行分級的難度將會進一步提升[36-39]。盡管GRADE工作組提出在評估直接證據和間接證據確信度時,可先不考慮不精確性以及在直接證據確信度為“高”且直接證據對NMA證據的貢獻至少與間接證據相等時,可不對間接證據的確信度進行評估等方法,且隨著人工智能技術的發展,如何利用程序實現NMA證據的自動分級也逐漸成為一個熱點。目前已有NMA證據分級自動化表格和CINeMA等工具來減少NMA證據確信度分級時的工作量[40],MERGE工作組目前也已聚焦證據的自動合成與分級,后續將會繼續開發NMA證據自動分級,為NMA證據分級透明化和提高分級質量提供幫助[41]。這些方法和工具極大提高了NMA證據分級的效率,但依舊無法改變NMA證據確信度評估是個巨大工程的事實,研究人員使用這些方法和工具時也應根據研究背景和目的仔細判斷,并對省略步驟及其原因進行標注或者說明。此外,GRADE方法還存在由于沒有處理小樣本結局發表偏倚方法,而導致納入研究數量多的研究更容易在發表偏倚上降級等問題。盡管為NMA實施GRADE方法較為困難,但證據主體的確信度問題對于最佳決策至關重要,為提高NMA結果的透明度和實用性,并為最佳決策提供支持,進行NMA文章撰寫時仍然應該堅持正確的分級方法和流程并完整報告所有的分級結果。
現有的GRADE方法已適用于國內的大部分研究,但由于GRADE是基于現代醫學體系而創建,并未考慮到中醫藥領域的證據多元化問題[42]。經典醫籍醫案及名家經驗作為中醫藥臨床證據體系的重要組成部分,其在GRADE體系中較低的證據確信度拉低了決策者使用中醫干預的信心[43]。近年來,多名國內學者為將GRADE體系與中醫藥臨床評價結合進行了諸多嘗試,但尚未形成較統一的規范[44]。而隨著循證醫學的不斷探索與發展,為達到最佳決策的目的,研究者們也不再將目光局限于隨機對照試驗,2020年,GRADE工作組提出了整合隨機與非隨機干預研究證據的可行方法[45,46],為GRADE方法與經典醫籍醫案及名家經驗相結合提供了良好的思路。如何將循證醫學理念與中醫實踐特點結合,探索國際現有分級標準與中醫藥的結合,嘗試建立相對統一、具有普適性的分級體系,是未來研究者需要進一步探索的問題。
聲明 所有作者均聲明無利益沖突。
網狀Meta分析(network meta-analysis,NMA)是傳統雙臂Meta分析(pairwise meta-analysis)的擴展,其優勢在于能夠針對某一結局,同時比較多種干預措施的效果差異[1,2];即使當網狀結構中的某兩項干預措施之間沒有形成直接比較時,NMA仍能計算兩者的間接比較結果[3],并基于直接證據和間接證據,實現對各種干預措施效果的排序,從而為臨床醫生和患者選擇最佳治療方案提供參考[4]。推薦分級的評價、制訂與評估(grading of recommendations assessment,development,and evaluation,GRADE)方法用于評估NMA證據確信度已日趨成熟。2014年,GRADE工作組首次發布了相關方法學指南[5]。2018年,工作組認為該方法“在具有許多干預措施的網絡中可能顯得繁瑣”,并提出了兩份提高流程效率的修改建議,同時強調了在對比組層面對不一致性評估的重要性[6]。此后,工作組陸續推出評估不一致性[7]、使用最小背景化框架和部分背景化框架對NMA結果進行解讀的詳細指導[8-11]。
雖然GRADE方法的創建已超過20年,在醫學領域得到了普遍的認可,但研究顯示GRADE系統在國內的應用仍然不夠廣泛[12,13]。而研究者在使用GRADE方法時也存在重復降級、報告不充分等情況。尤其是NMA的GRADE分級,由于方法流程較為復雜,其具體實踐存在挑戰[14]。近期,GRADE工作組整合了NMA中使用GRADE的應用經驗、不精確性[15]和不可傳遞性[10]評價方法等最新進展,在BMJ發表了應用GRADE評價NMA證據確信度的完整流程和注意事項[16]。MERGE工作組—一個專注于循證醫學方法學創新并在多學科交叉、融合和應用的團隊,已于2020年前后對系列方法進行了介紹和解讀[17-20],為研究人員更高效、準確地使用GRADE方法評估NMA證據確信度提供詳細、可操作的幫助,MERGE工作組在整合最新前沿方法基礎上,系統介紹NMA中GRADE證據分級方法進展,并選取一篇本團隊發表于Drugs上的NMA作為案例(聚焦失眠藥物治療的有效性和安全性,共納入153項試驗,46 412例患者和8個類別的36種失眠藥物[21]),對其分級過程進行實例演示。
1 NMA證據確信度分級流程
總體上看,應用GRADE方法對NMA結果進行分級并形成結論可分為6步:① 呈現直接、間接和NMA證據數據、森林圖和網狀關系圖;② 評估直接證據確信度(圖1 A1);③ 基于間接證據主要一階環路中直接比較證據確信度最低的證據(就低原則)(圖1 B1),并考慮不可傳遞性確定間接證據的初始確信度(preliminary certainty of evidence)(未考慮不精確性的確信度)(圖1 B2);④ 根據直接證據與間接證據對NMA證據貢獻度的高低確定NMA確信度分級的起點(圖1 C1),并進一步考慮不一致性(圖1 C2)和不精確性(圖1 C3)以確定NMA的最終確信度;⑤ 根據NMA證據是否存在不一致性和是否比直接證據和間接證據更精確,選擇直接、間接和NMA證據中確信度最高的證據作為NMA的最佳證據(圖1 D1);⑥ 在合適的背景化框架下解讀NMA結果并形成結論。圖1呈現了使用GRADE方法評估NMA證據確信度的主要步驟和流程[16]。本文將對上述步驟的規范操作方法及相關注意事項逐一進行介紹。

1.1 數據準備
在正式開始評估前,研究者需準備必要的評估信息,包括每個結局的網狀關系圖,直接證據森林圖、直接證據、間接證據和NMA證據的效應值及其95%可信區間(confidence interval,CI),以及偏倚風險評估結果。由于采用相對效應在判斷干預措施效果差異的重要性時存在局限性,GRADE工作組建議在使用最小背景化框架或部分背景化框架時將相對效應轉化為絕對效應。
以案例研究中扎來普隆與安慰劑對照組的主觀睡眠發作潛伏期結局為例,直接、間接和NMA證據的效應值及其95%CI呈現方式可參考表1、表2和表3;偏倚風險評價結果呈現可參考表4;森林圖和網狀關系網呈現方式可參考附件圖1和附件圖2[21]。




1.2 直接證據確信度分級
1.2.1 分級原理
NMA的主要優勢之一是提高結果的精確性,因此在對直接證據和間接證據進行GRADE分級時可暫不考慮不精確性領域。直接證據確信度分級方法與傳統Meta分析方法一致,需對NMA中每個結局涉及的所有對比組逐一進行分級。基于隨機對照試驗的直接證據的起始確信度為高,考慮偏倚風險、異質性(為避免混淆,本文采用異質性指代直接證據中各研究的不一致性)、間接性和發表偏倚是否存在嚴重局限性后,可將證據初始等級降低到中、低或極低(圖1 A1)[6,16]。
1.2.2 案例
本文選取的案例是基于隨機對照試驗的NMA,直接證據的起始確信度為高。表4顯示扎來普隆與安慰劑對比組納入研究的偏倚風險均為高,偏倚風險降一級;森林圖(附件圖1)顯示直接證據的異質性較大,降一級;根據研究基本信息表可知,納入研究人群、干預、對照、結局指標等特征與研究主題一致,間接性不降級;該結局納入研究數量小于10,不進行發表偏倚檢測。綜上,在不考慮不精確性的情況下,扎來普隆與安慰劑對比組直接證據的初始確信度為低。若要考慮不精確性,因為直接證據樣本量符合OIS,但效應量的CI較寬,不精確性降一級,直接證據最終確信度為極低(表5)[21]。

1.3 間接證據確信度分級
1.3.1 環路選擇
NMA間接證據的形成基于間接比較環路中所有研究間效應修飾因子(影響效應量的因素)相似的假設[22],而環路中研究的相似性隨著研究數量的增多而逐漸變差。因此,每個間接比較都應選擇在兩個干預措施之間經過節點最少的環路。理想狀態下,所有的間接比較都應選擇經過共同對照的環路即一階環路(附件圖2,天藍色環路)[21];當對比組的干預措施沒有共同對照時(即沒有一階環路時),應選擇連接兩個干預措施之間節點最少的環路,如二階環路(附件圖2,橙色環路)。當同時存在多個一階環路或者二階環路時,應選擇包含參與者數量和納入研究最多的環路(貢獻度最大,也可基于貢獻度大小進行選擇),該信息可通過觀察節點的大小和連接這些節點的線的寬度判斷。例如附件圖2唑吡坦與安慰劑對比組的間接證據環路中,存在經扎來普隆的一階環路和替馬西泮的一階環路等多個一階環路可選,因經扎來普隆的環路中的參與者數量和納入研究數量較多,最終選擇經扎來普隆的一階環路為主要一階環路。
1.3.2 不可傳遞性
GRADE工作組將不可傳遞性定義為間接證據環路中各研究在人群基線特征、對照干預和結果測量的顯著差異。這種差異使間接比較環路中的研究不滿足相似性(統計學稱為“傳遞性”)假設,該環路不具有傳遞性,間接證據的可信程度降低。即對于通過共同對照C比較A和B的間接證據,任何改變干預措施效果的人群基線特征(P)、對照干預(C)或結局測量(O)在比較A與C的試驗和比較B與C的試驗之間存在差異,都會導致PCOAC≠PCOBC,使間接證據效應量與PCOAC=PCOBC的間接證據的效應量不同,從而導致間接證據產生偏倚,對不可傳遞性降級(附件圖3)。由于間接環路中直接證據的偏倚風險和間接性都能導致不可傳遞性,因此,在對不可傳遞性進行降級時應考慮不可傳遞性是否是由直接證據的偏倚風險和間接性所導致的,避免在偏倚風險和間接性領域重復降級。
在考慮不可傳遞性時,可對以下三個方面進行考量:① 效應修飾的可信度:效應修飾是指干預措施與結局的關聯或效應在某個第三因素的不同水平中存在差異[23]。當效應修飾的可信度低時,該效應修飾很可能由偶然造成,不必對不可傳遞性降級。效應修飾的可信度可用傳統Meta分析效應修飾可信度清單或效應修飾可信度評估工具(instrument to assess the credibility of effect modification analyses,ICEMAN)評估[24,25];② 效應修飾的強度:不可傳遞性的嚴重程度隨效應修飾強度的增大而加重,例如當附件圖3中試驗AC與試驗BC人群的平均年齡存在一定年齡差時,干預措施對不同年齡段的效果差距越大,A與B比較的間接證據的不可傳遞性越嚴重;③ 效應修飾因子的分布:不可傳遞性存在的根本原因是效應修飾因子在間接證據環路中的分布存在差異。當效應修飾因子在間接證據的環路中均等分布時,環路中的研究滿足間接證據的相似性假設,存在的效應修飾不會對間接證據的不可傳遞性造成影響。例如,附件圖3試驗AC與試驗BC人群的平均年齡相等,對照干預和結局測量方式相似,即PCOAC=PCOBC,不對不可傳遞性降級[10]。
1.3.3 分級原理
如直接證據的初始確信度“高”且直接證據對NMA證據的貢獻顯著大于間接證據,則可忽略對間接證據確信度的分級,選用直接證據的初始確信度作為NMA證據的初始確信度[6];否則,需對間接證據進行確信度分級。間接證據的初始確信度采用就低原則,基于間接證據主要一階環路中各直接比較證據最低的確信度(圖1 B1),并考慮不可傳遞性確定間接證據的初始確信度(圖1 B2)[16]。
1.3.4 案例
根據扎來普隆與安慰劑對比組直接證據、間接證據以及NMA證據的CI可判斷出直接證據對NMA證據的貢獻度占主導,因直接證據的確信度為低,需對間接證據的確信度進行評估。附件圖3顯示經唑吡坦的一階環路為扎來普隆與安慰劑對照組的間接證據環路中參與者和納入研究數量最多的一階環路[21]。基于就低原則確定間接證據的初始確信度為低。扎來普隆與安慰劑對照組年齡效應修飾可信度評估結果為低(表6);網狀Meta回歸顯示年齡對扎來普隆與安慰劑的回歸系數為?2.82[95%CI(?8.24,2.58)],回歸系數的CI跨越無效線,提示年齡對主觀睡眠發作潛伏期結局可能沒有影響;附件圖4顯示年齡在扎來普隆、唑吡坦和安慰劑中的分布大致相似。綜上可判斷扎來普隆與安慰劑對照組的間接證據不存在不可傳遞性,不考慮對不可傳遞性降級,間接證據的初始確信度為低。若需應考慮不精確性,因間接證據的CI未跨過無效線;間接證據的有效樣本量為130,未達到OIS,考慮對不精確性降一級,間接證據的最終確信度為極低(表7)[21]。


1.4 NMA證據確信度分級
1.4.1 不一致性
直接證據與間接證據滿足NMA的一致性假設是NMA證據有效的重要前提[22],當直接證據與間接證據不一致時,NMA證據的效應值CI通常會比兩者更寬,造成結果精確性降低。導致NMA證據不一致性的原因很多,根據GRADE的降級因素大致可分為三類:① 研究的方法學質量(偏倚風險)和(或)發表偏倚對直接和(或)間接證據效應值產生影響而導致直接證據效應值與間接證據效應值的不一致;② 直接證據和(或)間接證據的效應量受到間接性的影響;③ 不可傳遞性造成的間接證據效應量的偏差,進一步導致直接證據與間接證據效應量的不一致。當直接證據和間接證據的不一致無法用偶然來解釋時,需要進一步探討不一致的來源,并考慮是否需要對不一致性進行降級[7,17]。
1.4.2 不精確性
NMA證據在考慮不精確性時遵循與傳統雙臂Meta分析相同的基本邏輯,即當CI跨越了預定的閾值或者樣本量未滿足OIS時,需考慮對不精確性降級。但在考察樣本量是否滿足OIS時,兩者的樣本量計算方法卻有所不同,傳統雙臂Meta分析在考慮OIS問題時采用報告結局中所有研究的樣本量相加計算的方式獲得總樣本量;而NMA證據效應量是通過直接證據和間接證據的效應量計算而來,無法獲取具體的樣本量。雖然當NMA證據的CI與直接證據的CI相似(間接證據對NMA證據貢獻度很低)時,可以將直接比較兩種干預的試驗中的參與者人數相加獲得總樣本量,但在直接證據和間接證據效應量一致時,僅考慮直接證據將低估對NMA證據的有效樣本量;而在直接證據和間接證據效應量不一致時,僅考慮直接證據將高估對NMA證據的有效樣本量。因此若NMA證據是由直接證據與間接證據結合而成,則考慮NMA證據的不精確性時需計算NMA證據的有效樣本量以確保不對不精確性的評估產生誤導。NMA有效樣本量在三種不同結局指標的計算方式如下所示[15,26]。
(1)結局指標為相對危險度(relative risk,RR)時:由于在雙臂等樣本試驗中,試驗的標準誤(standard error,SE)可通過點估計值(RR)、對照組結局發生率(pc)和單臂樣本量(n)計算[公式(1)],而NMA證據的SE可通過效應量的CI上下限以e為底的對數計算[公式(2)],因此假設NMA證據來自于一個雙臂等樣本試驗,則SE試驗=SENMA,NMA的單臂樣本量計算方法為公式(3)。
![]() |
![]() |
![]() |
(2)當結局指標為比值比(odds ratio,OR)時:假定NMA證據來自于一個雙臂等樣本試驗,該試驗的SE可通過點估計值(OR)、對照組結局發生率(pc)、試驗/觀察組結局發生率(pt)和單臂樣本量(n)計算[公式(4)],pt可由OR和pc計算[公式(5)],則NMA的單臂樣本量計算方法為公式(6)。
![]() |
![]() |
![]() |
(3)當結局指標為連續變量時:雙臂等樣本試驗中SE可由平均差(stand deviation,SD)和單臂樣本量(n)計算[公式(7)];NMA證據的SE可通過效應量的上下限計算[公式(8)],假定兩者相等,則NMA的單臂樣本量計算方法為公式(9)。
![]() |
![]() |
![]() |
為簡化NMA證據確信度分級流程,降低分級難度,在出現以下兩種情況時,無需考察OIS,可直接根據CI判斷證據的不精確性:① 證據的CI過寬。例如當RR的CI的上限與下限之比高于3或OR的CI的上限與下限之比高于2.5時,無論效應大小、最小重要差異和基線風險如何,NMA的有效樣本量都不會滿足OIS[15];② 證據效應量的大小適中并合理,且CI沒有跨過預定的閾值。當效應量大小適中且符合常理或臨床判斷時,狹窄且未超過相關閾值的CI表明NMA具有足夠的樣本量,此時增加樣本量也不會對結論造成影響。反之,由于過少的樣本量可能夸大干預措施的效果,當證據的效應量過大且CI沒有跨過閾值時,也需要評估有效樣本量是否滿足OIS。為方便研究人員判斷有效樣本量與OIS之間的關系,可將相對危險度減少25%或0.2個標準差作為結局的最小重要差異來對OIS進行計算[27],但GRADE工作組也強調這只是一種基于經驗的做法,可能會提供錯誤的信息。準確的OIS應基于不同背景的需要選擇生理學上合理的效應、真正的最小重要差異或背景化下的特定效應計算[28]。
綜上所述,如NMA證據CI跨越了閾值,則對不精確性進行降級,如未跨越,則進一步考慮證據效應量的大小;如效應量適中或效應量很大且樣本量滿足OIS,則無需降級;如效應量很大且樣本量不滿足OIS,則對不精確性進行降級(圖2)。同時在對不精確性進行降級時,如果直接證據與間接證據不一致,則應檢查是否因不一致性而導致的不精確,防止在同一領域重復降級[7];在稀疏網絡的NMA中還需考慮導致NMA證據CI更寬的原因是否為數據不足或研究之間采用共同的異質性參數[11,17],以避免對NMA證據的不精確性產生錯誤判斷。

1.4.3 分級原理
NMA證據由直接證據和間接證據組合而成。因此,NMA證據的確信度與直接和間接證據的確信度密切相關,可基于直接或間接證據的確信度形成NMA證據的確信度。NMA證據的GRADE分級共有三種情況:① 僅有直接證據或者間接證據時,NMA證據直接以直接證據或間接證據的確信度為NMA證據的確信度;② 直接證據與間接證據對NMA證據的貢獻度相等時,則NMA證據采用就高原則以較高的確信度為起點;③ 直接證據與間接證據對NMA證據的貢獻度不等,則NMA證據基于以主導證據的確信度為起點(圖1 C2)[16,29]。直接證據和間接證據對NMA的貢獻度可通過觀察直接、間接和NMA的CI或者通過貢獻比例矩陣等方式判斷[7,30]。當處于情況②和③時,需檢測直接證據與間接證據是否不一致,基于檢測結果考慮是否對不一致性降級,并考慮不精確性確定NMA證據確信度。
1.4.4 案例
扎來普隆與安慰劑對照組具有直接證據和間接證據,且直接證據確信度與間接證據確信度相等,不一致性檢測結果顯示直接證據與間接證據一致,不對不一致性進行降級;NMA證據效應量的CI未跨越無效線,但效應量較大,根據公式(7)(8)(9)計算有效樣本量為418,符合OIS,不考慮對不精確性降級,NMA證據的確信度為低(表8)[21]。

1.5 NMA最佳證據
1.5.1 選取原理
當NMA證據存在高異質性和不一致性時,直接證據和間接證據的確信度可能會高于NMA證據,在該情況下NMA證據并不是支持決策的最佳證據。因此在選擇NMA最佳證據時應判斷NMA證據是否具有不一致性以及NMA證據是否比直接證據和間接證據更精確,當NMA證據同時滿足這兩個條件時,可直接選擇NMA證據作為NMA的最佳證據;反之,應基于就高原則從直接證據、間接證據或NMA證據中選擇確信度最高的證據作為NMA的最佳證據(當NMA證據確信度與其他證據確信度級并列時,首選NMA證據)[16,29]。
1.5.2 案例
因直接證據與間接證據一致,選擇NMA證據作為NMA的最佳證據(表9)[21]。

2 基于GRADE分級結果形成結論
NMA的優勢之一是能將所有納入措施進行量化比較,并對某一結局中所有干預措施的效果優劣進行排序。然而,實際臨床決策需從效應量,證據確信度以及安全性等多維度對干預措施進行考量,僅依據效應量的高低難以判斷一種干預措施絕對優于其他所有的干預措施確信度[31],且排序高與排序低的干預措施之間并不一定存在重要差異,這種情況在納入研究數量較多的NMA中更為常見[32]。因此,在對NMA結果進行解釋并形成結論時,不能單純考慮干預措施的排序結果,還需同時考慮干預措施效應量大小和證據確信度,避免對決策和指南制作產生誤導,從而影響決策的進行和指南的實施[33-35]。為此,GRADE工作組開發了最小背景化和部分背景化兩種方法學框架指導研究人員對NMA結果進行解讀分析[8,9]。兩者均以尋找最有效干預措施為目標,根據各個措施的效應量,排序和證據確信度,基于較高類別可能比較低類別的干預措施更有效的推論,判斷出最有效且可靠的干預措施為決策提供支持[18,19]。
兩者的基本步驟相似:① 選擇參考組和決策閾值;② 基于對比參考組對干預措施進行分類;③ 基于證據確信度對干預措施進行分類;④ 檢查成對比較與排序結果的一致性。區別在于最小背景化更多關注決策閾值以及證據本身,通過CI相對于決策閾值的位置來判斷干預措施的效果,并基于干預措施間的差異對干預措施進行第二次分類,形成從最有效到最無效/有害的類別,會更加強調證據的不精確性,最大限度地減少了對特定背景的判斷需求,以確保結論在不同環境中的簡便性和適用性。而部分背景化框架則更依賴研究人員通過干預措施效果的潛在益處或危害的程度形成結論,根據證據的點估計值將干預措施最終分為無效、較小、中等和重大效應的類別,適用于醫療保健指南等需要判斷健康益處與利弊平衡的情況[8,9]。
以案例文章中使用最小背景化對主觀睡眠發作潛伏期結局形成結論為例:① 案例中安慰劑與NMA其他干預措施的連接最為緊密,因此選擇安慰劑作為參考組,以無效值為決策閾值;② 根據治療失眠藥物與安慰劑比較效應值的CI是否跨過無效線,將各藥物分為有效的藥物和與無效的藥物兩類(附件表1);③ 基于是否與無效的藥物類別中的所有藥物的比較效應值的CI均未跨越無效線,將有效的藥物類別中的藥物再次分為最有效的藥物之一和優于無效但次于最有效的藥物兩類(附件表2);④ 如附件表3所示,基于治療失眠藥物與安慰劑比較的最佳證據的確信度,將干預措施再次分為兩個大類:高確信度證據(高和中等確信度)和低確信度證據(低和極低確信度);⑤ 檢查發現主觀睡眠發作潛伏期結局中各藥物與非安慰劑之間的比較結果與比較安慰劑的結果排序一致,不對分類進行更改[21]。最后對不同干預措施治療失眠在主觀睡眠發作潛伏期結局上的療效按最小背景化框架進行總結,結論見表10。

3 小結
本文對NMA中GRADE證據分級的整體流程進行了梳理,并通過與實際案例相結合的方式對該流程及其要點進行介紹。目前GRADE在NMA中的應用已逐漸趨于成熟,但依舊存在較大的復雜性和一定的主觀性。由于對NMA證據進行確信度分級時所需要考慮較多且邏輯復雜的內容以及NMA對比組的龐大數量,導致研究人員既需要對方法有足夠的了解,又需要投入較多的精力,尤其是在進行動態指南和動態循證要覽制作時,快速準確地對NMA證據進行分級的難度將會進一步提升[36-39]。盡管GRADE工作組提出在評估直接證據和間接證據確信度時,可先不考慮不精確性以及在直接證據確信度為“高”且直接證據對NMA證據的貢獻至少與間接證據相等時,可不對間接證據的確信度進行評估等方法,且隨著人工智能技術的發展,如何利用程序實現NMA證據的自動分級也逐漸成為一個熱點。目前已有NMA證據分級自動化表格和CINeMA等工具來減少NMA證據確信度分級時的工作量[40],MERGE工作組目前也已聚焦證據的自動合成與分級,后續將會繼續開發NMA證據自動分級,為NMA證據分級透明化和提高分級質量提供幫助[41]。這些方法和工具極大提高了NMA證據分級的效率,但依舊無法改變NMA證據確信度評估是個巨大工程的事實,研究人員使用這些方法和工具時也應根據研究背景和目的仔細判斷,并對省略步驟及其原因進行標注或者說明。此外,GRADE方法還存在由于沒有處理小樣本結局發表偏倚方法,而導致納入研究數量多的研究更容易在發表偏倚上降級等問題。盡管為NMA實施GRADE方法較為困難,但證據主體的確信度問題對于最佳決策至關重要,為提高NMA結果的透明度和實用性,并為最佳決策提供支持,進行NMA文章撰寫時仍然應該堅持正確的分級方法和流程并完整報告所有的分級結果。
現有的GRADE方法已適用于國內的大部分研究,但由于GRADE是基于現代醫學體系而創建,并未考慮到中醫藥領域的證據多元化問題[42]。經典醫籍醫案及名家經驗作為中醫藥臨床證據體系的重要組成部分,其在GRADE體系中較低的證據確信度拉低了決策者使用中醫干預的信心[43]。近年來,多名國內學者為將GRADE體系與中醫藥臨床評價結合進行了諸多嘗試,但尚未形成較統一的規范[44]。而隨著循證醫學的不斷探索與發展,為達到最佳決策的目的,研究者們也不再將目光局限于隨機對照試驗,2020年,GRADE工作組提出了整合隨機與非隨機干預研究證據的可行方法[45,46],為GRADE方法與經典醫籍醫案及名家經驗相結合提供了良好的思路。如何將循證醫學理念與中醫實踐特點結合,探索國際現有分級標準與中醫藥的結合,嘗試建立相對統一、具有普適性的分級體系,是未來研究者需要進一步探索的問題。
聲明 所有作者均聲明無利益沖突。