本研究全面回顧了診斷試驗準確性網狀Meta分析(DTA-NMA)的理論基礎、發展沿革、實踐應用及潛在挑戰。作為一種評估和比較不同診斷試驗準確性的方法,DTA-NMA通過整合直接和間接證據,在提高診斷準確性與優化治療策略方面顯示出其獨特價值,為臨床決策提供了重要支持。然而,盡管在方法學和實踐方面取得了顯著進展,DTA-NMA在實施過程中仍面臨多重挑戰,包括提升研究透明度、整合多元證據、準確評估偏倚風險、呈現和解釋結果以及評價證據質量等問題。未來,進一步完善針對DTA-NMA研究的報告規范和證據質量分級將是該領域發展的關鍵,這有助于支持基于證據的高效醫療決策,最終提升患者的診療效果。本研究旨在為進行DTA-NMA研究的學者提供思考和啟示,促進該領域的穩步發展。
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
隨著醫學科學的快速發展,對于特定疾病或癥狀的診斷已經不再依賴單一的檢測指標[1,2]。在實際的臨床環境中,臨床醫生通常需要綜合多個診斷測試的結果,這不僅增加了診斷的復雜性,同時也增加了選擇最佳診療手段的挑戰。在此背景下,系統、客觀地比較不同診斷測試的準確性,成為了臨床決策和優化診斷策略的關鍵。
傳統的診斷性試驗準確性比較研究(CDTA)方法雖然能夠評估兩種或多種診斷測試方案的相對準確性[3, 4],但隨著診斷技術的不斷更新和臨床實踐中診斷手段的多樣化,CDTA方法在面對不同研究設計、復雜數據結構以及多種測試指標時,存在諸多局限性。具體而言,CDTA往往僅依賴直接證據進行比較, 無法有效整合間接證據,難以全面反映臨床實際中的所有測試選擇。而網狀Meta分析(NMA)的引入為解決這一問題提供了新的方法論,NMA能夠同時整合直接與間接證據,通過混合治療比較(MTC)提供更全面的研究視角[5]。
近年,診斷試驗準確性網狀Meta分析(DTA-NMA)作為一種專用于診斷領域的NMA方法,逐步受到關注。它不僅能夠綜合比較至少三種診斷測試的準確性,還能通過網絡結構引入間接比較,從而有效彌補傳統CDTA方法的不足。特別是在涉及多個測試閾值或復雜研究設計的情況下,DTA-NMA能夠提供更為精確的診斷準確性估計,并對不同測試方法進行合理排序。因此,DTA-NMA在優化診斷決策、提升臨床診斷精準度方面具有重要意義。
盡管DTA-NMA在方法學上具有較大的應用潛力,但其實施過程中仍面臨諸多挑戰。與常規干預性研究相比,DTA研究的復雜性體現在需要同時評估多個效應值及其相互關系,并考慮診斷測試的不同閾值和多樣化的研究設計[1,6]。此外,當前可應用于DTA-NMA的統計模型,如貝葉斯模型[7]、ANOVA分析模型[8]、β-二項分析方差模型[9]等,仍在不斷發展中,如何在不同研究設計間靈活應用這些模型,同樣是一個亟待解決的問題。因此,進一步探索和完善DTA-NMA的實施策略,不僅是診斷試驗準確性研究的重要方向,也是推動基于證據的臨床決策的關鍵。
基于上述背景,本研究旨在系統回顧DTA-NMA的理論基礎、發展歷程、實踐應用及其面臨的挑戰,探討該方法在實際應用中的優勢與局限,并為未來的DTA-NMA研究提供可行的建議和方向。
1 DTA-NMA的基本概念與理論基礎
1.1 DTA-NMA的定義
DTA-NMA是對傳統干預性NMA的進一步拓展(附件圖1),其核心特點在于,診斷試驗之間的比較通常發生在同一研究對象中,這與干預性研究中不同治療組之間相互獨立的特點有顯著區別。在DTA-NMA中,每項研究可能評估了多種診斷試驗的敏感度和特異度,試驗結果之間存在相關性,形成一個2K維的多變量結局(K為診斷試驗數量)。通過整合直接和間接比較證據,DTA-NMA不僅能夠對多種診斷試驗的準確性進行綜合排序,還可以分析不同診斷閾值對試驗性能的影響[10]。這種方法的提出與發展突破了傳統診斷試驗Meta分析僅能開展雙變量分析的局限性,為臨床醫師和決策者提供了更全面的診斷試驗性能評估依據[11,12]。
1.2 起源與沿革
上世紀90年代,麥克馬斯特大學的Bucher等[13]首次提出了間接比較思想,并逐步將其應用于干預性試驗的Meta分析中。2002年,Lumley等[14]通過線性混合模型將直接與間接比較證據結合,基于證據間的“不一致性”正式提出了網狀Meta分析比較方法。隨后,DTA研究報告規范(STARD 2003)出版[15],標志著DTA研究進入了正軌并迅速增長。在此之后的一段時間里,Purkayastha等[16]在診斷試驗Meta分析中首次嘗試了間接比較方法,通過Meta回歸評估了計算機斷層掃描結腸鏡、磁共振結腸鏡以及傳統結腸鏡對結直腸癌患者診斷準確性的影響。2008年,東英吉利大學的Song等[17]確立了調整間接比較假設,進一步推動了NMA方法的實踐與應用。此后,隨著診斷準確性研究報告指南STARD 2015以及診斷準確性試驗的系統評價與Meta分析報告規范(PRISMA-DTA)的出版,國際DTA-NMA研究迅速鋪開(附件圖2)。
早期,國內學者已經開展了多個診斷試驗間準確性比較的探索[18],但在DTA-NMA相關實踐方面起步相對較晚(附件圖3)。2008年,滕芬[19]開展了干預性試驗NMA方法的早期實踐,比較了不同干預措施對癌癥患者自殺相關癥狀的干預效果。2012年,張天嵩與熊茜[20]首次闡述了NMA的制作方法,隨后,曾憲濤等[21,22]對系統評價與NMA方法進行了系列總結,推動了國內學者對新興證據整合方法的了解與探索。2015年,張家華等[23]首次將間接比較與診斷試驗Meta分析結合,而后張學禮等[24]探索了NMA與診斷試驗Meta分析的整合方案,并分析了不同組合生物標志物對于復雜疾病早期診斷的價值。隨著DTA-NMA方法學研究[25,26]以及有關報告規范解讀[27,28]的出版,國內越來越多的學者開始基于此方法開展多疾病領域的實踐[29,30]。2020至2022年間,NMA研究與單個DTA研究系統評價得到了系列總結[2,12],為后續DTA-NMA研究的開展奠定了更加堅實的理論基礎。
1.3 DTA-NMA統計學基礎與模型分類
1.3.1 統計學基礎與原理
在DTA研究中,常用的統計學評價指標主要包括敏感度/真陽性率(SEN/TPR)、特異度/真陰性率(SPE/TNR)、陽性似然比(PLR)、陰性似然比(NLR)、受試者工作特征曲線下面積(AUC)、診斷比值比(DOR)以及準確性(ACC)等[12],這些指標從不同角度綜合衡量了診斷試驗在正確識別疾病存在與否方面的效能。
在早期的DTA評估中,研究者常通過建立共同參照(通常為“金標準”)以實現不同診斷方案之間的效能比較。實際上,參照干預性調整間接比較研究,各效應值間存在矢量傳遞原理,DTA-NMA研究中同樣可以通過計算指標間相對比值的方法來匯總比較結果[31]:
![]() |
![]() |
(以DOR為例,其中,m與n分別代表兩類不同類型且無直接比較的診斷試驗,而o即代表其間的共同參考標準或相同診斷試驗。)
同時基于頻率學與貝葉斯模型,多數DTA-NMA統計學模型也由此鋪開。
1.3.2 主要方法學模型分類
DTA-NMA領域的方法學經歷了自初期的探索到復雜統計模型的演進,表1中簡要展示了現有主流模型應用的優勢、注意事項與相關應用的軟件包。2003年,劉關鍵等[18]首次提出基于SROC曲線法的分析框架,將多個獨立診斷試驗的受試者工作特征曲線(ROC)合并實現間接比較。此法能夠兼顧SEN和SPE,為評估診斷試驗質量提供了統一的框架。然而,其局限性在于未能量化不同診斷方案間的準確性差異,具體操作時亦需關注校正數據的需求。

隨著研究需求的增加,DTA-NMA的概念被進一步發展,方法學模型也不斷突破。Trikalinos等[32]于2014年提出了正態分布近似的多項式模型,該模型利用多元正態分布逼近多項式分布,能夠聯合建模診斷試驗的TPR和FPR,特別適合處理大量交叉分類數據。模型在捕捉試驗間異質性及相關性(如閾值效應)方面表現出色,但隨著診斷試驗數量的增加,參數數量呈指數增長,導致估計難度顯著提高。
2015年,Menten等[33]提出了基于診斷性試驗對比數據的模型,這一模型通過貝葉斯方法結合參考測試準確性的先驗信息,適用于包含直接和間接比較的復雜研究設計,能夠校正因參考標準不完美導致的偏倚。其靈活的框架能夠適應多種研究類型,如“多測試比較”“隨機測試比較”以及“研究間測試比較”等。然而,該模型對數據的要求較高,尤其是參考測試的詳細信息(如臨界值、程序等),數據缺失可能限制其應用。
隨后,其他模型相繼被提出以解決更復雜的研究需求。例如,Hoyer等[34]提出的四變量線性混合模型擴展了標準雙變量模型,能夠同時在研究內和研究間建模SEN和SPE的差異,并引入閾值信息作為協變量,從而實現對多閾值診斷試驗的Meta分析。然而,模型的數值穩定性在參數數量較大時可能受到挑戰。此外,Nyaga等[8]提出了基于雙向ANOVA模型的方法,能夠在缺失數據框架下結合單臂和多臂研究信息,提供邊際均值和相對性指標的估計。然而,其依賴logit變換,可能無法充分處理二元數據和比例數據的非恒定方差。
同年,Nyaga等[9]進一步提出了二元β分布方差分析模型,通過直接使用SEN和SPE,避免了傳統廣義線性混合模型(GLMM)中因變換引起的假設不自然和計算復雜的問題。該模型結合了Copula函數捕捉SEN與SPE之間的相關性,同時考慮了重復測量導致的超離散性。然而,不同Copula函數的選擇可能影響模型結果,且Copula誤設難以檢測。
至2018年,Owen等[35]開發了一個針對多閾值診斷試驗的雙變量NMA模型,能夠聯合分析多個測試-閾值組合,不僅提供SEN和SPE估計值,還能通過ROC空間展示結果,為臨床提供更全面的決策支持。同年,Ma等[7]提出了一種基于貝葉斯分層NMA模型的統一框架,允許納入包含或不包含金標準的研究,并能處理不同研究中候選試驗集合不同的情況。該模型通過累積排名曲線下面積(SUCRA)對診斷試驗性能進行排序,但模型依賴一致性假設,且協方差矩陣的復雜性可能影響模型在高維情況下的效率。
2019年,Lian等[36]對HSROC模型進行擴展,提出了一種新的基于分層框架的DTA-NMA模型,通過構建三個層次(研究內、研究間和先驗層次),同時考慮研究間異質性和多個測試間的相關性。該模型能夠在缺失數據框架下整合多種設計類型的信息,但隨著診斷試驗數量的增加,模型復雜性和計算負擔也顯著提高。
各種類型的模型極大地豐富了DTA-NMA的方法學,為DTA的系統評價與證據整合比較提供了更為全面的選擇。每種模型均有其特定的應用場景和優勢,研究者在選擇模型時需要綜合考慮原始研究的設計類型、數據的完整性和診斷閾值的可用性綜合考慮,同時結合臨床需求與計算資源,確保結果的科學性和實用性。
2 DTA-NMA的方法學與實施
2.1 DTA-NMA研究的注冊
與傳統的干預性系統評價和(網狀)Meta分析相似,DTA-NMA的預先注冊同樣至關重要,這可顯著減少研究重復和資源浪費,同時避免選擇性報告,大幅提高研究的質量和透明度。目前,研究者可以通過多個平臺進行注冊,包括Cochrane協作網、Campbell協作網、JBI循證衛生保健中心、PROSPERO以及INPLASY等。每個平臺都有其獨特的注冊流程和要求,研究者通常需選用適合的平臺進行DTA-NMA研究方案的注冊。
實踐中,許多研究者可能尚未充分認識到注冊對于研究透明性和規范化的重要意義。此外,注冊平臺的流程復雜、細節要求較多,而研究者在這方面的指導與資源支持可能不足,亦增加了注冊工作的難度[37]。目前,完整注冊的DTA-NMA研究相對較少,其中不少注冊案例在數據選擇和分析策略等關鍵細節上披露不足,一定程度上制約了研究質量的提升以及報告的規范性。
2.2 DTA-NMA納入研究設計分類
在開展DTA-NMA研究前,準確區分與識別各類原始診斷試驗研究設計對于提高證據整合可信度至關重要。現階段,原始診斷準確性研究主要分為兩大類,即單個診斷試驗準確性研究(SDTA)與診斷試驗準確性比較研究(CDTA),而CDTA又可劃分為完全配對設計、隨機子集部分配對設計、非隨機子集部分配對設計、非配對隨機設計以及非配對非隨機設計[4, 6, 38],不同研究設計的特點與實例見表2所示。在實施DTA-NMA時,建議選擇相同類型的研究,這不僅能確保數據整合的嚴謹性,還能提高診斷決策的準確率。未來研究應更深入探討多類型DTA之間的數據整合,并不斷規范診斷實驗的研究設計,以應對診斷技術的快速發展和多樣化的臨床需求。

2.3 診斷試驗偏倚風險評價
評估診斷試驗偏倚風險是確保DTA-NMA納入研究質量的關鍵步驟,其主要目標是識別納入研究中潛在可能影響研究結論可信度的因素,這些因素主要涵蓋病例選擇、待評價試驗、金標準以及病例流程和進展情況等維度[44-47]。
在評估診斷試驗偏倚風險時,通常使用特定的評價工具,如診斷試驗質量評價工具(QUADAS-2)與其擴展版—QUADAS-C。QUADAS-2為初版QUADAS工具于2011年的修訂版本,主要用于評估SDTA的偏倚風險[44],而2021年推出的QUADAS-C則專門用于評估CDTA研究中的偏倚風險[45]。QUADAS-C在保留QUADAS-2四個領域核心框架的基礎上,新增了針對診斷準確性試驗間比較的多項內容,例如:信號問題中增加了對試驗設計、診斷試驗間順序效應及數據缺失比例差異等維度的考量,并在偏倚風險判定時特別關注比較研究中跨試驗的一致性(如是否采用完全配對或隨機設計)。此外,QUADAS-C強調了對于完全配對、受試者內設計及隨機化設計研究的適配性,而對于未隨機化或部分配對的研究,則需根據具體情況調整條目內容或評價標準。
在使用這些工具時,研究者應嚴格遵循其指導原則,并根據系統評價問題適當調整評價工具和評價原則。每項納入的原始研究都應由兩位評估者背靠背式進行偏倚風險的評價,評估結果通常分為“高”“低”“不確定”及“不適用”。在實際操作中,研究人員需根據不同系統評價的特殊要求靈活運用對應工具,尤其關注于CDTA研究的多重研究設計及數據一致性問題。然而,DTA-NMA不同于常規的DTA系統評價/Meta分析,其診斷方案間的比較條件與要求往往更為苛刻;隨著DTA-NMA方法學的不斷完善,其偏倚風險評價方案或需更加聚焦,并在臨床診斷決策中發揮愈發重要的作用。
2.4 發表偏倚檢測
在診斷試驗系統評價領域,準確檢測與糾正發表偏倚對保障研究結果的可靠性極為關鍵。在DTA-NMA研究中,亦需對證據結果實施發表偏倚檢測。目前,當納入的研究數量達到10項或以上時,研究者通常采用漏斗圖繪制、Deeks檢驗及剪補法等方法來探索結果中的發表偏倚。其中,Deeks檢驗是專為DTA系統評價設計的,其優點在于同時考慮了DTA研究中各效應量的相關性,Deeks檢驗的顯著性(P<0.05)表明存在發表偏倚的可能性。而剪補法旨在通過估計并補充可能遺漏的研究來調整發表偏倚的影響,并試圖通過重建對稱的漏斗圖來提供更為精確的效應量估計。然而,現有的許多DTA-NMA研究未能充分重視研究的發表偏倚問題[30,48,49],這可能會導致研究結論的潛在偏離,最終影響臨床決策和政策制定。未來的DTA-NMA研究需進一步優化發表偏倚檢驗策略,結合診斷試驗的特殊數據特征與網絡結構復雜性,開發或采用更為適配的偏倚檢測與校正方法,并通過敏感性分析加強對校正結果的驗證。
2.5 DTA系統評價報告規范
為確保DTA系統評價的高質量和透明度,遵循明確的報告規范則至關重要。科學的報告規范旨在提高研究的可重復性、可比較性和可信度,同時便于同行評審和讀者理解研究的設計、實施和結論。現階段,國際上推薦的PRISMA指南已推出擴展版PRISMA-DTA,用于規范診斷試驗系統評價與Meta分析的報告[50]。此外,PRISMA-NMA作為PRISMA的另一擴展版,專門針對NMA的報告需求,包含了網絡結構的表達、直接與間接證據的整合、網絡一致性評估及復雜模型透明化報告等內容[51]。PRISMA-DTA與PRISMA-NMA均為DTA-NMA的報告提供了重要的參考價值。
然而,鑒于DTA-NMA的復雜多元特性,現有規范在解決其獨特需求方面尚顯不足,建立專門的PRISMA-DTA-NMA報告規范或具有重要意義。一方面,DTA-NMA研究需詳細描述網絡中各診斷試驗的效應量估計方法(如SEN、SPE、DOR等),并清晰說明如何處理多閾值和多指標分析的復雜性。另一方面,DTA-NMA的網絡結構可能涉及多種試驗設計(如完全配對、部分配對或非隨機化設計),需明確報告這些設計對網絡一致性和效應量估計的潛在影響。此外,DTA-NMA中常使用復雜的統計模型(如貝葉斯模型或頻率學模型),報告中需詳細描述模型選擇的依據、參數設置、模型診斷結果及敏感性分析的細節。更為重要的是,DTA-NMA的研究結果直接服務于臨床診斷決策,因此,報告規范應特別強調如何將綜合效應量轉化為臨床可用信息(如預測值或閾值效用),以提高研究成果的實用性和臨床影響力。
3 DTA-NMA實踐中的其他挑戰
DTA-NMA雖已成為評估多種診斷試驗準確性的關鍵方法,其方法論研究亦取得顯著進步,但實踐中仍面臨多重挑戰。除前述的諸多現存局限外,挑戰還涉及統計模型的選取與應用、原始研究設計的多樣性、結果展示與推薦的復雜性、診斷措施優劣排序、證據質量分級的不確定性,以及如何全面提升研究質量等多個方面。
DTA-NMA中的一致性檢驗是評估不同研究之間直接與間接證據一致性的重要工具。鑒于DTA-NMA本身的復雜性,尤其是在處理涉及多個診斷閾值和指標的研究時,現行的一致性檢驗方法可能難以充分反映診斷性研究間比較的不確定性。目前,針對診斷試驗比較不一致性的應對策略在研究中仍不常見。另外,由于DTA-NMA的方法論模型差異,研究結果的展現形式各異,而有效地展示包括SEN和SPE在內的多個效應量及其相互作用,對研究者而言同樣是一項挑戰。
在臨床實踐中,診斷試驗的選擇不僅依賴于綜合準確性的排序,還需要結合SEN和SPE這兩個核心指標,以滿足不同臨床情境的特定需求。例如,SEN高的試驗更適合用于排除某些診斷(如篩查重大疾病),從而降低漏診風險;而SPE高的試驗則更適合于確診某些疾病(如明確某種特定病因),避免誤診帶來的不必要干預。因此,在DTA-NMA的基礎上,進一步結合SEN和SPE對試驗性能進行分情境綜合考量,可更精準地反映試驗在不同診斷需求中的適用性。與此同時,如何清晰、準確、規范地將復雜的DTA-NMA結果呈現給臨床醫生和決策者,以及如何有效解釋診斷閾值的選擇和效應量之間的相關性,均是亟需解決的問題。
此外,DTA-NMA研究還需一個合適的證據分級體系。目前廣泛應用的GRADE方法為干預和診斷試驗系統評價提供了詳盡的評估框架,也開發了如CINeMA平臺等在線的NMA證據質量評估工具[52]。然而,將GRADE方法應用于DTA-NMA時,如何精確定義升降級因素與推薦強度,如何基于GRADE方法評估NMA-DTA證據質量,仍充滿不確定性,且尚缺乏詳細論述的相關研究。
綜上所述,本文全面回顧了DTA-NMA的理論基礎、發展歷史、應用實踐及其面臨的挑戰。隨著方法論模型的持續發展和應用實踐的不斷推進,DTA-NMA在診斷試驗準確性評估領域已取得顯著進步。然而,在具體研究實施過程中,一系列挑戰仍然存在,包括提高研究實施的透明度、多元證據的有效整合、偏倚風險的精確評估、結果解釋的清晰呈現以及證據質量評價的準確性等方面。未來,在實踐中進一步完善和細化DTA-NMA研究的報告規范和證據分級體系,將促進基于證據的醫學決策過程,從而提升患者的診療效果和質量。
隨著醫學科學的快速發展,對于特定疾病或癥狀的診斷已經不再依賴單一的檢測指標[1,2]。在實際的臨床環境中,臨床醫生通常需要綜合多個診斷測試的結果,這不僅增加了診斷的復雜性,同時也增加了選擇最佳診療手段的挑戰。在此背景下,系統、客觀地比較不同診斷測試的準確性,成為了臨床決策和優化診斷策略的關鍵。
傳統的診斷性試驗準確性比較研究(CDTA)方法雖然能夠評估兩種或多種診斷測試方案的相對準確性[3, 4],但隨著診斷技術的不斷更新和臨床實踐中診斷手段的多樣化,CDTA方法在面對不同研究設計、復雜數據結構以及多種測試指標時,存在諸多局限性。具體而言,CDTA往往僅依賴直接證據進行比較, 無法有效整合間接證據,難以全面反映臨床實際中的所有測試選擇。而網狀Meta分析(NMA)的引入為解決這一問題提供了新的方法論,NMA能夠同時整合直接與間接證據,通過混合治療比較(MTC)提供更全面的研究視角[5]。
近年,診斷試驗準確性網狀Meta分析(DTA-NMA)作為一種專用于診斷領域的NMA方法,逐步受到關注。它不僅能夠綜合比較至少三種診斷測試的準確性,還能通過網絡結構引入間接比較,從而有效彌補傳統CDTA方法的不足。特別是在涉及多個測試閾值或復雜研究設計的情況下,DTA-NMA能夠提供更為精確的診斷準確性估計,并對不同測試方法進行合理排序。因此,DTA-NMA在優化診斷決策、提升臨床診斷精準度方面具有重要意義。
盡管DTA-NMA在方法學上具有較大的應用潛力,但其實施過程中仍面臨諸多挑戰。與常規干預性研究相比,DTA研究的復雜性體現在需要同時評估多個效應值及其相互關系,并考慮診斷測試的不同閾值和多樣化的研究設計[1,6]。此外,當前可應用于DTA-NMA的統計模型,如貝葉斯模型[7]、ANOVA分析模型[8]、β-二項分析方差模型[9]等,仍在不斷發展中,如何在不同研究設計間靈活應用這些模型,同樣是一個亟待解決的問題。因此,進一步探索和完善DTA-NMA的實施策略,不僅是診斷試驗準確性研究的重要方向,也是推動基于證據的臨床決策的關鍵。
基于上述背景,本研究旨在系統回顧DTA-NMA的理論基礎、發展歷程、實踐應用及其面臨的挑戰,探討該方法在實際應用中的優勢與局限,并為未來的DTA-NMA研究提供可行的建議和方向。
1 DTA-NMA的基本概念與理論基礎
1.1 DTA-NMA的定義
DTA-NMA是對傳統干預性NMA的進一步拓展(附件圖1),其核心特點在于,診斷試驗之間的比較通常發生在同一研究對象中,這與干預性研究中不同治療組之間相互獨立的特點有顯著區別。在DTA-NMA中,每項研究可能評估了多種診斷試驗的敏感度和特異度,試驗結果之間存在相關性,形成一個2K維的多變量結局(K為診斷試驗數量)。通過整合直接和間接比較證據,DTA-NMA不僅能夠對多種診斷試驗的準確性進行綜合排序,還可以分析不同診斷閾值對試驗性能的影響[10]。這種方法的提出與發展突破了傳統診斷試驗Meta分析僅能開展雙變量分析的局限性,為臨床醫師和決策者提供了更全面的診斷試驗性能評估依據[11,12]。
1.2 起源與沿革
上世紀90年代,麥克馬斯特大學的Bucher等[13]首次提出了間接比較思想,并逐步將其應用于干預性試驗的Meta分析中。2002年,Lumley等[14]通過線性混合模型將直接與間接比較證據結合,基于證據間的“不一致性”正式提出了網狀Meta分析比較方法。隨后,DTA研究報告規范(STARD 2003)出版[15],標志著DTA研究進入了正軌并迅速增長。在此之后的一段時間里,Purkayastha等[16]在診斷試驗Meta分析中首次嘗試了間接比較方法,通過Meta回歸評估了計算機斷層掃描結腸鏡、磁共振結腸鏡以及傳統結腸鏡對結直腸癌患者診斷準確性的影響。2008年,東英吉利大學的Song等[17]確立了調整間接比較假設,進一步推動了NMA方法的實踐與應用。此后,隨著診斷準確性研究報告指南STARD 2015以及診斷準確性試驗的系統評價與Meta分析報告規范(PRISMA-DTA)的出版,國際DTA-NMA研究迅速鋪開(附件圖2)。
早期,國內學者已經開展了多個診斷試驗間準確性比較的探索[18],但在DTA-NMA相關實踐方面起步相對較晚(附件圖3)。2008年,滕芬[19]開展了干預性試驗NMA方法的早期實踐,比較了不同干預措施對癌癥患者自殺相關癥狀的干預效果。2012年,張天嵩與熊茜[20]首次闡述了NMA的制作方法,隨后,曾憲濤等[21,22]對系統評價與NMA方法進行了系列總結,推動了國內學者對新興證據整合方法的了解與探索。2015年,張家華等[23]首次將間接比較與診斷試驗Meta分析結合,而后張學禮等[24]探索了NMA與診斷試驗Meta分析的整合方案,并分析了不同組合生物標志物對于復雜疾病早期診斷的價值。隨著DTA-NMA方法學研究[25,26]以及有關報告規范解讀[27,28]的出版,國內越來越多的學者開始基于此方法開展多疾病領域的實踐[29,30]。2020至2022年間,NMA研究與單個DTA研究系統評價得到了系列總結[2,12],為后續DTA-NMA研究的開展奠定了更加堅實的理論基礎。
1.3 DTA-NMA統計學基礎與模型分類
1.3.1 統計學基礎與原理
在DTA研究中,常用的統計學評價指標主要包括敏感度/真陽性率(SEN/TPR)、特異度/真陰性率(SPE/TNR)、陽性似然比(PLR)、陰性似然比(NLR)、受試者工作特征曲線下面積(AUC)、診斷比值比(DOR)以及準確性(ACC)等[12],這些指標從不同角度綜合衡量了診斷試驗在正確識別疾病存在與否方面的效能。
在早期的DTA評估中,研究者常通過建立共同參照(通常為“金標準”)以實現不同診斷方案之間的效能比較。實際上,參照干預性調整間接比較研究,各效應值間存在矢量傳遞原理,DTA-NMA研究中同樣可以通過計算指標間相對比值的方法來匯總比較結果[31]:
![]() |
![]() |
(以DOR為例,其中,m與n分別代表兩類不同類型且無直接比較的診斷試驗,而o即代表其間的共同參考標準或相同診斷試驗。)
同時基于頻率學與貝葉斯模型,多數DTA-NMA統計學模型也由此鋪開。
1.3.2 主要方法學模型分類
DTA-NMA領域的方法學經歷了自初期的探索到復雜統計模型的演進,表1中簡要展示了現有主流模型應用的優勢、注意事項與相關應用的軟件包。2003年,劉關鍵等[18]首次提出基于SROC曲線法的分析框架,將多個獨立診斷試驗的受試者工作特征曲線(ROC)合并實現間接比較。此法能夠兼顧SEN和SPE,為評估診斷試驗質量提供了統一的框架。然而,其局限性在于未能量化不同診斷方案間的準確性差異,具體操作時亦需關注校正數據的需求。

隨著研究需求的增加,DTA-NMA的概念被進一步發展,方法學模型也不斷突破。Trikalinos等[32]于2014年提出了正態分布近似的多項式模型,該模型利用多元正態分布逼近多項式分布,能夠聯合建模診斷試驗的TPR和FPR,特別適合處理大量交叉分類數據。模型在捕捉試驗間異質性及相關性(如閾值效應)方面表現出色,但隨著診斷試驗數量的增加,參數數量呈指數增長,導致估計難度顯著提高。
2015年,Menten等[33]提出了基于診斷性試驗對比數據的模型,這一模型通過貝葉斯方法結合參考測試準確性的先驗信息,適用于包含直接和間接比較的復雜研究設計,能夠校正因參考標準不完美導致的偏倚。其靈活的框架能夠適應多種研究類型,如“多測試比較”“隨機測試比較”以及“研究間測試比較”等。然而,該模型對數據的要求較高,尤其是參考測試的詳細信息(如臨界值、程序等),數據缺失可能限制其應用。
隨后,其他模型相繼被提出以解決更復雜的研究需求。例如,Hoyer等[34]提出的四變量線性混合模型擴展了標準雙變量模型,能夠同時在研究內和研究間建模SEN和SPE的差異,并引入閾值信息作為協變量,從而實現對多閾值診斷試驗的Meta分析。然而,模型的數值穩定性在參數數量較大時可能受到挑戰。此外,Nyaga等[8]提出了基于雙向ANOVA模型的方法,能夠在缺失數據框架下結合單臂和多臂研究信息,提供邊際均值和相對性指標的估計。然而,其依賴logit變換,可能無法充分處理二元數據和比例數據的非恒定方差。
同年,Nyaga等[9]進一步提出了二元β分布方差分析模型,通過直接使用SEN和SPE,避免了傳統廣義線性混合模型(GLMM)中因變換引起的假設不自然和計算復雜的問題。該模型結合了Copula函數捕捉SEN與SPE之間的相關性,同時考慮了重復測量導致的超離散性。然而,不同Copula函數的選擇可能影響模型結果,且Copula誤設難以檢測。
至2018年,Owen等[35]開發了一個針對多閾值診斷試驗的雙變量NMA模型,能夠聯合分析多個測試-閾值組合,不僅提供SEN和SPE估計值,還能通過ROC空間展示結果,為臨床提供更全面的決策支持。同年,Ma等[7]提出了一種基于貝葉斯分層NMA模型的統一框架,允許納入包含或不包含金標準的研究,并能處理不同研究中候選試驗集合不同的情況。該模型通過累積排名曲線下面積(SUCRA)對診斷試驗性能進行排序,但模型依賴一致性假設,且協方差矩陣的復雜性可能影響模型在高維情況下的效率。
2019年,Lian等[36]對HSROC模型進行擴展,提出了一種新的基于分層框架的DTA-NMA模型,通過構建三個層次(研究內、研究間和先驗層次),同時考慮研究間異質性和多個測試間的相關性。該模型能夠在缺失數據框架下整合多種設計類型的信息,但隨著診斷試驗數量的增加,模型復雜性和計算負擔也顯著提高。
各種類型的模型極大地豐富了DTA-NMA的方法學,為DTA的系統評價與證據整合比較提供了更為全面的選擇。每種模型均有其特定的應用場景和優勢,研究者在選擇模型時需要綜合考慮原始研究的設計類型、數據的完整性和診斷閾值的可用性綜合考慮,同時結合臨床需求與計算資源,確保結果的科學性和實用性。
2 DTA-NMA的方法學與實施
2.1 DTA-NMA研究的注冊
與傳統的干預性系統評價和(網狀)Meta分析相似,DTA-NMA的預先注冊同樣至關重要,這可顯著減少研究重復和資源浪費,同時避免選擇性報告,大幅提高研究的質量和透明度。目前,研究者可以通過多個平臺進行注冊,包括Cochrane協作網、Campbell協作網、JBI循證衛生保健中心、PROSPERO以及INPLASY等。每個平臺都有其獨特的注冊流程和要求,研究者通常需選用適合的平臺進行DTA-NMA研究方案的注冊。
實踐中,許多研究者可能尚未充分認識到注冊對于研究透明性和規范化的重要意義。此外,注冊平臺的流程復雜、細節要求較多,而研究者在這方面的指導與資源支持可能不足,亦增加了注冊工作的難度[37]。目前,完整注冊的DTA-NMA研究相對較少,其中不少注冊案例在數據選擇和分析策略等關鍵細節上披露不足,一定程度上制約了研究質量的提升以及報告的規范性。
2.2 DTA-NMA納入研究設計分類
在開展DTA-NMA研究前,準確區分與識別各類原始診斷試驗研究設計對于提高證據整合可信度至關重要。現階段,原始診斷準確性研究主要分為兩大類,即單個診斷試驗準確性研究(SDTA)與診斷試驗準確性比較研究(CDTA),而CDTA又可劃分為完全配對設計、隨機子集部分配對設計、非隨機子集部分配對設計、非配對隨機設計以及非配對非隨機設計[4, 6, 38],不同研究設計的特點與實例見表2所示。在實施DTA-NMA時,建議選擇相同類型的研究,這不僅能確保數據整合的嚴謹性,還能提高診斷決策的準確率。未來研究應更深入探討多類型DTA之間的數據整合,并不斷規范診斷實驗的研究設計,以應對診斷技術的快速發展和多樣化的臨床需求。

2.3 診斷試驗偏倚風險評價
評估診斷試驗偏倚風險是確保DTA-NMA納入研究質量的關鍵步驟,其主要目標是識別納入研究中潛在可能影響研究結論可信度的因素,這些因素主要涵蓋病例選擇、待評價試驗、金標準以及病例流程和進展情況等維度[44-47]。
在評估診斷試驗偏倚風險時,通常使用特定的評價工具,如診斷試驗質量評價工具(QUADAS-2)與其擴展版—QUADAS-C。QUADAS-2為初版QUADAS工具于2011年的修訂版本,主要用于評估SDTA的偏倚風險[44],而2021年推出的QUADAS-C則專門用于評估CDTA研究中的偏倚風險[45]。QUADAS-C在保留QUADAS-2四個領域核心框架的基礎上,新增了針對診斷準確性試驗間比較的多項內容,例如:信號問題中增加了對試驗設計、診斷試驗間順序效應及數據缺失比例差異等維度的考量,并在偏倚風險判定時特別關注比較研究中跨試驗的一致性(如是否采用完全配對或隨機設計)。此外,QUADAS-C強調了對于完全配對、受試者內設計及隨機化設計研究的適配性,而對于未隨機化或部分配對的研究,則需根據具體情況調整條目內容或評價標準。
在使用這些工具時,研究者應嚴格遵循其指導原則,并根據系統評價問題適當調整評價工具和評價原則。每項納入的原始研究都應由兩位評估者背靠背式進行偏倚風險的評價,評估結果通常分為“高”“低”“不確定”及“不適用”。在實際操作中,研究人員需根據不同系統評價的特殊要求靈活運用對應工具,尤其關注于CDTA研究的多重研究設計及數據一致性問題。然而,DTA-NMA不同于常規的DTA系統評價/Meta分析,其診斷方案間的比較條件與要求往往更為苛刻;隨著DTA-NMA方法學的不斷完善,其偏倚風險評價方案或需更加聚焦,并在臨床診斷決策中發揮愈發重要的作用。
2.4 發表偏倚檢測
在診斷試驗系統評價領域,準確檢測與糾正發表偏倚對保障研究結果的可靠性極為關鍵。在DTA-NMA研究中,亦需對證據結果實施發表偏倚檢測。目前,當納入的研究數量達到10項或以上時,研究者通常采用漏斗圖繪制、Deeks檢驗及剪補法等方法來探索結果中的發表偏倚。其中,Deeks檢驗是專為DTA系統評價設計的,其優點在于同時考慮了DTA研究中各效應量的相關性,Deeks檢驗的顯著性(P<0.05)表明存在發表偏倚的可能性。而剪補法旨在通過估計并補充可能遺漏的研究來調整發表偏倚的影響,并試圖通過重建對稱的漏斗圖來提供更為精確的效應量估計。然而,現有的許多DTA-NMA研究未能充分重視研究的發表偏倚問題[30,48,49],這可能會導致研究結論的潛在偏離,最終影響臨床決策和政策制定。未來的DTA-NMA研究需進一步優化發表偏倚檢驗策略,結合診斷試驗的特殊數據特征與網絡結構復雜性,開發或采用更為適配的偏倚檢測與校正方法,并通過敏感性分析加強對校正結果的驗證。
2.5 DTA系統評價報告規范
為確保DTA系統評價的高質量和透明度,遵循明確的報告規范則至關重要。科學的報告規范旨在提高研究的可重復性、可比較性和可信度,同時便于同行評審和讀者理解研究的設計、實施和結論。現階段,國際上推薦的PRISMA指南已推出擴展版PRISMA-DTA,用于規范診斷試驗系統評價與Meta分析的報告[50]。此外,PRISMA-NMA作為PRISMA的另一擴展版,專門針對NMA的報告需求,包含了網絡結構的表達、直接與間接證據的整合、網絡一致性評估及復雜模型透明化報告等內容[51]。PRISMA-DTA與PRISMA-NMA均為DTA-NMA的報告提供了重要的參考價值。
然而,鑒于DTA-NMA的復雜多元特性,現有規范在解決其獨特需求方面尚顯不足,建立專門的PRISMA-DTA-NMA報告規范或具有重要意義。一方面,DTA-NMA研究需詳細描述網絡中各診斷試驗的效應量估計方法(如SEN、SPE、DOR等),并清晰說明如何處理多閾值和多指標分析的復雜性。另一方面,DTA-NMA的網絡結構可能涉及多種試驗設計(如完全配對、部分配對或非隨機化設計),需明確報告這些設計對網絡一致性和效應量估計的潛在影響。此外,DTA-NMA中常使用復雜的統計模型(如貝葉斯模型或頻率學模型),報告中需詳細描述模型選擇的依據、參數設置、模型診斷結果及敏感性分析的細節。更為重要的是,DTA-NMA的研究結果直接服務于臨床診斷決策,因此,報告規范應特別強調如何將綜合效應量轉化為臨床可用信息(如預測值或閾值效用),以提高研究成果的實用性和臨床影響力。
3 DTA-NMA實踐中的其他挑戰
DTA-NMA雖已成為評估多種診斷試驗準確性的關鍵方法,其方法論研究亦取得顯著進步,但實踐中仍面臨多重挑戰。除前述的諸多現存局限外,挑戰還涉及統計模型的選取與應用、原始研究設計的多樣性、結果展示與推薦的復雜性、診斷措施優劣排序、證據質量分級的不確定性,以及如何全面提升研究質量等多個方面。
DTA-NMA中的一致性檢驗是評估不同研究之間直接與間接證據一致性的重要工具。鑒于DTA-NMA本身的復雜性,尤其是在處理涉及多個診斷閾值和指標的研究時,現行的一致性檢驗方法可能難以充分反映診斷性研究間比較的不確定性。目前,針對診斷試驗比較不一致性的應對策略在研究中仍不常見。另外,由于DTA-NMA的方法論模型差異,研究結果的展現形式各異,而有效地展示包括SEN和SPE在內的多個效應量及其相互作用,對研究者而言同樣是一項挑戰。
在臨床實踐中,診斷試驗的選擇不僅依賴于綜合準確性的排序,還需要結合SEN和SPE這兩個核心指標,以滿足不同臨床情境的特定需求。例如,SEN高的試驗更適合用于排除某些診斷(如篩查重大疾病),從而降低漏診風險;而SPE高的試驗則更適合于確診某些疾病(如明確某種特定病因),避免誤診帶來的不必要干預。因此,在DTA-NMA的基礎上,進一步結合SEN和SPE對試驗性能進行分情境綜合考量,可更精準地反映試驗在不同診斷需求中的適用性。與此同時,如何清晰、準確、規范地將復雜的DTA-NMA結果呈現給臨床醫生和決策者,以及如何有效解釋診斷閾值的選擇和效應量之間的相關性,均是亟需解決的問題。
此外,DTA-NMA研究還需一個合適的證據分級體系。目前廣泛應用的GRADE方法為干預和診斷試驗系統評價提供了詳盡的評估框架,也開發了如CINeMA平臺等在線的NMA證據質量評估工具[52]。然而,將GRADE方法應用于DTA-NMA時,如何精確定義升降級因素與推薦強度,如何基于GRADE方法評估NMA-DTA證據質量,仍充滿不確定性,且尚缺乏詳細論述的相關研究。
綜上所述,本文全面回顧了DTA-NMA的理論基礎、發展歷史、應用實踐及其面臨的挑戰。隨著方法論模型的持續發展和應用實踐的不斷推進,DTA-NMA在診斷試驗準確性評估領域已取得顯著進步。然而,在具體研究實施過程中,一系列挑戰仍然存在,包括提高研究實施的透明度、多元證據的有效整合、偏倚風險的精確評估、結果解釋的清晰呈現以及證據質量評價的準確性等方面。未來,在實踐中進一步完善和細化DTA-NMA研究的報告規范和證據分級體系,將促進基于證據的醫學決策過程,從而提升患者的診療效果和質量。