基于德爾菲法構建真實世界證據評價體系_《中國循證醫學雜志》

作者：

姚振閣 ¹ , 周佳薇 ¹ , 陸夢依 ^1,2 , 尤東方 ¹ ,  趙楊 ^1,2,3

1. 南京醫科大學公共衛生學院生物統計學系（南京 211166）;
2. 南京醫科大學國家疫苗研發創新平臺（南京 211166）;
3. 江蘇省惡性腫瘤生物標志物與防治重點實驗室, 腫瘤個體化醫學省部共建協同創新中心（南京 211166）;

關鍵詞：

真實世界證據德爾菲法質量評價偏倚識別

DOI：

10.7507/1672-2531.202402025

視頻：

導出 下載 收藏 掃碼 引用

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

目的構建真實世界證據評價體系，為獲得高質量的循證醫學證據提供參考。方法通過調研、分析影響真實世界研究證據的關鍵因素，結合國內外文獻和評估工具，初步確定真實世界證據評價體系的指標，采用德爾菲法對相關領域專家進行征詢，修改并確定最終評價指標。結果最終構建的真實世界證據評價體系的指標包括40個條目。兩輪專家征詢的有效回收率為88.2%和100%；專家協調系數為0.174（P<0.001）和0.189（P<0.001）。第2輪征詢后專家意見的均數集中在3.73～4.93，變異系數變化范圍為0.05～0.21。結論本研究構建的真實世界證據評價體系具有一定的可靠性和科學性，能夠為真實世界研究轉化為高質量的證據提供依據和幫助。

引用本文： 姚振閣, 周佳薇, 陸夢依, 尤東方, 趙楊. 基于德爾菲法構建真實世界證據評價體系. 中國循證醫學雜志, 2024, 24(10): 1156-1161. doi: 10.7507/1672-2531.202402025 復制

2023年2月，國家藥品監督管理局藥品審評中心發布《藥物真實世界研究設計與方案框架指導原則（試行）》^[1]用于通過真實世界研究獲得藥物評價的臨床證據。近年來，真實世界研究在臨床治療方案選擇方面表現出了巨大的潛力，并且隨著技術和政策的不斷改進和完善，真實世界數據（real-world data，RWD）的收集和分析變得更加容易。隨機對照試驗（randomised clinical trial，RCT）常常作為藥物療效和安全性評價的“金標準”，而真實世界證據（real-world evidence，RWE）能夠作為臨床試驗提供的臨床療效之外的補充證據^[2]。相對于傳統RCT，RWE具有獨特的優勢。例如，對于療效的異質性研究，RCT通常因亞組樣本量較小而提供的證據不足，RWD借助其大樣本的優勢，可增強治療效應的外推性^[3]。此外，RWE可用于填補RCT未能解決的臨床問題中的幾個空白，如藥物上市后更長的隨訪期發現的額外治療效果和風險，并揭示傳統RCT中未能滿足的醫療需求等^[4,5]。因此，RWE也越來越多地用于輔助臨床決策（clinical decision-making，CDM）^[6,7]，包括藥物或器械的使用和批準等。然而，使用RWD進行研究時，通常存在著一些問題，包括缺少隨機化、偏倚混雜等^[8]。

目前尚未形成符合真實世界研究特點的科學、可行、公認的證據評價體系，用于真實世界研究的證據等級評估。臨床證據等級劃分經歷了漫長的發展，不同的組織機構制定了多種證據評估體系^[9]，例如用于獨立評估RCT質量的Jadad量表^[10]以及公認的GRADE證據等級體系^[11]。相對于RCT，適用于真實世界研究的評價體系還在探索階段，缺少成熟的經驗和做法。現如今，用于評估真實世界證據質量的工具主要包括3種形式：量表式、清單式和條目式，但是大多數因適用性不強而不常使用^[12]。因此，我們對現有的方法學質量評價工具進行了回顧，綜合現有評估工具的條目，決定借鑒ROBINS-I（risk of bias in non-randomised studies of interventions）工具^[13]及RECORD（reporting of studies conducted using observational routinely-collected health data）清單和GRACE（good research for comparative effectiveness）清單^[14]，形成初步的真實世界證據評估條目，然后通過德爾菲法進行專家征詢，定義和選取評價指標，最終構建真實世界證據評價體系，用于評價真實世界證據研究的有效性。本研究旨在為RWE的數據質量、人群選擇、研究設計、統計分析、結果報告和證據評價提供參考，為獲得高質量的RWE提供依據和參考。

1 資料來源與方法

1.1 遴選征詢專家

德爾菲法是通過匿名的方式向相關領域的高水平專家進行多輪咨詢以征求意見和建議，一般認為專家數量控制在10～15人較合適^[15]，經過2輪或3輪專家咨詢，專家整體意見可趨于一致。基于德爾菲法的全面性與合理性基本原則，遴選臨床試驗、循證醫學、臨床流行病學及流行病與衛生統計學等相關方面的專家。專家納入標準：① 任職于高校、醫院或科研機構的科研人員或者企業的統計師；② 碩士及以上學歷；③ 副高及以上職稱；④ 自愿參與本研究，保證在研究期間能持續完成多輪咨詢。

1.2 問卷設置與發放

初步擬定真實世界證據評價體系的指標與專家咨詢問卷。檢索近年來有關證據等級評估的工具，最終決定以ROBINS-I工具^[13]及RECORD清單和GRACE清單^[14]為參考，提取工具中的問題條目，根據目前真實世界研究中廣泛存在的偏倚和問題，結合真實世界研究特征和評估內容的可行性，初步擬定了真實世界證據評價體系的指標，并基于此設計專家咨詢問卷。專家咨詢問卷主要分為個人信息和指標認可度評估兩部分，此外還設置了項目介紹，修改意見及專家自我評價等內容。專家認可度評分為Likert5級評分法^[16]，將指標的重要性劃分為：非常重要、重要、一般、不太重要、不重要等5個等級，對應分值分別從5分到1分。同時設置專家修改意見，修改意見為開放式，除對指標評分外，專家可對指標提出開放式的修改意見。對于初步擬定的評估體系咨詢問卷，邀請專家通過“問卷星”平臺進行咨詢和回復，并通過短信、微信、電話等途徑進行提醒；每輪調研時限為2周。專家返回問卷后匯總，綜合整理專家修改意見，經討論后形成下一輪調研。目前，匯總兩輪專家意見，最終形成一致的咨詢結果。

1.3 統計學方法及指標

使用R 4.3.2軟件進行專家積極系數、集中系數（m）、變異系數（coefficient of variation，CV）、權威系數（confidence rate，Cr）及意見協調系數等指標的統計分析。

1）專家積極系數一般指問卷的有效回收率，通常認為專家積極系數>70%是專家對研究內容積極參與和持續關注的表現。

2）專家意見集中程度和協調程度主要依賴m和CV。各指標重要性分值的均數反映各專家意見集中程度，m的分值越大，意味著該條目的重要性越高，專家意見集中程度越高^[17]。CV反映專家對指標重要性的集中協調程度，CV的數值越小，說明專家對該指標重要性評價的協調程度越高。一般認為，CV≤0.3則該指標協調程度可接受。

3）專家權威程度用Cr>表示，Cr=（Ca+Cs）/2。Ca是指專家為條目重要性賦分時依據的量化參數，基于實踐經驗較多（0.5）、一般（0.4）、較少（0.3）；基于理論分析較多（0.3）、一般（0.2）、較少（0.1）；參考國內外文獻、直覺選擇均為0.1。Cs依次為不熟悉、不太熟悉、一般、熟悉、非常熟悉，分別賦值0.1、0.3、0.5、0.7、0.9分。當Cr≥0.70表明在本次調查中專家權威程度處于較高水平^[18]。

4）使用肯德爾協調系數（W）表示專家意見協調程度，0<W<1，系數越大說明專家的協調程度越好，需進行卡方檢驗，檢驗水準為0.05^[19]。

1.4 指標篩選標準

本研究采用重要性評分>3作為指標篩選標準，結合專家意見及課題組內討論后結果，研究組在綜合考慮評估問題科學性、合理性和全面性的基礎上，對條目進行增減或修改。

2 結果

2.1 專家基本情況及積極系數

兩輪德爾菲法問卷分別發放17份和15份，分別回收有效問卷15份，專家積極系數分別為88.2%和100%，說明專家對本次評價體系制訂的關注度及積極性較高。兩輪專家構成不變，具體情況見表1。

表1 專家基本信息

表選項

下載CSV

條目	人數（n=15）	構成比（%）
年齡
<40	1	6.67
40～49	8	53.33
50～59	6	40.00
工作年限
5～9	2	13.33
10～19	6	40.00
20～29	2	13.33
30～39	5	33.33
工作單位
高等院校	11	73.33
醫院	2	13.33
公司企業	2	13.33
職業
大學教師	10	66.67
統計師	4	26.67
企業高管	1	6.67
職稱
副高級	3	20.00
正高級	10	66.67
其它	2	13.33
學歷
碩士	1	6.67
博士	14	93.33

2.2 專家權威程度

兩輪德爾菲法的專家主要為高校教師，93.33%的專家有博士學歷，且工作年限至少為5年。Cr分別為0.873和0.883，說明參與調研專家在真實世界研究方面具有較高的基本理論和實踐操作水平，權威性和可信度較高，具有一定代表性。見表2。

表2 專家權威程度

表選項

下載CSV

輪次	判斷系數（Ca）	熟悉程度（Cs）	權威系數（Cr）
1	0.940	0.807	0.873
2	0.960	0.807	0.883

2.3 問卷信度

兩輪調研指標重要性的協調程度分別為0.174（P值<0.001）和0.189（P值<0.001），根據W的計算公式，條目較多時，該系數較小。第2輪指標的協調程度較第1輪有所上升，表明第2輪專家對各項指標的評價不存在較大差異，意見漸趨于一致。見表3。

表3 專家意見協調程度

表選項

下載CSV

輪次	Kendall’s W	χ² 值	P 值
1	0.174	104	<0.001
2	0.189	110	<0.001

2.4 指標的定義及修改

2.4.1 第一輪問卷結果

對第一輪專家咨詢結果進行統計分析，各指標重要性評分為3.33～4.73，CV為0.11～0.33。根據專家對指標內容的概念、含義、評分結果及修改意見，指標修改如下：

對于混雜偏倚評估，1.4條目和1.7條目存在信息重復，將1.7條目中的“重要的混雜和時依混雜”改為“基線混雜和時依混雜”。1.6條目表達不夠明確，添加了補充信息“（干預后因素可能為中介變量）”。選擇偏倚評估中，2.2～2.4條目表述不明，因此將條目中的“預后因素”改為“干預后變量”。4.3條目將“共同干預”改為“伴隨干預”。4.4條目補充了干預措施的情況“例如是否接受藥物或手術”。5.5條目為了使條目的評估更加明確將“證據”改為“證據（敏感性分析結果）”，“結果依然是可靠的”改為“結果依然是穩健的（具有魯棒性）”。對6.1條目的描述進行擴充，將其改為“結局的測量是否受到干預相關信息的影響（結局測量的研究者是否已知/了解受試者的干預措施）？”。對于已測混雜分析評估，傾向性評分只是一種常見方法，現階段沒有標準，因此將8.1條目的表述改為“研究中是否進行了已測混雜調整，例如匹配、加權、應用傾向性評分的策略？”。真實世界中的樣本量的計算不僅僅基于α這一個參數，因此將10.1條目改為“本研究是否進行了樣本量估算或根據研究的樣本量及一類錯誤（α）等參數計算研究把握度（power）？”

2.4.2 第二輪問卷結果

第二輪專家咨詢中各個條目重要性評分的平均分為3.73～4.93分，CV為0.05～0.21，專家意見趨于一致，不再對該評估體系中的條目進行修改。

2.5 評價指標體系形成

初步擬定真實世界證據評估體系指標池，包括40個條目指標。根據指標篩選標準和專家意見對指標進行2輪修改后，最終形成的真實世界證據評價體系，見表4。

表4 基于德爾菲法構建的真實世界證據評價體系指標

表選項

下載CSV

表4 基于德爾菲法構建的真實世界證據評價體系指標

條目	重要性評分	變異系數
1. 混雜偏倚評估
1.1. 在這項研究中是否可能存在混雜因素？	4.73±0.59	0.13
1.2. 該研究是否基于受試者接受的干預措施劃分隨訪時間？	4.27±0.70	0.17
1.3. 停止干預或轉組是否可能與某些影響預后的變量有關？	4.40±0.74	0.17
1.4. 作者是否使用了適當的分析方法來控制所有重要的混雜？	4.87±0.35	0.07
1.5. 本研究中可用的變量是否可以代表有效、可靠測量的混雜？	4.53±0.52	0.11
1.6. 研究者是否調整了可能受到干預影響的干預后因素（干預后因素可能為中介變量）？	4.27±0.59	0.14
1.7. 研究者是否使用了適當的分析方法來控制所有的基線混雜和時依混雜？	4.67±0.62	0.13
2. 選擇偏倚評估
2.1. 根據干預開始后觀察到的受試者特征來選擇參與研究（或分析）的受試者？	4.67±0.49	0.11
2.2. 與干預相關的干預后變量是否會影響人群的選擇（劃分）？	4.40±0.63	0.14
2.3. 受結局（結局的原因）影響的干預后變量是否會影響人群的選擇（劃分）？	4.40±0.63	0.14
2.4. 大多數受試者是否在干預開始時進行隨訪（或者在隨訪開始時接受干預）？	4.20±0.86	0.21
2.5. 是否使用了有效的方法調整了可能存在的選擇偏倚？	4.73±0.46	0.10
3. 干預措施分類偏倚評估
3.1. 各干預組是否有明確的定義？	4.93±0.26	0.05
3.2. 用于定義干預組的信息是否在干預開始時就被記錄下來？	4.73±0.46	0.10
3.3. 干預狀態的分類是否受到對結局或結局風險提前了解的影響？	4.13±0.64	0.16
4. 偏離預期干預偏倚評估
4.1. 是否有偏離干預的情況（超出預期或超出常規情形）出現（依從性較差，例如出現超出預期的轉組或失訪等）？	4.13±0.64	0.16
4.2. 這些偏離預期干預的偏差是否在組間不平衡，并可能影響結果？	4.67±0.62	0.13
4.3. 干預組間的重要的伴隨干預在干預組之間是否均衡？	4.20±0.56	0.13
4.4. 大多數受試者是否成功地接受了干預措施（例如是否接受藥物或手術）？	4.40±0.74	0.17
4.5. 受試者是否堅持指定的干預措施？	4.07±0.59	0.15
4.6. 研究是否采用了適當的分析來評估干預的依從效果？	4.47±0.74	0.17
5. 缺失數據偏倚評估
5.1. 是否所有或者幾乎所有受試者都有結局數據？	4.13±0.52	0.13
5.2. 是否由于干預狀態的數據缺失而排除受試者？	4.13±0.74	0.18
5.3. 是否因為受試者其他變量（包括協變量等）缺失而在分析中將其排除？	4.07±0.59	0.15
5.4. 在不同的干預措施中，數據缺失的比例和原因是否相似？	4.33±0.62	0.14
5.5. 是否有證據（敏感性分析結果）表明，雖然缺失數據存在，但是研究結果依然是穩健的（具有魯棒性）？	4.60±0.51	0.11
6. 結果測量偏倚評估
6.1. 結局的測量是否受到干預相關信息的影響（結局測量的研究者是否已知/了解受試者的干預措施）？	4.20±0.78	0.18
6.2. 結局評估者是否了解受試者接受的干預？	4.33±0.72	0.17
6.3. 不同干預組結局的評估方法是否具有可比性（一致）？	4.53±0.52	0.11
6.4. 結局測量過程中的系統誤差是否與受試者接受的干預相關？	4.27±0.59	0.14
7. 選擇報告偏倚評估
7.1. 研究的效應估計是否可能從多個不同結果測量中進行選擇報告？	4.33±0.72	0.17
7.2. 研究的效應估計是否可能從多種統計分析方法的結果中進行選擇報告？	4.40±0.63	0.14
7.3. 研究的效應估計是否可能從不同的亞組中進行選擇報告？	4.27±0.70	0.17
8. 已測混雜分析評估
8.1. 研究中是否進行了已測混雜調整，例如匹配、加權、應用傾向性評分的策略？	4.53±0.64	0.14
8.2. 是否對變量的均衡性進行了描述和檢驗？	4.47±0.64	0.14
9. 未測混雜分析評估
9.1. 研究中是否可以有合適的方法（工具變量法、斷點回歸法等）控制未測量混雜并且使用了這些方法？	4.20±0.78	0.18
9.2. 是否使用E-value的方法對未測量混雜對效應的潛在影響進行了分析？	3.73±0.80	0.21
9.3. 是否用了其他的方法（如敏感性分析、利用驗證數據集）對未測量混雜進行了評估和校正？	4.47±0.64	0.14
10. 樣本量評估
10.1. 本研究是否進行了樣本量估算或根據研究的樣本量及一類錯誤（α）等參數計算研究把握度（power）？	4.00±0.85	0.21
10.2. 樣本量估算的參數來源是否具有可靠的科學依據？	3.80±0.78	0.20

3 討論

3.1 科學性和可靠性

本研究構建真實世界證據評價體系是通過文獻調研，借鑒ROBINS-I工具^[13]、RECORD清單和GRACE清單^[14]，并且經過多位具有廣泛專業知識背景和經驗的專家咨詢而形成的。本研究針對真實世界研究的特點，初步構建真實世界證據評價體系指標池，進行問卷咨詢，歸納專家意見，經討論后形成了真實世界證據評估體系工具，應用德爾菲法對體系中各部分指標設置進行評價。本研究共計完成兩輪專家咨詢，結果顯示，兩輪咨詢的專家積極性和權威程度均很高，W均具有統計學意義，專家意見趨于一致。我們根據專家意見對該體系進行了修改，使指標更加科學和完善，最終獲得可靠的評估體系和研究結論。

3.2 本研究的優勢

隨著真實世界研究的不斷出現，真實世界證據將在制訂治療指南和醫療決策方面的作用不斷增強^[20]。因此，全面評估真實世界研究質量并進行真實世界證據等級劃分將是實現真實世界研究潛力的關鍵點之一。目前，大多數證據等級和研究設計等級體系均基于各種經典的臨床流行病學研究設計，未將RWS設計類型及其證據納入考量。針對真實世界研究較少，往往是針對不同類型使用不同的質量評估工具，常用的觀察性研究的質量評價工具，包括適用于病例-對照研究和隊列研究的NOS量表^[21]，適用于隊列研究和病例-對照研究的CASP清單和用于橫斷面研究評價的美國衛生保健質量和研究機構推薦評價標準（Agency of Healthcare Research and Quality，AHRQ）。RECORD清單和GRACE清單用于真實世界研究規范報告，但不能用于評價研究質量^[14]。此外，如何基于真實世界研究進行因果推斷，是真實世界證據的一大難題。長久以來，真實世界研究質量因其受到偏倚的影響而被廣泛詬病，在《藥物真實世界研究設計與方案框架指導原則（試行）》^[1]中明確說明偏倚是真實世界研究中特別需要考慮的問題，在方案中應充分考慮各種潛在偏倚及其影響，并制定控制偏倚的有效措施。一般情況下，真實世界研究包括兩大類，觀察性研究和實用臨床研究^[1]。在觀察性研究中，通常存在混雜偏倚、選擇偏倚和信息偏倚三個方面。對于混雜偏倚，本體系考慮研究中需清晰明確現有的已知混雜，預先收集混雜變量的數據，并使用適當的方法進行控制。此外，本體系也沒有忽視未測量混雜。而關于選擇偏倚和信息偏倚：首先，準確的分組和結局變量是真實世界研究中的一個關鍵因素，必須明確定義干預和結局，避免回顧性研究中因提前了解重要的特征變量而選擇受試者入組；其次，分組和結局數據應真實可靠，不同組間的結局測量、評估需要統一。

因此，本體系從混雜偏倚、干預措施分類偏倚、發表偏倚等多個維度對真實世界研究整體進行評估，在評估偏倚問題上考慮全面。同時，本評估體系考慮在設計和分析階段評估樣本指標均衡性和對未測量混雜偏倚量化分析及敏感性分析提出了要求，有利于研究結果的穩健。本體系主要針對真實世界研究特點，具有以下優勢：① 在真實世界研究的干預前階段、干預階段、干預后階段分別設置評估指標，能夠為真實世界研究從研究開始到結束的全過程提供質量管理指引。② 在研究的不同階段的每個關鍵環節提出具體的評估條目，評估內容科學全面，例如對于混雜偏倚評估部分，該體系包含了7個條目，評估的混雜類型包括了基線混雜和時依混雜。③ 除了對研究中各種偏倚評估外，還增設了對敏感性分析、樣本量評估條目，提高研究課題成果的科學性和結果穩定性。④ 本體系不僅適用于真實世界中的觀察性研究，還適用于實驗性的非隨機干預研究、自身前后對照研究、歷史對照研究等，當一個系統評價中納入多種研究類型時，本體系可用于多種研究類型的評估，減少不同工具帶來的偏差。

3.3 應用價值

目前，考慮真實世界研究證據已是循證醫學發展的必經之路^[22]，若無可參照的證據等級評估體系，就可能為真實世界研究帶來低質量的證據，產生虛假關聯的研究結果，得出錯誤的研究結論^[23]。隨著循證醫學的不斷發展，用于檢索和篩選的研究結果資源不斷增多，醫學科研人員在找尋真實世界證據的同時，如何從中提取相應信息對研究的證據強度進行評估也是一種挑戰。本體系的構建有利于對現有的真實世界研究進行篩選評價，提高循證醫學研究的效率和強度，輔助臨床決策。真實世界證據等級與臨床治療密切相關，通過對證據評估權衡利弊，可便于治療者合理、有效選擇更有利、安全的治療方案^[24]。運用真實世界研究需要科學的研究計劃、合理的統計方法和完整的實施過程，這對獲得高質量真實世界證據至關重要^[25]。為了避免研究結果產生各種偏倚和保證研究過程的透明性，在真實世界研究設計中，研究者應該特別強調分析前的研究方案的制定。本體系的評估涉及人群、干預、對照、結局、樣本量等關鍵要素，研究者可以以該工具體系為驅動，在研究設計、數據收集、人群選擇、分析總結等方面進行借鑒，從而全面、客觀評價真實世界研究的偏倚風險和證據質量，對研究設計階段具有一定的指導作用和參考價值。評估者可通過回答條目問題，制定合理的評估規則，從而判斷存在的風險大小，對各個領域進行質量評分和總體評級。最后，為了使用便捷，我們通過R shiny搭建了真實世界證據評價體系的可視化操作平臺。

本體系存在一定的局限性，首先，本研究的真實世界證據評價體系的使用，要求評估人員具備相關的專業知識，需要進一步的指導和培訓。本研究尚未開展實證研究，如何基于真實世界證據評價體系實施評估，還需進一步對評估維度進行調整、拓展，例如如何對真實世界中數據的適用性進行評估，且條目的可操作性和合理性還待進一步驗證。未來對如何進行質量評級報告，以及評估標準及規則的完善仍需進一步地深入研究。

綜上所述，本研究的真實世界證據評價體系從偏倚評估、已測混雜評估、未測量混雜評估、樣本量評估等多個領域入手，運用德爾菲法經過兩輪專家咨詢，構建了真實世界證據評價體系，注重評估內容的簡易性、全面性，強調各個領域評估內容的可靠性、實用性，整體具有較好的科學性，對如何進行真實世界研究證據評價具有較好的向導作用。

聲明　所有作者均聲明無利益沖突

1 資料來源與方法

1.1 遴選征詢專家

1.2 問卷設置與發放

1.3 統計學方法及指標

1）專家積極系數一般指問卷的有效回收率，通常認為專家積極系數>70%是專家對研究內容積極參與和持續關注的表現。

4）使用肯德爾協調系數（W）表示專家意見協調程度，0<W<1，系數越大說明專家的協調程度越好，需進行卡方檢驗，檢驗水準為0.05^[19]。

1.4 指標篩選標準

2 結果

2.1 專家基本情況及積極系數

表1 專家基本信息

表選項

下載CSV

條目	人數（n=15）	構成比（%）
年齡
<40	1	6.67
40～49	8	53.33
50～59	6	40.00
工作年限
5～9	2	13.33
10～19	6	40.00
20～29	2	13.33
30～39	5	33.33
工作單位
高等院校	11	73.33
醫院	2	13.33
公司企業	2	13.33
職業
大學教師	10	66.67
統計師	4	26.67
企業高管	1	6.67
職稱
副高級	3	20.00
正高級	10	66.67
其它	2	13.33
學歷
碩士	1	6.67
博士	14	93.33

2.2 專家權威程度

表2 專家權威程度

表選項

下載CSV

輪次	判斷系數（Ca）	熟悉程度（Cs）	權威系數（Cr）
1	0.940	0.807	0.873
2	0.960	0.807	0.883

2.3 問卷信度

表3 專家意見協調程度

表選項

下載CSV

輪次	Kendall’s W	χ² 值	P 值
1	0.174	104	<0.001
2	0.189	110	<0.001

2.4 指標的定義及修改

2.4.1 第一輪問卷結果

2.4.2 第二輪問卷結果

第二輪專家咨詢中各個條目重要性評分的平均分為3.73～4.93分，CV為0.05～0.21，專家意見趨于一致，不再對該評估體系中的條目進行修改。

2.5 評價指標體系形成

表4 基于德爾菲法構建的真實世界證據評價體系指標

表選項

下載CSV

表4 基于德爾菲法構建的真實世界證據評價體系指標

條目	重要性評分	變異系數
1. 混雜偏倚評估
1.1. 在這項研究中是否可能存在混雜因素？	4.73±0.59	0.13
1.2. 該研究是否基于受試者接受的干預措施劃分隨訪時間？	4.27±0.70	0.17
1.3. 停止干預或轉組是否可能與某些影響預后的變量有關？	4.40±0.74	0.17
1.4. 作者是否使用了適當的分析方法來控制所有重要的混雜？	4.87±0.35	0.07
1.5. 本研究中可用的變量是否可以代表有效、可靠測量的混雜？	4.53±0.52	0.11
1.6. 研究者是否調整了可能受到干預影響的干預后因素（干預后因素可能為中介變量）？	4.27±0.59	0.14
1.7. 研究者是否使用了適當的分析方法來控制所有的基線混雜和時依混雜？	4.67±0.62	0.13
2. 選擇偏倚評估
2.1. 根據干預開始后觀察到的受試者特征來選擇參與研究（或分析）的受試者？	4.67±0.49	0.11
2.2. 與干預相關的干預后變量是否會影響人群的選擇（劃分）？	4.40±0.63	0.14
2.3. 受結局（結局的原因）影響的干預后變量是否會影響人群的選擇（劃分）？	4.40±0.63	0.14
2.4. 大多數受試者是否在干預開始時進行隨訪（或者在隨訪開始時接受干預）？	4.20±0.86	0.21
2.5. 是否使用了有效的方法調整了可能存在的選擇偏倚？	4.73±0.46	0.10
3. 干預措施分類偏倚評估
3.1. 各干預組是否有明確的定義？	4.93±0.26	0.05
3.2. 用于定義干預組的信息是否在干預開始時就被記錄下來？	4.73±0.46	0.10
3.3. 干預狀態的分類是否受到對結局或結局風險提前了解的影響？	4.13±0.64	0.16
4. 偏離預期干預偏倚評估
4.1. 是否有偏離干預的情況（超出預期或超出常規情形）出現（依從性較差，例如出現超出預期的轉組或失訪等）？	4.13±0.64	0.16
4.2. 這些偏離預期干預的偏差是否在組間不平衡，并可能影響結果？	4.67±0.62	0.13
4.3. 干預組間的重要的伴隨干預在干預組之間是否均衡？	4.20±0.56	0.13
4.4. 大多數受試者是否成功地接受了干預措施（例如是否接受藥物或手術）？	4.40±0.74	0.17
4.5. 受試者是否堅持指定的干預措施？	4.07±0.59	0.15
4.6. 研究是否采用了適當的分析來評估干預的依從效果？	4.47±0.74	0.17
5. 缺失數據偏倚評估
5.1. 是否所有或者幾乎所有受試者都有結局數據？	4.13±0.52	0.13
5.2. 是否由于干預狀態的數據缺失而排除受試者？	4.13±0.74	0.18
5.3. 是否因為受試者其他變量（包括協變量等）缺失而在分析中將其排除？	4.07±0.59	0.15
5.4. 在不同的干預措施中，數據缺失的比例和原因是否相似？	4.33±0.62	0.14
5.5. 是否有證據（敏感性分析結果）表明，雖然缺失數據存在，但是研究結果依然是穩健的（具有魯棒性）？	4.60±0.51	0.11
6. 結果測量偏倚評估
6.1. 結局的測量是否受到干預相關信息的影響（結局測量的研究者是否已知/了解受試者的干預措施）？	4.20±0.78	0.18
6.2. 結局評估者是否了解受試者接受的干預？	4.33±0.72	0.17
6.3. 不同干預組結局的評估方法是否具有可比性（一致）？	4.53±0.52	0.11
6.4. 結局測量過程中的系統誤差是否與受試者接受的干預相關？	4.27±0.59	0.14
7. 選擇報告偏倚評估
7.1. 研究的效應估計是否可能從多個不同結果測量中進行選擇報告？	4.33±0.72	0.17
7.2. 研究的效應估計是否可能從多種統計分析方法的結果中進行選擇報告？	4.40±0.63	0.14
7.3. 研究的效應估計是否可能從不同的亞組中進行選擇報告？	4.27±0.70	0.17
8. 已測混雜分析評估
8.1. 研究中是否進行了已測混雜調整，例如匹配、加權、應用傾向性評分的策略？	4.53±0.64	0.14
8.2. 是否對變量的均衡性進行了描述和檢驗？	4.47±0.64	0.14
9. 未測混雜分析評估
9.1. 研究中是否可以有合適的方法（工具變量法、斷點回歸法等）控制未測量混雜并且使用了這些方法？	4.20±0.78	0.18
9.2. 是否使用E-value的方法對未測量混雜對效應的潛在影響進行了分析？	3.73±0.80	0.21
9.3. 是否用了其他的方法（如敏感性分析、利用驗證數據集）對未測量混雜進行了評估和校正？	4.47±0.64	0.14
10. 樣本量評估
10.1. 本研究是否進行了樣本量估算或根據研究的樣本量及一類錯誤（α）等參數計算研究把握度（power）？	4.00±0.85	0.21
10.2. 樣本量估算的參數來源是否具有可靠的科學依據？	3.80±0.78	0.20

3 討論

3.1 科學性和可靠性

3.2 本研究的優勢

3.3 應用價值

聲明　所有作者均聲明無利益沖突

表1 專家基本信息

條目	人數（n=15）	構成比（%）
年齡
<40	1	6.67
40～49	8	53.33
50～59	6	40.00
工作年限
5～9	2	13.33
10～19	6	40.00
20～29	2	13.33
30～39	5	33.33
工作單位
高等院校	11	73.33
醫院	2	13.33
公司企業	2	13.33
職業
大學教師	10	66.67
統計師	4	26.67
企業高管	1	6.67
職稱
副高級	3	20.00
正高級	10	66.67
其它	2	13.33
學歷
碩士	1	6.67
博士	14	93.33

表選項

下載CSV

表2 專家權威程度

輪次	判斷系數（Ca）	熟悉程度（Cs）	權威系數（Cr）
1	0.940	0.807	0.873
2	0.960	0.807	0.883

表選項

下載CSV

表3 專家意見協調程度

輪次	Kendall’s W	χ² 值	P 值
1	0.174	104	<0.001
2	0.189	110	<0.001

表選項

下載CSV

表4 基于德爾菲法構建的真實世界證據評價體系指標

條目	重要性評分	變異系數
1. 混雜偏倚評估
1.1. 在這項研究中是否可能存在混雜因素？	4.73±0.59	0.13
1.2. 該研究是否基于受試者接受的干預措施劃分隨訪時間？	4.27±0.70	0.17
1.3. 停止干預或轉組是否可能與某些影響預后的變量有關？	4.40±0.74	0.17
1.4. 作者是否使用了適當的分析方法來控制所有重要的混雜？	4.87±0.35	0.07
1.5. 本研究中可用的變量是否可以代表有效、可靠測量的混雜？	4.53±0.52	0.11
1.6. 研究者是否調整了可能受到干預影響的干預后因素（干預后因素可能為中介變量）？	4.27±0.59	0.14
1.7. 研究者是否使用了適當的分析方法來控制所有的基線混雜和時依混雜？	4.67±0.62	0.13
2. 選擇偏倚評估
2.1. 根據干預開始后觀察到的受試者特征來選擇參與研究（或分析）的受試者？	4.67±0.49	0.11
2.2. 與干預相關的干預后變量是否會影響人群的選擇（劃分）？	4.40±0.63	0.14
2.3. 受結局（結局的原因）影響的干預后變量是否會影響人群的選擇（劃分）？	4.40±0.63	0.14
2.4. 大多數受試者是否在干預開始時進行隨訪（或者在隨訪開始時接受干預）？	4.20±0.86	0.21
2.5. 是否使用了有效的方法調整了可能存在的選擇偏倚？	4.73±0.46	0.10
3. 干預措施分類偏倚評估
3.1. 各干預組是否有明確的定義？	4.93±0.26	0.05
3.2. 用于定義干預組的信息是否在干預開始時就被記錄下來？	4.73±0.46	0.10
3.3. 干預狀態的分類是否受到對結局或結局風險提前了解的影響？	4.13±0.64	0.16
4. 偏離預期干預偏倚評估
4.1. 是否有偏離干預的情況（超出預期或超出常規情形）出現（依從性較差，例如出現超出預期的轉組或失訪等）？	4.13±0.64	0.16
4.2. 這些偏離預期干預的偏差是否在組間不平衡，并可能影響結果？	4.67±0.62	0.13
4.3. 干預組間的重要的伴隨干預在干預組之間是否均衡？	4.20±0.56	0.13
4.4. 大多數受試者是否成功地接受了干預措施（例如是否接受藥物或手術）？	4.40±0.74	0.17
4.5. 受試者是否堅持指定的干預措施？	4.07±0.59	0.15
4.6. 研究是否采用了適當的分析來評估干預的依從效果？	4.47±0.74	0.17
5. 缺失數據偏倚評估
5.1. 是否所有或者幾乎所有受試者都有結局數據？	4.13±0.52	0.13
5.2. 是否由于干預狀態的數據缺失而排除受試者？	4.13±0.74	0.18
5.3. 是否因為受試者其他變量（包括協變量等）缺失而在分析中將其排除？	4.07±0.59	0.15
5.4. 在不同的干預措施中，數據缺失的比例和原因是否相似？	4.33±0.62	0.14
5.5. 是否有證據（敏感性分析結果）表明，雖然缺失數據存在，但是研究結果依然是穩健的（具有魯棒性）？	4.60±0.51	0.11
6. 結果測量偏倚評估
6.1. 結局的測量是否受到干預相關信息的影響（結局測量的研究者是否已知/了解受試者的干預措施）？	4.20±0.78	0.18
6.2. 結局評估者是否了解受試者接受的干預？	4.33±0.72	0.17
6.3. 不同干預組結局的評估方法是否具有可比性（一致）？	4.53±0.52	0.11
6.4. 結局測量過程中的系統誤差是否與受試者接受的干預相關？	4.27±0.59	0.14
7. 選擇報告偏倚評估
7.1. 研究的效應估計是否可能從多個不同結果測量中進行選擇報告？	4.33±0.72	0.17
7.2. 研究的效應估計是否可能從多種統計分析方法的結果中進行選擇報告？	4.40±0.63	0.14
7.3. 研究的效應估計是否可能從不同的亞組中進行選擇報告？	4.27±0.70	0.17
8. 已測混雜分析評估
8.1. 研究中是否進行了已測混雜調整，例如匹配、加權、應用傾向性評分的策略？	4.53±0.64	0.14
8.2. 是否對變量的均衡性進行了描述和檢驗？	4.47±0.64	0.14
9. 未測混雜分析評估
9.1. 研究中是否可以有合適的方法（工具變量法、斷點回歸法等）控制未測量混雜并且使用了這些方法？	4.20±0.78	0.18
9.2. 是否使用E-value的方法對未測量混雜對效應的潛在影響進行了分析？	3.73±0.80	0.21
9.3. 是否用了其他的方法（如敏感性分析、利用驗證數據集）對未測量混雜進行了評估和校正？	4.47±0.64	0.14
10. 樣本量評估
10.1. 本研究是否進行了樣本量估算或根據研究的樣本量及一類錯誤（α）等參數計算研究把握度（power）？	4.00±0.85	0.21
10.2. 樣本量估算的參數來源是否具有可靠的科學依據？	3.80±0.78	0.20

表選項

下載CSV

1.	國家藥品監督管理局. 真實世界證據支持藥物研發與審評的指導原則(試行). 2023.
2.	Wang SV, Schneeweiss S. Emulation of randomized clinical trials with nonrandomized database analyses: results of 32 clinical trials. JAMA, 2023, 329(16): 1376-1385.
3.	Sheldrick RC. Randomized trials vs real-world evidence: how can both inform decision-making. JAMA, 2023, 329(16): 1352-1353.
4.	Roberts MH, Ferguson GT. Real-world evidence: bridging gaps in evidence to guide payer decisions. Pharmacoecon Open, 2021, 5(1): 3-11.
5.	Scavone C, di Mauro G, Mascolo A, et al. The new paradigms in clinical research: from early access programs to the novel therapeutic approaches for unmet medical needs. Front Pharmacol, 2019, 10: 111.
6.	Morales DR, Arlett P. RCTs and real world evidence are complementary, not alternatives. BMJ, 2023, 381: 736.
7.	Purpura CA, Garry EM, Honig N, et al. The role of real-world evidence in fda-approved new drug and biologics license applications. Clin Pharmacol Ther, 2022, 111(1): 135-144.
8.	廖茜雯, 姚晨, 張軍, 等. 真實世界數據和證據在我國臨床決策中的應用現狀. 中國食品藥品監管, 2023, (10): 24-35.
9.	陳薇, 方賽男, 劉建平, 等. 國際循證醫學證據分級體系的發展與現狀. 中國中西醫結合雜志, 2017, 37(12): 1413-1419.
10.	Jadad AR, Moore RA, Carroll D, et al. Assessing the quality of reports of randomized clinical trials: is blinding necessary. Control Clin Trials, 1996, 17(1): 1-12.
11.	Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ, 2008, 336(7650): 924-926.
12.	曹雪, 孟祥然, 王馨, 等. 真實世界觀察性研究的質量評價工具ArRoWS解讀. 中國循證醫學雜志, 2023, 23(2): 227-232.
13.	Sterne JA, Hernán MA, Reeves BC, et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions. BMJ, 2016, 355: i4919.
14.	廖星, 章軼立, 謝雁鳴. 真實世界研究標準: RECORD清單和GRACE清單的解讀. 中國中藥雜志, 2015, 40(24): 4734-4738.
15.	陳英耀, 倪明, 胡獻之, 等. 公立醫療機構公益性評價指標篩選—基于德爾菲專家咨詢法. 中國衛生政策研究, 2012, 5(1): 6-10.
16.	葉瑩, 姬艷芳, 張璐, 等. 運用Likert 5級評分法對免疫規劃互聯網+培訓的效果評價. 河南預防醫學雜志, 2019, 30(9): 701-703.
17.	宋辰斐, 薛征, 吳淑艷, 等. 《藥物香佩療法預防小兒反復呼吸道感染治未病實踐指南》香佩藥物的德爾菲法結果分析. 中華中醫藥雜志, 2017, 32(1): 139-141.
18.	馬雪顏, 于河, 吳力群, 等. 基于德爾菲法的兒童胃腸積熱評價量表條目篩選. 中華中醫藥雜志, 2020, 35(2): 851-854.
19.	肖爽, 朱雪琦, 王彥, 等. 基于德爾菲法的臨床科研課題全過程質量控制指標體系構建研究. 中醫藥管理雜志, 2023, 31(21): 1-6.
20.	Schad F, Thronicke A. Real-world evidence-current developments and perspectives. Int J Environ Res Public Health, 2022, 19(16): 10159.
21.	艾飛玲, 胡葵茹, 石鈺霖, 等. 基于紐卡斯爾-渥太華量表對中國吸煙隊列研究文獻的質量評價. 中華疾病控制雜志, 2021, 25(6): 722-729.
22.	Radenkovic D, Keogh SB, Maruthappu M. Data science in modern evidence-based medicine. J R Soc Med, 2019, 112(12): 493-494.
23.	范美玉. 高質量循證醫學證據獲取與應用研究. 協和醫學雜志, 2023, 14(1): 39-43.
24.	Sherman RE, Anderson SA, Dal Pan GJ, et al. Real-world evidence - what is it and what can it tell us. N Engl J Med, 2016, 375(23): 2293-2297.
25.	McNair D, Lumpkin M, Kern S, et al. Use of RWE to inform regulatory, public health policy, and intervention priorities for the developing world. Clin Pharmacol Ther, 2022, 111(1): 44-51.

1. 國家藥品監督管理局. 真實世界證據支持藥物研發與審評的指導原則(試行). 2023.
2. Wang SV, Schneeweiss S. Emulation of randomized clinical trials with nonrandomized database analyses: results of 32 clinical trials. JAMA, 2023, 329(16): 1376-1385.
3. Sheldrick RC. Randomized trials vs real-world evidence: how can both inform decision-making. JAMA, 2023, 329(16): 1352-1353.
4. Roberts MH, Ferguson GT. Real-world evidence: bridging gaps in evidence to guide payer decisions. Pharmacoecon Open, 2021, 5(1): 3-11.
5. Scavone C, di Mauro G, Mascolo A, et al. The new paradigms in clinical research: from early access programs to the novel therapeutic approaches for unmet medical needs. Front Pharmacol, 2019, 10: 111.
6. Morales DR, Arlett P. RCTs and real world evidence are complementary, not alternatives. BMJ, 2023, 381: 736.
7. Purpura CA, Garry EM, Honig N, et al. The role of real-world evidence in fda-approved new drug and biologics license applications. Clin Pharmacol Ther, 2022, 111(1): 135-144.
8. 廖茜雯, 姚晨, 張軍, 等. 真實世界數據和證據在我國臨床決策中的應用現狀. 中國食品藥品監管, 2023, (10): 24-35.
9. 陳薇, 方賽男, 劉建平, 等. 國際循證醫學證據分級體系的發展與現狀. 中國中西醫結合雜志, 2017, 37(12): 1413-1419.
10. Jadad AR, Moore RA, Carroll D, et al. Assessing the quality of reports of randomized clinical trials: is blinding necessary. Control Clin Trials, 1996, 17(1): 1-12.
11. Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ, 2008, 336(7650): 924-926.
12. 曹雪, 孟祥然, 王馨, 等. 真實世界觀察性研究的質量評價工具ArRoWS解讀. 中國循證醫學雜志, 2023, 23(2): 227-232.
13. Sterne JA, Hernán MA, Reeves BC, et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions. BMJ, 2016, 355: i4919.
14. 廖星, 章軼立, 謝雁鳴. 真實世界研究標準: RECORD清單和GRACE清單的解讀. 中國中藥雜志, 2015, 40(24): 4734-4738.
15. 陳英耀, 倪明, 胡獻之, 等. 公立醫療機構公益性評價指標篩選—基于德爾菲專家咨詢法. 中國衛生政策研究, 2012, 5(1): 6-10.
16. 葉瑩, 姬艷芳, 張璐, 等. 運用Likert 5級評分法對免疫規劃互聯網+培訓的效果評價. 河南預防醫學雜志, 2019, 30(9): 701-703.
17. 宋辰斐, 薛征, 吳淑艷, 等. 《藥物香佩療法預防小兒反復呼吸道感染治未病實踐指南》香佩藥物的德爾菲法結果分析. 中華中醫藥雜志, 2017, 32(1): 139-141.
18. 馬雪顏, 于河, 吳力群, 等. 基于德爾菲法的兒童胃腸積熱評價量表條目篩選. 中華中醫藥雜志, 2020, 35(2): 851-854.
19. 肖爽, 朱雪琦, 王彥, 等. 基于德爾菲法的臨床科研課題全過程質量控制指標體系構建研究. 中醫藥管理雜志, 2023, 31(21): 1-6.
20. Schad F, Thronicke A. Real-world evidence-current developments and perspectives. Int J Environ Res Public Health, 2022, 19(16): 10159.
21. 艾飛玲, 胡葵茹, 石鈺霖, 等. 基于紐卡斯爾-渥太華量表對中國吸煙隊列研究文獻的質量評價. 中華疾病控制雜志, 2021, 25(6): 722-729.
22. Radenkovic D, Keogh SB, Maruthappu M. Data science in modern evidence-based medicine. J R Soc Med, 2019, 112(12): 493-494.
23. 范美玉. 高質量循證醫學證據獲取與應用研究. 協和醫學雜志, 2023, 14(1): 39-43.
24. Sherman RE, Anderson SA, Dal Pan GJ, et al. Real-world evidence - what is it and what can it tell us. N Engl J Med, 2016, 375(23): 2293-2297.
25. McNair D, Lumpkin M, Kern S, et al. Use of RWE to inform regulatory, public health policy, and intervention priorities for the developing world. Clin Pharmacol Ther, 2022, 111(1): 44-51.

《中國循證醫學雜志》

基于德爾菲法構建真實世界證據評價體系

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

1 資料來源與方法

1.1 遴選征詢專家

1.2 問卷設置與發放

1.3 統計學方法及指標

1.4 指標篩選標準

2 結果

2.1 專家基本情況及積極系數

2.2 專家權威程度

2.3 問卷信度

2.4 指標的定義及修改

2.4.1 第一輪問卷結果

2.4.2 第二輪問卷結果

2.5 評價指標體系形成

3 討論

3.1 科學性和可靠性

3.2 本研究的優勢

3.3 應用價值

1 資料來源與方法

1.1 遴選征詢專家

1.2 問卷設置與發放

1.3 統計學方法及指標

1.4 指標篩選標準

2 結果

2.1 專家基本情況及積極系數

2.2 專家權威程度

2.3 問卷信度

2.4 指標的定義及修改

2.4.1 第一輪問卷結果

2.4.2 第二輪問卷結果

2.5 評價指標體系形成

3 討論

3.1 科學性和可靠性

3.2 本研究的優勢

3.3 應用價值

上一篇

下一篇

Format

Content

摘要全文圖表視頻參考文獻施引文獻補充材料