引用本文: 姚振閣, 周佳薇, 陸夢依, 尤東方, 趙楊. 基于德爾菲法構建真實世界證據評價體系. 中國循證醫學雜志, 2024, 24(10): 1156-1161. doi: 10.7507/1672-2531.202402025 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
2023年2月,國家藥品監督管理局藥品審評中心發布《藥物真實世界研究設計與方案框架指導原則(試行)》[1]用于通過真實世界研究獲得藥物評價的臨床證據。近年來,真實世界研究在臨床治療方案選擇方面表現出了巨大的潛力,并且隨著技術和政策的不斷改進和完善,真實世界數據(real-world data,RWD)的收集和分析變得更加容易。隨機對照試驗(randomised clinical trial,RCT)常常作為藥物療效和安全性評價的“金標準”,而真實世界證據(real-world evidence,RWE)能夠作為臨床試驗提供的臨床療效之外的補充證據[2]。相對于傳統RCT,RWE具有獨特的優勢。例如,對于療效的異質性研究,RCT通常因亞組樣本量較小而提供的證據不足,RWD借助其大樣本的優勢,可增強治療效應的外推性[3]。此外,RWE可用于填補RCT未能解決的臨床問題中的幾個空白,如藥物上市后更長的隨訪期發現的額外治療效果和風險,并揭示傳統RCT中未能滿足的醫療需求等[4,5]。因此,RWE也越來越多地用于輔助臨床決策(clinical decision-making,CDM)[6,7],包括藥物或器械的使用和批準等。然而,使用RWD進行研究時,通常存在著一些問題,包括缺少隨機化、偏倚混雜等[8]。
目前尚未形成符合真實世界研究特點的科學、可行、公認的證據評價體系,用于真實世界研究的證據等級評估。臨床證據等級劃分經歷了漫長的發展,不同的組織機構制定了多種證據評估體系[9],例如用于獨立評估RCT質量的Jadad量表[10]以及公認的GRADE證據等級體系[11]。相對于RCT,適用于真實世界研究的評價體系還在探索階段,缺少成熟的經驗和做法。現如今,用于評估真實世界證據質量的工具主要包括3種形式:量表式、清單式和條目式,但是大多數因適用性不強而不常使用[12]。因此,我們對現有的方法學質量評價工具進行了回顧,綜合現有評估工具的條目,決定借鑒ROBINS-I(risk of bias in non-randomised studies of interventions)工具[13]及RECORD(reporting of studies conducted using observational routinely-collected health data)清單和GRACE(good research for comparative effectiveness)清單[14],形成初步的真實世界證據評估條目,然后通過德爾菲法進行專家征詢,定義和選取評價指標,最終構建真實世界證據評價體系,用于評價真實世界證據研究的有效性。本研究旨在為RWE的數據質量、人群選擇、研究設計、統計分析、結果報告和證據評價提供參考,為獲得高質量的RWE提供依據和參考。
1 資料來源與方法
1.1 遴選征詢專家
德爾菲法是通過匿名的方式向相關領域的高水平專家進行多輪咨詢以征求意見和建議,一般認為專家數量控制在10~15人較合適[15],經過2輪或3輪專家咨詢,專家整體意見可趨于一致。基于德爾菲法的全面性與合理性基本原則,遴選臨床試驗、循證醫學、臨床流行病學及流行病與衛生統計學等相關方面的專家。專家納入標準:① 任職于高校、醫院或科研機構的科研人員或者企業的統計師;② 碩士及以上學歷;③ 副高及以上職稱;④ 自愿參與本研究,保證在研究期間能持續完成多輪咨詢。
1.2 問卷設置與發放
初步擬定真實世界證據評價體系的指標與專家咨詢問卷。檢索近年來有關證據等級評估的工具,最終決定以ROBINS-I工具[13]及RECORD清單和GRACE清單[14]為參考,提取工具中的問題條目,根據目前真實世界研究中廣泛存在的偏倚和問題,結合真實世界研究特征和評估內容的可行性,初步擬定了真實世界證據評價體系的指標,并基于此設計專家咨詢問卷。專家咨詢問卷主要分為個人信息和指標認可度評估兩部分,此外還設置了項目介紹,修改意見及專家自我評價等內容。專家認可度評分為Likert5級評分法[16],將指標的重要性劃分為:非常重要、重要、一般、不太重要、不重要等5個等級,對應分值分別從5分到1分。同時設置專家修改意見,修改意見為開放式,除對指標評分外,專家可對指標提出開放式的修改意見。對于初步擬定的評估體系咨詢問卷,邀請專家通過“問卷星”平臺進行咨詢和回復,并通過短信、微信、電話等途徑進行提醒;每輪調研時限為2周。專家返回問卷后匯總,綜合整理專家修改意見,經討論后形成下一輪調研。目前,匯總兩輪專家意見,最終形成一致的咨詢結果。
1.3 統計學方法及指標
使用R 4.3.2軟件進行專家積極系數、集中系數(m)、變異系數(coefficient of variation,CV)、權威系數(confidence rate,Cr)及意見協調系數等指標的統計分析。
1)專家積極系數一般指問卷的有效回收率,通常認為專家積極系數>70%是專家對研究內容積極參與和持續關注的表現。
2)專家意見集中程度和協調程度主要依賴m和CV。各指標重要性分值的均數反映各專家意見集中程度,m的分值越大,意味著該條目的重要性越高,專家意見集中程度越高[17]。CV反映專家對指標重要性的集中協調程度,CV的數值越小,說明專家對該指標重要性評價的協調程度越高。一般認為,CV≤0.3則該指標協調程度可接受。
3)專家權威程度用Cr>表示,Cr=(Ca+Cs)/2。Ca是指專家為條目重要性賦分時依據的量化參數,基于實踐經驗較多(0.5)、一般(0.4)、較少(0.3);基于理論分析較多(0.3)、一般(0.2)、較少(0.1);參考國內外文獻、直覺選擇均為0.1。Cs依次為不熟悉、不太熟悉、一般、熟悉、非常熟悉,分別賦值0.1、0.3、0.5、0.7、0.9分。當Cr≥0.70表明在本次調查中專家權威程度處于較高水平[18]。
4)使用肯德爾協調系數(W)表示專家意見協調程度,0<W<1,系數越大說明專家的協調程度越好,需進行卡方檢驗,檢驗水準為0.05[19]。
1.4 指標篩選標準
本研究采用重要性評分>3作為指標篩選標準,結合專家意見及課題組內討論后結果,研究組在綜合考慮評估問題科學性、合理性和全面性的基礎上,對條目進行增減或修改。
2 結果
2.1 專家基本情況及積極系數
兩輪德爾菲法問卷分別發放17份和15份,分別回收有效問卷15份,專家積極系數分別為88.2%和100%,說明專家對本次評價體系制訂的關注度及積極性較高。兩輪專家構成不變,具體情況見表1。

2.2 專家權威程度
兩輪德爾菲法的專家主要為高校教師,93.33%的專家有博士學歷,且工作年限至少為5年。Cr分別為0.873和0.883,說明參與調研專家在真實世界研究方面具有較高的基本理論和實踐操作水平,權威性和可信度較高,具有一定代表性。見表2。

2.3 問卷信度
兩輪調研指標重要性的協調程度分別為0.174(P值<0.001)和0.189(P值<0.001),根據W的計算公式,條目較多時,該系數較小。第2輪指標的協調程度較第1輪有所上升,表明第2輪專家對各項指標的評價不存在較大差異,意見漸趨于一致。見表3。

2.4 指標的定義及修改
2.4.1 第一輪問卷結果
對第一輪專家咨詢結果進行統計分析,各指標重要性評分為3.33~4.73,CV為0.11~0.33。根據專家對指標內容的概念、含義、評分結果及修改意見,指標修改如下:
對于混雜偏倚評估,1.4條目和1.7條目存在信息重復,將1.7條目中的“重要的混雜和時依混雜”改為“基線混雜和時依混雜”。1.6條目表達不夠明確,添加了補充信息“(干預后因素可能為中介變量)”。選擇偏倚評估中,2.2~2.4條目表述不明,因此將條目中的“預后因素”改為“干預后變量”。4.3條目將“共同干預”改為“伴隨干預”。4.4條目補充了干預措施的情況“例如是否接受藥物或手術”。5.5條目為了使條目的評估更加明確將“證據”改為“證據(敏感性分析結果)”,“結果依然是可靠的”改為“結果依然是穩健的(具有魯棒性)”。對6.1條目的描述進行擴充,將其改為“結局的測量是否受到干預相關信息的影響(結局測量的研究者是否已知/了解受試者的干預措施)?”。對于已測混雜分析評估,傾向性評分只是一種常見方法,現階段沒有標準,因此將8.1條目的表述改為“研究中是否進行了已測混雜調整,例如匹配、加權、應用傾向性評分的策略?”。真實世界中的樣本量的計算不僅僅基于α這一個參數,因此將10.1條目改為“本研究是否進行了樣本量估算或根據研究的樣本量及一類錯誤(α)等參數計算研究把握度(power)?”
2.4.2 第二輪問卷結果
第二輪專家咨詢中各個條目重要性評分的平均分為3.73~4.93分,CV為0.05~0.21,專家意見趨于一致,不再對該評估體系中的條目進行修改。
2.5 評價指標體系形成
初步擬定真實世界證據評估體系指標池,包括40個條目指標。根據指標篩選標準和專家意見對指標進行2輪修改后,最終形成的真實世界證據評價體系,見表4。

3 討論
3.1 科學性和可靠性
本研究構建真實世界證據評價體系是通過文獻調研,借鑒ROBINS-I工具[13]、RECORD清單和GRACE清單[14],并且經過多位具有廣泛專業知識背景和經驗的專家咨詢而形成的。本研究針對真實世界研究的特點,初步構建真實世界證據評價體系指標池,進行問卷咨詢,歸納專家意見,經討論后形成了真實世界證據評估體系工具,應用德爾菲法對體系中各部分指標設置進行評價。本研究共計完成兩輪專家咨詢,結果顯示,兩輪咨詢的專家積極性和權威程度均很高,W均具有統計學意義,專家意見趨于一致。我們根據專家意見對該體系進行了修改,使指標更加科學和完善,最終獲得可靠的評估體系和研究結論。
3.2 本研究的優勢
隨著真實世界研究的不斷出現,真實世界證據將在制訂治療指南和醫療決策方面的作用不斷增強[20]。因此,全面評估真實世界研究質量并進行真實世界證據等級劃分將是實現真實世界研究潛力的關鍵點之一。目前,大多數證據等級和研究設計等級體系均基于各種經典的臨床流行病學研究設計,未將RWS設計類型及其證據納入考量。針對真實世界研究較少,往往是針對不同類型使用不同的質量評估工具,常用的觀察性研究的質量評價工具,包括適用于病例-對照研究和隊列研究的NOS量表[21],適用于隊列研究和病例-對照研究的CASP清單和用于橫斷面研究評價的美國衛生保健質量和研究機構推薦評價標準(Agency of Healthcare Research and Quality,AHRQ)。RECORD清單和GRACE清單用于真實世界研究規范報告,但不能用于評價研究質量[14]。此外,如何基于真實世界研究進行因果推斷,是真實世界證據的一大難題。長久以來,真實世界研究質量因其受到偏倚的影響而被廣泛詬病,在《藥物真實世界研究設計與方案框架指導原則(試行)》[1]中明確說明偏倚是真實世界研究中特別需要考慮的問題,在方案中應充分考慮各種潛在偏倚及其影響,并制定控制偏倚的有效措施。一般情況下,真實世界研究包括兩大類,觀察性研究和實用臨床研究[1]。在觀察性研究中,通常存在混雜偏倚、選擇偏倚和信息偏倚三個方面。對于混雜偏倚,本體系考慮研究中需清晰明確現有的已知混雜,預先收集混雜變量的數據,并使用適當的方法進行控制。此外,本體系也沒有忽視未測量混雜。而關于選擇偏倚和信息偏倚:首先,準確的分組和結局變量是真實世界研究中的一個關鍵因素,必須明確定義干預和結局,避免回顧性研究中因提前了解重要的特征變量而選擇受試者入組;其次,分組和結局數據應真實可靠,不同組間的結局測量、評估需要統一。
因此,本體系從混雜偏倚、干預措施分類偏倚、發表偏倚等多個維度對真實世界研究整體進行評估,在評估偏倚問題上考慮全面。同時,本評估體系考慮在設計和分析階段評估樣本指標均衡性和對未測量混雜偏倚量化分析及敏感性分析提出了要求,有利于研究結果的穩健。本體系主要針對真實世界研究特點,具有以下優勢:① 在真實世界研究的干預前階段、干預階段、干預后階段分別設置評估指標,能夠為真實世界研究從研究開始到結束的全過程提供質量管理指引。② 在研究的不同階段的每個關鍵環節提出具體的評估條目,評估內容科學全面,例如對于混雜偏倚評估部分,該體系包含了7個條目,評估的混雜類型包括了基線混雜和時依混雜。③ 除了對研究中各種偏倚評估外,還增設了對敏感性分析、樣本量評估條目,提高研究課題成果的科學性和結果穩定性。④ 本體系不僅適用于真實世界中的觀察性研究,還適用于實驗性的非隨機干預研究、自身前后對照研究、歷史對照研究等,當一個系統評價中納入多種研究類型時,本體系可用于多種研究類型的評估,減少不同工具帶來的偏差。
3.3 應用價值
目前,考慮真實世界研究證據已是循證醫學發展的必經之路[22],若無可參照的證據等級評估體系,就可能為真實世界研究帶來低質量的證據,產生虛假關聯的研究結果,得出錯誤的研究結論[23]。隨著循證醫學的不斷發展,用于檢索和篩選的研究結果資源不斷增多,醫學科研人員在找尋真實世界證據的同時,如何從中提取相應信息對研究的證據強度進行評估也是一種挑戰。本體系的構建有利于對現有的真實世界研究進行篩選評價,提高循證醫學研究的效率和強度,輔助臨床決策。真實世界證據等級與臨床治療密切相關,通過對證據評估權衡利弊,可便于治療者合理、有效選擇更有利、安全的治療方案[24]。運用真實世界研究需要科學的研究計劃、合理的統計方法和完整的實施過程,這對獲得高質量真實世界證據至關重要[25]。為了避免研究結果產生各種偏倚和保證研究過程的透明性,在真實世界研究設計中,研究者應該特別強調分析前的研究方案的制定。本體系的評估涉及人群、干預、對照、結局、樣本量等關鍵要素,研究者可以以該工具體系為驅動,在研究設計、數據收集、人群選擇、分析總結等方面進行借鑒,從而全面、客觀評價真實世界研究的偏倚風險和證據質量,對研究設計階段具有一定的指導作用和參考價值。評估者可通過回答條目問題,制定合理的評估規則,從而判斷存在的風險大小,對各個領域進行質量評分和總體評級。最后,為了使用便捷,我們通過R shiny搭建了真實世界證據評價體系的可視化操作平臺。
本體系存在一定的局限性,首先,本研究的真實世界證據評價體系的使用,要求評估人員具備相關的專業知識,需要進一步的指導和培訓。本研究尚未開展實證研究,如何基于真實世界證據評價體系實施評估,還需進一步對評估維度進行調整、拓展,例如如何對真實世界中數據的適用性進行評估,且條目的可操作性和合理性還待進一步驗證。未來對如何進行質量評級報告,以及評估標準及規則的完善仍需進一步地深入研究。
綜上所述,本研究的真實世界證據評價體系從偏倚評估、已測混雜評估、未測量混雜評估、樣本量評估等多個領域入手,運用德爾菲法經過兩輪專家咨詢,構建了真實世界證據評價體系,注重評估內容的簡易性、全面性,強調各個領域評估內容的可靠性、實用性,整體具有較好的科學性,對如何進行真實世界研究證據評價具有較好的向導作用。
聲明 所有作者均聲明無利益沖突
2023年2月,國家藥品監督管理局藥品審評中心發布《藥物真實世界研究設計與方案框架指導原則(試行)》[1]用于通過真實世界研究獲得藥物評價的臨床證據。近年來,真實世界研究在臨床治療方案選擇方面表現出了巨大的潛力,并且隨著技術和政策的不斷改進和完善,真實世界數據(real-world data,RWD)的收集和分析變得更加容易。隨機對照試驗(randomised clinical trial,RCT)常常作為藥物療效和安全性評價的“金標準”,而真實世界證據(real-world evidence,RWE)能夠作為臨床試驗提供的臨床療效之外的補充證據[2]。相對于傳統RCT,RWE具有獨特的優勢。例如,對于療效的異質性研究,RCT通常因亞組樣本量較小而提供的證據不足,RWD借助其大樣本的優勢,可增強治療效應的外推性[3]。此外,RWE可用于填補RCT未能解決的臨床問題中的幾個空白,如藥物上市后更長的隨訪期發現的額外治療效果和風險,并揭示傳統RCT中未能滿足的醫療需求等[4,5]。因此,RWE也越來越多地用于輔助臨床決策(clinical decision-making,CDM)[6,7],包括藥物或器械的使用和批準等。然而,使用RWD進行研究時,通常存在著一些問題,包括缺少隨機化、偏倚混雜等[8]。
目前尚未形成符合真實世界研究特點的科學、可行、公認的證據評價體系,用于真實世界研究的證據等級評估。臨床證據等級劃分經歷了漫長的發展,不同的組織機構制定了多種證據評估體系[9],例如用于獨立評估RCT質量的Jadad量表[10]以及公認的GRADE證據等級體系[11]。相對于RCT,適用于真實世界研究的評價體系還在探索階段,缺少成熟的經驗和做法。現如今,用于評估真實世界證據質量的工具主要包括3種形式:量表式、清單式和條目式,但是大多數因適用性不強而不常使用[12]。因此,我們對現有的方法學質量評價工具進行了回顧,綜合現有評估工具的條目,決定借鑒ROBINS-I(risk of bias in non-randomised studies of interventions)工具[13]及RECORD(reporting of studies conducted using observational routinely-collected health data)清單和GRACE(good research for comparative effectiveness)清單[14],形成初步的真實世界證據評估條目,然后通過德爾菲法進行專家征詢,定義和選取評價指標,最終構建真實世界證據評價體系,用于評價真實世界證據研究的有效性。本研究旨在為RWE的數據質量、人群選擇、研究設計、統計分析、結果報告和證據評價提供參考,為獲得高質量的RWE提供依據和參考。
1 資料來源與方法
1.1 遴選征詢專家
德爾菲法是通過匿名的方式向相關領域的高水平專家進行多輪咨詢以征求意見和建議,一般認為專家數量控制在10~15人較合適[15],經過2輪或3輪專家咨詢,專家整體意見可趨于一致。基于德爾菲法的全面性與合理性基本原則,遴選臨床試驗、循證醫學、臨床流行病學及流行病與衛生統計學等相關方面的專家。專家納入標準:① 任職于高校、醫院或科研機構的科研人員或者企業的統計師;② 碩士及以上學歷;③ 副高及以上職稱;④ 自愿參與本研究,保證在研究期間能持續完成多輪咨詢。
1.2 問卷設置與發放
初步擬定真實世界證據評價體系的指標與專家咨詢問卷。檢索近年來有關證據等級評估的工具,最終決定以ROBINS-I工具[13]及RECORD清單和GRACE清單[14]為參考,提取工具中的問題條目,根據目前真實世界研究中廣泛存在的偏倚和問題,結合真實世界研究特征和評估內容的可行性,初步擬定了真實世界證據評價體系的指標,并基于此設計專家咨詢問卷。專家咨詢問卷主要分為個人信息和指標認可度評估兩部分,此外還設置了項目介紹,修改意見及專家自我評價等內容。專家認可度評分為Likert5級評分法[16],將指標的重要性劃分為:非常重要、重要、一般、不太重要、不重要等5個等級,對應分值分別從5分到1分。同時設置專家修改意見,修改意見為開放式,除對指標評分外,專家可對指標提出開放式的修改意見。對于初步擬定的評估體系咨詢問卷,邀請專家通過“問卷星”平臺進行咨詢和回復,并通過短信、微信、電話等途徑進行提醒;每輪調研時限為2周。專家返回問卷后匯總,綜合整理專家修改意見,經討論后形成下一輪調研。目前,匯總兩輪專家意見,最終形成一致的咨詢結果。
1.3 統計學方法及指標
使用R 4.3.2軟件進行專家積極系數、集中系數(m)、變異系數(coefficient of variation,CV)、權威系數(confidence rate,Cr)及意見協調系數等指標的統計分析。
1)專家積極系數一般指問卷的有效回收率,通常認為專家積極系數>70%是專家對研究內容積極參與和持續關注的表現。
2)專家意見集中程度和協調程度主要依賴m和CV。各指標重要性分值的均數反映各專家意見集中程度,m的分值越大,意味著該條目的重要性越高,專家意見集中程度越高[17]。CV反映專家對指標重要性的集中協調程度,CV的數值越小,說明專家對該指標重要性評價的協調程度越高。一般認為,CV≤0.3則該指標協調程度可接受。
3)專家權威程度用Cr>表示,Cr=(Ca+Cs)/2。Ca是指專家為條目重要性賦分時依據的量化參數,基于實踐經驗較多(0.5)、一般(0.4)、較少(0.3);基于理論分析較多(0.3)、一般(0.2)、較少(0.1);參考國內外文獻、直覺選擇均為0.1。Cs依次為不熟悉、不太熟悉、一般、熟悉、非常熟悉,分別賦值0.1、0.3、0.5、0.7、0.9分。當Cr≥0.70表明在本次調查中專家權威程度處于較高水平[18]。
4)使用肯德爾協調系數(W)表示專家意見協調程度,0<W<1,系數越大說明專家的協調程度越好,需進行卡方檢驗,檢驗水準為0.05[19]。
1.4 指標篩選標準
本研究采用重要性評分>3作為指標篩選標準,結合專家意見及課題組內討論后結果,研究組在綜合考慮評估問題科學性、合理性和全面性的基礎上,對條目進行增減或修改。
2 結果
2.1 專家基本情況及積極系數
兩輪德爾菲法問卷分別發放17份和15份,分別回收有效問卷15份,專家積極系數分別為88.2%和100%,說明專家對本次評價體系制訂的關注度及積極性較高。兩輪專家構成不變,具體情況見表1。

2.2 專家權威程度
兩輪德爾菲法的專家主要為高校教師,93.33%的專家有博士學歷,且工作年限至少為5年。Cr分別為0.873和0.883,說明參與調研專家在真實世界研究方面具有較高的基本理論和實踐操作水平,權威性和可信度較高,具有一定代表性。見表2。

2.3 問卷信度
兩輪調研指標重要性的協調程度分別為0.174(P值<0.001)和0.189(P值<0.001),根據W的計算公式,條目較多時,該系數較小。第2輪指標的協調程度較第1輪有所上升,表明第2輪專家對各項指標的評價不存在較大差異,意見漸趨于一致。見表3。

2.4 指標的定義及修改
2.4.1 第一輪問卷結果
對第一輪專家咨詢結果進行統計分析,各指標重要性評分為3.33~4.73,CV為0.11~0.33。根據專家對指標內容的概念、含義、評分結果及修改意見,指標修改如下:
對于混雜偏倚評估,1.4條目和1.7條目存在信息重復,將1.7條目中的“重要的混雜和時依混雜”改為“基線混雜和時依混雜”。1.6條目表達不夠明確,添加了補充信息“(干預后因素可能為中介變量)”。選擇偏倚評估中,2.2~2.4條目表述不明,因此將條目中的“預后因素”改為“干預后變量”。4.3條目將“共同干預”改為“伴隨干預”。4.4條目補充了干預措施的情況“例如是否接受藥物或手術”。5.5條目為了使條目的評估更加明確將“證據”改為“證據(敏感性分析結果)”,“結果依然是可靠的”改為“結果依然是穩健的(具有魯棒性)”。對6.1條目的描述進行擴充,將其改為“結局的測量是否受到干預相關信息的影響(結局測量的研究者是否已知/了解受試者的干預措施)?”。對于已測混雜分析評估,傾向性評分只是一種常見方法,現階段沒有標準,因此將8.1條目的表述改為“研究中是否進行了已測混雜調整,例如匹配、加權、應用傾向性評分的策略?”。真實世界中的樣本量的計算不僅僅基于α這一個參數,因此將10.1條目改為“本研究是否進行了樣本量估算或根據研究的樣本量及一類錯誤(α)等參數計算研究把握度(power)?”
2.4.2 第二輪問卷結果
第二輪專家咨詢中各個條目重要性評分的平均分為3.73~4.93分,CV為0.05~0.21,專家意見趨于一致,不再對該評估體系中的條目進行修改。
2.5 評價指標體系形成
初步擬定真實世界證據評估體系指標池,包括40個條目指標。根據指標篩選標準和專家意見對指標進行2輪修改后,最終形成的真實世界證據評價體系,見表4。

3 討論
3.1 科學性和可靠性
本研究構建真實世界證據評價體系是通過文獻調研,借鑒ROBINS-I工具[13]、RECORD清單和GRACE清單[14],并且經過多位具有廣泛專業知識背景和經驗的專家咨詢而形成的。本研究針對真實世界研究的特點,初步構建真實世界證據評價體系指標池,進行問卷咨詢,歸納專家意見,經討論后形成了真實世界證據評估體系工具,應用德爾菲法對體系中各部分指標設置進行評價。本研究共計完成兩輪專家咨詢,結果顯示,兩輪咨詢的專家積極性和權威程度均很高,W均具有統計學意義,專家意見趨于一致。我們根據專家意見對該體系進行了修改,使指標更加科學和完善,最終獲得可靠的評估體系和研究結論。
3.2 本研究的優勢
隨著真實世界研究的不斷出現,真實世界證據將在制訂治療指南和醫療決策方面的作用不斷增強[20]。因此,全面評估真實世界研究質量并進行真實世界證據等級劃分將是實現真實世界研究潛力的關鍵點之一。目前,大多數證據等級和研究設計等級體系均基于各種經典的臨床流行病學研究設計,未將RWS設計類型及其證據納入考量。針對真實世界研究較少,往往是針對不同類型使用不同的質量評估工具,常用的觀察性研究的質量評價工具,包括適用于病例-對照研究和隊列研究的NOS量表[21],適用于隊列研究和病例-對照研究的CASP清單和用于橫斷面研究評價的美國衛生保健質量和研究機構推薦評價標準(Agency of Healthcare Research and Quality,AHRQ)。RECORD清單和GRACE清單用于真實世界研究規范報告,但不能用于評價研究質量[14]。此外,如何基于真實世界研究進行因果推斷,是真實世界證據的一大難題。長久以來,真實世界研究質量因其受到偏倚的影響而被廣泛詬病,在《藥物真實世界研究設計與方案框架指導原則(試行)》[1]中明確說明偏倚是真實世界研究中特別需要考慮的問題,在方案中應充分考慮各種潛在偏倚及其影響,并制定控制偏倚的有效措施。一般情況下,真實世界研究包括兩大類,觀察性研究和實用臨床研究[1]。在觀察性研究中,通常存在混雜偏倚、選擇偏倚和信息偏倚三個方面。對于混雜偏倚,本體系考慮研究中需清晰明確現有的已知混雜,預先收集混雜變量的數據,并使用適當的方法進行控制。此外,本體系也沒有忽視未測量混雜。而關于選擇偏倚和信息偏倚:首先,準確的分組和結局變量是真實世界研究中的一個關鍵因素,必須明確定義干預和結局,避免回顧性研究中因提前了解重要的特征變量而選擇受試者入組;其次,分組和結局數據應真實可靠,不同組間的結局測量、評估需要統一。
因此,本體系從混雜偏倚、干預措施分類偏倚、發表偏倚等多個維度對真實世界研究整體進行評估,在評估偏倚問題上考慮全面。同時,本評估體系考慮在設計和分析階段評估樣本指標均衡性和對未測量混雜偏倚量化分析及敏感性分析提出了要求,有利于研究結果的穩健。本體系主要針對真實世界研究特點,具有以下優勢:① 在真實世界研究的干預前階段、干預階段、干預后階段分別設置評估指標,能夠為真實世界研究從研究開始到結束的全過程提供質量管理指引。② 在研究的不同階段的每個關鍵環節提出具體的評估條目,評估內容科學全面,例如對于混雜偏倚評估部分,該體系包含了7個條目,評估的混雜類型包括了基線混雜和時依混雜。③ 除了對研究中各種偏倚評估外,還增設了對敏感性分析、樣本量評估條目,提高研究課題成果的科學性和結果穩定性。④ 本體系不僅適用于真實世界中的觀察性研究,還適用于實驗性的非隨機干預研究、自身前后對照研究、歷史對照研究等,當一個系統評價中納入多種研究類型時,本體系可用于多種研究類型的評估,減少不同工具帶來的偏差。
3.3 應用價值
目前,考慮真實世界研究證據已是循證醫學發展的必經之路[22],若無可參照的證據等級評估體系,就可能為真實世界研究帶來低質量的證據,產生虛假關聯的研究結果,得出錯誤的研究結論[23]。隨著循證醫學的不斷發展,用于檢索和篩選的研究結果資源不斷增多,醫學科研人員在找尋真實世界證據的同時,如何從中提取相應信息對研究的證據強度進行評估也是一種挑戰。本體系的構建有利于對現有的真實世界研究進行篩選評價,提高循證醫學研究的效率和強度,輔助臨床決策。真實世界證據等級與臨床治療密切相關,通過對證據評估權衡利弊,可便于治療者合理、有效選擇更有利、安全的治療方案[24]。運用真實世界研究需要科學的研究計劃、合理的統計方法和完整的實施過程,這對獲得高質量真實世界證據至關重要[25]。為了避免研究結果產生各種偏倚和保證研究過程的透明性,在真實世界研究設計中,研究者應該特別強調分析前的研究方案的制定。本體系的評估涉及人群、干預、對照、結局、樣本量等關鍵要素,研究者可以以該工具體系為驅動,在研究設計、數據收集、人群選擇、分析總結等方面進行借鑒,從而全面、客觀評價真實世界研究的偏倚風險和證據質量,對研究設計階段具有一定的指導作用和參考價值。評估者可通過回答條目問題,制定合理的評估規則,從而判斷存在的風險大小,對各個領域進行質量評分和總體評級。最后,為了使用便捷,我們通過R shiny搭建了真實世界證據評價體系的可視化操作平臺。
本體系存在一定的局限性,首先,本研究的真實世界證據評價體系的使用,要求評估人員具備相關的專業知識,需要進一步的指導和培訓。本研究尚未開展實證研究,如何基于真實世界證據評價體系實施評估,還需進一步對評估維度進行調整、拓展,例如如何對真實世界中數據的適用性進行評估,且條目的可操作性和合理性還待進一步驗證。未來對如何進行質量評級報告,以及評估標準及規則的完善仍需進一步地深入研究。
綜上所述,本研究的真實世界證據評價體系從偏倚評估、已測混雜評估、未測量混雜評估、樣本量評估等多個領域入手,運用德爾菲法經過兩輪專家咨詢,構建了真實世界證據評價體系,注重評估內容的簡易性、全面性,強調各個領域評估內容的可靠性、實用性,整體具有較好的科學性,對如何進行真實世界研究證據評價具有較好的向導作用。
聲明 所有作者均聲明無利益沖突