關注研究質量是現代醫學循證實踐的重要內容。良好的研究質量是為臨床實踐提供可靠證據支持的關鍵。近年來,真實世界研究數量逐漸增多,但因數據質量問題和研究者水平的差異,發表的真實世界研究質量參差不齊。系統評價與Meta分析的結果常作為臨床實踐決策的重要參考依據,但其研究結果容易受到納入原始研究的質量影響。基于低質量研究的結果做出的臨床決策往往具有一定風險。鑒于目前沒有一種專門用于制作系統評價與Meta分析時評價納入真實世界研究質量的工具,Gebrye團隊近期開發了一種新的真實世界研究質量評價工具—QATSM-RWS。該工具包括5個模塊,共14個問題導向性評價條目。本文旨在對該工具的制定過程和條目內容進行介紹和解讀,并以一項已發表的真實世界研究為例,使用該工具評價其質量,以期為國內研究者應用該工具提供參考和借鑒。
引用本文: 張強, 盧存存, 趙文霞, 劉鳴昊, 閆樂, 張麗慧, 趙晴, 李玲, 王思穎, 賈攀, 尚東方, 方進華. 系統評價與Meta分析中真實世界研究質量評價工具(QATSM-RWS)的解讀與應用. 中國循證醫學雜志, 2024, 24(12): 1451-1457. doi: 10.7507/1672-2531.202406189 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
近年來,隨著人工智能、機器學習和數據科學技術的迅速發展,真實世界研究逐漸受到研究者的青睞[1,2]。利用電子健康記錄、注冊登記數據等真實世界數據,生成的真實世界證據被廣泛用于支持醫療實踐、醫療保險和藥物研發等衛生決策[3,4]。系統評價與Meta分析能夠整合相同或相似主題的多個原始研究,被認為是循證醫學最高級別的證據,但結果易受到納入原始研究質量的影響[5,6],基于低質量研究可能導致錯誤的臨床決策。科學研究的質量通常受其研究設計、實施和報告等多個要素的決定。盡管有多種工具用于制作系統評價與Meta分析時評估原始研究的質量,如Cochrane偏倚風險評估工具針對隨機對照試驗,側重評估隨機分配、干預的盲法以及數據分析中的偏倚風險[7];紐卡斯爾-渥太華量表(Newcastle-Ottawa scale,NOS)適用于病例-對照研究和隊列研究,側重于評估樣本選擇、可比性、暴露/結果的偏倚風險[8];非隨機干預性研究偏倚風險評估工具(risk of bias in non-randomized studies of interventions,ROBINS-I),適用于非隨機干預性研究的偏倚風險[9];但這些工具評估真實世界研究時,對數據來源、干預異質性、混雜偏倚的適用性有限。隨著真實世界研究的系統評價文獻日漸增長,亟需開發適用于真實世界研究的質量評估工具。Gebrye團隊近期開發了一種新的真實世界研究質量評估工具—QATSM-RWS[10]。本文對該工具的主要內容進行介紹和解讀,并以實例展示其應用,旨在幫助國內研究者更好地理解和應用該工具,以提升真實世界研究及其系統評價/Meta分析的質量和規范性。
1 QATSM-RWS的制定過程
Gebrye等[11]首先開展了一項概況性評價,共納入16種涉及真實世界數據研究的質量評價工具。他們將納入研究中超過50%涉及的條目列入擬使用的工具條目中,形成了一個由14個問題組成的初始條目清單。隨后,通過檢索曾使用真實世界數據發表研究的學者確定專家成員,并通過兩輪德爾菲調查對條目內容進行調查。在第一輪德爾菲調查中,向89位來自全球多個國家、具有真實世界研究背景的專家發送了電子郵件,要求他們采用4分法量表(“非常不同意”“不同意”“同意”“非常同意”)對14個條目進行評分,并提供意見填寫欄以供專家對條目內容進行刪除或補充。結果有15位專家同意并參與了此次調查。共識標準事先定義納入評分≥3.5分且至少有70%的參與者評價為“同意”或“非常同意”的條目;如果至少70%的參與者評價某個條目不符合“同意”或“非常同意”,則將其視為下一輪調查的考慮對象。在第二輪德爾菲調查中,將第一輪調查的結果和對納入條目的使用措辭發送至參與調查的15位專家,詢問他們是否同意條目的措辭。結果有12位專家對第二輪調查進行了回復。如果專家對該條目措辭表示不同意,則要求他們提供備選措辭或意見。經過兩輪德爾菲法調查,最終形成了一個由14個條目組成的真實世界研究質量評價工具[10]。
2 QATSM-RWS的介紹與解讀
QATSM-RWS共分為5個模塊,包括引言、方法、結果、討論和其他。每個模塊包含數個子條目,共14個條目。每個條目可用“是”“否”或“不清楚”回答,評價為“是”得1分,評價為“否”得0分,評價為“不清楚”得0.5分,滿分為14分[10]。工具的具體條目及評分方法見表1。

為展示該工具的使用方法,以進一步幫助讀者理解QATSM-RWS,本文選擇一篇2023年發表于Front Endocrinol (Lausanne)題為“血乳酸水平與2型糖尿病患者伴代謝相關脂肪性肝病的風險增加相關:一項真實世界研究”作為實例對該工具的條目進行解讀[12]。
3 實例
3.1 引言
條目1 研究的問題/目標是否被明確定義?
明確定義研究問題或目標是進行科學研究的基本前提。研究問題與研究目標息息相關,目的在于解決特定科學領域的關鍵問題。研究問題或目標直接影響后續的研究設計、實施、統計分析、預期結果和應用。真實世界研究可用于探索和解決疾病的病因、診斷、治療、預后等臨床問題,涵蓋疾病的流行病學特征描述、患者健康狀況評估、防治措施效果與危害評估、患者預后狀況評估,以及支持醫療衛生政策制定等[13,14]。在確定研究問題或目標時,應清晰闡明擬解決的問題特性、類型、重要性或必要性,以及預期結果的影響和意義。例如,實例的背景部分明確說明了其研究目標為“探討2型糖尿病血乳酸水平與代謝相關脂肪性肝病之間的相關性,進一步確定血乳酸是否可以作為評估代謝相關脂肪性肝病風險的早期生物標志物。”故評價為“是”。
條目2 研究是否解釋了所報告的調查的科學背景和依據?
研究背景往往概述了某一領域的研究進展、最新動態以及具體場景中存在的挑戰和需求。引言部分需要報道研究領域當前存在的挑戰和未解決問題,突出開展本次研究的重要性[15]。其次,通過分析領域動態和現有研究基礎,構建和證明科學問題,確立科學假設,闡明本研究將解決的問題、研究方法及科學意義和未來應用前景。同時,應提供支持論點的重要參考文獻[16]。整體描述圍繞研究背景、精煉的科學問題、確立的科學假設、研究方法、研究內容、科學意義或應用前景以及創新性。例如,實例的背景部分解釋了“代謝相關脂肪性肝病的命名由來、疾病譜、診斷與特性、患病率及肝細胞代謝紊亂機制,指出2型糖尿病患者患代謝相關脂肪性肝病的風險高于一般人群,血乳酸水平被認為是反映肝細胞衰竭的指標,且多項研究證實乳酸水平上調是代謝相關脂肪性肝病的重要特征。而之前相關的研究主要集中在動物實驗,很少在人類上進行。有待探索尤其在2型糖尿病患者人群中血乳酸與代謝相關脂肪性肝病之間的關系。”故評價為“是”。
3.2 方法
條目3 研究對樣本的人口統計學特征是否有明確的描述和定義?
真實世界研究主要關注真實醫療衛生保健環境中的人群。人口學特征主要涉及研究人群在特定維度上的特征和規律,包括年齡、性別、民族、種族/族裔、教育程度、地域、個人歷史、家庭歷史等因素的分布。清晰描述和定義人口學統計特征有助于明確研究結果的適用性和外推性,使決策者能夠判斷研究結果是否適用于相關目標人群,并為其提供參考依據[17]。例如,實例的材料與方法部分,明確描述了受試者的人口學特征,包括年齡、性別、糖尿病持續時間、吸煙情況、飲酒情況、高血壓、降糖藥物種類,并定義了肥胖、吸煙、酒精使用標準。故評價為“是”。
條目4 研究對所使用數據來源是否有清晰的描述?
真實世界研究的數據來源類型廣泛,包括醫院信息系統數據、醫保支付數據和登記注冊數據等。不同類型和來源的真實世界數據在數據信息的完整性和顆粒度方面存在差異[18]。例如,醫療保險數據通常記錄重大疾病的關鍵診療信息充分,但對其他信息(如實驗室檢查結果和文本筆記內容)的記錄可能不足,這些信息通常需從電子健康記錄中獲取。清晰地報告數據來源有助于決策者評估所用數據的質量,同時也便于其他學者復現研究結果。例如,實例的材料與方法部分報告“這項研究在上海交通大學醫學院附屬第六人民醫院連續招募了2003年1月至2009年8月內分泌代謝科住院的2型糖尿病患者,最終共納入4 628例受試者。”故評價為“是”。
條目5 研究對研究設計和數據分析的描述是否足夠詳細?
相比傳統隨機對照試驗,真實世界研究更容易受到混雜和其他偏倚的影響[19]。因此,采用科學的研究設計和適當的數據分析方法對于進行真實世界研究尤其重要,清晰地報告這些信息有助于其他研究者評估研究結果的可靠性。《藥物真實世界研究設計與方案框架指導原則(試行)》[20]中也著重強調了真實世界研究中研究設計和統計分析方法的重要性。真實世界研究包括實效性臨床試驗和觀察性研究,研究設計和數據分析方法的選擇需根據具體研究目的和數據可用性,選擇恰當的方法有助于減少偏倚,確保結果的可靠性和有效性。數據的可靠性和適用性也會影響研究整體質量[21],因此對于數據的收集、處理和分析過程中的質量控制措施應作詳細描述。此外,涉及多學科知識和方法時,應盡可能詳細地描述專業術語的使用和研究方法,以幫助讀者理解和進一步應用研究結果。例如,實例的材料與方法部分報告了“這是一項真實世界橫斷面研究,分析血乳酸水平與代謝相關脂肪性肝病的相關性,但研究僅說明了數據采集的信息內容,并不清楚缺失數據處理措施和分析過程中的質量控制。”故評價為“不清楚”。
條目6 研究所選擇的樣本量是否符合研究目的?
在真實世界研究設計中,確保樣本量與研究目的相符對于研究結果的有效性、可推廣性、準確性和可靠性至關重要[22]。樣本量過大可能增加研究實施的困難,并可能導致研究失敗和研究浪費;而樣本量不足則往往導致缺乏統計能力,難以發現真實存在的差異。首先應根據研究目的,如描述疾病分布、評估治療效果和探索疾病風險因素等,分析研究是基于特定假設還是探索性分析;其次應根據研究目的和可用數據源選擇適當的真實世界研究設計,如隊列研究、病例-對照研究等[23]。由于真實世界研究數據通常具有高度的異質性,因此所選的樣本量應通過統計公式或專業軟件來估算所需量,同時也要評估數據的獲取性和質量。此外,確定樣本時還需考慮可能的失訪問題、研究環境的變化以及符合倫理標準的問題,以提高研究的科學性和實用價值[24]。例如,實例的材料與方法部分報告了采用全樣本設計,納入所有符合條件2型糖尿病患者,共4 628例,屬于較大的樣本量。雖然沒有采用統計公式或專業軟件估算樣本量,但從整體數據的可利用性、數據的全面性、研究目的和數據的可獲得性等方面分析,所選擇的樣本量符合研究目的。故評價為“是”。
條目7 研究的納入和排除標準是否足夠詳細?
納排標準是確保研究結果可靠性的關鍵因素,有助于確定適合的目標研究人群,從而確保研究結果的相關性和外推性。真實世界研究通常涉及更廣泛的患者群體,對患者基本情況的限制較少,樣本量較大,能更好地反映真實世界的情況。在真實世界研究中,納排標準應能夠代表研究所定義的目標人群,具備足夠的詳細性,以確保研究結果的準確性和適用性[25]。國家藥品監督管理局已發布了《藥物真實世界研究設計與方案框架指導原則(試行)》[20],強調科學合理設計研究方案的重要性。根據研究目的和納排標準,綜合考慮數據來源和數據治理/管理計劃來定義目標人群隊列,并確保符合倫理標準以保護參與者權益。此外,應注意不當的納排標準可能導致恒定時間偏倚或選擇偏倚,必要時對重要的納排標準進行合理解釋,并評估其對分析結果的影響。例如,實例的材料與方法部分,診斷標準即為納入標準,即2型糖尿病患者,另外也明確定義了肥胖、吸煙狀況和酒精使用的標準,也制定了詳細的排除標準。”故評價為“是”。
條目8 研究中結局的評價是否恰當且定義明確?
在真實世界研究中,明確定義并恰當評價結局是確保研究結果準確性和可靠性的基本前提。研究者在設計研究時,必須選擇恰當的結局指標并對其進行清晰界定,以確保研究結果能夠準確反映藥物或治療措施在實際應用中的臨床效果。一般來說,結局指標有主觀和客觀兩類,開展真實世界研究時應盡量使用客觀結局指標[26]。近年來,以患者為中心的研究理念逐漸被認可,因此患者報告的結局指標得到越來越多研究者關注和應用[27]。在開展真實世界研究時,考慮使用此類指標,并可參考疾病對應的核心結局指標集來選擇和評價結局指標[28]。實例的材料與方法部分并未對結局指標進行恰當明確定義。故評價為“否”。
條目9 對受試者的隨訪是否完整且足夠長?
真實世界研究的特點在于能夠反映藥物或治療措施在日常臨床實踐中的實際效果。為了實現這一目標,需要對參與者進行完整且足夠長時間的隨訪,以收集全面準確的數據。完整的隨訪有助于確保數據的連續性和完整性,減少數據缺失和偏倚,提高研究結果的準確性[29]。以慢性病為例,足夠長的隨訪時間可評估治療方案效果的持久性,以及藥物長期使用的安全性和耐受性。長期的隨訪能更全面地監測不良事件和藥物副作用,尤其是在某些事件發生率低或需要長時間才能顯現時。面對真實世界中的復雜情況,如患者遷移或聯系方式變更,需要采取有效策略(如定期的跟進訪問、電話聯系或電子郵件提醒)來維持與參與者的聯系,以確保隨訪的完整性和質量。實例是一項橫斷面研究,沒有對受試者的隨訪。故評價為“否”。
條目10 研究方法是否清楚描述,以便能夠被重復?
真實世界研究涉及復雜的數據收集和分析步驟,清晰詳細地報告所使用的方法對于確保研究可被其他研究者重現和驗證至關重要。應事先制定并公開研究方案和統計分析計劃,可參考《基于真實世界數據評價治療結局研究的統計分析技術規范》[30]等文件。研究方案應包括數據來源、數據收集、治理、統計分析等細節,并全面詳細地描述主要結局指標、次要結局指標以及其他數據的具體分析方法和表達方式,避免事后分析帶來的假陽性結果,減少選擇性報告偏倚[31,32]。清晰詳細的方法學描述能確保研究的透明性、可復現性和科學性,有助于提高研究的內部和外部有效性,也是實現研究結果廣泛應用和推廣的重要基礎。例如,實例的統計分析部分,清楚地描述了統計分析所使用的軟件、不同分布數據的表示方法、檢驗方法,以及二分類變量、連續性變量的分析方法。故評價為“是”。
3.3 結果
條目11 研究報告的結果是否清晰易懂?
在真實世界研究中,研究結果報告的清晰性至關重要[33,34]。清晰明確的報告能有效傳播研究成果,影響其他研究者的理解及后續研究,醫療實踐者的應用以及醫療政策的制定。為了更好展示研究結果,強烈建議采用圖表等直觀形式,并提供簡潔易懂的文字描述,確保研究成果被充分理解和廣泛接受。若研究結果豐富,可在補充文件中進行詳細描述,以維持報告的條理性和可讀性。例如,實例采用表格和圖形直觀展示了血乳酸水平與2型糖尿病患者伴代謝相關脂肪性肝病風險的關系。
3.4 討論
條目12 研究的結論/建議是否合理,是否以研究結果為依據?
真實世界研究的結論應積極回答研究問題/目的或證明研究假設的真實性。結論應基于研究結果,參考相關理論模型和實證研究,適當解釋和分析研究結果,避免夸大[33]。同時,應綜合分析,與先前研究結果進行比較和驗證,評估研究結論的科學性和說服力。結論部分還應指出現有理論或方法的不足帶來的研究結果限制[35],并提出合理建議和改進措施。例如,實例的討論部分報告“基于研究的結果得出,2型糖尿病受試者的血乳酸水平與代謝相關脂肪性肝病風險增加獨立相關,代謝相關脂肪性肝病風險增加不受二甲雙胍服用的影響,可能與胰島素抵抗密切相關。建議血乳酸水平可用作評估2型糖尿病患者伴代謝相關脂肪性肝病風險的實用指標。同時,這項研究也指出了局限性,諸如無法闡明因果關系、受試者來源單中心、超聲診斷導致部分漏診等。”故評價為“是”。
條目13 是否披露研究人員可能存在利益沖突?
多項調查顯示臨床研究中普遍存在利益沖突,并可能扭曲研究結果[36,37]。因此,聲明和披露研究人員的潛在利益沖突不僅有助于維護研究結果的客觀性和有效性,也是保障研究倫理和公眾信任的基礎。聲明利益沖突有助于降低在研究設計、數據收集和分析過程中引入無意識偏倚的風險。即使存在潛在利益沖突,也應主動披露,并透明報告所采取的管理措施,以最大程度地減少這些偏倚對研究結果的不利影響。例如,實例的利益沖突聲明部分表述了“研究是在沒有任何可能被解釋為潛在利益沖突的商業或財務關系的情況下進行的。”故評價為“是”。
3.5 其他
條目14 是否披露可能影響作者對結果解釋的研究資金來源?
科學研究的成功進行和順利實施通常需要一定的資金支持[38],然而存在利益沖突的資金資助可能會影響研究結果的客觀性和可靠性[37]。因此,在進行真實世界研究時,應清晰說明所接受資助的信息,以及資助方在研究設計、數據收集、分析和闡釋、報告撰寫,以及論文提交和發表過程中的作用。聲明資金來源有助于科研項目的有效監管,也屬于科學道德規范的一部分。學術界評估研究成果的價值時也會考慮研究項目的資金來源,進而形成對研究工作的更全面評估。例如,實例資助聲明部分表述了“這項研究得到了國家自然科學基金、國家重點研發計劃、上海市內分泌與代謝疾病研究中心、上海市臨床重點專科等多個項目的資助支持,資助者未參與研究設計、收集、分析、數據解釋、本文的撰寫或提交發表的決議。”故評價為“是”。
綜合QATSM-RWS對實例的質量評價結果,條目5評價為“不清楚”,條目8和條目9評價為“否”,其余11個條目均評價為“是”,故最終整體質量評價得分為11.5分。
4 討論
現代醫學實踐遵循循證醫學的理念,真實世界證據作為重要的證據來源,具有較高的外部效度,能夠為藥物審批和臨床決策等提供更全面的視角,因此在當今的醫療實踐和衛生決策中發揮著至關重要的作用[39]。系統評價與Meta分析通過定性和定量方法整合多個原始研究數據,是生成高質量循證醫學證據的關鍵工具,為臨床決策、藥械管理及監管決策提供有力支持。然而,系統評價與Meta分析作為二次研究,其質量常受到原始研究質量的制約。如果原始研究存在顯著的方法學缺陷,且未能在Meta分析中得到有效識別和準確評價,可能傳遞錯誤的診療信息,誤導臨床決策,進而對患者造成不良影響[40]。因此,利用真實世界數據產生真實世界證據時,科學評估納入真實世界研究的方法學質量對于評估系統評價與Meta分析結果的可靠性至關重要。
本文詳細介紹了QATSM-RWS的結構、內容和使用方法。該工具包括引言、方法、結果、討論和其他5個模塊,共涵蓋14個條目。每個條目根據內容符合程度評定為“是”“否”或“不清楚”,最終通過累加評分得到單個研究的總體質量分數,滿分為14分。盡管該工具的操作相對簡便,但評價者需要具備一定的真實世界研究背景知識,因為原文作者未提供詳細的條目解釋,也沒有給出具體案例。因此,筆者根據研究經驗對該工具進行了解讀,并選擇一項近期已發表典型的真實世界研究為例,應用QATSM-RWS對實例研究質量進行評價,最終得分為11.5。評估結果表明,研究整體質量較高,但也存在一些不足,如對評價結局缺乏明確定義,數據分析中缺少質量控制的描述,且受試者隨訪情況可能與研究設計類型和研究問題有關。
QATSM-RWS與廣泛使用的評估隊列研究質量的NOS相比,NOS側重于研究設計的結構性和控制混雜因素,較少關注研究的背景、數據來源和樣本量等方面,而QATSM-RWS除了評估研究設計、結果等常見要素外,還加入了對研究問題和目標、科學背景、數據來源、評價結局定義等方面的考量,使評估更全面,適合復雜的真實世界研究[41]。與ROBINS-I相比,ROBINS-I用于非隨機干預研究,要求對干預措施和暴露特征有較高的控制,強調復雜的偏倚類型,評估過程復雜,評分需要非常詳細的專業知識[42],而QATSM-RWS關注數據來源的多樣性、真實世界研究中的復雜性和不可控性,在真實世界的評估中更具有適用性,工具提供了簡化的評分方式,更易操作。總體而言,QATSM-RWS評估范圍更廣泛,簡化了操作流程,適合真實世界研究的復雜環境,但也需要進一步的驗證和評估,以確定其在不同類型真實世界研究和不同臨床學科問題中的適用性。
QATSM-RWS作為一種新的評價真實世界研究質量的工具,具有條目清晰、操作簡便的特點。本文通過案例展示了該工具在評價真實世界研究質量評價的應用,結果表明其具有一定適用性。然而,作為新發布的工具,QATSM-RWS仍需要在實踐中不斷完善。建議未來研究者在使用中發現問題并提出改進建議,以進一步優化其應用效果。
聲明 所有作者均聲明不存在任何利益沖突。
近年來,隨著人工智能、機器學習和數據科學技術的迅速發展,真實世界研究逐漸受到研究者的青睞[1,2]。利用電子健康記錄、注冊登記數據等真實世界數據,生成的真實世界證據被廣泛用于支持醫療實踐、醫療保險和藥物研發等衛生決策[3,4]。系統評價與Meta分析能夠整合相同或相似主題的多個原始研究,被認為是循證醫學最高級別的證據,但結果易受到納入原始研究質量的影響[5,6],基于低質量研究可能導致錯誤的臨床決策。科學研究的質量通常受其研究設計、實施和報告等多個要素的決定。盡管有多種工具用于制作系統評價與Meta分析時評估原始研究的質量,如Cochrane偏倚風險評估工具針對隨機對照試驗,側重評估隨機分配、干預的盲法以及數據分析中的偏倚風險[7];紐卡斯爾-渥太華量表(Newcastle-Ottawa scale,NOS)適用于病例-對照研究和隊列研究,側重于評估樣本選擇、可比性、暴露/結果的偏倚風險[8];非隨機干預性研究偏倚風險評估工具(risk of bias in non-randomized studies of interventions,ROBINS-I),適用于非隨機干預性研究的偏倚風險[9];但這些工具評估真實世界研究時,對數據來源、干預異質性、混雜偏倚的適用性有限。隨著真實世界研究的系統評價文獻日漸增長,亟需開發適用于真實世界研究的質量評估工具。Gebrye團隊近期開發了一種新的真實世界研究質量評估工具—QATSM-RWS[10]。本文對該工具的主要內容進行介紹和解讀,并以實例展示其應用,旨在幫助國內研究者更好地理解和應用該工具,以提升真實世界研究及其系統評價/Meta分析的質量和規范性。
1 QATSM-RWS的制定過程
Gebrye等[11]首先開展了一項概況性評價,共納入16種涉及真實世界數據研究的質量評價工具。他們將納入研究中超過50%涉及的條目列入擬使用的工具條目中,形成了一個由14個問題組成的初始條目清單。隨后,通過檢索曾使用真實世界數據發表研究的學者確定專家成員,并通過兩輪德爾菲調查對條目內容進行調查。在第一輪德爾菲調查中,向89位來自全球多個國家、具有真實世界研究背景的專家發送了電子郵件,要求他們采用4分法量表(“非常不同意”“不同意”“同意”“非常同意”)對14個條目進行評分,并提供意見填寫欄以供專家對條目內容進行刪除或補充。結果有15位專家同意并參與了此次調查。共識標準事先定義納入評分≥3.5分且至少有70%的參與者評價為“同意”或“非常同意”的條目;如果至少70%的參與者評價某個條目不符合“同意”或“非常同意”,則將其視為下一輪調查的考慮對象。在第二輪德爾菲調查中,將第一輪調查的結果和對納入條目的使用措辭發送至參與調查的15位專家,詢問他們是否同意條目的措辭。結果有12位專家對第二輪調查進行了回復。如果專家對該條目措辭表示不同意,則要求他們提供備選措辭或意見。經過兩輪德爾菲法調查,最終形成了一個由14個條目組成的真實世界研究質量評價工具[10]。
2 QATSM-RWS的介紹與解讀
QATSM-RWS共分為5個模塊,包括引言、方法、結果、討論和其他。每個模塊包含數個子條目,共14個條目。每個條目可用“是”“否”或“不清楚”回答,評價為“是”得1分,評價為“否”得0分,評價為“不清楚”得0.5分,滿分為14分[10]。工具的具體條目及評分方法見表1。

為展示該工具的使用方法,以進一步幫助讀者理解QATSM-RWS,本文選擇一篇2023年發表于Front Endocrinol (Lausanne)題為“血乳酸水平與2型糖尿病患者伴代謝相關脂肪性肝病的風險增加相關:一項真實世界研究”作為實例對該工具的條目進行解讀[12]。
3 實例
3.1 引言
條目1 研究的問題/目標是否被明確定義?
明確定義研究問題或目標是進行科學研究的基本前提。研究問題與研究目標息息相關,目的在于解決特定科學領域的關鍵問題。研究問題或目標直接影響后續的研究設計、實施、統計分析、預期結果和應用。真實世界研究可用于探索和解決疾病的病因、診斷、治療、預后等臨床問題,涵蓋疾病的流行病學特征描述、患者健康狀況評估、防治措施效果與危害評估、患者預后狀況評估,以及支持醫療衛生政策制定等[13,14]。在確定研究問題或目標時,應清晰闡明擬解決的問題特性、類型、重要性或必要性,以及預期結果的影響和意義。例如,實例的背景部分明確說明了其研究目標為“探討2型糖尿病血乳酸水平與代謝相關脂肪性肝病之間的相關性,進一步確定血乳酸是否可以作為評估代謝相關脂肪性肝病風險的早期生物標志物。”故評價為“是”。
條目2 研究是否解釋了所報告的調查的科學背景和依據?
研究背景往往概述了某一領域的研究進展、最新動態以及具體場景中存在的挑戰和需求。引言部分需要報道研究領域當前存在的挑戰和未解決問題,突出開展本次研究的重要性[15]。其次,通過分析領域動態和現有研究基礎,構建和證明科學問題,確立科學假設,闡明本研究將解決的問題、研究方法及科學意義和未來應用前景。同時,應提供支持論點的重要參考文獻[16]。整體描述圍繞研究背景、精煉的科學問題、確立的科學假設、研究方法、研究內容、科學意義或應用前景以及創新性。例如,實例的背景部分解釋了“代謝相關脂肪性肝病的命名由來、疾病譜、診斷與特性、患病率及肝細胞代謝紊亂機制,指出2型糖尿病患者患代謝相關脂肪性肝病的風險高于一般人群,血乳酸水平被認為是反映肝細胞衰竭的指標,且多項研究證實乳酸水平上調是代謝相關脂肪性肝病的重要特征。而之前相關的研究主要集中在動物實驗,很少在人類上進行。有待探索尤其在2型糖尿病患者人群中血乳酸與代謝相關脂肪性肝病之間的關系。”故評價為“是”。
3.2 方法
條目3 研究對樣本的人口統計學特征是否有明確的描述和定義?
真實世界研究主要關注真實醫療衛生保健環境中的人群。人口學特征主要涉及研究人群在特定維度上的特征和規律,包括年齡、性別、民族、種族/族裔、教育程度、地域、個人歷史、家庭歷史等因素的分布。清晰描述和定義人口學統計特征有助于明確研究結果的適用性和外推性,使決策者能夠判斷研究結果是否適用于相關目標人群,并為其提供參考依據[17]。例如,實例的材料與方法部分,明確描述了受試者的人口學特征,包括年齡、性別、糖尿病持續時間、吸煙情況、飲酒情況、高血壓、降糖藥物種類,并定義了肥胖、吸煙、酒精使用標準。故評價為“是”。
條目4 研究對所使用數據來源是否有清晰的描述?
真實世界研究的數據來源類型廣泛,包括醫院信息系統數據、醫保支付數據和登記注冊數據等。不同類型和來源的真實世界數據在數據信息的完整性和顆粒度方面存在差異[18]。例如,醫療保險數據通常記錄重大疾病的關鍵診療信息充分,但對其他信息(如實驗室檢查結果和文本筆記內容)的記錄可能不足,這些信息通常需從電子健康記錄中獲取。清晰地報告數據來源有助于決策者評估所用數據的質量,同時也便于其他學者復現研究結果。例如,實例的材料與方法部分報告“這項研究在上海交通大學醫學院附屬第六人民醫院連續招募了2003年1月至2009年8月內分泌代謝科住院的2型糖尿病患者,最終共納入4 628例受試者。”故評價為“是”。
條目5 研究對研究設計和數據分析的描述是否足夠詳細?
相比傳統隨機對照試驗,真實世界研究更容易受到混雜和其他偏倚的影響[19]。因此,采用科學的研究設計和適當的數據分析方法對于進行真實世界研究尤其重要,清晰地報告這些信息有助于其他研究者評估研究結果的可靠性。《藥物真實世界研究設計與方案框架指導原則(試行)》[20]中也著重強調了真實世界研究中研究設計和統計分析方法的重要性。真實世界研究包括實效性臨床試驗和觀察性研究,研究設計和數據分析方法的選擇需根據具體研究目的和數據可用性,選擇恰當的方法有助于減少偏倚,確保結果的可靠性和有效性。數據的可靠性和適用性也會影響研究整體質量[21],因此對于數據的收集、處理和分析過程中的質量控制措施應作詳細描述。此外,涉及多學科知識和方法時,應盡可能詳細地描述專業術語的使用和研究方法,以幫助讀者理解和進一步應用研究結果。例如,實例的材料與方法部分報告了“這是一項真實世界橫斷面研究,分析血乳酸水平與代謝相關脂肪性肝病的相關性,但研究僅說明了數據采集的信息內容,并不清楚缺失數據處理措施和分析過程中的質量控制。”故評價為“不清楚”。
條目6 研究所選擇的樣本量是否符合研究目的?
在真實世界研究設計中,確保樣本量與研究目的相符對于研究結果的有效性、可推廣性、準確性和可靠性至關重要[22]。樣本量過大可能增加研究實施的困難,并可能導致研究失敗和研究浪費;而樣本量不足則往往導致缺乏統計能力,難以發現真實存在的差異。首先應根據研究目的,如描述疾病分布、評估治療效果和探索疾病風險因素等,分析研究是基于特定假設還是探索性分析;其次應根據研究目的和可用數據源選擇適當的真實世界研究設計,如隊列研究、病例-對照研究等[23]。由于真實世界研究數據通常具有高度的異質性,因此所選的樣本量應通過統計公式或專業軟件來估算所需量,同時也要評估數據的獲取性和質量。此外,確定樣本時還需考慮可能的失訪問題、研究環境的變化以及符合倫理標準的問題,以提高研究的科學性和實用價值[24]。例如,實例的材料與方法部分報告了采用全樣本設計,納入所有符合條件2型糖尿病患者,共4 628例,屬于較大的樣本量。雖然沒有采用統計公式或專業軟件估算樣本量,但從整體數據的可利用性、數據的全面性、研究目的和數據的可獲得性等方面分析,所選擇的樣本量符合研究目的。故評價為“是”。
條目7 研究的納入和排除標準是否足夠詳細?
納排標準是確保研究結果可靠性的關鍵因素,有助于確定適合的目標研究人群,從而確保研究結果的相關性和外推性。真實世界研究通常涉及更廣泛的患者群體,對患者基本情況的限制較少,樣本量較大,能更好地反映真實世界的情況。在真實世界研究中,納排標準應能夠代表研究所定義的目標人群,具備足夠的詳細性,以確保研究結果的準確性和適用性[25]。國家藥品監督管理局已發布了《藥物真實世界研究設計與方案框架指導原則(試行)》[20],強調科學合理設計研究方案的重要性。根據研究目的和納排標準,綜合考慮數據來源和數據治理/管理計劃來定義目標人群隊列,并確保符合倫理標準以保護參與者權益。此外,應注意不當的納排標準可能導致恒定時間偏倚或選擇偏倚,必要時對重要的納排標準進行合理解釋,并評估其對分析結果的影響。例如,實例的材料與方法部分,診斷標準即為納入標準,即2型糖尿病患者,另外也明確定義了肥胖、吸煙狀況和酒精使用的標準,也制定了詳細的排除標準。”故評價為“是”。
條目8 研究中結局的評價是否恰當且定義明確?
在真實世界研究中,明確定義并恰當評價結局是確保研究結果準確性和可靠性的基本前提。研究者在設計研究時,必須選擇恰當的結局指標并對其進行清晰界定,以確保研究結果能夠準確反映藥物或治療措施在實際應用中的臨床效果。一般來說,結局指標有主觀和客觀兩類,開展真實世界研究時應盡量使用客觀結局指標[26]。近年來,以患者為中心的研究理念逐漸被認可,因此患者報告的結局指標得到越來越多研究者關注和應用[27]。在開展真實世界研究時,考慮使用此類指標,并可參考疾病對應的核心結局指標集來選擇和評價結局指標[28]。實例的材料與方法部分并未對結局指標進行恰當明確定義。故評價為“否”。
條目9 對受試者的隨訪是否完整且足夠長?
真實世界研究的特點在于能夠反映藥物或治療措施在日常臨床實踐中的實際效果。為了實現這一目標,需要對參與者進行完整且足夠長時間的隨訪,以收集全面準確的數據。完整的隨訪有助于確保數據的連續性和完整性,減少數據缺失和偏倚,提高研究結果的準確性[29]。以慢性病為例,足夠長的隨訪時間可評估治療方案效果的持久性,以及藥物長期使用的安全性和耐受性。長期的隨訪能更全面地監測不良事件和藥物副作用,尤其是在某些事件發生率低或需要長時間才能顯現時。面對真實世界中的復雜情況,如患者遷移或聯系方式變更,需要采取有效策略(如定期的跟進訪問、電話聯系或電子郵件提醒)來維持與參與者的聯系,以確保隨訪的完整性和質量。實例是一項橫斷面研究,沒有對受試者的隨訪。故評價為“否”。
條目10 研究方法是否清楚描述,以便能夠被重復?
真實世界研究涉及復雜的數據收集和分析步驟,清晰詳細地報告所使用的方法對于確保研究可被其他研究者重現和驗證至關重要。應事先制定并公開研究方案和統計分析計劃,可參考《基于真實世界數據評價治療結局研究的統計分析技術規范》[30]等文件。研究方案應包括數據來源、數據收集、治理、統計分析等細節,并全面詳細地描述主要結局指標、次要結局指標以及其他數據的具體分析方法和表達方式,避免事后分析帶來的假陽性結果,減少選擇性報告偏倚[31,32]。清晰詳細的方法學描述能確保研究的透明性、可復現性和科學性,有助于提高研究的內部和外部有效性,也是實現研究結果廣泛應用和推廣的重要基礎。例如,實例的統計分析部分,清楚地描述了統計分析所使用的軟件、不同分布數據的表示方法、檢驗方法,以及二分類變量、連續性變量的分析方法。故評價為“是”。
3.3 結果
條目11 研究報告的結果是否清晰易懂?
在真實世界研究中,研究結果報告的清晰性至關重要[33,34]。清晰明確的報告能有效傳播研究成果,影響其他研究者的理解及后續研究,醫療實踐者的應用以及醫療政策的制定。為了更好展示研究結果,強烈建議采用圖表等直觀形式,并提供簡潔易懂的文字描述,確保研究成果被充分理解和廣泛接受。若研究結果豐富,可在補充文件中進行詳細描述,以維持報告的條理性和可讀性。例如,實例采用表格和圖形直觀展示了血乳酸水平與2型糖尿病患者伴代謝相關脂肪性肝病風險的關系。
3.4 討論
條目12 研究的結論/建議是否合理,是否以研究結果為依據?
真實世界研究的結論應積極回答研究問題/目的或證明研究假設的真實性。結論應基于研究結果,參考相關理論模型和實證研究,適當解釋和分析研究結果,避免夸大[33]。同時,應綜合分析,與先前研究結果進行比較和驗證,評估研究結論的科學性和說服力。結論部分還應指出現有理論或方法的不足帶來的研究結果限制[35],并提出合理建議和改進措施。例如,實例的討論部分報告“基于研究的結果得出,2型糖尿病受試者的血乳酸水平與代謝相關脂肪性肝病風險增加獨立相關,代謝相關脂肪性肝病風險增加不受二甲雙胍服用的影響,可能與胰島素抵抗密切相關。建議血乳酸水平可用作評估2型糖尿病患者伴代謝相關脂肪性肝病風險的實用指標。同時,這項研究也指出了局限性,諸如無法闡明因果關系、受試者來源單中心、超聲診斷導致部分漏診等。”故評價為“是”。
條目13 是否披露研究人員可能存在利益沖突?
多項調查顯示臨床研究中普遍存在利益沖突,并可能扭曲研究結果[36,37]。因此,聲明和披露研究人員的潛在利益沖突不僅有助于維護研究結果的客觀性和有效性,也是保障研究倫理和公眾信任的基礎。聲明利益沖突有助于降低在研究設計、數據收集和分析過程中引入無意識偏倚的風險。即使存在潛在利益沖突,也應主動披露,并透明報告所采取的管理措施,以最大程度地減少這些偏倚對研究結果的不利影響。例如,實例的利益沖突聲明部分表述了“研究是在沒有任何可能被解釋為潛在利益沖突的商業或財務關系的情況下進行的。”故評價為“是”。
3.5 其他
條目14 是否披露可能影響作者對結果解釋的研究資金來源?
科學研究的成功進行和順利實施通常需要一定的資金支持[38],然而存在利益沖突的資金資助可能會影響研究結果的客觀性和可靠性[37]。因此,在進行真實世界研究時,應清晰說明所接受資助的信息,以及資助方在研究設計、數據收集、分析和闡釋、報告撰寫,以及論文提交和發表過程中的作用。聲明資金來源有助于科研項目的有效監管,也屬于科學道德規范的一部分。學術界評估研究成果的價值時也會考慮研究項目的資金來源,進而形成對研究工作的更全面評估。例如,實例資助聲明部分表述了“這項研究得到了國家自然科學基金、國家重點研發計劃、上海市內分泌與代謝疾病研究中心、上海市臨床重點專科等多個項目的資助支持,資助者未參與研究設計、收集、分析、數據解釋、本文的撰寫或提交發表的決議。”故評價為“是”。
綜合QATSM-RWS對實例的質量評價結果,條目5評價為“不清楚”,條目8和條目9評價為“否”,其余11個條目均評價為“是”,故最終整體質量評價得分為11.5分。
4 討論
現代醫學實踐遵循循證醫學的理念,真實世界證據作為重要的證據來源,具有較高的外部效度,能夠為藥物審批和臨床決策等提供更全面的視角,因此在當今的醫療實踐和衛生決策中發揮著至關重要的作用[39]。系統評價與Meta分析通過定性和定量方法整合多個原始研究數據,是生成高質量循證醫學證據的關鍵工具,為臨床決策、藥械管理及監管決策提供有力支持。然而,系統評價與Meta分析作為二次研究,其質量常受到原始研究質量的制約。如果原始研究存在顯著的方法學缺陷,且未能在Meta分析中得到有效識別和準確評價,可能傳遞錯誤的診療信息,誤導臨床決策,進而對患者造成不良影響[40]。因此,利用真實世界數據產生真實世界證據時,科學評估納入真實世界研究的方法學質量對于評估系統評價與Meta分析結果的可靠性至關重要。
本文詳細介紹了QATSM-RWS的結構、內容和使用方法。該工具包括引言、方法、結果、討論和其他5個模塊,共涵蓋14個條目。每個條目根據內容符合程度評定為“是”“否”或“不清楚”,最終通過累加評分得到單個研究的總體質量分數,滿分為14分。盡管該工具的操作相對簡便,但評價者需要具備一定的真實世界研究背景知識,因為原文作者未提供詳細的條目解釋,也沒有給出具體案例。因此,筆者根據研究經驗對該工具進行了解讀,并選擇一項近期已發表典型的真實世界研究為例,應用QATSM-RWS對實例研究質量進行評價,最終得分為11.5。評估結果表明,研究整體質量較高,但也存在一些不足,如對評價結局缺乏明確定義,數據分析中缺少質量控制的描述,且受試者隨訪情況可能與研究設計類型和研究問題有關。
QATSM-RWS與廣泛使用的評估隊列研究質量的NOS相比,NOS側重于研究設計的結構性和控制混雜因素,較少關注研究的背景、數據來源和樣本量等方面,而QATSM-RWS除了評估研究設計、結果等常見要素外,還加入了對研究問題和目標、科學背景、數據來源、評價結局定義等方面的考量,使評估更全面,適合復雜的真實世界研究[41]。與ROBINS-I相比,ROBINS-I用于非隨機干預研究,要求對干預措施和暴露特征有較高的控制,強調復雜的偏倚類型,評估過程復雜,評分需要非常詳細的專業知識[42],而QATSM-RWS關注數據來源的多樣性、真實世界研究中的復雜性和不可控性,在真實世界的評估中更具有適用性,工具提供了簡化的評分方式,更易操作。總體而言,QATSM-RWS評估范圍更廣泛,簡化了操作流程,適合真實世界研究的復雜環境,但也需要進一步的驗證和評估,以確定其在不同類型真實世界研究和不同臨床學科問題中的適用性。
QATSM-RWS作為一種新的評價真實世界研究質量的工具,具有條目清晰、操作簡便的特點。本文通過案例展示了該工具在評價真實世界研究質量評價的應用,結果表明其具有一定適用性。然而,作為新發布的工具,QATSM-RWS仍需要在實踐中不斷完善。建議未來研究者在使用中發現問題并提出改進建議,以進一步優化其應用效果。
聲明 所有作者均聲明不存在任何利益沖突。