證據分級和推薦強度判定是循證指南制定的關鍵環節,近些年有了長足的發展和進步。該文系統回顧了近 30 年國內外證據分級和推薦強度的發展與演進,并對主要代表性標準進行了介紹,同時對我國神經疾病領域發表的指南和共識規范性的評價結果進行了簡要介紹,提出了今后的改進之處,以期讓讀者了解證據分級和推薦強度的發展規律,以便更好地閱讀和理解指南,以及更加規范地制定指南。
引用本文: 張丁丁, 朱以誠. 循證指南證據分級和推薦體系的發展. 華西醫學, 2024, 39(5): 677-680. doi: 10.7507/1002-0179.202405140 復制
版權信息: ?四川大學華西醫院華西期刊社《華西醫學》版權所有,未經授權不得轉載、改編
隨著臨床醫學的發展,應用指南規范診療行為已經常態化,因此對臨床指南的制定方法也持續標準化、規范化。臨床指南的制定必須以循證醫學為基礎,這樣才能保證指南不僅僅是幾位專家的個人經驗和觀點。2015 年 4 月中華醫學會組織相關專家進行討論并于 2016 年發布了《制訂/修訂<臨床診療指南>的基本方法及程序》[1]。2022 年中華醫學會臨床流行病學和循證醫學分會更新了 2016 版,提出指南制定/修訂的 10 個主要步驟(① 啟動與規劃;② 確定指南類型;③ 注冊;④ 撰寫計劃書;⑤ 成立工作組;⑥ 管理利益沖突;⑦ 調研臨床問題;⑧ 檢索和評價證據;⑨ 形成推薦意見;⑩ 撰寫與發表),其中第 8 條檢索評價證據和第 9 條形成推薦意見是指南編撰的核心工作[2]。由于臨床研究存在質量和數量的參差,因此不同質量的研究在成為證據時需要經過評估和甄別。推薦意見的形成必須基于經過系統評價的證據,另外還要綜合考慮資源利用、患者偏好與價值觀、公平性和可及性等多方面的因素。在循證醫學 30 多年的發展歷程中,對證據質量分級和形成推薦意見產生了多種多樣的方法,期間也有應用中的不同考量,深刻影響了現有的指南制定體系。上世紀 60 年代,為評價教育領域原始研究的可靠性,美國社會學家 Campbell 和 Stanley 首次提出了證據分級的概念[3-4]。為了篩選出最合適體檢者的體檢項目,1979 年,加拿大定期體檢工作組首次提出了醫學領域的證據分級和推薦強度體系[5]。其中,設計良好的隨機對照試驗(randomized controlled trial, RCT)為最高證據等級,專家意見為最低證據等級;推薦意見強度分為 5 個等級,且并不與證據分級體系相關。此后,證據分級和推薦強度體系快速發展,多個國家和學/協會組織先后發展出 50 余個證據分級和推薦意見體系[4],并隨時間先后表現出一定的階段性特征。
1 證據分級的發展
最初階段,證據等級的劃分主要依據原始研究的研究類型。1986 年,Sackett[6]提出將大樣本的 RCT 作為高級別證據,無對照的系列病例報道為最低級別證據。1992 年,美國衛生保健政策研究所提出的標準首次將基于 RCT 研究的 Meta 分析作為最高級別證據,專家意見作為最低級別證據[7]。1996 年,英格蘭北部循證指南制定項目組首次提出系統評價,并將設計良好的 RCT 研究及系統評價或 Meta 分析均作為最高級別證據[8]。
上世紀 90 年代之后,研究質量逐漸受到重視,建議在劃分證據等級的同時考慮原始研究的研究類型和研究質量。1998 年,美國預防服務工作組對研究質量提出了詳細的要求[9]。其中,設計良好、直接適用于目標人群、多項研究重復性好的研究證據為最高級別;設計有嚴重缺陷、樣本量小、結果不一致、缺少重要結局指標的研究證據為最低級別。2003 年,世界衛生組織將高質量的觀察性研究也作為最高級別證據,而有嚴重缺陷的 RCT 研究同樣可以是最低級別證據[10]。這樣的證據分級方法清晰、易操作,大量臨床指南制定時應用這樣的分級方法,在國內指南中大量應用的 A-D 級證據的定義就是因循這樣的標準提出的[11]。但在指南制定過程中,這樣的證據分級比較適合治療學問題的證據評估,不太適用于診斷學或預后問題的證據評估,因為診斷或預后問題一般不開展 RCT 研究,因此證據級別只能在 C 級或 D 級。
2000 年之后,證據評價擴展到干預性研究之外的更多領域。2001 年,由英國 Cochrane 中心聯合循證醫學和臨床流行病學專家制定并發表“英國牛津循證醫學中心標準”,簡稱“牛津標準”,提出了根據臨床問題的領域劃分證據級別,包括病因、診斷、預防、治療、危害、預后、經濟學分析等 7 個領域,每個領域有不同的證據級別劃分標準,從而具有更強的適用性。“牛津標準”于 2011 年完成了證據分級的簡化和更新,增加了篩查領域,刪除了經濟學分析領域[12],從而能使臨床醫生更加快速、方便地判斷證據質量分級。
最后,證據體概念的提出,打破了以“研究類型”為主的評價思路,摒棄了根據研究類型制定等級的方法,而是將研究的設計類型、方法學質量、結果一致性和證據直接性進行綜合考慮。2004 年,由 19 個國家和國際組織組成的 GRADE 工作組提出了 GRADE 標準[13],建立了證據體的概念,將當前能夠檢索到的所有研究類型的證據作為證據體,整體評價證據體的質量,從而劃分證據等級。“證據質量”被定義為在多大程度上相信效應估計值支持作出的推薦。RCT 被定為高質量證據,其質量可因 5 個因素下降,觀察性研究被定為低質量證據,其質量可因 3 個因素上升,最終證據質量被分為高、中、低、極低 4 級。
2 推薦體系的發展
推薦體系往往是與證據分級體系相伴隨產生的。上述提到的證據分級標準,大部分在提出證據分級方法時也一并提出了推薦強度制定標準。例如,1979 年加拿大定期體檢工作組提出的首個醫療領域證據分級和推薦強度標準中,將證據等級分為 3 級,將推薦強度分為 5 級[5]。總結上世紀 80 年代至今 50 余個標準中推薦強度的分類方法的發展,主要是經歷了從單純依賴證據級別到綜合考慮證據級別、利弊、患者意愿和經濟性等的過程。如 1986 年,Sackett[6]提出的標準將證據分級與推薦強度一一對應,即證據分級越高對應推薦強度也越高。1992 年的美國衛生保健政策研究和 1996 年的英格蘭北部循證指南制定項目組提出的標準也是采用證據分級與推薦強度一一對應的方式[7-8]。
2004 年,GRADE 工作組提出的標準中證據級別與推薦強度不再完全一一對應[13]。GRADE 標準將推薦強度定義為在多大程度上確信干預效果利大于弊或弊大于利,并分為強、弱兩級,用“強推薦”表示推薦干預措施利大于弊,用“弱推薦”表示推薦干預措施無論高低質量的證據均顯示利弊相當。GRADE 標準在判定推薦強度時,除了考慮證據等級,同時也考慮利弊平衡、患者的價值觀和意愿、經濟性等方面,綜合考慮后判定推薦強度。近年來,有較多學科在編撰指南時采用 GRADE 標準的推薦強度描述方法,也就是前面提到的“強推薦”表示“推薦干預措施利大于弊”,而“弱推薦”表示“推薦干預措施利弊相當”。這個文字描述方法其實是很難理解的,因為“強推薦”可以根據上下文理解為“使用某種治療方法是明確有益的,指南認為推薦這個治療方法利大于弊”,也可以是“某種治療方法是明確有害的,指南認為不推薦這個治療方法利大于弊”。而弱推薦的意思是指,根據現有證據判斷不了是否應該推薦某種治療方法。在部分指南中,會給出一個推薦意見的圖例來讓推薦意見顯得更直觀。但是很多讀者并不真正理解這里面的意思,這是這幾年指南編撰中應該非常注意的一個問題。中國學者在《中國急性缺血性卒中診治指南 2010 版的制定及解讀》中提出,制定指南應遵循規范化的循證方法,并就如何看待指南的循證與共識、國際接軌與本土特點、高端標準與基本要求、研究進展與實際應用、清楚界定與模糊描述、如何使用指南和規范化與個體化提出了獨到的見解;同時認為推薦意見強度應該與證據級別高低一一對應,也應充分重視共識在推薦意見形成中的作用[14]。基于這種觀點,在中華醫學會神經病學分會推出的多部指南中,推薦強度的判定都采用了充分的專家討論和形成共識的流程。這個推薦意見根據治療證據等級較為直接地一一對應推薦意見,與 GRADE 證據評級體系中的升級或者降級證據標準的情況不一致。鑒于上述 2 種推薦意見各自的優缺點,建議結合中文表述的特點對推薦意見再進一步斟酌更合適的描述方法。
3 臨床指南循證制定的質量評價
指南是連接研究證據與臨床實踐的橋梁,主要目的是規范臨床醫療行為、提高醫療服務質量,對指導臨床實踐意義重大。但一個好的指南才能達到以上目的。歐洲卒中組織分別于 2015 年和 2021 年制定過 2 版歐洲卒中學會指南制定標準操作手冊,要求在制定指南時使用 GRADE 證據級別和推薦強度體系[15-16]。美國心臟協會(American Heart Association)/美國卒中協會(American Stroke Association)制定的指南均使用美國心臟病學院(American College of Cardiology)/美國心臟協會制定的證據級別和推薦強度體系[17]。近年,我國發表的臨床指南數量不斷增加,甚至對于同一個疾病的診療或臨床問題存在多部意見相左的指南,使得醫務工作者面臨選擇困難的境遇。因此,對臨床指南進行科學、合理、全面的評價能夠有助于大家進行高效的選擇。
在 2013 年,劉鳴團隊曾使用 AGREE Ⅱ量表中指南開發嚴謹性評價條目對中華醫學會 2010 年—2012 年公開發表的 22 部國內循證制定的指南進行評價,發現指南的評分在 4~7 分不等,但不少指南在檢索方法、外部專家審閱和更新程序方面未清楚描述,提出循證制定臨床實踐指南是當前國內臨床實踐指南發展趨勢,但指南開發方法的嚴謹性和報告規范尚有待提高[18]。
2022 年,中華醫學會雜志社指南與標準研究中心聯合世界衛生組織指南實施與知識轉化合作中心組織全國專家,采用新研發的指南科學性(scientificity)、透明性(transparency)和適用性(applicability)的評級(rankings)工具(縮寫為 STAR,STAR 標準就指南的 11 個領域 39 個條目進行評價,得分滿分為 100 分)[19],對 2021 年醫學期刊發表的
4 結語
循證醫學發展 30 多年來,以證據為基礎的指南對臨床實踐發揮著重大的指導意義,因此充分了解證據分級和推薦體系的發展,采用科學和規范的方法制定指南,才能為臨床實踐提供可靠的工具。
利益沖突:所有作者聲明不存在利益沖突。
隨著臨床醫學的發展,應用指南規范診療行為已經常態化,因此對臨床指南的制定方法也持續標準化、規范化。臨床指南的制定必須以循證醫學為基礎,這樣才能保證指南不僅僅是幾位專家的個人經驗和觀點。2015 年 4 月中華醫學會組織相關專家進行討論并于 2016 年發布了《制訂/修訂<臨床診療指南>的基本方法及程序》[1]。2022 年中華醫學會臨床流行病學和循證醫學分會更新了 2016 版,提出指南制定/修訂的 10 個主要步驟(① 啟動與規劃;② 確定指南類型;③ 注冊;④ 撰寫計劃書;⑤ 成立工作組;⑥ 管理利益沖突;⑦ 調研臨床問題;⑧ 檢索和評價證據;⑨ 形成推薦意見;⑩ 撰寫與發表),其中第 8 條檢索評價證據和第 9 條形成推薦意見是指南編撰的核心工作[2]。由于臨床研究存在質量和數量的參差,因此不同質量的研究在成為證據時需要經過評估和甄別。推薦意見的形成必須基于經過系統評價的證據,另外還要綜合考慮資源利用、患者偏好與價值觀、公平性和可及性等多方面的因素。在循證醫學 30 多年的發展歷程中,對證據質量分級和形成推薦意見產生了多種多樣的方法,期間也有應用中的不同考量,深刻影響了現有的指南制定體系。上世紀 60 年代,為評價教育領域原始研究的可靠性,美國社會學家 Campbell 和 Stanley 首次提出了證據分級的概念[3-4]。為了篩選出最合適體檢者的體檢項目,1979 年,加拿大定期體檢工作組首次提出了醫學領域的證據分級和推薦強度體系[5]。其中,設計良好的隨機對照試驗(randomized controlled trial, RCT)為最高證據等級,專家意見為最低證據等級;推薦意見強度分為 5 個等級,且并不與證據分級體系相關。此后,證據分級和推薦強度體系快速發展,多個國家和學/協會組織先后發展出 50 余個證據分級和推薦意見體系[4],并隨時間先后表現出一定的階段性特征。
1 證據分級的發展
最初階段,證據等級的劃分主要依據原始研究的研究類型。1986 年,Sackett[6]提出將大樣本的 RCT 作為高級別證據,無對照的系列病例報道為最低級別證據。1992 年,美國衛生保健政策研究所提出的標準首次將基于 RCT 研究的 Meta 分析作為最高級別證據,專家意見作為最低級別證據[7]。1996 年,英格蘭北部循證指南制定項目組首次提出系統評價,并將設計良好的 RCT 研究及系統評價或 Meta 分析均作為最高級別證據[8]。
上世紀 90 年代之后,研究質量逐漸受到重視,建議在劃分證據等級的同時考慮原始研究的研究類型和研究質量。1998 年,美國預防服務工作組對研究質量提出了詳細的要求[9]。其中,設計良好、直接適用于目標人群、多項研究重復性好的研究證據為最高級別;設計有嚴重缺陷、樣本量小、結果不一致、缺少重要結局指標的研究證據為最低級別。2003 年,世界衛生組織將高質量的觀察性研究也作為最高級別證據,而有嚴重缺陷的 RCT 研究同樣可以是最低級別證據[10]。這樣的證據分級方法清晰、易操作,大量臨床指南制定時應用這樣的分級方法,在國內指南中大量應用的 A-D 級證據的定義就是因循這樣的標準提出的[11]。但在指南制定過程中,這樣的證據分級比較適合治療學問題的證據評估,不太適用于診斷學或預后問題的證據評估,因為診斷或預后問題一般不開展 RCT 研究,因此證據級別只能在 C 級或 D 級。
2000 年之后,證據評價擴展到干預性研究之外的更多領域。2001 年,由英國 Cochrane 中心聯合循證醫學和臨床流行病學專家制定并發表“英國牛津循證醫學中心標準”,簡稱“牛津標準”,提出了根據臨床問題的領域劃分證據級別,包括病因、診斷、預防、治療、危害、預后、經濟學分析等 7 個領域,每個領域有不同的證據級別劃分標準,從而具有更強的適用性。“牛津標準”于 2011 年完成了證據分級的簡化和更新,增加了篩查領域,刪除了經濟學分析領域[12],從而能使臨床醫生更加快速、方便地判斷證據質量分級。
最后,證據體概念的提出,打破了以“研究類型”為主的評價思路,摒棄了根據研究類型制定等級的方法,而是將研究的設計類型、方法學質量、結果一致性和證據直接性進行綜合考慮。2004 年,由 19 個國家和國際組織組成的 GRADE 工作組提出了 GRADE 標準[13],建立了證據體的概念,將當前能夠檢索到的所有研究類型的證據作為證據體,整體評價證據體的質量,從而劃分證據等級。“證據質量”被定義為在多大程度上相信效應估計值支持作出的推薦。RCT 被定為高質量證據,其質量可因 5 個因素下降,觀察性研究被定為低質量證據,其質量可因 3 個因素上升,最終證據質量被分為高、中、低、極低 4 級。
2 推薦體系的發展
推薦體系往往是與證據分級體系相伴隨產生的。上述提到的證據分級標準,大部分在提出證據分級方法時也一并提出了推薦強度制定標準。例如,1979 年加拿大定期體檢工作組提出的首個醫療領域證據分級和推薦強度標準中,將證據等級分為 3 級,將推薦強度分為 5 級[5]。總結上世紀 80 年代至今 50 余個標準中推薦強度的分類方法的發展,主要是經歷了從單純依賴證據級別到綜合考慮證據級別、利弊、患者意愿和經濟性等的過程。如 1986 年,Sackett[6]提出的標準將證據分級與推薦強度一一對應,即證據分級越高對應推薦強度也越高。1992 年的美國衛生保健政策研究和 1996 年的英格蘭北部循證指南制定項目組提出的標準也是采用證據分級與推薦強度一一對應的方式[7-8]。
2004 年,GRADE 工作組提出的標準中證據級別與推薦強度不再完全一一對應[13]。GRADE 標準將推薦強度定義為在多大程度上確信干預效果利大于弊或弊大于利,并分為強、弱兩級,用“強推薦”表示推薦干預措施利大于弊,用“弱推薦”表示推薦干預措施無論高低質量的證據均顯示利弊相當。GRADE 標準在判定推薦強度時,除了考慮證據等級,同時也考慮利弊平衡、患者的價值觀和意愿、經濟性等方面,綜合考慮后判定推薦強度。近年來,有較多學科在編撰指南時采用 GRADE 標準的推薦強度描述方法,也就是前面提到的“強推薦”表示“推薦干預措施利大于弊”,而“弱推薦”表示“推薦干預措施利弊相當”。這個文字描述方法其實是很難理解的,因為“強推薦”可以根據上下文理解為“使用某種治療方法是明確有益的,指南認為推薦這個治療方法利大于弊”,也可以是“某種治療方法是明確有害的,指南認為不推薦這個治療方法利大于弊”。而弱推薦的意思是指,根據現有證據判斷不了是否應該推薦某種治療方法。在部分指南中,會給出一個推薦意見的圖例來讓推薦意見顯得更直觀。但是很多讀者并不真正理解這里面的意思,這是這幾年指南編撰中應該非常注意的一個問題。中國學者在《中國急性缺血性卒中診治指南 2010 版的制定及解讀》中提出,制定指南應遵循規范化的循證方法,并就如何看待指南的循證與共識、國際接軌與本土特點、高端標準與基本要求、研究進展與實際應用、清楚界定與模糊描述、如何使用指南和規范化與個體化提出了獨到的見解;同時認為推薦意見強度應該與證據級別高低一一對應,也應充分重視共識在推薦意見形成中的作用[14]。基于這種觀點,在中華醫學會神經病學分會推出的多部指南中,推薦強度的判定都采用了充分的專家討論和形成共識的流程。這個推薦意見根據治療證據等級較為直接地一一對應推薦意見,與 GRADE 證據評級體系中的升級或者降級證據標準的情況不一致。鑒于上述 2 種推薦意見各自的優缺點,建議結合中文表述的特點對推薦意見再進一步斟酌更合適的描述方法。
3 臨床指南循證制定的質量評價
指南是連接研究證據與臨床實踐的橋梁,主要目的是規范臨床醫療行為、提高醫療服務質量,對指導臨床實踐意義重大。但一個好的指南才能達到以上目的。歐洲卒中組織分別于 2015 年和 2021 年制定過 2 版歐洲卒中學會指南制定標準操作手冊,要求在制定指南時使用 GRADE 證據級別和推薦強度體系[15-16]。美國心臟協會(American Heart Association)/美國卒中協會(American Stroke Association)制定的指南均使用美國心臟病學院(American College of Cardiology)/美國心臟協會制定的證據級別和推薦強度體系[17]。近年,我國發表的臨床指南數量不斷增加,甚至對于同一個疾病的診療或臨床問題存在多部意見相左的指南,使得醫務工作者面臨選擇困難的境遇。因此,對臨床指南進行科學、合理、全面的評價能夠有助于大家進行高效的選擇。
在 2013 年,劉鳴團隊曾使用 AGREE Ⅱ量表中指南開發嚴謹性評價條目對中華醫學會 2010 年—2012 年公開發表的 22 部國內循證制定的指南進行評價,發現指南的評分在 4~7 分不等,但不少指南在檢索方法、外部專家審閱和更新程序方面未清楚描述,提出循證制定臨床實踐指南是當前國內臨床實踐指南發展趨勢,但指南開發方法的嚴謹性和報告規范尚有待提高[18]。
2022 年,中華醫學會雜志社指南與標準研究中心聯合世界衛生組織指南實施與知識轉化合作中心組織全國專家,采用新研發的指南科學性(scientificity)、透明性(transparency)和適用性(applicability)的評級(rankings)工具(縮寫為 STAR,STAR 標準就指南的 11 個領域 39 個條目進行評價,得分滿分為 100 分)[19],對 2021 年醫學期刊發表的
4 結語
循證醫學發展 30 多年來,以證據為基礎的指南對臨床實踐發揮著重大的指導意義,因此充分了解證據分級和推薦體系的發展,采用科學和規范的方法制定指南,才能為臨床實踐提供可靠的工具。
利益沖突:所有作者聲明不存在利益沖突。