引用本文: 高一城, 于子津, 王雅琪, 方銳, 王程, 李媛媛, 鄧迎杰, 向文遠, 費宇彤. 指南臨床問題重要性評級中的變異度評價及實例研究. 中國循證醫學雜志, 2024, 24(10): 1198-1204. doi: 10.7507/1672-2531.202402106 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
臨床實踐指南是指導臨床醫生進行臨床診療的聲明性文件,其制訂質量在一定程度上影響了臨床決策,而臨床問題構建是指南制訂中的首要關鍵環節[1,2]。臨床問題構建的方法目前仍是一個不成熟的領域[3],指南制訂者和指南方法學研究者將更多的精力傾注于采用各種方法進行問題優先性選擇[4-8],卻時常忽略一個重要的點,即在優先性選擇之前,應當確保盡可能全面地收集臨床問題和觀點。如何構建考慮得更全面的臨床問題清單,需要兼顧臨床醫生不同的臨床經驗、實踐背景、價值觀等[9-13],例如,在膝骨關節炎指南制訂中,需要考慮疾病相關的臨床醫生如針灸醫生、推拿醫生、骨科醫生等的價值觀、臨床資歷和學術背景等,并且還需要考慮醫生對眾多干預措施的使用情況和偏好[14],而如何去評估及應用各種“不同”所帶來的差異,是一個值得探究的科學問題。
根據前期的文獻探究[15],變異性在指南臨床問題構建中的應用較多[16,17],但是較為局限,多用于確定共識組專家意見的一致性程度,通常追求變異度低,然而,對于其特性的全面理解及變異性內在機制和原因的探討不足。變異性是一個由多種原因導致的綜合概念,常用變異性系數(coefficient variation,CV)表示。變異性大小反應的是共性和個性問題,變異性大,說明被調查者之間的分歧較大,個性特征突出;而變異性小說明被調查者之間分歧較小,共性特征更為明顯。
本研究針對臨床問題構建中的變異性,在膝骨關節炎指南制訂實例中進行了探索,使用CV對其進行量化,并探究不同調研結果中變異性的內在機制,為指南制訂者提供參考[15]。
1 方法
1.1 膝骨關節炎指南的臨床問題構建
經過前期的文獻檢索、專家定性訪談、焦點小組討論等,同時,結合病例引導式臨床問題構建的方式,請臨床醫生回憶實踐中的真實病例,并基于其中的決策難點提出臨床問題。最后由主席及多位臨床專家討論形成了初步的臨床問題清單。共包含14個臨床問題,均采用PICO(population, intervention, comparator, outcome)格式構建[18],保證其結構合理及表述規范[19]。本研究中的臨床調研將在此14個臨床問題基礎上進行(表1)。

1.2 臨床問卷的設計和發放
根據前期的文獻梳理和3位主席及臨床專家的討論,將14個臨床問題分為4個小主題:① 無手術指征;② 有修復性手術指征;③ 有重建性手術指征但保守治療;④ 重建性手術術后康復期。并且界定每個小主題下的臨床問題采用一套結局。
采用9分制對臨床問題和結局重要性進行評分,分值越高代表重要性程度越大。針對臨床問題,7~9分代表臨床問題為高優先級;4~6分為中優先級;1~3分為低優先級。針對結局,7~9分代表非常重要;4~6分代表重要但不優先;1~3分代表不重要。對臨床問題進行評分時,設置了6個標準輔助臨床醫生進行判斷[5,6],同時,請臨床醫生根據經驗判斷問題的答案(圖1)。

通過問卷星發放問卷,擬在全國30個省、市、自治區范圍內調研200~500名不同經驗和資格的臨床醫生,并確保每個省份均有針灸科、推拿科、骨科醫生參與。在多學科共識組(共25位,包括20位臨床專家、1位護理學專家、3位方法學專家、1位衛生經濟學專家)中發放相同問卷。收集兩者結果后舉行面對面共識會議,在共識會議中,呈現臨床調研和共識組關于臨床問題和結局重要性評分、CV的結果,并提醒專家注意輔助判斷臨床問題的6個標準。在共識會議結束后,再次發放問卷并收集結果(圖2)。

1.3 數據整理及分析
計算臨床問題和結局重要性評分的均值和CV,并分析判斷臨床問題重要性的6個標準的變異性,同時,分析了臨床醫生根據經驗所判斷的問題答案。通過IBM SPSS Statistics和Microsoft Excel完成了匯總分析。
2 結果
2.1 問卷結果的基本信息
共收集醫生問卷356份,中醫醫師占71.6%(255名);針灸科、推拿科、骨科醫生問卷比例約為1∶1∶1(105∶123∶122);98.9%(352名)的醫生對膝骨關節炎熟悉;總體來講,90%(320名)的臨床醫生對各項中醫干預措施是熟悉的,并且針灸醫生和推拿醫生對中醫干預措施的熟悉程度高于骨科醫師;95%(338名)的臨床醫生對于西醫非手術治療熟悉,對手術治療熟悉的醫師少于70%且以骨科醫師為主。共識組第一輪收集問卷22份,第二輪收集問卷21份。
2.2 重要性評分的變異性分析
臨床調研中,不論所有臨床問題總體重要性評分大小,CV均大于25%。共識組第一輪調研中,CV與臨床調研結果差別較小。有3個臨床問題(Q8、Q12、Q14)CV小于25%,其中,后兩者為高優先級臨床問題(總體重要性評分≥7分)。經過面對面共識會議討論后,共識組第二輪調研結果發生較大變化,一方面,相比于共識組第一輪結果,除臨床問題Q5,所有臨床問題CV都變小,高優先級臨床問題CV小于25%,而CV大于25%的臨床問題為低優先級(表2)。

根據不同標準判斷某一個臨床問題的重要性評分的CV,從總體上看,不論重要性評分的高低,臨床調研中,CV多在40%以上,而在共識組兩輪調查中CV基本均在40%以下(表3)。

2.3 結局重要性評分的變異性分析
不同小主題下結局重要性評分的變異情況基本一致,以無手術指征患者為例,臨床調研中結局的重要性評分和變異性與共識組第一輪調研差別較小,非常重要結局CV小于30%,而重要但不優先結局變異系數多在30%以上。然而,在共識組第二輪調研中,非常重要結局變異性均小于20%,重要但不優先結局CV集中于30%左右。需要強調的是,結局的重要性等級程度越高,其CV呈現出越小的趨勢(表4)。

2.4 基于臨床經驗的臨床問題答案
總體上,臨床調研和共識組兩輪調查的結果基本一致。無論患者是否具備手術指征,在涉及不同干預措施之間的對比時,相比于單獨的中醫治療或西醫治療,至少80%的臨床醫生或共識組專家傾向于選擇聯合治療作為問題答案。在中醫治療與西醫治療(或不治療)相比時(Q1、Q2、Q12),50%左右臨床醫生或專家選擇中醫治療,20%選擇中醫聯合西醫治療。
針對有修復性手術指征的患者,修復性手術治療中醫治療或中醫聯合西醫治療的對比中(Q6、Q7),臨床調研中僅有10%左右的醫生選擇手術治療作為答案,其中,選擇中醫相關治療的多為針灸和推拿醫生,骨科醫生中選擇手術治療或中醫治療的比例差別不大;值得注意的是共識組中醫治療與手術治療(Q6)的選擇較為分散,多數專家認為無法直接判斷,需視情況而定。
針對涉及針灸和推拿的對比(Q5、Q10),針灸醫生和推拿醫生均更傾向于選擇自身專業相關的干預措施,骨科醫生的選擇較為多元化,選擇散布于針灸、推拿、兩者療效相當或不確定的選項。
3 討論
本研究共收集了356份臨床調研問卷,并在共識組中收集了兩輪問卷。發現在臨床問題和結局重要性評分、輔助判斷臨床問題重要性評分的6個標準以及基于臨床經驗的臨床問題答案這4個方面,兩個不同數據來源的變異性相關的調研結果存在差異。
臨床調研與共識組第一輪調研結果的差異較小,兩者的臨床問題重要性評分CV偏大,顯示被調查對象之間分歧偏大。相對于臨床調研和第一輪結果,共識組第二輪結果的臨床問題重要性評分CV明顯變小,說明專家間共識程度高,分歧較小。臨床調研的目的在于通過大范圍的調查獲取盡可能全面的臨床問題和優先性選擇觀點,因此,變異性大符合全面性獲取觀點的預期。因為共識組的構建強調多學科、多價值觀的異質性,以求考慮到指南制訂中盡可能全面的觀點,因此共識組第一輪結果的CV大,恰恰從側面佐證了共識組構建的合理性。共識組第二輪結果是在獲取之前的結果以及進行了面對面討論之后所形成的共識性意見,因此,其共識程度相比于臨床調研結果以及共識組第一輪結果應當更高,所以CV小。
總體上,無論哪種來源的調研結果,尤其是共識組對臨床問題和結局的重要性評分中,高優先級的臨床問題和重要的結局往往呈現出更小的變異性,與之相反的是,重要性評分偏低的臨床問題和結局呈現出CV越大的趨勢。這一結果說明越重要的臨床問題和結局,臨床醫生和專家意見更容易達成共識。
在對基于臨床經驗的問題答案的分析中,無論患者是否具備手術指征,在涉及不同干預措施之間的對比時,聯合治療相比于單獨的中醫治療或西醫治療更容易被選為問題答案,而在中醫治療與手術治療(或西醫治療或不治療)相比時,中醫治療更多地被確定為答案,且以針灸和推拿醫生較多。同時,三個專業的醫生更傾向于選擇自身專業相關的干預措施,以針灸和推拿醫生為甚。這一結果主要體現了臨床醫生實踐背景的變異性,而實踐背景的變異性在三輪調查中的結果基本一致,表明臨床問題構建中盡可能全面地考慮了實踐所帶來的這種不可避免且合理的觀點異質性,保證納入更全面的觀點。
臨床問題的構建需要把握一定的原則,首先要確保盡可能全面地納入不同的觀點,因此要確保變異性較大,臨床調研結果符合此點;同時,也需要在全面的觀點中進行優先選擇并達成共識,此時變異性應當較小,以達到共識結果的一致性,共識組第二輪結果證明了此點。本研究在臨床調研中盡可能納入不同的臨床經驗和資歷的醫生,而共識組中的專家以具有豐富經驗的專家為主,兩者之間的價值觀存在差異,基于6個標準判斷臨床問題重要性的結果(臨床調研和共識組第一輪結果不同)可以從側面印證這一點。
通過梳理國內外文獻發現,臨床問題構建的研究較多集中于問題構建的流程步驟[20-22]、優先性選擇[23]、臨床問題結構化[24]等方面,對于構建過程中所需要考慮的異質性和一致性考慮較少,關于其量化研究和實證研究更少。本研究是第一個將不同原因導致的變異性和一致性在臨床問題構建中進行考慮的研究,并進行了實例研究和分析,從實證的角度解釋了臨床問題構建過程中不同價值觀、實踐背景、臨床經驗所導致的變異性的內在機制。
本研究發現,較少存在變異性很大(CV>50%)的臨床問題或結局,這一點與既往的理論性文獻存在一定差異[18]。可能由于本指南所涉及的膝骨關節炎這一疾病較常見、臨床診療流程相對其他疾病成熟所致,未來針對其他疾病的指南制訂應當進行更多的實例研究以探究變異性的量化應用。另外,由于文章篇幅的限制以及不能將數據全部呈現,本研究僅能以距離形式呈現部分數據,但呈現的距離在本研究中具有普遍性,能夠代表所有臨床問題的數據展示結果。雖然本研究有理論和實踐基礎,并進行了實例探索,但并未對變異性應用的效果和實施過程進行深入的評價,未來需要更多的實例研究,并將實例研究與變異性評價的方法學研究同步進行,以制定評價標準和流程。
變異性的量化應用研究具有切實的方法學價值,能夠輔助臨床問題的優先性選擇,并針對其中的價值觀差異、臨床經驗差異、實踐背景差異等內在機制進行深入探討,有利于指南制訂過程中充分考慮不同因素的影響,制訂出更高質量的指南。
臨床實踐指南是指導臨床醫生進行臨床診療的聲明性文件,其制訂質量在一定程度上影響了臨床決策,而臨床問題構建是指南制訂中的首要關鍵環節[1,2]。臨床問題構建的方法目前仍是一個不成熟的領域[3],指南制訂者和指南方法學研究者將更多的精力傾注于采用各種方法進行問題優先性選擇[4-8],卻時常忽略一個重要的點,即在優先性選擇之前,應當確保盡可能全面地收集臨床問題和觀點。如何構建考慮得更全面的臨床問題清單,需要兼顧臨床醫生不同的臨床經驗、實踐背景、價值觀等[9-13],例如,在膝骨關節炎指南制訂中,需要考慮疾病相關的臨床醫生如針灸醫生、推拿醫生、骨科醫生等的價值觀、臨床資歷和學術背景等,并且還需要考慮醫生對眾多干預措施的使用情況和偏好[14],而如何去評估及應用各種“不同”所帶來的差異,是一個值得探究的科學問題。
根據前期的文獻探究[15],變異性在指南臨床問題構建中的應用較多[16,17],但是較為局限,多用于確定共識組專家意見的一致性程度,通常追求變異度低,然而,對于其特性的全面理解及變異性內在機制和原因的探討不足。變異性是一個由多種原因導致的綜合概念,常用變異性系數(coefficient variation,CV)表示。變異性大小反應的是共性和個性問題,變異性大,說明被調查者之間的分歧較大,個性特征突出;而變異性小說明被調查者之間分歧較小,共性特征更為明顯。
本研究針對臨床問題構建中的變異性,在膝骨關節炎指南制訂實例中進行了探索,使用CV對其進行量化,并探究不同調研結果中變異性的內在機制,為指南制訂者提供參考[15]。
1 方法
1.1 膝骨關節炎指南的臨床問題構建
經過前期的文獻檢索、專家定性訪談、焦點小組討論等,同時,結合病例引導式臨床問題構建的方式,請臨床醫生回憶實踐中的真實病例,并基于其中的決策難點提出臨床問題。最后由主席及多位臨床專家討論形成了初步的臨床問題清單。共包含14個臨床問題,均采用PICO(population, intervention, comparator, outcome)格式構建[18],保證其結構合理及表述規范[19]。本研究中的臨床調研將在此14個臨床問題基礎上進行(表1)。

1.2 臨床問卷的設計和發放
根據前期的文獻梳理和3位主席及臨床專家的討論,將14個臨床問題分為4個小主題:① 無手術指征;② 有修復性手術指征;③ 有重建性手術指征但保守治療;④ 重建性手術術后康復期。并且界定每個小主題下的臨床問題采用一套結局。
采用9分制對臨床問題和結局重要性進行評分,分值越高代表重要性程度越大。針對臨床問題,7~9分代表臨床問題為高優先級;4~6分為中優先級;1~3分為低優先級。針對結局,7~9分代表非常重要;4~6分代表重要但不優先;1~3分代表不重要。對臨床問題進行評分時,設置了6個標準輔助臨床醫生進行判斷[5,6],同時,請臨床醫生根據經驗判斷問題的答案(圖1)。

通過問卷星發放問卷,擬在全國30個省、市、自治區范圍內調研200~500名不同經驗和資格的臨床醫生,并確保每個省份均有針灸科、推拿科、骨科醫生參與。在多學科共識組(共25位,包括20位臨床專家、1位護理學專家、3位方法學專家、1位衛生經濟學專家)中發放相同問卷。收集兩者結果后舉行面對面共識會議,在共識會議中,呈現臨床調研和共識組關于臨床問題和結局重要性評分、CV的結果,并提醒專家注意輔助判斷臨床問題的6個標準。在共識會議結束后,再次發放問卷并收集結果(圖2)。

1.3 數據整理及分析
計算臨床問題和結局重要性評分的均值和CV,并分析判斷臨床問題重要性的6個標準的變異性,同時,分析了臨床醫生根據經驗所判斷的問題答案。通過IBM SPSS Statistics和Microsoft Excel完成了匯總分析。
2 結果
2.1 問卷結果的基本信息
共收集醫生問卷356份,中醫醫師占71.6%(255名);針灸科、推拿科、骨科醫生問卷比例約為1∶1∶1(105∶123∶122);98.9%(352名)的醫生對膝骨關節炎熟悉;總體來講,90%(320名)的臨床醫生對各項中醫干預措施是熟悉的,并且針灸醫生和推拿醫生對中醫干預措施的熟悉程度高于骨科醫師;95%(338名)的臨床醫生對于西醫非手術治療熟悉,對手術治療熟悉的醫師少于70%且以骨科醫師為主。共識組第一輪收集問卷22份,第二輪收集問卷21份。
2.2 重要性評分的變異性分析
臨床調研中,不論所有臨床問題總體重要性評分大小,CV均大于25%。共識組第一輪調研中,CV與臨床調研結果差別較小。有3個臨床問題(Q8、Q12、Q14)CV小于25%,其中,后兩者為高優先級臨床問題(總體重要性評分≥7分)。經過面對面共識會議討論后,共識組第二輪調研結果發生較大變化,一方面,相比于共識組第一輪結果,除臨床問題Q5,所有臨床問題CV都變小,高優先級臨床問題CV小于25%,而CV大于25%的臨床問題為低優先級(表2)。

根據不同標準判斷某一個臨床問題的重要性評分的CV,從總體上看,不論重要性評分的高低,臨床調研中,CV多在40%以上,而在共識組兩輪調查中CV基本均在40%以下(表3)。

2.3 結局重要性評分的變異性分析
不同小主題下結局重要性評分的變異情況基本一致,以無手術指征患者為例,臨床調研中結局的重要性評分和變異性與共識組第一輪調研差別較小,非常重要結局CV小于30%,而重要但不優先結局變異系數多在30%以上。然而,在共識組第二輪調研中,非常重要結局變異性均小于20%,重要但不優先結局CV集中于30%左右。需要強調的是,結局的重要性等級程度越高,其CV呈現出越小的趨勢(表4)。

2.4 基于臨床經驗的臨床問題答案
總體上,臨床調研和共識組兩輪調查的結果基本一致。無論患者是否具備手術指征,在涉及不同干預措施之間的對比時,相比于單獨的中醫治療或西醫治療,至少80%的臨床醫生或共識組專家傾向于選擇聯合治療作為問題答案。在中醫治療與西醫治療(或不治療)相比時(Q1、Q2、Q12),50%左右臨床醫生或專家選擇中醫治療,20%選擇中醫聯合西醫治療。
針對有修復性手術指征的患者,修復性手術治療中醫治療或中醫聯合西醫治療的對比中(Q6、Q7),臨床調研中僅有10%左右的醫生選擇手術治療作為答案,其中,選擇中醫相關治療的多為針灸和推拿醫生,骨科醫生中選擇手術治療或中醫治療的比例差別不大;值得注意的是共識組中醫治療與手術治療(Q6)的選擇較為分散,多數專家認為無法直接判斷,需視情況而定。
針對涉及針灸和推拿的對比(Q5、Q10),針灸醫生和推拿醫生均更傾向于選擇自身專業相關的干預措施,骨科醫生的選擇較為多元化,選擇散布于針灸、推拿、兩者療效相當或不確定的選項。
3 討論
本研究共收集了356份臨床調研問卷,并在共識組中收集了兩輪問卷。發現在臨床問題和結局重要性評分、輔助判斷臨床問題重要性評分的6個標準以及基于臨床經驗的臨床問題答案這4個方面,兩個不同數據來源的變異性相關的調研結果存在差異。
臨床調研與共識組第一輪調研結果的差異較小,兩者的臨床問題重要性評分CV偏大,顯示被調查對象之間分歧偏大。相對于臨床調研和第一輪結果,共識組第二輪結果的臨床問題重要性評分CV明顯變小,說明專家間共識程度高,分歧較小。臨床調研的目的在于通過大范圍的調查獲取盡可能全面的臨床問題和優先性選擇觀點,因此,變異性大符合全面性獲取觀點的預期。因為共識組的構建強調多學科、多價值觀的異質性,以求考慮到指南制訂中盡可能全面的觀點,因此共識組第一輪結果的CV大,恰恰從側面佐證了共識組構建的合理性。共識組第二輪結果是在獲取之前的結果以及進行了面對面討論之后所形成的共識性意見,因此,其共識程度相比于臨床調研結果以及共識組第一輪結果應當更高,所以CV小。
總體上,無論哪種來源的調研結果,尤其是共識組對臨床問題和結局的重要性評分中,高優先級的臨床問題和重要的結局往往呈現出更小的變異性,與之相反的是,重要性評分偏低的臨床問題和結局呈現出CV越大的趨勢。這一結果說明越重要的臨床問題和結局,臨床醫生和專家意見更容易達成共識。
在對基于臨床經驗的問題答案的分析中,無論患者是否具備手術指征,在涉及不同干預措施之間的對比時,聯合治療相比于單獨的中醫治療或西醫治療更容易被選為問題答案,而在中醫治療與手術治療(或西醫治療或不治療)相比時,中醫治療更多地被確定為答案,且以針灸和推拿醫生較多。同時,三個專業的醫生更傾向于選擇自身專業相關的干預措施,以針灸和推拿醫生為甚。這一結果主要體現了臨床醫生實踐背景的變異性,而實踐背景的變異性在三輪調查中的結果基本一致,表明臨床問題構建中盡可能全面地考慮了實踐所帶來的這種不可避免且合理的觀點異質性,保證納入更全面的觀點。
臨床問題的構建需要把握一定的原則,首先要確保盡可能全面地納入不同的觀點,因此要確保變異性較大,臨床調研結果符合此點;同時,也需要在全面的觀點中進行優先選擇并達成共識,此時變異性應當較小,以達到共識結果的一致性,共識組第二輪結果證明了此點。本研究在臨床調研中盡可能納入不同的臨床經驗和資歷的醫生,而共識組中的專家以具有豐富經驗的專家為主,兩者之間的價值觀存在差異,基于6個標準判斷臨床問題重要性的結果(臨床調研和共識組第一輪結果不同)可以從側面印證這一點。
通過梳理國內外文獻發現,臨床問題構建的研究較多集中于問題構建的流程步驟[20-22]、優先性選擇[23]、臨床問題結構化[24]等方面,對于構建過程中所需要考慮的異質性和一致性考慮較少,關于其量化研究和實證研究更少。本研究是第一個將不同原因導致的變異性和一致性在臨床問題構建中進行考慮的研究,并進行了實例研究和分析,從實證的角度解釋了臨床問題構建過程中不同價值觀、實踐背景、臨床經驗所導致的變異性的內在機制。
本研究發現,較少存在變異性很大(CV>50%)的臨床問題或結局,這一點與既往的理論性文獻存在一定差異[18]。可能由于本指南所涉及的膝骨關節炎這一疾病較常見、臨床診療流程相對其他疾病成熟所致,未來針對其他疾病的指南制訂應當進行更多的實例研究以探究變異性的量化應用。另外,由于文章篇幅的限制以及不能將數據全部呈現,本研究僅能以距離形式呈現部分數據,但呈現的距離在本研究中具有普遍性,能夠代表所有臨床問題的數據展示結果。雖然本研究有理論和實踐基礎,并進行了實例探索,但并未對變異性應用的效果和實施過程進行深入的評價,未來需要更多的實例研究,并將實例研究與變異性評價的方法學研究同步進行,以制定評價標準和流程。
變異性的量化應用研究具有切實的方法學價值,能夠輔助臨床問題的優先性選擇,并針對其中的價值觀差異、臨床經驗差異、實踐背景差異等內在機制進行深入探討,有利于指南制訂過程中充分考慮不同因素的影響,制訂出更高質量的指南。