臨床實踐指南實施效果評價工具的信效度分析_《中國循證醫學雜志》

作者：

楊楠 ^1,2,3,4,5 , 鄒錕 ^2,3,4,5 , 何思頤 ^1,2,3,4,5 , 曾力楠 ^2,3,4,5 , 李海龍 ^2,3,4,5 , 黃亮 ^2,3,4,5 , 易秋莎 ^2,3,4,5 , 張明月 ⁶ , 黃超 ⁷ ,  王強 ⁷ ,  張伶俐 ^2,3,4,5,8

1. 四川大學華西藥學院（成都 610041）;
2. 四川大學華西第二醫院藥學部（成都 610041）;
3. 四川大學華西第二醫院循證藥學中心（成都 610041）;
4. 國家藥品監督管理局藥物制劑體內外相關性技術研究重點實驗室（成都 610041）;
5. 出生缺陷與相關婦兒疾病教育部重點實驗室（成都 610041）;
6. 中國醫科大學口腔醫學院（沈陽 110002）;
7. 國家衛生健康委醫療管理服務指導中心（北京 100044）;
8. 四川大學華西醫院中國循證醫學中心（成都 610041）;

關鍵詞：

臨床實踐指南實施效果評價工具信度效度

DOI：

10.7507/1672-2531.202308066

視頻：

導出 下載 收藏 掃碼 引用

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

目的評價臨床實踐指南實施效果評價工具的信度及效度。方法以《中國2型糖尿病防治指南（2020版）》作為目標指南，選擇全國不同地區醫療機構的醫務人員及2型糖尿病患者，使用已開發的臨床實踐指南實施效果評價工具開展實證研究。采用Cronbach’ α系數和Spearman-Brown分半系數評價工具內部一致性信度及分半信度，采用內容效度對測量概念的合理性和有效性進行評價，驗證性因子分析計算模型擬合指標及因子載荷，評價結構效度，采用平均萃取變異量比較法評價工具條目的聚合效度及區分效度。結果工具各維度內部一致性信度及分半信度系數在0.650至0.986之間。整體水平的內容效度指數為0.846。驗證性因子分析結果表明，醫務人員條目及患者條目部分擬合指標χ²/df為8.695、6.123，均方根殘差為0.102、0.037，標準化均方根殘差為0.068、0.050，近似誤差均方根為0.102、0.078，擬合優度指數為0.901、0.822，調整擬合優度指數為0.836、0.787，節儉規范擬合指數為0.545、0.788。工具聚合效度及區分效度良好。結論臨床實踐指南實施效果評價工具整體信效度良好，未來需針對維持維度及患者診療效果條目進行優化。

引用本文： 楊楠, 鄒錕, 何思頤, 曾力楠, 李海龍, 黃亮, 易秋莎, 張明月, 黃超, 王強, 張伶俐. 臨床實踐指南實施效果評價工具的信效度分析. 中國循證醫學雜志, 2024, 24(8): 904-909. doi: 10.7507/1672-2531.202308066 復制

臨床實踐指南是在對已有證據的系統評價和對不同干預措施的利弊評估下形成的、旨在優化患者保健服務的最佳推薦意見^[1]，通過建立由強有力科學證據支撐的標準和規范輔助臨床醫務人員開展臨床決策，是規范臨床實踐、提高醫療服務質量的重要手段。研究指出，遵循高質量的指南可避免高達1/3患者的不必要死亡，并減少非必要的醫療花費^[2]。近三十年來，全球臨床實踐指南發表數量不斷增加^{[3, 4]}，然而大量臨床實踐指南被指實施效果不佳^{[5, 6]}。為評價指南質量、推動指南實施，國內外學者對實施效果的促進因素、阻礙因素、實施策略方法等開展大量研究^[7-10]。在前期的系統評價工作中我們發現，對于指南實施效果的測量，現有的研究多基于特定的疾病或指南情境，且多聚焦于指南使用者的認知、態度及依從性問題，尚未有研究開發指南實施效果的通用性評價方法，缺乏基于成熟理論且維度全面的實施效果通用評價工具^{[11, 12]}。

基于以上問題，本團隊組建多學科小組，在系統評價現有臨床實踐指南實施效果評價方法的基礎上，基于實施科學（implementation science）可及-有效-采納-貫徹-維持（reach effectiveness adoption implementation maintenance，RE-AIM）理論框架，經過兩輪德爾菲專家咨詢，制定形成多維度、通用性、標準化的臨床實踐指南實施效果評價工具（guideline implementation success assessment tool，A-GIST），用于指南實施效果的科學評價和實施監測，從醫務人員、患者兩視角科學、精準評估指南的實施效果，探索實施效果影響因素，推動指南實施水平的提升和醫療質量的持續改進。

在工具制定完成后，為保證所研制工具的準確性和科學性，通常采用定性及定量的方法評價測量工具的性能^[13]，主要對所設計的測量工具是否符合要求、結果是否可信與有效進行評價，即信效度評價。其中，信度評價主要考察測量工具的精確性、穩定性和一致性，即測量過程中隨機誤差造成的測定值變異程度的大小，而效度主要考察準確度、有效性和正確性，即考察實際測定結果與預定結果的符合程度^[13-15]。

本研究選取《中國2型糖尿病防治指南（2020版）》^[16]為目標指南開展實證研究，旨在對前期開發的臨床實踐指南實施效果評價工具的信效度進行評價，綜合評估該工具的準確性與有效性，為工具的后續優化工作提供依據。

1 對象與方法

1.1 臨床實踐指南實施效果評價工具

臨床實踐指南實施效果評價工具基于標準的量表工具開發流程及EQUATOR相關報告規范科學制定^{[17, 18]}，用于調查發布時間1年以上的臨床實踐指南的實施效果，不區分被調查指南所涉疾病或指南類型。該工具共包含20個條目，從指南的“獲知”（3條目）、“采納”（4條目）、“實踐”（2條目）、“臨床效果”（5條目：包括醫務人員評價條目3個，患者評價條目2個）及“維持”（3條目）5個維度對指南的實施效果進行綜合考察，同時考察“指南實施效果的障礙和促進因素”（1條目）及“總體評價”（2條目）。實際調查時，同時開展醫務人員調查及患者調查，綜合調查結果計算目標指南實施效果的最終得分（工具條目見附件表1）。

1.2 目標指南的選擇

臨床實踐指南實施效果評價工具對被調查指南的基本要求包括：① 臨床實踐指南；② 發表時間一年以上，且為最新版本的指南；③ 權威機構發表，指南質量良好。基于以上基本原則，本研究從研究價值、調查適配性、指南權威性、臨床適用性層面綜合考量，選定2021年由中華醫學會糖尿病學分會牽頭修訂完成的《中國2型糖尿病防治指南（2020版）》作為目標指南^[16]。作為基于循證證據的臨床實踐指南，該指南發布后得到廣泛的傳播與使用，研究證實其臨床適用性（即可獲得性、可讀性、可接受性、可行性）良好^[19]。選擇《中國2型糖尿病防治指南（2020版）》作為目標指南開展實證研究和工具的信效度檢驗，有助于掌握指南的實施效果，為有效推進糖尿病防控工作提供助力。

1.3 調查對象與調查方法

在2022年10月至12月期間，采用目的性抽樣方法，選取全國不同地區、不同層級醫療機構開展調查。選取各醫療機構2型糖尿病診療活動相關科室（如內分泌科、老年科等），采取便利抽樣法在各科室中抽取調查對象，在說明調查內容和目的后，由科室聯系人統一向調查對象發放電子問卷。

調查對象包括臨床醫務人員及患者。臨床醫務人員包含醫生、護士及藥師，工作年限、職稱等不限，涵蓋高、中、初級等職稱。被調查患者為臨床診斷為2型糖尿病的成年患者，年齡≥18歲，于被調查醫療機構因“2型糖尿病”就診，要求能夠獨立完成問卷填寫，其他條件不限。臨床醫務人員及2型糖尿病患者分別填寫相應電子問卷。研究者在線訪問電子問卷結果，實時跟進調查進度。

1.4 樣本量的計算

根據對結果進行多因素分析的研究需要，調查研究樣本量預估為影響因素的5～20倍^[20]，設定樣本量為影響因素的10倍、失訪率20%，計算得到最小樣本量為醫務人員216例，患者384例。為平衡地域及醫療機構因素，使各地域間均衡可比，保證檢驗效能，最終設計目標樣本量為醫務人員640例，患者800例，即：調查醫療機構總數40家（其中三級醫院25家，二級醫院15家，覆蓋東、中、西部地區），每家醫院調查2型糖尿病診療相關科室（內分泌科、老年科等）臨床醫務人員16人，同時每家醫院調查2型糖尿病患者20人（其中門診患者10人，住院患者10人）。

1.5 數據清理

使用Excel 2016軟件，由兩位研究人員對回收的問卷進行數據清理，核對納入信息的準確性，剔除不合格問卷后對于各選項答案進行標化及歸一化，驗證答案邏輯。不合格問卷的判定原則：含基本信息在內的問題回答不全，但不包括本身題目邏輯設置的問題跳過。不一致的數據與第三位研究人員查閱原始數據并討論后確認。

1.6 統計分析

1.6.1 結果處理與評分計算

將醫務人員及患者問卷調查結果合并，各個維度及總體評價得分進行標準化處理，通過擬定的評分計算方法獲得相應維度及最終得分。采用均值、標準差、中位數、四分位數間距、最大值、最小值、率等指標描述各維度評分、總體評價得分及維度加和得分。

1.6.2 信度分析

針對納入工具評分計算的可量化條目，采用內部一致性信度及分半信度評價工具內在信度^{[13, 14, 21-23]}：通過計算各維度評分及整體工具的Cronbach’ α系數得出內部一致性信度；采用奇偶分半法隨機將評價條目平分為2組，利用Spearman-Brown方法計算分半系數得出分半信度。如遇反向題目，將選項反向后進行分析。一般認為信度>0.7時穩定性高，>0.6可接受^{[21, 23]}。

1.6.3 效度分析

采用內容效度對評價工具條目測量相關概念的合理性和有效性進行評價^{[14, 15]}。

結構效度反映量表理論結構與實際測量數據的相似程度，而因子分析是評價結構效度最常用、最有效的方法^{[13, 24, 25]}。由于本評價工具基于特定的理論框架研制，采用結構方程模型進行驗證性因子分析，以評價結構效度^{[13, 24]}：采用AMOS 28軟件繪制模型路徑圖，選擇最大似然估計法或廣義最小二乘法對模型進行擬合，模型的擬合評價指標包括^{[13, 21-24, 26]}：① 絕對擬合指標：卡方/自由度（χ²/df），均方根殘差（RMR），標準化均方根殘差（SRMR），近似誤差均方根（RMSEA），擬合優度指數（GFI），調整擬合優度指數（AGFI）等；② 相對擬合指標：規范擬合指數（NFI），比較擬合指數（CFI）等；③ 節儉擬合指標：節儉規范擬合指數（PNFI）；④ 各條目因子載荷（λ≥0.71時質量佳，但不應低于0.40）。

采用平均萃取變異量比較法^[24]，通過對比平均萃取變異量（average variance extracted，AVE）的平方根（）與相關系數值對區分效度進行檢驗。若>相關系數值，則說明區分效度良好。若AVE>0.5且組合信度值CR>0.6，則說明聚合效度良好。

所有統計分析采用SPSS Statistics 23統計軟件及SPSS Amos 28軟件包完成。

2 結果

2.1 問卷回收情況

本研究最終實際調查醫療機構55家，其中三級醫療機構35家（其中東部地區17家，西部10家，中部8家）、二級醫療機構20家（其中東部8家，西部7家，中部5家）。累積發放醫務人員問卷751份，剔除不合格問卷7份，回收有效問卷744份，有效回收率99.1%；發放患者問卷843份，回收有效問卷843份，有效回收率100%。

2.2 《中國2型糖尿病防治指南（2020年版）》實施效果得分

《中國2型糖尿病防治指南（2020年版）》實施效果各維度和總得分見附件表2。結果顯示，該指南總得分中位數為88.24分，均值為75.20分；在各維度得分中，臨床效果維度得分最低（中位數為75.22分）。

2.3 信度分析

2.3.1 內部一致性信度

內部一致性信度分析結果見附件表3，醫務人員條目Cronbach’ α系數為0.903，患者條目Cronbach’ α系數為0.932，整體信度高；各維度Cronbach’ α系數均大于0.6，各維度內部一致性信度良好。

2.3.2 分半信度

使用Spearman-Brown公式計算分半信度系數，見附件表3，醫務人員及患者條目分半系數分別為0.873、0.852，分半信度佳。

2.4 效度分析

2.4.1 內容效度

本工具采用科學的制定方法研制完成：系統評價國內外臨床實踐指南實施效果的評價方法，基于主題綜合法提取、歸納評價條目，基于實施科學RE-AIM理論框架，經多次面對面討論搭建實施效果評價條目清單。通過專家共識會議及兩輪德爾菲專家咨詢收集專家對維度或條目的評分及建議，對擬定的評價工具進行修訂，最終形成臨床實踐指南實施效果評價工具。

工具制定過程中，通過開展兩輪德爾菲專家咨詢，對評價工具的條目重要性、熟悉程度、條目判斷依據、維度與條目的相關性及通俗易懂性進行評價。結果表明，工具具有良好的內容效度：最終70%條目的條目水平的內容效度值超過閾值（即I-CVI≥0.78），90%條目經隨機一致性校正后的Kappa值達標（即K*>0.74），整體水平的內容效度高（S-CVI/Ave=0.846）。

2.4.2 結構效度、聚合效度與區分效度

根據本臨床實踐指南實施效果評價工具的理論結構，對醫務人員及患者條目分別構建結構方程模型評價結構效度、聚合效度及區分效度。

2.4.2.1 醫務人員條目

以“獲知-采納-實踐-臨床效果-維持”5維度作為潛變量，各維度下可量化條目作為觀測變量，在AMOS 28軟件包中構建多維結構方程模型（附件圖1），選擇廣義最小二乘法對模型進行擬合。排除無法對選項進行賦分的條目（如對于時間節點的調查），對于涉及多項選擇的條目，基于調查對象選擇項數的多少對其進行賦值。基于工具的基本概念及內在邏輯，最終，條目1、3～6、8～12、15～17納入模型構建。

模型擬合結果及因子載荷情況見附件表4、5。除維持維度下條目3因子載荷較低，即該條目對維持維度貢獻較少外，其余條目的因子載荷均達標，多數條目均能有效反映潛變量的特征。模型χ²/df=8.695，絕對擬合指標RMR、SRMR、RMSEA均小于或接近0.10，GFI>0.90，相對擬合指標AGFI接近0.90，節儉擬合指標PNFI>0.50，模型擬合程度可接受，理論結構較為合理。

聚合效度分析結果見附件表5，除維持維度AVE值接近0.5的閾值外，其余維度AVE及CR值均達標，聚合效度良好。區分效度分析結果見附件表6，除獲知及采納維度外，其余維度間均大于相關系數值，獲知及采納維度的區分效度有待提高。

2.4.2.2 患者條目

以患者條目（診療效果、生活質量）為二階潛變量，生活質量條目下各評價層次為一階潛變量，各條目下實際問題作為觀測變量構建二階結構方程模型（附件圖2），采用最大似然法對模型進行擬合。患者條目下Q1-3、Q’3-26納入模型構建，其余條目因已知與所測量的概念無關而被排除。

模型擬合結果及因子載荷情況如下（附件表7、8），除生理層次下Q’3、Q’4及心理層次下Q’26因子載荷過低外，其余問題因子載荷達標，表示多數問題能有效反映潛變量的特征。模型χ²/df=6.123，絕對擬合指標RMR、SRMR、RMSEA小于0.10，GFI、NFI、CFI值接近0.90，節儉擬合指標PNFI>0.50，表明患者條目結構方程模型擬合程度良好，模型理論結構合理。

聚合效度分析結果顯示（附件表8），診療效果條目AVE值未達標，即所設條目無法反映同一潛在特質，生活質量條目下生理層次及心理層次AVE值接近閾值（0.50）。對患者條目區分效度的分析結果顯示，診療效果與生活質量條目間（0.640）大于相關系數值（0.366）（P<0.01），區分效度達標。

3 討論

本研究針對《中國2型糖尿病防治指南（2020版）》開展實證研究，以對臨床實踐指南實施效果評價工具的信效度進行評價。

信度分析結果表明，該工具能穩定測量所測量的結果，即具有良好的信度水平：醫務人員條目及患者條目的整體Cronbach’ α系數、分半信度系數分別為0.903、0.873及0.932、0.852，各維度Cronbach’ α系數在0.650至0.986之間，提示評價條目以及各維度的信度良好。指南研究與評價工具（appraisal of guidelines research and evaluation，AGREE）及AGREEⅡ工具是由AGREE協作網發布的用于臨床實踐指南質量評價的評估工具，作為指南質量評價的“金標準”，該工具在制定中同樣進行了信效度評價，結果表明，AGREE工具各維度Cronbach’ α系數在0.64～0.88之間，AGREEⅡ工具各維度Cronbach’ α系數在0.64～0.89之間^{[27, 28]}。曾力楠等研發了指南臨床適用性評價工具并評價其信效度，結果表明，該工具各維度及整體的Cronbach’ α系數在0.728～0.846之間^[29]。與其他指南評價工具相比較，本工具具有良好的信度水平。

效度分析結果表明，臨床實踐指南實施效果評價工具整體效度良好：對于內容效度，得益于工具研制過程采用嚴謹的制定流程和科學的理論框架，及收集專家咨詢結果對工具的結構及內容進行的反復修訂，多數（18/20）條目水平的內容效度佳（K*>0.74），整體水平的內容效度高（S-CVI/Ave=0.846），所設條目能夠反映測量目的和要求。對于結構效度而言，醫務人員條目部分擬合指標RMR、SRMR、RMSEA及AGFI達到或接近閾值水平，GFI及PNFI超過閾值，模型擬合程度可接受；除維持維度外聚合效度良好，獲知與采納維度區分效度有待提高。患者條目部分多數擬合指標達到或接近閾值，擬合程度良好，結構合理。

綜合信效度評價的結果可以看出，本評價工具具有良好的信效度水平，工具測量結果較為穩定可靠。本次效度評價中存在未達理想的指標，究其原因可能為：首先，條目設置有待改進，所設條目不能很好反映所要測量的維度內涵，在后續對工具的改進工作中，將針對本次效度評價中未達標條目進行改進：針對醫務人員條目部分，通過修改表述、增補或刪減條目等方式進一步改進模型理論結構，提高整體擬合水平，調整維持維度下條目設置，提高其聚合效度，而考慮提高獲知及采納維度的區分度；對于患者條目部分，需要重點考慮患者診療效果評價的條目設置，提高聚合效度。其次，本次信效度評價與目標指南實施效果評價的實證研究并行，由于實際開展工作的限制，采用遠程調研的方法，難以對納入研究樣本的質量進行較好的把控，可能存在樣本量過大而異質性高、樣本質量參差不齊等問題。在后續進一步的改進和驗證工作中，將重點考慮研究的質量控制。

由于研究時間和成本的限制，本研究僅選取一部臨床實踐指南進行實施效果評價并作為工具的信效度評價，研究結果的代表性尚有不足，后期將對更多指南開展實施效果評價，并行工具的信效度分析，以進一步驗證工具的可靠性和有效性，為完善和工具優化提供依據。

綜上所述，本研究采用先前研制的臨床實踐指南實施效果評價工具，針對《中國2型糖尿病防治指南（2020版）》在全國醫療機構的臨床醫務人員及患者中開展實證研究，進行信效度評價以考察該評價工具性能。研究結果反映本評價工具整體信效度良好，臨床效果中患者條目部分及維持維度效度有待提高。后續改進工作將針對信效度評價中表現不佳的條目進行調整以滿足信效度要求。此外，將針對更多指南開展實證研究，進一步驗證工具性能，評價我國當前臨床實踐指南實施效果。