引用本文: 劉冰清, 溫澤淮, 周莉. 基于項目反應理論修訂中西醫結合圍手術期康復量表的研究. 中國循證醫學雜志, 2024, 24(4): 439-444. doi: 10.7507/1672-2531.202308075 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
量表是用于揭示不易于用直接方法測量的理論變量水平的一種測量工具[1],是由多個問題或自我評分指標組成的標準化測定表單[2],廣泛應用于心理學、醫學和社會學等領域[3]。圍手術期是指從確定手術治療時起至與本次手術有關的治療基本結束為止的一段時間[4]。對于此段時間患者的恢復,生存率、手術切除率、生存時間和并發癥發生率是傳統的評價指標。隨著醫學模式的轉變,只考慮這些傳統指標是不夠的,還應重視患者術后心理、社會生活等方面的問題。
中醫學重視人的主觀感受,與現代醫學生存質量的概念不謀而合,將兩者結合起來共同評價外科術后病人恢復狀況,可更好體現中西醫結合特點,中西醫結合圍手術期康復量表(perioperative recovery scale for the integrated medicine,PRSIM)正是在此背景下研制的。該量表涵蓋5個領域(直接影響、間接影響、活動能力、精神狀態和一般健康評估)共20項條目,答案采用Likert五點法[5],并應用經典測量理論(classical test theory,CTT)進行了考評,結果顯示該量表有良好的信度和效度[6]。在量表評價方面,CTT應用廣泛,具有模型建立簡單等優點,被用于篩選條目和測評工具評價[7]。然而,CTT主要是從宏觀層面對量表進行評價,對量表中的具體條目并未給予足夠的重視[8]。項目反應理論(item response theory,IRT)則是采用不同數學模型來反映調查對象對條目的反應模式及其潛在特質之間的非線性關系,主要應用于心理和教育測量當中[9]。相比CTT在信度估計精度不夠準確、過于依賴樣本等方面的局限性,IRT則具備了以下優點:采用非線性模型更貼合事實[10];調查對象的潛在特質不依賴于特定的測驗條目;參數估計也不依賴于調查對象的潛在特質;測驗信息函數代替信度理論,避免平行測驗的假定,提高了測量精度等[11]。
PRSIM前期研究雖然信效度尚可,但因研究對象是圍手術期人群,臨床應用中發現術后第1~3天的患者因身體尚虛,填寫量表相對困難,大部分需要協助才能完成。同時患者完成整個量表花費時間較長,平均需要5.94 min(時間范圍為1 min~20 min),對患者造成一定壓力。另外,量表的個別條目也存在患者不易理解的問題。因此,本研究的主要目的是應用IRT對PRISM進行條目篩選并結合專家咨詢意見進行修訂。同時,本研究對該量表還將進行項目功能差異(differential item functioning,DIF)分析,探究條目在性別、年齡、教育程度、職業以及科別方面是否存在差異,為PRSIM的最終修訂提供依據,為測驗結果的解釋提供更多考慮。
1 方法與資料
1.1 成立核心小組
核心小組成員主要包括課題組成員、臨床流行病學專家和外科領域專家,其主要任務是負責整個量表的修訂工作。
1.2 項目反應理論
1.2.1 數據來源
在前期PRSIM研制過程中,課題組于2012年10月至2013年1月收集了廣東省中醫院外科、婦科、乳腺科及骨科手術后的住院部患者以及體檢人員的數據并進行了PRSIM的信效度評測,結果顯示內部一致性信度、重測信度、分半信度分別為0.7、0.91和0.66,信效度良好[6]。但是,該量表的精神狀態維度的Cronbach’s α系數僅為0.31,刪除條目15和17后顯示量表Cronbach’s α系數有所增加;其結構效度采用驗證性因子分析,結果顯示模型擬合度較好:卡方和自由度的比值(χ2/df)=1.907、擬合優度指數(GFI)=0.92、比較擬合指數(CFI)=0.89、近似誤差均方根(RMSEA)=0.051、標準化均方根殘差值(SRMR)=0.06[6]。在主成分分析中,經過最大方差正交旋轉后,各條目因子載荷不夠理想,存在5項條目因子載荷<0.5。
本研究則是基于前期調查獲得的349例住院患者數據[6]進行IRT分析。349例患者中,女性249例,占總人數的71.3%;外科患者126例,占總人數的35.8%;年齡在18~75歲之間,其均數±標準差為52.95±12.51。
1.2.2 數據管理與統計分析
PRSIM在前期研制時收集的臨床數據采用EpiData 3.1進行數據雙錄入,同時采用SPSS 18.0和Amos 19.0進行數據分析,包括探索性和驗證性因子分析、克朗巴赫系數法,以評測PRSIM的效度和信度[6]。
本研究利用該調查的既有數據進行統計分析。首先,采用SPSS 18.0軟件進行探索性因子分析(主成分法),檢測其單維性[12]。該方法主要是根據探索性因子分析結果匯總第一特征根與第二特征根的比值來判斷,若第一因子的特征根是第二因子特征根的3倍,則可證明該量表具有單維性[13, 14]。基于IRT,根據PRSIM的評分特點,本研究選用IRT中的多級記分模型,使用R 4.2.2軟件程序包“mirt package”,通過Akaike信息準則(AIC)和Bayesian信息準則(BIC)來評估模型擬合優度,其二者的值越小代表模型擬合度越好[15]。選用合適的模型后,采用邊際極大似然估計(marginal maximum likelihood estimation,MMLE)來估算條目的區分度參數a、難度參數b、平均信息量,并結合項目特征曲線(item characteristic curve,ICC)對條目進行篩選修訂。ICC反映了測量中被試能力參數與項目正確反應概率之間的函數關系,曲線范圍在0~1之間[16]。ICC的斜率與區分度參數a對應且成正比,斜率越高表明區分度越高,難度參數b則代表位置參數,主要決定圖形的位置。量表中任一項目都有其ICC,雖每個條目的曲線位置都不太一致,但其曲線類型和分布特征與此函數的特征曲線卻是相吻合的。理想情況下,ICC應該是第1、5兩條曲線呈單調變化,第2、3、4三條曲線呈正態分布。同時,采用R語言的“mirt package”,選用“DIF_test”函數結合期望最大化(EM)算法分別對性別、年齡、教育程度、職業以及科別這五個變量進行DIF分析。
1.3 專家咨詢與患者評價
1.3.1 專家與患者遴選
根據研究目的,遴選專家選取自廣東省中西醫結合學會圍手術期專業委員會,從事圍手術期領域(包括但不限于胃腸外科、婦科、肝膽外科、骨科、肛腸科等)十年以上或具有副高級專業職稱以上者[17],具有豐富的實踐經驗和理論知識。在知情同意和自愿參與原則下,同時選取外科術后一周內能夠自主填寫和清楚問答的患者。
1.3.2 咨詢與評價內容
通過線上問卷星形式對修訂結果再進行專家咨詢,咨詢內容主要包括兩大部分,第一部分內容針對量表各條目內容是否屬于圍手術期康復范圍、其表述是否清晰、是否需要刪除,并給出修改意見;第二部分內容針對量表其他方面進行咨詢,主要為量表適用的手術范圍、測量時點的選擇及補充意見。
患者評價咨詢問卷主要包括患者基本信息、對條目的理解程度和補充意見,采用患者調查問卷的形式進行。
2 結果
2.1 量表的單維性檢驗
單維項目反應理論模型中,首先要對是否為單維量表進行假設驗證,即量表中的任一條目都是測量的同一種潛在特質或能力,以保證其單維性[18]。本研究中PRSIM的因子分析結果見附件表1和圖1。從附件表1可見,PRSIM的第一公因子與第二公因子的特征根之比為3.153,從附件圖1也可看出該碎石圖第一因子的拐點非常明顯,因而可判斷該量表滿足IRT單維性假設檢驗。
2.2 模型擬合
本研究選用IRT中的多級記分模型,通過R語言中的“mirt package”對數據進行模型擬合。AIC和BIC用于評估模型擬合優度,其二者結果見附件表2。在對349例患者的數據進行模型擬合后,分析顯示等級反應模型(graded response model,GRM)比廣義部分信用模型(generalized partial credit model,GPCM)更優(見附件表2)。因而,本研究選用GRM模型。
2.3 IRT參數估計
PRSIM的各條目參數見附件表3。從表3可以看出,PRSIM的區分度系數a取值范圍為?0.535~2.195,難度系數b的取值范圍為?10.343~5.461,條目平均信息量的取值范圍為0.043~1.075。
2.3.1 根據區分度a對條目進行分析
PRSIM中區分度a的平均值為0.961。在IRT中區分度a與信息量是成正比關系,即區分度越高,則表示條目對被試能力估計所提供的信息量就越多[19]。區分度a太小,提示條目提供的信息量過少,但區分度a值太大也會對結果造成影響,容易產生偏差,因而可將區分度系數在[0.3,3]區間外的條目予以刪除[20]。根據表3中各條目的區分度值,可刪除條目17(區分度參數a為?0.535),保留其余19項條目。
2.3.2 根據難度b對條目進行分析
原量表為五級記分,采用R語言“mirt package”進行參數估計時生成了四個難度參數值(b1~b4),原量表中難度b的取值范圍為?10.343~5.461,變化幅度較大。根據IRT理論,難度b和調查對象的潛在能力θ的取值都為正負無窮之間,但在θ取標準分數的量表中,絕大多數的b取值和θ取值都為[?5,5],超出這個范圍則不夠準確,故將難度系數設定在[?5,5]范圍內(難度等級隨b1~b4增加,并呈單調遞增趨勢),若超出這些范圍的條目則可予刪除或修改[21]。根據表3中各條目的難度值,可刪除條目6(b1=?5.873)、條目7(b1=?6.273)、條目8(b1=?6.265)、條目12(b1=?5.327)、條目14(b1=?5.1)、條目15(b1=?10.343,b2=?6.969)、條目16(?5.273)和條目17(b1=5.461),保留剩余12項條目。
2.3.3 根據條目平均信息量對條目進行分析
條目信息量是指各條目在估計調查對象能力時可提供的信息量,條目平均信息量則為信息函數的參數θ在?2、?1、0、1、2這五個點上的平均值[22]。目前關于條目信息量并沒有統一的標準,多數研究將平均信息量大于25/量表總條目數的條目判斷為優,小于16/量表總條目數的條目則判斷為差[23, 24]。當信息量達到25時,按照公式即測量誤差SE=1/=1/
=0.2,且信息量與測量誤差成反比,即信息量越大,測量誤差越小[25]。但為能更全面客觀的反映出條目可信度,本研究以16和5作為量表總體信息量標準,其信度可達到0.94和0.80[26],即條目的平均信息量大于(16/量表總條目數)的條目判斷為優;小于(5/量表總條目數)的條目判斷為差;介于(5/量表總條目數)~(16/量表總條目數)的條目判斷為好[27,28],那么對于項目平均信息量<0.25(5/20)的條目則可予刪除。根據表3可看到估算出的平均信息量值,條目4、條目6、條目7、條目8、條目9、條目12、條目13、條目14、條目15、條目17均低于0.25,將可刪除這10項條目,保留剩余10項條目。
2.4 根據ICC篩選項目
理想的ICC為曲線1、5呈單調變化,曲線2、3、4呈正態分布。若出現條目曲線平緩或部分條目曲線被覆蓋的情況,則可刪除條目[29]。
根據附件圖2的ICC可以看出,以下6個條目的特征曲線有明顯的“扎堆”或“平緩”現象[30]:條目4(q4)、條目8(q8)、條目9(q9)、條目12(q12)、條目15(q15)、條目17(q17),則可將這6項條目予以刪除。
2.5 項目功能差異
由于被試群體的不同,能力水平相同的被試(組)在回答相同項目時會存在不同的作答反應,這種功能性差異被稱作項目功能差異(DIF)[31]。本研究采用R軟件程序包“mirt package”分別對性別、年齡、教育程度、職業以及科別這五個變量進行了DIF分析。從附件表4可見,最終輸出結果均顯示未檢測到存在DIF的條目,故無法繪制DIF圖,可認為在性別、年齡、教育程度、職業和科別這五個變量之間均不存在DIF問題。
2.6 專家咨詢與患者評價
2.6.1 專家與患者基本情況
采取線上問卷星形式向專家發放咨詢問卷,共收回28份問卷。專家基本情況如附件表5所示。專家權威程度見附件圖3。有6位患者參與患者評價,包括2位男性患者和4位女性患者,其中4人為初中教育程度。
2.6.2 問卷結果
專家咨詢結果建議刪除條目2、條目4、條目10、條目16、條目19,而條目3、條目9、條目11、條目13、條目15、條目17、條目18則應予以修改;患者評價結果顯示,6名患者皆表示能夠理解條目內容。結合專家咨詢意見和上述項目反應理論結果,通過課題核心小組討論后,綜合進行條目刪減與題干修訂,最終形成15項條目的PRSIM修訂版,具體如表1所示。

關于量表適用的手術范圍和測量時點的選擇,21名專家認為該量表適用于一至四級術后患者,并建議在術前進行基線測量,術后第1、3、5、7天進行多次測量。在經過核心小組討論后,考慮到量表許多條目(如手術傷口、日常活動困難程度、手術恢復程度等)無法在術前進行測量,決定以術后第1、3、5、7、14天及出院當天為測量時點進行多次測量。盡管不同患者住院時長不一致,但皆可從術后第一天至出院當天的變化觀測其康復情況。
3 討論
本研究采用IRT理論對PRSIM原來版本進行了區分度、難度和平均信息量的參數估計,結合ICC的判斷結果,綜合可刪除11項條目,保留9項條目。項目功能差異分析提示,PRSIM在性別、年齡、教育程度、職業以及科別五個方面不存在DIF問題,表明此量表不存在偏向性,量表項目穩定性較好[32]。其次,根據量表各條目內容是否屬于圍手術期康復范圍、其表述是否清晰、是否需要刪減三個方面進行的專家咨詢,我們刪除5項條目、修改7項條目,患者評價部分也顯示量表條目提問內容通俗易懂。
在IRT分析中,除條目17(“您的放屁情況正常嗎”)以外,其他條目區分度較好,可能是由于該條目的語義含糊使得患者難以準確填寫,這一點在前期進行臨床應用時,患者也有所反映。在難度系數方面,存在8項條目超出[?5,5]取值范圍,主要集中在手術帶來的間接影響、精神狀態和一般健康評估這三方面,且超出值多為負值,提示難度系數偏低,可能是由于這些條目主要涉及患者的主觀感受,調查對象大部分選擇了同一等級,形成了“天花板效應”[33]。研究中除條目17出現逆反現象,其他各條目難度系數則隨難度單調遞增,提示保留下來的條目適中且合理。在根據ICC篩選項目時,有6項條目的特征曲線有明顯的“扎堆”或“平緩”現象,其中條目4和條目9可能是由于語義不明和術后短時間內的疼痛感知偏差導致。
在平均信息量方面,盡管大部分量表采用信度可達0.96和0.94(對應為使用信息量25和16作為總信息量的標準)來計算得到條目平均信息量[34],并將其作為考評量表條目好壞的衡量標準,但在實際應用中,這種信度標準過于嚴苛。為能更全面客觀的反映出條目可信度,我們以16和5(其信度可達0.94和0.8)作為量表總體信息量標準,當平均信息量達到0.25(5/20)的條目即可入選[35]。結果顯示有10項條目低于0.25,且與前面經過區分度、難度和ICC篩選后刪除的條目重合度幾乎一致。這提示原量表的平均信息量不太理想。有報告提示區分度參數與條目信息量大小成正比關系[34]。本研究中,可能由于是醫學康復類的普適性量表,加上術后很多癥狀基本相近,被測者在選擇各條目的不同等級時,由于區分度不高,難免會出現相同等級人數比較集中的現象,因而導致條目得分差異變化不大而使信息量偏低[36]。另外,本研究中的條目平均信息量,是通過信息函數來計算θ參數在?2、?1、0、1、2五個點上的平均值,未能覆蓋到全部信息量,可能會丟失條目的有用信息從而導致條目利用率不夠高,使計算的信息量偏低[34]。根據以上三項參數的估計和ICC的篩選,我們一共建議刪除11項條目(條目4、條目6、條目7、條目8、條目9、條目12、條目13、條目14、條目15、條目16和條目17),保留了其余9項條目(條目1、條目2、條目3、條目5、條目10、條目11、條目18、條目19和條目20)。
專家咨詢是量表研制和修訂常用的方法[37]。本研究的專家咨詢問卷主要從量表條目的準確性、清晰性和保留與否進行咨詢。結果提示,專家咨詢結果與IRT結果不相一致,經課題核心小組充分討論和咨詢專家意見后,在尊重臨床實際的前提下,綜合兩種方法的結果對PRSIM進行了修訂,最終形成15項條目的修訂版PRSIM。
本研究也存在一些不足之處。首先,調查對象僅局限于一家醫院患者,該量表修訂版仍需在更大范圍被測者中進行考評;其次,限于時間未能對修訂版量表進行心理測量學特征的評價;另外,從推廣角度而言,仍需進行多中心研究,并從現代心理測量學和經典測驗理論兩方面來考核量表的測量學特征,包括量表結構效度等。
綜上所述,本研究根據IRT、DIF分析、專家咨詢和患者評價對PRSIM原有的20項條目提出修訂建議,最終形成15項條目的PRSIM修訂版。課題組擬下一步將擴大范圍考評其信度、效度和反應度。
量表是用于揭示不易于用直接方法測量的理論變量水平的一種測量工具[1],是由多個問題或自我評分指標組成的標準化測定表單[2],廣泛應用于心理學、醫學和社會學等領域[3]。圍手術期是指從確定手術治療時起至與本次手術有關的治療基本結束為止的一段時間[4]。對于此段時間患者的恢復,生存率、手術切除率、生存時間和并發癥發生率是傳統的評價指標。隨著醫學模式的轉變,只考慮這些傳統指標是不夠的,還應重視患者術后心理、社會生活等方面的問題。
中醫學重視人的主觀感受,與現代醫學生存質量的概念不謀而合,將兩者結合起來共同評價外科術后病人恢復狀況,可更好體現中西醫結合特點,中西醫結合圍手術期康復量表(perioperative recovery scale for the integrated medicine,PRSIM)正是在此背景下研制的。該量表涵蓋5個領域(直接影響、間接影響、活動能力、精神狀態和一般健康評估)共20項條目,答案采用Likert五點法[5],并應用經典測量理論(classical test theory,CTT)進行了考評,結果顯示該量表有良好的信度和效度[6]。在量表評價方面,CTT應用廣泛,具有模型建立簡單等優點,被用于篩選條目和測評工具評價[7]。然而,CTT主要是從宏觀層面對量表進行評價,對量表中的具體條目并未給予足夠的重視[8]。項目反應理論(item response theory,IRT)則是采用不同數學模型來反映調查對象對條目的反應模式及其潛在特質之間的非線性關系,主要應用于心理和教育測量當中[9]。相比CTT在信度估計精度不夠準確、過于依賴樣本等方面的局限性,IRT則具備了以下優點:采用非線性模型更貼合事實[10];調查對象的潛在特質不依賴于特定的測驗條目;參數估計也不依賴于調查對象的潛在特質;測驗信息函數代替信度理論,避免平行測驗的假定,提高了測量精度等[11]。
PRSIM前期研究雖然信效度尚可,但因研究對象是圍手術期人群,臨床應用中發現術后第1~3天的患者因身體尚虛,填寫量表相對困難,大部分需要協助才能完成。同時患者完成整個量表花費時間較長,平均需要5.94 min(時間范圍為1 min~20 min),對患者造成一定壓力。另外,量表的個別條目也存在患者不易理解的問題。因此,本研究的主要目的是應用IRT對PRISM進行條目篩選并結合專家咨詢意見進行修訂。同時,本研究對該量表還將進行項目功能差異(differential item functioning,DIF)分析,探究條目在性別、年齡、教育程度、職業以及科別方面是否存在差異,為PRSIM的最終修訂提供依據,為測驗結果的解釋提供更多考慮。
1 方法與資料
1.1 成立核心小組
核心小組成員主要包括課題組成員、臨床流行病學專家和外科領域專家,其主要任務是負責整個量表的修訂工作。
1.2 項目反應理論
1.2.1 數據來源
在前期PRSIM研制過程中,課題組于2012年10月至2013年1月收集了廣東省中醫院外科、婦科、乳腺科及骨科手術后的住院部患者以及體檢人員的數據并進行了PRSIM的信效度評測,結果顯示內部一致性信度、重測信度、分半信度分別為0.7、0.91和0.66,信效度良好[6]。但是,該量表的精神狀態維度的Cronbach’s α系數僅為0.31,刪除條目15和17后顯示量表Cronbach’s α系數有所增加;其結構效度采用驗證性因子分析,結果顯示模型擬合度較好:卡方和自由度的比值(χ2/df)=1.907、擬合優度指數(GFI)=0.92、比較擬合指數(CFI)=0.89、近似誤差均方根(RMSEA)=0.051、標準化均方根殘差值(SRMR)=0.06[6]。在主成分分析中,經過最大方差正交旋轉后,各條目因子載荷不夠理想,存在5項條目因子載荷<0.5。
本研究則是基于前期調查獲得的349例住院患者數據[6]進行IRT分析。349例患者中,女性249例,占總人數的71.3%;外科患者126例,占總人數的35.8%;年齡在18~75歲之間,其均數±標準差為52.95±12.51。
1.2.2 數據管理與統計分析
PRSIM在前期研制時收集的臨床數據采用EpiData 3.1進行數據雙錄入,同時采用SPSS 18.0和Amos 19.0進行數據分析,包括探索性和驗證性因子分析、克朗巴赫系數法,以評測PRSIM的效度和信度[6]。
本研究利用該調查的既有數據進行統計分析。首先,采用SPSS 18.0軟件進行探索性因子分析(主成分法),檢測其單維性[12]。該方法主要是根據探索性因子分析結果匯總第一特征根與第二特征根的比值來判斷,若第一因子的特征根是第二因子特征根的3倍,則可證明該量表具有單維性[13, 14]。基于IRT,根據PRSIM的評分特點,本研究選用IRT中的多級記分模型,使用R 4.2.2軟件程序包“mirt package”,通過Akaike信息準則(AIC)和Bayesian信息準則(BIC)來評估模型擬合優度,其二者的值越小代表模型擬合度越好[15]。選用合適的模型后,采用邊際極大似然估計(marginal maximum likelihood estimation,MMLE)來估算條目的區分度參數a、難度參數b、平均信息量,并結合項目特征曲線(item characteristic curve,ICC)對條目進行篩選修訂。ICC反映了測量中被試能力參數與項目正確反應概率之間的函數關系,曲線范圍在0~1之間[16]。ICC的斜率與區分度參數a對應且成正比,斜率越高表明區分度越高,難度參數b則代表位置參數,主要決定圖形的位置。量表中任一項目都有其ICC,雖每個條目的曲線位置都不太一致,但其曲線類型和分布特征與此函數的特征曲線卻是相吻合的。理想情況下,ICC應該是第1、5兩條曲線呈單調變化,第2、3、4三條曲線呈正態分布。同時,采用R語言的“mirt package”,選用“DIF_test”函數結合期望最大化(EM)算法分別對性別、年齡、教育程度、職業以及科別這五個變量進行DIF分析。
1.3 專家咨詢與患者評價
1.3.1 專家與患者遴選
根據研究目的,遴選專家選取自廣東省中西醫結合學會圍手術期專業委員會,從事圍手術期領域(包括但不限于胃腸外科、婦科、肝膽外科、骨科、肛腸科等)十年以上或具有副高級專業職稱以上者[17],具有豐富的實踐經驗和理論知識。在知情同意和自愿參與原則下,同時選取外科術后一周內能夠自主填寫和清楚問答的患者。
1.3.2 咨詢與評價內容
通過線上問卷星形式對修訂結果再進行專家咨詢,咨詢內容主要包括兩大部分,第一部分內容針對量表各條目內容是否屬于圍手術期康復范圍、其表述是否清晰、是否需要刪除,并給出修改意見;第二部分內容針對量表其他方面進行咨詢,主要為量表適用的手術范圍、測量時點的選擇及補充意見。
患者評價咨詢問卷主要包括患者基本信息、對條目的理解程度和補充意見,采用患者調查問卷的形式進行。
2 結果
2.1 量表的單維性檢驗
單維項目反應理論模型中,首先要對是否為單維量表進行假設驗證,即量表中的任一條目都是測量的同一種潛在特質或能力,以保證其單維性[18]。本研究中PRSIM的因子分析結果見附件表1和圖1。從附件表1可見,PRSIM的第一公因子與第二公因子的特征根之比為3.153,從附件圖1也可看出該碎石圖第一因子的拐點非常明顯,因而可判斷該量表滿足IRT單維性假設檢驗。
2.2 模型擬合
本研究選用IRT中的多級記分模型,通過R語言中的“mirt package”對數據進行模型擬合。AIC和BIC用于評估模型擬合優度,其二者結果見附件表2。在對349例患者的數據進行模型擬合后,分析顯示等級反應模型(graded response model,GRM)比廣義部分信用模型(generalized partial credit model,GPCM)更優(見附件表2)。因而,本研究選用GRM模型。
2.3 IRT參數估計
PRSIM的各條目參數見附件表3。從表3可以看出,PRSIM的區分度系數a取值范圍為?0.535~2.195,難度系數b的取值范圍為?10.343~5.461,條目平均信息量的取值范圍為0.043~1.075。
2.3.1 根據區分度a對條目進行分析
PRSIM中區分度a的平均值為0.961。在IRT中區分度a與信息量是成正比關系,即區分度越高,則表示條目對被試能力估計所提供的信息量就越多[19]。區分度a太小,提示條目提供的信息量過少,但區分度a值太大也會對結果造成影響,容易產生偏差,因而可將區分度系數在[0.3,3]區間外的條目予以刪除[20]。根據表3中各條目的區分度值,可刪除條目17(區分度參數a為?0.535),保留其余19項條目。
2.3.2 根據難度b對條目進行分析
原量表為五級記分,采用R語言“mirt package”進行參數估計時生成了四個難度參數值(b1~b4),原量表中難度b的取值范圍為?10.343~5.461,變化幅度較大。根據IRT理論,難度b和調查對象的潛在能力θ的取值都為正負無窮之間,但在θ取標準分數的量表中,絕大多數的b取值和θ取值都為[?5,5],超出這個范圍則不夠準確,故將難度系數設定在[?5,5]范圍內(難度等級隨b1~b4增加,并呈單調遞增趨勢),若超出這些范圍的條目則可予刪除或修改[21]。根據表3中各條目的難度值,可刪除條目6(b1=?5.873)、條目7(b1=?6.273)、條目8(b1=?6.265)、條目12(b1=?5.327)、條目14(b1=?5.1)、條目15(b1=?10.343,b2=?6.969)、條目16(?5.273)和條目17(b1=5.461),保留剩余12項條目。
2.3.3 根據條目平均信息量對條目進行分析
條目信息量是指各條目在估計調查對象能力時可提供的信息量,條目平均信息量則為信息函數的參數θ在?2、?1、0、1、2這五個點上的平均值[22]。目前關于條目信息量并沒有統一的標準,多數研究將平均信息量大于25/量表總條目數的條目判斷為優,小于16/量表總條目數的條目則判斷為差[23, 24]。當信息量達到25時,按照公式即測量誤差SE=1/=1/
=0.2,且信息量與測量誤差成反比,即信息量越大,測量誤差越小[25]。但為能更全面客觀的反映出條目可信度,本研究以16和5作為量表總體信息量標準,其信度可達到0.94和0.80[26],即條目的平均信息量大于(16/量表總條目數)的條目判斷為優;小于(5/量表總條目數)的條目判斷為差;介于(5/量表總條目數)~(16/量表總條目數)的條目判斷為好[27,28],那么對于項目平均信息量<0.25(5/20)的條目則可予刪除。根據表3可看到估算出的平均信息量值,條目4、條目6、條目7、條目8、條目9、條目12、條目13、條目14、條目15、條目17均低于0.25,將可刪除這10項條目,保留剩余10項條目。
2.4 根據ICC篩選項目
理想的ICC為曲線1、5呈單調變化,曲線2、3、4呈正態分布。若出現條目曲線平緩或部分條目曲線被覆蓋的情況,則可刪除條目[29]。
根據附件圖2的ICC可以看出,以下6個條目的特征曲線有明顯的“扎堆”或“平緩”現象[30]:條目4(q4)、條目8(q8)、條目9(q9)、條目12(q12)、條目15(q15)、條目17(q17),則可將這6項條目予以刪除。
2.5 項目功能差異
由于被試群體的不同,能力水平相同的被試(組)在回答相同項目時會存在不同的作答反應,這種功能性差異被稱作項目功能差異(DIF)[31]。本研究采用R軟件程序包“mirt package”分別對性別、年齡、教育程度、職業以及科別這五個變量進行了DIF分析。從附件表4可見,最終輸出結果均顯示未檢測到存在DIF的條目,故無法繪制DIF圖,可認為在性別、年齡、教育程度、職業和科別這五個變量之間均不存在DIF問題。
2.6 專家咨詢與患者評價
2.6.1 專家與患者基本情況
采取線上問卷星形式向專家發放咨詢問卷,共收回28份問卷。專家基本情況如附件表5所示。專家權威程度見附件圖3。有6位患者參與患者評價,包括2位男性患者和4位女性患者,其中4人為初中教育程度。
2.6.2 問卷結果
專家咨詢結果建議刪除條目2、條目4、條目10、條目16、條目19,而條目3、條目9、條目11、條目13、條目15、條目17、條目18則應予以修改;患者評價結果顯示,6名患者皆表示能夠理解條目內容。結合專家咨詢意見和上述項目反應理論結果,通過課題核心小組討論后,綜合進行條目刪減與題干修訂,最終形成15項條目的PRSIM修訂版,具體如表1所示。

關于量表適用的手術范圍和測量時點的選擇,21名專家認為該量表適用于一至四級術后患者,并建議在術前進行基線測量,術后第1、3、5、7天進行多次測量。在經過核心小組討論后,考慮到量表許多條目(如手術傷口、日常活動困難程度、手術恢復程度等)無法在術前進行測量,決定以術后第1、3、5、7、14天及出院當天為測量時點進行多次測量。盡管不同患者住院時長不一致,但皆可從術后第一天至出院當天的變化觀測其康復情況。
3 討論
本研究采用IRT理論對PRSIM原來版本進行了區分度、難度和平均信息量的參數估計,結合ICC的判斷結果,綜合可刪除11項條目,保留9項條目。項目功能差異分析提示,PRSIM在性別、年齡、教育程度、職業以及科別五個方面不存在DIF問題,表明此量表不存在偏向性,量表項目穩定性較好[32]。其次,根據量表各條目內容是否屬于圍手術期康復范圍、其表述是否清晰、是否需要刪減三個方面進行的專家咨詢,我們刪除5項條目、修改7項條目,患者評價部分也顯示量表條目提問內容通俗易懂。
在IRT分析中,除條目17(“您的放屁情況正常嗎”)以外,其他條目區分度較好,可能是由于該條目的語義含糊使得患者難以準確填寫,這一點在前期進行臨床應用時,患者也有所反映。在難度系數方面,存在8項條目超出[?5,5]取值范圍,主要集中在手術帶來的間接影響、精神狀態和一般健康評估這三方面,且超出值多為負值,提示難度系數偏低,可能是由于這些條目主要涉及患者的主觀感受,調查對象大部分選擇了同一等級,形成了“天花板效應”[33]。研究中除條目17出現逆反現象,其他各條目難度系數則隨難度單調遞增,提示保留下來的條目適中且合理。在根據ICC篩選項目時,有6項條目的特征曲線有明顯的“扎堆”或“平緩”現象,其中條目4和條目9可能是由于語義不明和術后短時間內的疼痛感知偏差導致。
在平均信息量方面,盡管大部分量表采用信度可達0.96和0.94(對應為使用信息量25和16作為總信息量的標準)來計算得到條目平均信息量[34],并將其作為考評量表條目好壞的衡量標準,但在實際應用中,這種信度標準過于嚴苛。為能更全面客觀的反映出條目可信度,我們以16和5(其信度可達0.94和0.8)作為量表總體信息量標準,當平均信息量達到0.25(5/20)的條目即可入選[35]。結果顯示有10項條目低于0.25,且與前面經過區分度、難度和ICC篩選后刪除的條目重合度幾乎一致。這提示原量表的平均信息量不太理想。有報告提示區分度參數與條目信息量大小成正比關系[34]。本研究中,可能由于是醫學康復類的普適性量表,加上術后很多癥狀基本相近,被測者在選擇各條目的不同等級時,由于區分度不高,難免會出現相同等級人數比較集中的現象,因而導致條目得分差異變化不大而使信息量偏低[36]。另外,本研究中的條目平均信息量,是通過信息函數來計算θ參數在?2、?1、0、1、2五個點上的平均值,未能覆蓋到全部信息量,可能會丟失條目的有用信息從而導致條目利用率不夠高,使計算的信息量偏低[34]。根據以上三項參數的估計和ICC的篩選,我們一共建議刪除11項條目(條目4、條目6、條目7、條目8、條目9、條目12、條目13、條目14、條目15、條目16和條目17),保留了其余9項條目(條目1、條目2、條目3、條目5、條目10、條目11、條目18、條目19和條目20)。
專家咨詢是量表研制和修訂常用的方法[37]。本研究的專家咨詢問卷主要從量表條目的準確性、清晰性和保留與否進行咨詢。結果提示,專家咨詢結果與IRT結果不相一致,經課題核心小組充分討論和咨詢專家意見后,在尊重臨床實際的前提下,綜合兩種方法的結果對PRSIM進行了修訂,最終形成15項條目的修訂版PRSIM。
本研究也存在一些不足之處。首先,調查對象僅局限于一家醫院患者,該量表修訂版仍需在更大范圍被測者中進行考評;其次,限于時間未能對修訂版量表進行心理測量學特征的評價;另外,從推廣角度而言,仍需進行多中心研究,并從現代心理測量學和經典測驗理論兩方面來考核量表的測量學特征,包括量表結構效度等。
綜上所述,本研究根據IRT、DIF分析、專家咨詢和患者評價對PRSIM原有的20項條目提出修訂建議,最終形成15項條目的PRSIM修訂版。課題組擬下一步將擴大范圍考評其信度、效度和反應度。