引用本文: 何倩, 潘喆敏, 向蔓, 宛慧琴, 秦嬰逸, 賀佳. 多閱片者多病例設計影像診斷試驗準確度評價的統計分析方法. 中國循證醫學雜志, 2024, 24(9): 1085-1093. doi: 10.7507/1672-2531.202312140 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
影像診斷試驗的準確度往往不僅取決于儀器或算法的特性,還受潛在干擾因素的影響,包括:閱片者的經驗水平(如閱片者的能力、閱片結果的穩健性)及病例影像的變異(如病例的難易程度、影像質量)等[1-4]。傳統影像診斷試驗準確度評價研究通常納入1~2名閱片者,每名閱片者各自對部分病例進行評價,分析時將所有閱片者基于同一診斷方法的閱片結果作為一個整體,故只能估計兩種診斷方法的準確性指標,而無法考慮閱片者及病例影像的變異。如果忽略這些變異,可能使檢驗效能降低,尤其當變異較大時,可能導致準確度估計的精度下降,甚至產生偏倚。近年來有學者提出多閱片者多病例設計(multi-reader multi-case,MRMC),該設計通常要求多名閱片者同時對所有病例進行評價,因此在統計分析時,能夠考慮閱片者及病例影像變異對診斷試驗結果的影響,從而實現對診斷準確度的無偏估計及準確推斷,增加檢驗效能,并使結果能夠外推至研究納入的病例及閱片者之外的病例和閱片者總體[5]。
MRMC設計自提出以來廣泛應用于計算機輔助診斷(computer aided diagnosis,CAD)、影像診斷及人工智能輔助診斷等產品[5,6]的臨床評價。美國食品藥品監督管理局2022年頒布的指導原則Clinical performance assessment: considerations for computer-assisted detection devices applied to radiology images and radiology device data in premarket notification (510(k)) submissions中推薦使用MRMC設計評價CAD輔助診斷的臨床表現[6]。此外,美國影像學相關診斷設備的新產品上市申報也要求開展以受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)作為主要終點的MRMC研究進行臨床驗證[7]。我國監管部門最近推出的《深度學習輔助決策醫療器械軟件審評要點》[8]和《乳腺X射線系統注冊技術審查指導原則》[9]中也推薦選擇MRMC設計。
如前所述,相比傳統準確度評價試驗設計,MRMC設計有諸多優點。然而,MRMC設計可能存在閱片結果間復雜的相關關系,也可能存在診斷方法和閱片者間潛在的交互作用。因此無論是試驗設計、樣本量計算以及后續統計分析,都比傳統設計更加專業和復雜。此外,近年來雖然國家藥品監督管理局器械技術審評中心開始推薦采用MRMC設計[10],但由于這一設計方法在我國的應用起步較晚,且軟件實現受限,故目前國內開展的MRMC研究仍然相對較少。同時,MRMC的應用仍存誤用錯用的問題[11],如Dendumrongsup[12]針對已發表的MRMC研究質量分析報告中所述,有許多研究存在統計學檢驗效能低估、統計分析方法模糊不清的問題。
針對上述情況,本文旨在通過理論推導與實例研究,詳細闡述MRMC設計中常用統計分析方法的原理和實際應用并輔以實現代碼,旨在幫助研究人員更深入地理解MRMC設計的統計分析方法,推進MRMC設計的應用,從而更客觀地評價影像診斷試驗的準確性。此外,基于我們在實際臨床研究中的觀察,本文還歸納了目前MRMC設計與分析中的一些未滿足的需求,并提出可能的解決方案。為方便理解,下文中提到的模型都將基于匹配閱片者匹配病例的全交叉析因設計且閱片者和病例都作為隨機效應的情景。
1 Obuchowski-Rockette(OR)方法
1.1 模型構建
1.1.1 混合效應模型
MRMC設計與傳統診斷試驗準確度研究最大的差異是MRMC設計下的數據具有復雜的相關結構,如相同閱片者基于不同診斷方法閱片時的相關性、不同閱片者基于相同的閱片方法讀片時的相關性以及不同閱片者基于不同診斷方法閱讀相同病例時的相關性,并且閱片者的變異可能會對結果造成影響。常用的統計分析方法如t檢驗、方差分析往往要求各樣本相互獨立。配對t檢驗雖然可以處理相關性問題,但會忽略讀片者變異的影響。如果忽略以上這些因素直接使用配對t檢驗或者未校正的方差分析,可能產生錯誤的結論[4]。
為處理這些復雜的相關結構,并考慮閱片者變異對結果可能的影響,Obuchowski和Rockette[13]于1995年提出了針對MRMC設計的基于診斷準確性指標(figure of merit,FOM)的混合效應方差分析模型(即OR方法)。
該方法首先構建混合效應模型,考慮次重復試驗情況下:
![]() |
其中,指
次重復試驗下第
個診斷試驗第
名閱片者的FOM估計值(如AUC估計值或其他準確度估計值)。
為常數,指所有診斷方法、閱片者以及重復讀片情況下準確度指標的均值。模型中固定效應包括:
為第
種診斷方法的固定效應。隨機效應包括:閱片者的隨機效應
、診斷方法與閱片者的交互項
以及誤差項
。
與
相互獨立,服從均數為0,方差分別為
和
的正態分布。
由于各閱片者基于各診斷方法閱讀的是相同的病例,因此與普通方差分析模型不同的是,OR模型下誤差項并不獨立。誤差項實際為均數=0,長度為
的向量,服從
的多元正態分布:
。在不同閱片者間和不同診斷方法間協方差是一致的同等相關(equi-covariance)假定下,協方矩陣
:
![]() |
1.1.2 協方差矩陣的含義及求解
協方差矩陣中,代表病例的變異與閱片者內部變異之和。
代表不同診斷方法相同閱片者診斷準確度誤差項的協方差,
代表相同診斷方法不同閱片者診斷準確度誤差項的協方差,
代表不同閱片者對不同診斷方法中相同病例的診斷準確度誤差項的協方差。
Obuchowski和Rockette[13]認為從臨床實際角度考慮,他們應該滿足:
![]() |
假設次重復試驗的情況下,可通過以下公式求解協方差矩陣[14]。
![]() |
![]() |
![]() |
![]() |
基于同等相關的假定,,
,
,
實際為各情況下各組合的平均值。
然而實際工作中,考慮到成本與時間因素,往往,因此無法直接估計協方差矩陣。對此可采用Bootstrap[15]、Jackknife或DeLong方法[16],對數據進行重抽樣,從而估計協方差矩陣。值得注意的是,當使用Jackknife法時得到的是Jackknife FOM,即去除某個值后重新估計的FOM,而不是下述Dorfman-Berbaum-Metz(DBM)方法提到的Jackknife偽值,并且使用Jackknife方法估計協方差矩陣時,需要乘以一個方差膨脹系數[14]。
1.2 假設檢驗
Obuchowski和Rockette[13]基于Pavur和Nath[17]通過對F統計量乘以系數進行校正從而實現對相關性數據進行分析的思想,提出了適用于MRMC設計的統計量校正方法,并認為校正后的
統計量自由度與未校正情況下
統計量的自由度一致:
原假設:
![]() |
![]() |
上式中為診斷試驗數,
為閱片者數。由于實際
和
需要從數據或者前期研究中估計,因此實際的
統計量為:
![]() |
然而,模擬研究結果顯示,上述方法在應用過程中可能會導致結果過于保守。尤其是在閱片者數量相對較少的情況下,這一問題更加顯著[13,14]。
1.3 方法優化
為解決OR方法過于保守的問題,Hillis對OR方法進行了優化[18-20]:
① F統計量的優化:Hillis將F統計量的分母加上了max項。該優化使得這一限制條件得以實現,并且避免了F統計量的分母可能為負值的情況。
![]() |
② 分母自由度校正:原始OR法的分母自由度,Hillis于2007年對分母自由度進行校正。
![]() |
基于校正后的分母自由度,當時,校正后的分母自由度大于原始OR方法的分母自由度
,對應的
值將增大,
值將減小,于是有更大的可能拒絕原假設,進而避免了原始OR方法過于保守的情況。模擬研究[20]表明優化后的OR方法I類錯誤發生率非常接近名義檢驗水準。
2 DBM方法
2.1 模型構建
2.1.1 Jackknife偽值
Dorfman[21]提出了基于病例層面Jackknife偽值(Jackknife pseudovalue)的混合效應方差分析方法,該方法稱為DBM方法。
假設總樣本中包括疾病狀態者
與非疾病狀態者
,即
。
指閱片者
在第
個診斷方法下評價所有樣本得到的診斷準確性指標的估計值。
指從總樣本中剔除第
個樣本后的
,那么第
個病人在第
名閱片者第
個診斷試驗下的Jackknife偽值
可通過以下公式計算[21]:
![]() |
![]() |
![]() |
簡單地說,第個樣本的Jackknife偽值可以看作是診斷準確性指標的加權差值,即從所有樣本中估計得到的準確度減去剔除第
個樣本后估計得到的準確度的差值[22]。
2.1.2 混合效應模型
Dorfman進一步基于偽值構建混合效應線性模型,在考慮
次重復讀片的情況下模型為:
![]() |
![]() |
其中,為常數,指所有診斷方法、閱片者、病例以及重復讀片情況下偽值的均值。固定效應包括:
為第
種診斷方法的固定效應,
。隨機效應包括:第
名閱片者的隨機效應
;第
個病例對應的隨機效應
;各效應可能的二階或三階交互項
、
、
、
;以及隨機誤差項
,它們相互獨立并服從均數為0,方差分別為
,
,
,
,
,
,
的正態分布。這些方差一般統稱為方差成分(variance components)。
其中,指閱片者內的變異,需要通過重復閱片計算,考慮成本限制通常情況下
=1,即第
名閱片者在第
種診斷方式下并不會對第
個樣本進行重復閱片,因此
往往難以估計。所幸,通過下述方差分析模型可知,不可估計項的存在并不影響后續的假設檢驗。
2.1.3 方差分析表
無重復讀片情況下混合效應模型對應的方差分析如表1所示[23]。

2.2 假設檢驗
原假設:
在沒有試驗效應的原假設情況下,即時,
![]() |
此時以下期望均方的線性組合等于:
![]() |
因此,原假設成立時,
![]() |
由于在實際應用中無法計算期望均方,因此統計量構建時將使用觀察到的對應均方值來代替期望均方。構建的統計量如下:
![]() |
其中ndf為分子自由度,即MST的自由度,ddf為分母自由度。
分母部分
是均方的線性組合,基于Satterthwaite于1941[24,25]年提出的自由度校正方法,
分母自由度為:
![]() |
隨后根據以下公式即可得出對應的值:
![]() |
如果值小于預先設定的檢驗水準
則拒絕原假設接受備擇假設,認為至少兩種診斷方法的差異有統計學意義。
當拒絕原假設,接受備擇假設時,。其中
為非中心化參數,用于樣本量計算。
![]() |
總的來說,DBM思想是基于Jackknife方法,通過將診斷試驗-閱片者層面的FOM轉換為病例層面的偽值以實現模型的構建,而偽值的波動性反應了單個病例的難易程度。
2.3 方法優化
原始DBM方法自提出后應用廣泛[26],但仍有些問題不容忽視,如:該方法只能給出基于Jackknife方法的準確度估計值而不是原始FOM的估計值,并且模擬研究表明原始DBM方法結果較為保守[27]。基于以上問題Hillis對DBM方法分別進行了優化。
2.3.1 偽值標準化[19 ](或稱中心化[14 ])
原始DBM方法下第個診斷試驗下第
名閱片者診斷準確度的估計值為
。因此得到的準確度估計值是“Jackknife估計值”,而不是對應的原始FOM的估計值,僅當FOM是由非參數方法估計時兩者結果才一致。原始偽值的定義使得DBM方法欠缺靈活性,尤其是當Jackknife估計值與FOM估計值孰優孰劣存在爭議時。
Hillis于2005年[18]提出對偽值進行校正,他定義第個病例在第
名閱片者第
個診斷試驗的標準化偽值
為原始偽值
加上第
個診斷試驗下第
名閱片者的原始FOM的估計值與Jackknife估計值之差,下標的點代表取對應下標的平均值:
![]() |
標準化后的偽值滿足:
![]() |
![]() |
應用標準化偽值使DBM方法下單個診斷試驗的準確度或多個診斷試驗準確度差值的點估計都與原始FOM估計值相符,并且不影響方差成分的計算[18]。
2.3.2 F統計量及分母自由度校正
Dorfman[27]發表的蒙特卡洛模擬研究結果表明原始DBM方法在檢驗診斷試驗準確度的差異性時表現為“適度保守”,并且當AUC較大或病例數較少時保守的情況更為明顯。Hillis[19]基于Roe與Metz[28]和Dorfman[27]的模擬框架,探索了使用半參數法得到FOM并基于原始偽值或中心化偽值的DBM方法在不同閱片者數量、病例數量、AUC、方差成分,共144種組合下的I類錯誤情況,結果表明原始DBM方法(基于原始偽值或中心化偽值)平均I類錯誤發生率為0.036,明顯低于名義檢驗水準0.05。針對這一問題,DBM方法在上述偽值中心化的基礎上進行了如下優化:
2.3.2.1 較少基于數據的模型簡化(less data-based model simplification)
Hillis[18]提出在DBM模型中如果(試驗病例)交互項的方差成分估計值(
)是非正的,則可將該方差成分賦值為0,即在F統計量構建時將分母的(
)項去除,而F統計量中的
項在任何情況下都應該保留,即使它對應的(試驗
閱片者)交互項的方差成分估計值(
)是零或者負的。該優化稱為較少基于數據的模型簡化。
優化后的F統計量如下:
![]() |
![]() |
這種優化方法的優點是確保了F統計量不為負值。并且此方法在即
時,通過保留
項,避免了統計推斷時所面臨的“不同診斷試驗之間的差異在不同閱片者之間是相同的”這一不符合現實的假設。詳細推導可見Hillis于2008年發表的論文[19]。
2.3.2.2 分母自由度校正
原DBM方法的分母自由度是基于Satterthwaite近似得到的針對均方線性組合的自由度,其局限性是當線性組合中的系數是負數時某些情況下該方法可能并不適用[24,29]。模擬研究[20]結果表明,部分情況下Satterthwaite近似計算得到的可能會趨近于0,而這將導致可信區間過寬的問題。
Hillis基于上述對F統計量的優化,進一步對F統計量的分母自由度進行校正。校正后的分母自由度如下:
![]() |
校正后的下限是
,不再會趨近于0。模擬研究[19,30]表明優化F統計量并校正分母自由度后改善了原DBM方法較為保守的情況,I類錯誤發生率更接近于名義檢驗水準,并且避免了置信區間過寬的問題。
3 DBM與OR方法的區別與聯系
總的來說,OR方法與DBM方法都是基于方差分析的思想,最大的區別在于OR方法是基于FOM構建的二向混合效應方差分析模型,誤差項存在相關性。而DBM方法是基于偽值構建的三向混合效應方差分析模型,因而誤差項不存在相關性(表2)。

考慮到DBM是基于偽值構建的模型而非實際的FOM,并且在模型伊始假定偽值獨立且服從正態分布,而實際上獨立性和正態性可能都不滿足。相比之下,OR方法基于有實際意義的閱片者層面的FOM(例如:AUC、靈敏度等),并且OR模型的閱片者、試驗閱片者交互項獨立且服從正態分布,誤差項服從正態分布等假定則相較之下更為合理。因此DBM模型往往被挑戰其概念及理論模型是否堅實可行。Hillis通過推導得出如表3所示的三種情況時[18],DBM法的F統計量與OR方法的F統計量是一致的。因此,DBM方法可以看作是OR方法的一種特殊情況,而其方差成分
,
,
,
,
,
,
和
則可以從有實際意義的OR法的參數角度來解釋。

4 實例研究
4.1 數據來源
實例基于Franken數據集[31],一項比較傳統膠卷影像與數字化影像對新生兒胸腹部異常診斷準確性的比較研究。研究共納入100例受試者,其中67例疾病患者。4名閱片醫生基于兩種閱片方式分別對所有病例進行評價,6周洗脫期。每名閱片者需分別基于兩種閱片方式分別評價每個病例是否存在異常,并給出自信分(1分代表非常可能沒有疾病,5分代表非常可能疾病)。準確性評價指標為AUC。
4.2 方法
分別采用優化后DBM方法和優化后OR方法對閱片結果進行統計分析,其中OR方法下協方差矩陣估計采用DeLong(OR-D),Bootstrap(OR-B)和Jackknife(OR-J)三種方式。所有分析在R studio(R studio 版本2022.2.1.461,R版本4.1.2)中進行,OR與DBM分析基于R Jafroc包(版本2.1.1)中StSignificanceTesting()函數。
4.3 結果
如表4所示,傳統膠卷影像AUC為0.847 8,數字化影像技術AUC為0.836 9,兩組AUC差值0.010 9[95%CI(?0.005 1,0.026 8),P=0.118 8],暫不能認為兩種影像技術對新生兒胸腹部異常診斷準確性存在統計學差異。

5 討論
本文總結了MRMC設計下應用最廣泛的兩種統計分析方法:OR方法和DBM方法。從公式推導角度闡述了兩種方法的原理及優化歷程,并通過實例研究對比了這兩種方法的應用效果。根據實例研究結果,因OR和DBM方法的AUC點估計值均基于各閱片者在不同診斷方法下的AUC取平均所得,故AUC點估計值結果相同。在置信區間、標準誤、統計量和P值方面,理論上,采用不同協方差估計方式的OR方法得到的協方差存在差異,相應的標準誤、組間差異的置信區間以及F統計量也可能有所不同。本例中,因各方法計算得到的Cov2-Cov3均小于0,故OR-B,OR-D,OR-J三種方法的標準誤、F統計量、差值的95%置信區間均一致。單個診斷方法AUC的置信區間(表4第2、3列),因不涉及,所以不同方法間存在差異。特別地,OR-J與DBM方法結果一致,這與本文第3部分所述的理論一致。在實際應用中,應考慮具體數據特點和研究設計,參考本文第3部分所述OR與DBM方法的區別與聯系選擇合適的分析方法。
與此同時,在實際臨床研究中,我們發現MRMC設計下的統計分析仍存在以下挑戰。首先,軟件實現限制了OR及DBM方法的應用。由于OR和DBM方法涉及大量的偽值計算以及統計量和自由度的校正,因此無法在SPSS、JMP等常用軟件中直接進行計算。目前已有的實現方法僅有:① OR-DBM MRMC軟件(版本2.51),但由于目前微軟不再兼容該軟件的.NET框架,因此現已無法安裝[32]。② 基于R環境下的MRMCaov包(版本0.3.0)[33]及RJafroc包(版本2.1.1)[34](圖1)。其中,MRMCaov包僅支持優化后的OR方法進行統計推斷,且該包對診斷準確度指標限制較大,不支持FROC曲線下面積及AFROC曲線下面積作為終點的統計分析。而RJafroc包雖同時支持優化后的OR方法及DBM方法,但對原始數據的格式要求嚴格。未來,構建于SAS平臺基于優化后的OR及DBM方法并且適用于多種診斷準確性指標的SAS宏程序將有助于OR及DBM方法的應用,并進一步促進影像診斷試驗準確度的客觀驗證。

其次,在MRMC診斷試驗研究中,當發生閱片者錯讀、漏讀[35],采集標本不達標或者出現測量技術問題、數據收集過程中發生失誤、結果超出閾值等情況時,會產生缺失數據。2020年周曉華課題組[5]基于美國食品藥品監督管理局批準的56項CAD醫療器械的臨床研究,提出需要廣泛關注缺失數據以明確結果是基于什么樣情形進行推斷的。針對MRMC方法中的缺失數據,最常用的處理方法為完整數據集的方法,即直接剔除包含缺失數據的病例,這包括所有閱片者對于該病例的評價信息。完整數據集方法通常要求缺失類型為完全隨機缺失[36],否則得到的結果可能存在偏倚。并且完整數據集方法在會造成額外信息缺失的同時因樣本量減少故可能會影響試驗結果的普適性和準確性,降低檢驗效能[37]。由于MRMC設計發展歷程較短,目前尚無針對MRMC設計缺失數據處理方法的研究,因此急需適用于MRMC設計并考慮不同缺失機制的缺失數據處理方法以解決這一實際問題。Rubin于1977年[38]提出多重填補的思想,多重填補法根據選擇的填補模型,對每個缺失數據填補多次,采用其對應的完整數據集分布進行分析,最后基于Rubin法則合并每個完整數據集的分析結果。多重填補能夠正確反映與缺失數據填補過程相關的不確定性增大了填補數據的變異程度,目前已廣泛應用于藥物臨床試驗的缺失數據處理。鑒于多重填補的優勢,我們認為未來可考慮建立適用于MRMC數據特點的缺失數據多重填補的方法,而這將為實際MRMC設計下診斷試驗研究中的缺失數據問題提供一種新的解決思路,并且通過與完整數據法相結合可以從不同角度驗證實際臨床中診斷試驗研究結果的穩健性。
影像診斷試驗的準確度往往不僅取決于儀器或算法的特性,還受潛在干擾因素的影響,包括:閱片者的經驗水平(如閱片者的能力、閱片結果的穩健性)及病例影像的變異(如病例的難易程度、影像質量)等[1-4]。傳統影像診斷試驗準確度評價研究通常納入1~2名閱片者,每名閱片者各自對部分病例進行評價,分析時將所有閱片者基于同一診斷方法的閱片結果作為一個整體,故只能估計兩種診斷方法的準確性指標,而無法考慮閱片者及病例影像的變異。如果忽略這些變異,可能使檢驗效能降低,尤其當變異較大時,可能導致準確度估計的精度下降,甚至產生偏倚。近年來有學者提出多閱片者多病例設計(multi-reader multi-case,MRMC),該設計通常要求多名閱片者同時對所有病例進行評價,因此在統計分析時,能夠考慮閱片者及病例影像變異對診斷試驗結果的影響,從而實現對診斷準確度的無偏估計及準確推斷,增加檢驗效能,并使結果能夠外推至研究納入的病例及閱片者之外的病例和閱片者總體[5]。
MRMC設計自提出以來廣泛應用于計算機輔助診斷(computer aided diagnosis,CAD)、影像診斷及人工智能輔助診斷等產品[5,6]的臨床評價。美國食品藥品監督管理局2022年頒布的指導原則Clinical performance assessment: considerations for computer-assisted detection devices applied to radiology images and radiology device data in premarket notification (510(k)) submissions中推薦使用MRMC設計評價CAD輔助診斷的臨床表現[6]。此外,美國影像學相關診斷設備的新產品上市申報也要求開展以受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)作為主要終點的MRMC研究進行臨床驗證[7]。我國監管部門最近推出的《深度學習輔助決策醫療器械軟件審評要點》[8]和《乳腺X射線系統注冊技術審查指導原則》[9]中也推薦選擇MRMC設計。
如前所述,相比傳統準確度評價試驗設計,MRMC設計有諸多優點。然而,MRMC設計可能存在閱片結果間復雜的相關關系,也可能存在診斷方法和閱片者間潛在的交互作用。因此無論是試驗設計、樣本量計算以及后續統計分析,都比傳統設計更加專業和復雜。此外,近年來雖然國家藥品監督管理局器械技術審評中心開始推薦采用MRMC設計[10],但由于這一設計方法在我國的應用起步較晚,且軟件實現受限,故目前國內開展的MRMC研究仍然相對較少。同時,MRMC的應用仍存誤用錯用的問題[11],如Dendumrongsup[12]針對已發表的MRMC研究質量分析報告中所述,有許多研究存在統計學檢驗效能低估、統計分析方法模糊不清的問題。
針對上述情況,本文旨在通過理論推導與實例研究,詳細闡述MRMC設計中常用統計分析方法的原理和實際應用并輔以實現代碼,旨在幫助研究人員更深入地理解MRMC設計的統計分析方法,推進MRMC設計的應用,從而更客觀地評價影像診斷試驗的準確性。此外,基于我們在實際臨床研究中的觀察,本文還歸納了目前MRMC設計與分析中的一些未滿足的需求,并提出可能的解決方案。為方便理解,下文中提到的模型都將基于匹配閱片者匹配病例的全交叉析因設計且閱片者和病例都作為隨機效應的情景。
1 Obuchowski-Rockette(OR)方法
1.1 模型構建
1.1.1 混合效應模型
MRMC設計與傳統診斷試驗準確度研究最大的差異是MRMC設計下的數據具有復雜的相關結構,如相同閱片者基于不同診斷方法閱片時的相關性、不同閱片者基于相同的閱片方法讀片時的相關性以及不同閱片者基于不同診斷方法閱讀相同病例時的相關性,并且閱片者的變異可能會對結果造成影響。常用的統計分析方法如t檢驗、方差分析往往要求各樣本相互獨立。配對t檢驗雖然可以處理相關性問題,但會忽略讀片者變異的影響。如果忽略以上這些因素直接使用配對t檢驗或者未校正的方差分析,可能產生錯誤的結論[4]。
為處理這些復雜的相關結構,并考慮閱片者變異對結果可能的影響,Obuchowski和Rockette[13]于1995年提出了針對MRMC設計的基于診斷準確性指標(figure of merit,FOM)的混合效應方差分析模型(即OR方法)。
該方法首先構建混合效應模型,考慮次重復試驗情況下:
![]() |
其中,指
次重復試驗下第
個診斷試驗第
名閱片者的FOM估計值(如AUC估計值或其他準確度估計值)。
為常數,指所有診斷方法、閱片者以及重復讀片情況下準確度指標的均值。模型中固定效應包括:
為第
種診斷方法的固定效應。隨機效應包括:閱片者的隨機效應
、診斷方法與閱片者的交互項
以及誤差項
。
與
相互獨立,服從均數為0,方差分別為
和
的正態分布。
由于各閱片者基于各診斷方法閱讀的是相同的病例,因此與普通方差分析模型不同的是,OR模型下誤差項并不獨立。誤差項實際為均數=0,長度為
的向量,服從
的多元正態分布:
。在不同閱片者間和不同診斷方法間協方差是一致的同等相關(equi-covariance)假定下,協方矩陣
:
![]() |
1.1.2 協方差矩陣的含義及求解
協方差矩陣中,代表病例的變異與閱片者內部變異之和。
代表不同診斷方法相同閱片者診斷準確度誤差項的協方差,
代表相同診斷方法不同閱片者診斷準確度誤差項的協方差,
代表不同閱片者對不同診斷方法中相同病例的診斷準確度誤差項的協方差。
Obuchowski和Rockette[13]認為從臨床實際角度考慮,他們應該滿足:
![]() |
假設次重復試驗的情況下,可通過以下公式求解協方差矩陣[14]。
![]() |
![]() |
![]() |
![]() |
基于同等相關的假定,,
,
,
實際為各情況下各組合的平均值。
然而實際工作中,考慮到成本與時間因素,往往,因此無法直接估計協方差矩陣。對此可采用Bootstrap[15]、Jackknife或DeLong方法[16],對數據進行重抽樣,從而估計協方差矩陣。值得注意的是,當使用Jackknife法時得到的是Jackknife FOM,即去除某個值后重新估計的FOM,而不是下述Dorfman-Berbaum-Metz(DBM)方法提到的Jackknife偽值,并且使用Jackknife方法估計協方差矩陣時,需要乘以一個方差膨脹系數[14]。
1.2 假設檢驗
Obuchowski和Rockette[13]基于Pavur和Nath[17]通過對F統計量乘以系數進行校正從而實現對相關性數據進行分析的思想,提出了適用于MRMC設計的統計量校正方法,并認為校正后的
統計量自由度與未校正情況下
統計量的自由度一致:
原假設:
![]() |
![]() |
上式中為診斷試驗數,
為閱片者數。由于實際
和
需要從數據或者前期研究中估計,因此實際的
統計量為:
![]() |
然而,模擬研究結果顯示,上述方法在應用過程中可能會導致結果過于保守。尤其是在閱片者數量相對較少的情況下,這一問題更加顯著[13,14]。
1.3 方法優化
為解決OR方法過于保守的問題,Hillis對OR方法進行了優化[18-20]:
① F統計量的優化:Hillis將F統計量的分母加上了max項。該優化使得這一限制條件得以實現,并且避免了F統計量的分母可能為負值的情況。
![]() |
② 分母自由度校正:原始OR法的分母自由度,Hillis于2007年對分母自由度進行校正。
![]() |
基于校正后的分母自由度,當時,校正后的分母自由度大于原始OR方法的分母自由度
,對應的
值將增大,
值將減小,于是有更大的可能拒絕原假設,進而避免了原始OR方法過于保守的情況。模擬研究[20]表明優化后的OR方法I類錯誤發生率非常接近名義檢驗水準。
2 DBM方法
2.1 模型構建
2.1.1 Jackknife偽值
Dorfman[21]提出了基于病例層面Jackknife偽值(Jackknife pseudovalue)的混合效應方差分析方法,該方法稱為DBM方法。
假設總樣本中包括疾病狀態者
與非疾病狀態者
,即
。
指閱片者
在第
個診斷方法下評價所有樣本得到的診斷準確性指標的估計值。
指從總樣本中剔除第
個樣本后的
,那么第
個病人在第
名閱片者第
個診斷試驗下的Jackknife偽值
可通過以下公式計算[21]:
![]() |
![]() |
![]() |
簡單地說,第個樣本的Jackknife偽值可以看作是診斷準確性指標的加權差值,即從所有樣本中估計得到的準確度減去剔除第
個樣本后估計得到的準確度的差值[22]。
2.1.2 混合效應模型
Dorfman進一步基于偽值構建混合效應線性模型,在考慮
次重復讀片的情況下模型為:
![]() |
![]() |
其中,為常數,指所有診斷方法、閱片者、病例以及重復讀片情況下偽值的均值。固定效應包括:
為第
種診斷方法的固定效應,
。隨機效應包括:第
名閱片者的隨機效應
;第
個病例對應的隨機效應
;各效應可能的二階或三階交互項
、
、
、
;以及隨機誤差項
,它們相互獨立并服從均數為0,方差分別為
,
,
,
,
,
,
的正態分布。這些方差一般統稱為方差成分(variance components)。
其中,指閱片者內的變異,需要通過重復閱片計算,考慮成本限制通常情況下
=1,即第
名閱片者在第
種診斷方式下并不會對第
個樣本進行重復閱片,因此
往往難以估計。所幸,通過下述方差分析模型可知,不可估計項的存在并不影響后續的假設檢驗。
2.1.3 方差分析表
無重復讀片情況下混合效應模型對應的方差分析如表1所示[23]。

2.2 假設檢驗
原假設:
在沒有試驗效應的原假設情況下,即時,
![]() |
此時以下期望均方的線性組合等于:
![]() |
因此,原假設成立時,
![]() |
由于在實際應用中無法計算期望均方,因此統計量構建時將使用觀察到的對應均方值來代替期望均方。構建的統計量如下:
![]() |
其中ndf為分子自由度,即MST的自由度,ddf為分母自由度。
分母部分
是均方的線性組合,基于Satterthwaite于1941[24,25]年提出的自由度校正方法,
分母自由度為:
![]() |
隨后根據以下公式即可得出對應的值:
![]() |
如果值小于預先設定的檢驗水準
則拒絕原假設接受備擇假設,認為至少兩種診斷方法的差異有統計學意義。
當拒絕原假設,接受備擇假設時,。其中
為非中心化參數,用于樣本量計算。
![]() |
總的來說,DBM思想是基于Jackknife方法,通過將診斷試驗-閱片者層面的FOM轉換為病例層面的偽值以實現模型的構建,而偽值的波動性反應了單個病例的難易程度。
2.3 方法優化
原始DBM方法自提出后應用廣泛[26],但仍有些問題不容忽視,如:該方法只能給出基于Jackknife方法的準確度估計值而不是原始FOM的估計值,并且模擬研究表明原始DBM方法結果較為保守[27]。基于以上問題Hillis對DBM方法分別進行了優化。
2.3.1 偽值標準化[19 ](或稱中心化[14 ])
原始DBM方法下第個診斷試驗下第
名閱片者診斷準確度的估計值為
。因此得到的準確度估計值是“Jackknife估計值”,而不是對應的原始FOM的估計值,僅當FOM是由非參數方法估計時兩者結果才一致。原始偽值的定義使得DBM方法欠缺靈活性,尤其是當Jackknife估計值與FOM估計值孰優孰劣存在爭議時。
Hillis于2005年[18]提出對偽值進行校正,他定義第個病例在第
名閱片者第
個診斷試驗的標準化偽值
為原始偽值
加上第
個診斷試驗下第
名閱片者的原始FOM的估計值與Jackknife估計值之差,下標的點代表取對應下標的平均值:
![]() |
標準化后的偽值滿足:
![]() |
![]() |
應用標準化偽值使DBM方法下單個診斷試驗的準確度或多個診斷試驗準確度差值的點估計都與原始FOM估計值相符,并且不影響方差成分的計算[18]。
2.3.2 F統計量及分母自由度校正
Dorfman[27]發表的蒙特卡洛模擬研究結果表明原始DBM方法在檢驗診斷試驗準確度的差異性時表現為“適度保守”,并且當AUC較大或病例數較少時保守的情況更為明顯。Hillis[19]基于Roe與Metz[28]和Dorfman[27]的模擬框架,探索了使用半參數法得到FOM并基于原始偽值或中心化偽值的DBM方法在不同閱片者數量、病例數量、AUC、方差成分,共144種組合下的I類錯誤情況,結果表明原始DBM方法(基于原始偽值或中心化偽值)平均I類錯誤發生率為0.036,明顯低于名義檢驗水準0.05。針對這一問題,DBM方法在上述偽值中心化的基礎上進行了如下優化:
2.3.2.1 較少基于數據的模型簡化(less data-based model simplification)
Hillis[18]提出在DBM模型中如果(試驗病例)交互項的方差成分估計值(
)是非正的,則可將該方差成分賦值為0,即在F統計量構建時將分母的(
)項去除,而F統計量中的
項在任何情況下都應該保留,即使它對應的(試驗
閱片者)交互項的方差成分估計值(
)是零或者負的。該優化稱為較少基于數據的模型簡化。
優化后的F統計量如下:
![]() |
![]() |
這種優化方法的優點是確保了F統計量不為負值。并且此方法在即
時,通過保留
項,避免了統計推斷時所面臨的“不同診斷試驗之間的差異在不同閱片者之間是相同的”這一不符合現實的假設。詳細推導可見Hillis于2008年發表的論文[19]。
2.3.2.2 分母自由度校正
原DBM方法的分母自由度是基于Satterthwaite近似得到的針對均方線性組合的自由度,其局限性是當線性組合中的系數是負數時某些情況下該方法可能并不適用[24,29]。模擬研究[20]結果表明,部分情況下Satterthwaite近似計算得到的可能會趨近于0,而這將導致可信區間過寬的問題。
Hillis基于上述對F統計量的優化,進一步對F統計量的分母自由度進行校正。校正后的分母自由度如下:
![]() |
校正后的下限是
,不再會趨近于0。模擬研究[19,30]表明優化F統計量并校正分母自由度后改善了原DBM方法較為保守的情況,I類錯誤發生率更接近于名義檢驗水準,并且避免了置信區間過寬的問題。
3 DBM與OR方法的區別與聯系
總的來說,OR方法與DBM方法都是基于方差分析的思想,最大的區別在于OR方法是基于FOM構建的二向混合效應方差分析模型,誤差項存在相關性。而DBM方法是基于偽值構建的三向混合效應方差分析模型,因而誤差項不存在相關性(表2)。

考慮到DBM是基于偽值構建的模型而非實際的FOM,并且在模型伊始假定偽值獨立且服從正態分布,而實際上獨立性和正態性可能都不滿足。相比之下,OR方法基于有實際意義的閱片者層面的FOM(例如:AUC、靈敏度等),并且OR模型的閱片者、試驗閱片者交互項獨立且服從正態分布,誤差項服從正態分布等假定則相較之下更為合理。因此DBM模型往往被挑戰其概念及理論模型是否堅實可行。Hillis通過推導得出如表3所示的三種情況時[18],DBM法的F統計量與OR方法的F統計量是一致的。因此,DBM方法可以看作是OR方法的一種特殊情況,而其方差成分
,
,
,
,
,
,
和
則可以從有實際意義的OR法的參數角度來解釋。

4 實例研究
4.1 數據來源
實例基于Franken數據集[31],一項比較傳統膠卷影像與數字化影像對新生兒胸腹部異常診斷準確性的比較研究。研究共納入100例受試者,其中67例疾病患者。4名閱片醫生基于兩種閱片方式分別對所有病例進行評價,6周洗脫期。每名閱片者需分別基于兩種閱片方式分別評價每個病例是否存在異常,并給出自信分(1分代表非常可能沒有疾病,5分代表非常可能疾病)。準確性評價指標為AUC。
4.2 方法
分別采用優化后DBM方法和優化后OR方法對閱片結果進行統計分析,其中OR方法下協方差矩陣估計采用DeLong(OR-D),Bootstrap(OR-B)和Jackknife(OR-J)三種方式。所有分析在R studio(R studio 版本2022.2.1.461,R版本4.1.2)中進行,OR與DBM分析基于R Jafroc包(版本2.1.1)中StSignificanceTesting()函數。
4.3 結果
如表4所示,傳統膠卷影像AUC為0.847 8,數字化影像技術AUC為0.836 9,兩組AUC差值0.010 9[95%CI(?0.005 1,0.026 8),P=0.118 8],暫不能認為兩種影像技術對新生兒胸腹部異常診斷準確性存在統計學差異。

5 討論
本文總結了MRMC設計下應用最廣泛的兩種統計分析方法:OR方法和DBM方法。從公式推導角度闡述了兩種方法的原理及優化歷程,并通過實例研究對比了這兩種方法的應用效果。根據實例研究結果,因OR和DBM方法的AUC點估計值均基于各閱片者在不同診斷方法下的AUC取平均所得,故AUC點估計值結果相同。在置信區間、標準誤、統計量和P值方面,理論上,采用不同協方差估計方式的OR方法得到的協方差存在差異,相應的標準誤、組間差異的置信區間以及F統計量也可能有所不同。本例中,因各方法計算得到的Cov2-Cov3均小于0,故OR-B,OR-D,OR-J三種方法的標準誤、F統計量、差值的95%置信區間均一致。單個診斷方法AUC的置信區間(表4第2、3列),因不涉及,所以不同方法間存在差異。特別地,OR-J與DBM方法結果一致,這與本文第3部分所述的理論一致。在實際應用中,應考慮具體數據特點和研究設計,參考本文第3部分所述OR與DBM方法的區別與聯系選擇合適的分析方法。
與此同時,在實際臨床研究中,我們發現MRMC設計下的統計分析仍存在以下挑戰。首先,軟件實現限制了OR及DBM方法的應用。由于OR和DBM方法涉及大量的偽值計算以及統計量和自由度的校正,因此無法在SPSS、JMP等常用軟件中直接進行計算。目前已有的實現方法僅有:① OR-DBM MRMC軟件(版本2.51),但由于目前微軟不再兼容該軟件的.NET框架,因此現已無法安裝[32]。② 基于R環境下的MRMCaov包(版本0.3.0)[33]及RJafroc包(版本2.1.1)[34](圖1)。其中,MRMCaov包僅支持優化后的OR方法進行統計推斷,且該包對診斷準確度指標限制較大,不支持FROC曲線下面積及AFROC曲線下面積作為終點的統計分析。而RJafroc包雖同時支持優化后的OR方法及DBM方法,但對原始數據的格式要求嚴格。未來,構建于SAS平臺基于優化后的OR及DBM方法并且適用于多種診斷準確性指標的SAS宏程序將有助于OR及DBM方法的應用,并進一步促進影像診斷試驗準確度的客觀驗證。

其次,在MRMC診斷試驗研究中,當發生閱片者錯讀、漏讀[35],采集標本不達標或者出現測量技術問題、數據收集過程中發生失誤、結果超出閾值等情況時,會產生缺失數據。2020年周曉華課題組[5]基于美國食品藥品監督管理局批準的56項CAD醫療器械的臨床研究,提出需要廣泛關注缺失數據以明確結果是基于什么樣情形進行推斷的。針對MRMC方法中的缺失數據,最常用的處理方法為完整數據集的方法,即直接剔除包含缺失數據的病例,這包括所有閱片者對于該病例的評價信息。完整數據集方法通常要求缺失類型為完全隨機缺失[36],否則得到的結果可能存在偏倚。并且完整數據集方法在會造成額外信息缺失的同時因樣本量減少故可能會影響試驗結果的普適性和準確性,降低檢驗效能[37]。由于MRMC設計發展歷程較短,目前尚無針對MRMC設計缺失數據處理方法的研究,因此急需適用于MRMC設計并考慮不同缺失機制的缺失數據處理方法以解決這一實際問題。Rubin于1977年[38]提出多重填補的思想,多重填補法根據選擇的填補模型,對每個缺失數據填補多次,采用其對應的完整數據集分布進行分析,最后基于Rubin法則合并每個完整數據集的分析結果。多重填補能夠正確反映與缺失數據填補過程相關的不確定性增大了填補數據的變異程度,目前已廣泛應用于藥物臨床試驗的缺失數據處理。鑒于多重填補的優勢,我們認為未來可考慮建立適用于MRMC數據特點的缺失數據多重填補的方法,而這將為實際MRMC設計下診斷試驗研究中的缺失數據問題提供一種新的解決思路,并且通過與完整數據法相結合可以從不同角度驗證實際臨床中診斷試驗研究結果的穩健性。