心血管治療類醫療器械非劣效性試驗特點及界值設置的系統評價_《中國循證醫學雜志》

作者：

馮堃 ^1,2 , 郭瓊 ^2,3 , 鐘文濤 ⁴ , 劉悅 ⁴ , 劉宇琪 ⁴ , 冷柔菲 ⁴ , 許譯涵 ^1,2 , 顧先林 ^1,2 , 龍囿霖 ² ,  杜亮 ^1,2,3,5 ,  李正赤 ^5,6 ,  黃進 ²

1. 四川大學華西醫院中國循證醫學中心（成都 610041）;
2. 四川大學華西醫院醫療器械監管研究與評價中心（成都 610041）;
3. 四川大學華西醫院華西期刊社（成都 610041）;
4. 四川大學華西公共衛生學院（成都 610041）;
5. 四川大學華西醫院醫學人文教育中心（成都 610041）;
6. 四川大學華西醫院醫院管理研究所（成都 610041）;

關鍵詞：

治療類醫療器械心血管領域醫療器械非劣效性試驗非劣效性界值系統評價

DOI：

10.7507/1672-2531.202312134

視頻：

導出 下載 收藏 掃碼 引用

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

目的系統評價心血管領域以醫療器械為干預的非劣效性試驗，調查其試驗特征和界值設置情況。方法計算機檢索PubMed、Embase、CENTRAL數據庫，搜集心血管領域醫療器械類的非劣效性試驗，檢索時限均為建庫至2023年7月26日。由2名研究者獨立篩選文獻、提取資料后，對納入研究的基本特征、非劣效性試驗特征和界值特征進行報告。研究使用Excel 2020和R 4.2.1軟件進行分析。結果共納入214篇研究，其中167篇（78.0%）干預為冠狀動脈支架，試驗以雙臂設計為主（92.9%），多采用非劣效性絕對界值（96.7%）作為非劣效性的判定依據。150篇（70.1%）研究基于預估的對照組效應值確定非劣效性界值，其中33篇（15.4%）研究未報告預估的對照組效應值來源。非劣效性試驗終點結局指標多樣且界值設置差異較大，靶病變失敗率（2.1%～8.6%）、靶血管失敗率（2.5%～19.6%）和主要心血管不良事件發生率（2.1%～10.0%）是研究數量最多的三項定性指標，晚期管腔丟失（0.1～0.4 mm）是研究數量最多的定量指標。所有指標的非劣效性絕對界值轉化為相對界值后，范圍為1.20～3.67。結論心血管領域醫療器械類的非劣效性試驗對相同的結局指標設置的非劣效性界值差異較大，界值設置依據報告不足。

引用本文： 馮堃, 郭瓊, 鐘文濤, 劉悅, 劉宇琪, 冷柔菲, 許譯涵, 顧先林, 龍囿霖, 杜亮, 李正赤, 黃進. 心血管治療類醫療器械非劣效性試驗特點及界值設置的系統評價. 中國循證醫學雜志, 2024, 24(3): 288-294. doi: 10.7507/1672-2531.202312134 復制

中國心血管疾病現患人數高達3.3億并持續上升，疾病負擔較大^[1]。在迫切的臨床需求下，心血管疾病領域的創新醫療器械發展迅速，在疾病的診斷、治療以及康復隨訪等各個階段均發揮了重要作用^[2]。其中，經皮冠狀動脈介入術所使用的冠狀動脈支架、球囊等醫療器械發展最為突出^[3]。2021年9月至2022年8月，我國有130項國產心血管三類器械獲批，其中有115項為介入類器械^[1]。此領域的同品種器械眾多，同時更新換代快、迭代周期短^[4]，研究者在開展臨床試驗時總是希望可以最大程度縮短研發周期，因此對其臨床評價多采用非劣效性試驗設計。

非劣效性試驗設計目的是擬證明新干預的效果不比對照組的效果差，或者效果略差但沒有超過臨床上可以接受的程度^[5]。即使新干預在療效上相比對照組不一定更優，但可能具有其他方面的優勢，如治療過程創傷產生更小、使用劑量更少、患者花費更少、患者接受度和可及性更高等。此外，出于倫理風險考慮，心血管領域的器械在開展臨床試驗的過程中使用安慰劑對照或空白對照不恰當，因此多選擇陽性對照（如金標準治療）^[6]。然而在已有標準治療手段的基礎上進一步證明某種新干預顯著更優是非常困難的^[7]，不同品牌與代次的同品種器械雖然在功能上不斷進步，但其療效差異有限。因此非劣效性試驗設計的優勢逐漸顯現，已成為評價創新醫療干預的重要工具之一^[8]，如SYNTAX試驗^[9]、PRECOMBAT試驗^[10]、SORT OUT試驗^[11]等非劣效性試驗，均為心血管領域創新器械上市提供了關鍵性證據。

開展非劣效性試驗的關鍵在于確定兩種干預效果相差多少是臨床可接受的范圍，即確定非劣效性界值。一般非劣效性界值應小于等于臨床可接受的最大差值范圍，且小于陽性對照干預與安慰劑的療效差異^[12]。然而，對于非劣效性界值的設置方法尚未統一規范^[13]，既往研究表明非劣效性試驗設計多存在界值設置依據報告不清^[14]、不同研究間同一指標的界值設置差異過大^[15,16]等問題。Donken等^[17]的研究就發現評價疫苗的非劣效性試驗的界值設置從小于5%到30%不等，跨度較大。非劣效性界值的設置將直接影響研究樣本量大小及結果解釋，不恰當的界值設置將導致錯誤或難以解釋的研究結論，進而影響新干預措施的市場準入^[18]。

目前心血管領域非劣效性試驗的研究質量尚不清楚，尤其是其非劣效性界值設置情況仍不了解，故本研究全面檢索心血管領域醫療器械干預的非劣效性試驗，調查其方法學質量，尤其是非劣效性界值設置情況，為未來提高心血管領域非劣效性試驗的設計質量提供參考。

1 資料與方法

1.1 納入與排除標準

1.1.1 研究類型

非劣效性設計試驗。

1.1.2 研究對象

接受治療的心血管疾病患者，其年齡、性別、國籍等不限。

1.1.3 干預措施

試驗與對照措施均為心血管領域治療類醫療器械，包括手術作用器械（如冠狀動脈介入治療器械、結構性心臟病介入器械、起搏及電生理器械）、手術輔助器械（如導管、介入機器人）等。

1.1.4 結局指標

不限。

1.1.5 排除標準

① 藥物與醫療器械聯合治療；② 未報告非劣效性設計相關信息；③ 文章類型為壁報、評論、信件類的研究；④ 重復發表的研究；⑤ 無法獲取全文；⑥ 非英文文獻。

1.2 文獻檢索策略

計算機檢索PubMed、Embase、CENTRAL數據庫，搜集心血管領域醫療器械類的非劣效性試驗，檢索時限均為建庫至2023年7月26日。檢索采用主題詞與自由詞相結合的方式進行，并根據各數據庫特點進行調整。同時檢索納入研究的參考文獻，以補充獲取相關資料。檢索詞包括：non-inferiority、non-inferior、cardiovascular diseases、coronary disease、stroke、cerebrovascular disorders、atrial fibrillation、myocardial infarction等。以PubMed數據庫為例，其具體檢索策略見附件框1。

1.3 文獻篩選

由2名經過培訓的研究者獨立進行文獻篩選。根據文獻標題和摘要進行初篩，排除明顯不相關文獻，隨后獲取并閱讀其全文以進行復篩，最終確認研究所納入的文獻。當2名研究者意見不一致時，由第三位研究者協助判斷并討論其是否納入。

1.4 資料提取

資料提取的主要內容包括：① 納入研究的基本信息，包括研究作者、發表年份、發表期刊、發表國家、資金資助等；② 非劣效性試驗設計特征：包括樣本量、試驗臂數量、干預/對照組類型、非劣效性終點效應值變量類型（分類變量/連續變量）；③ 非劣效性界值：包括設置依據、界值指標、界值大小、界值類型等；④ 研究結果信息：包括試驗開展前預估的和試驗開展后實際的干預組與對照組的效應值。

1.5 統計分析

采用Excel 2020和R 4.2.1軟件進行統計分析與圖表繪制。采用描述性統計報告結果，定性資料采用頻數（n）和百分比（%），定量資料采用中位數、四分位數間距（interquartile range，IQR）和界值范圍描述結果。納入研究的非劣效性絕對界值與相對界值使用以下公式轉換：

非劣效性界值受不同干預影響差異較大，因此在非劣效性界值設置現狀的研究中，針對同種干預的同種指標開展亞組分析，且只分析納入同一亞組內研究數量大于等于5篇的終點指標類型。

2 結果

2.1 文獻篩選流程及結果

初檢出相關文獻18 930篇，包括：PubMed（n=6 718），Embase（n=8 468），CENTRAL（n=3 744）。經過逐層篩選后，最終納入214篇非劣效性研究。文獻篩選流程和結果見附件圖1。

2.2 納入研究的基本特征

納入研究的基線特征見表1。

表1 納入研究的基本特征

表選項

下載CSV

文獻特征	篇數（n）	占比（%）
發表年份（年）
2019—2023	64	29.9
2014—2018	82	38.3
2009—2013	57	26.6
2004—2008	11	5.2
發表國家^*
美國	41	19.2
中國	33	15.4
荷蘭	21	9.8
德國	17	7.9
韓國	17	7.9
其他	85	39.7
發表期刊^*
JACC Cardiovascular Interventions	31	14.5
Euro Intervention	19	8.9
Lancet	19	8.9
Circulation: Cardiovascular Intervention	18	8.4
Circulation	14	6.5
其他	113	52.8
第三方資助
是	182	85.0
否	32	15.0
*：僅列出數量排名前5的國家或期刊。

2.3 納入的非劣效性試驗特征

納入的非劣效性試驗特征見表2。納入的非劣效性試驗多為雙臂試驗（199，92.9%），有極少數研究（15，7.1%）為單臂、三臂和四臂試驗。119篇（55.6%）研究納入樣本量小于500例，另有11篇（5.1%）樣本量超過3 000例。納入研究干預措施主要為冠狀動脈支架（167，78.0%），其次為冠狀動脈球囊（21，9.8%），其他醫療器械干預包括導管射頻消融、左心室輔助裝置、心臟起搏器等。研究的冠狀動脈支架類型多樣，包括普通藥物涂層支架（drug-eluting stents，DES）、可生物降解涂層支架（biodegradable polymer drug-eluting stents，BP-DES）、無聚合物涂層支架（polymer-free drug-eluting stents，PF-DES）、生物可吸收支架（bioresorbable vascular scaffolds，BVS）和金屬裸支架（bare-metal stents，BMS）等，其中比較不同DES的試驗最多（68，31.8%），其次為比較BP-DES與DES（51，23.8%）。

表2 納入的非劣效性試驗特征

表選項

下載CSV

非劣效性試驗特征	篇數（n）	占比（%）
樣本量（例）
≤200	62	29.0
201～500	57	26.6
501～1 000	21	9.8
1 001～3 000	53	24.8
≥3 001	11	5.1
未報告	10	4.7
試驗臂數量
1	5	2.3
2	199	92.9
3	9	4.2
4	1	0.4
干預器械類型（試驗組vs.對照組）
冠脈支架	167	78.0
DES vs. DES	68	31.8
BP-DES vs. DES	51	23.8
BVS vs. DES	13	6.1
PF-DES vs. DES	8	3.7
DES vs. BMS	5	2.3
其他比較組	22	10.3
球囊	21	9.8
其他	26	12.2
非劣效性終點指標
TLF	35	16.4
MACE	20	9.3
TVF	12	5.6
LLL	61	28.5
支架內LLL	32	15.0
節段內LLL	27	12.6
其他^*	2	0.9
其他指標	79	36.9
非劣效性界值的設置類型
絕對界值	207	96.7
相對界值	7	3.3
非劣效性界值設置依據
基于對照組的效應值估算	150	70.1
報告了預估的對照組效應值來源	117	54.7
未報告預估的對照組效應值來源	33	15.4
參考類似研究使用的非劣效性界值	9	4.2
采納專家意見	5	2.3
參考法規文件	4	1.9
未報告界值設置依據	46	21.5
是否得到非劣效性結果
是	189	88.3
否	25	11.7
DES：藥物涂層支架；BP-DES：可生物降解涂層支架；PF-DES：無聚合物涂層支架；BVS：生物可吸收支架；BMS：金屬裸支架；TLF：靶病變失敗；MACE：主要心血管不良事件；TVF：靶血管失敗；LLL：晚期管腔丟失；*：未報告LLL位置。

不同非劣效性試驗的非劣效性終點指標選擇各不相同，其中最常見的非劣效性定性終點指標為靶病變失敗率（target-lesion failure，TLF）（35，16.4%）、主要心血管不良事件（major adverse cardiovascular events，MACE）發生率（20，9.3%）和靶血管失敗率（target-vessel failure，TVF）（12，5.6%）。而最常見的非劣效性定量終點指標為晚期管腔丟失（late lumen loss，LLL），其包括支架內LLL（32，15.0%）和節段內LLL（27，12.6%）。

所有納入的非劣效性試驗均報告了具體的非劣效性界值，其中絕大多數（207，96.7%）采用絕對非劣效性界值。部分研究（46，21.5%）并未報告非劣效性界值的設置依據，150篇（70.1%）研究在確定非劣效性界值過程中考慮了對照組的效應值，其中117篇（54.7%）研究說明了預估對照組效應值的來源。189篇（88.3%）研究最終得到試驗組非劣于對照組的結果。

2.4 非劣效性界值設置現狀

納入研究中常見的終點指標所設置的非劣效性界值見表3。不同試驗所設置的非劣效性界值差異較大，其中TVF的非劣效性絕對界值設置范圍為2.5%至19.6%，設置差異最大。球囊與支架研究均采用節段內LLL作為非劣效性終點，球囊研究的非劣效性絕對界值高于支架研究。將納入研究中的非劣效性絕對界值換算為所對應的相對界值，其范圍為1.20～3.67。

表3 納入研究最常見非劣效性終點指標的非劣效性界值

表選項

下載CSV

指標	研究數	非劣效性絕對界值（%/mm）
冠脈支架
二分類終點
TLF	35	3.50（3.30，3.80）	2.10～8.60	1.50（1.45，1.60）	1.36～1.96
MACE	16	5.00（4.00，6.00）	2.10～10.00	1.54（1.50，1.71）	1.38～3.00
TVF	12	5.50（3.80，6.60）	2.50～19.60	1.59（1.42，1.74）	1.20～2.33
連續性終點
支架內LLL	31	0.18（0.15，0.20）	0.12～0.40	1.55（1.43，2.00）	1.25～3.67
節段內LLL	18	0.19（0.15，0.20）	0.10～0.25	1.81（1.42，1.95）	1.30～2.39
球囊
節段內LLL	8	0.22（0.18，0.31）	0.12～0.35	1.49（1.48，1.50）	1.42～2.71
IQR：四分位數間距；TLF：靶病變失敗；MACE：主要心血管不良事件；TVF：靶血管失敗；LLL：晚期管腔丟失。

在以心血管支架和球囊為干預措施的研究中，研究者估計的對照組效應值與非劣效性絕對界值關系如圖1所示。根據美國食品藥品監督管理局（Food and Drug Administration，FDA）頒布的《非劣效性試驗指導原則》，建議將非劣效性界值設置為對照組效應值的50%^[19]，因此部分研究采用相對非劣效性界值=1.5的所對應的非劣效性絕對界值作為非劣效性判定依據。然而對于干預、對照及終點指標選擇均相同的試驗，不同研究間所設置的非劣效性界值差異較大。冠脈支架干預研究中，以MACE為終點結局的共納入13篇，其中非劣效性相對界值大于1.5的有7篇，小于等于1.5的有6篇；以靶病變失敗率為結局的共納入30篇，其中非劣效性相對界值大于1.5的有13篇，小于等于1.5的有17篇；以靶血管失敗率為結局的共納入9篇，其中非劣效性相對界值大于1.5的有5篇，小于等于1.5的有4篇。在以二分類變量為終點指標的研究中（n=52），共有5篇研究未做出非劣效性統計推斷，其非劣效性相對界值均小于等于1.5；在以連續變量為終點的研究中（n=37），共有6篇研究未做出非劣效性統計推斷，其中3篇非劣效性相對界值小于1.5，另3篇大于1.5。

圖1 預估的對照組效應值與非劣效性絕對界值的分布

圖選項

下載全尺寸圖像

下載幻燈片

3 討論

本研究發現，心血管領域醫療器械干預非劣效性試驗中研究干預多以冠狀動脈支架（78.0%）、球囊（9.8%）為主，研究多采用雙臂設計（92.9%），大多使用非劣效性絕對界值（96.7%）作為非劣效性結論的判定依據。70.1%的研究基于預估的對照組效應值確定非劣效性界值，其中15.4%的研究未報告預估的對照組效應值來源。非劣效性試驗終點結局指標多樣，TLF、TVF、MACE是研究數量最多的三項定性指標，LLL是研究數量最多的定量指標。將所有指標的非劣效性絕對界值轉化為相對界值后，范圍為1.20～3.67，同一干預、同一指標下的非劣效性界值設置差異較大。

本文納入研究大多采用雙臂試驗設計，試驗組與對照組樣本量比例設置為1∶1，然而標準非劣效性試驗應當采用三臂設計，即同時納入試驗組、對照組和安慰劑組，在證明試驗組不劣于對照組的同時保證對照組優于安慰劑組^[19]。但由于在心血管領域疾病治療中采用安慰劑對照存在醫學倫理問題，故既往非劣效性試驗多采用雙臂設計。采取雙臂需保證試驗中對照干預與既往歷史研究中的對照干預是同質的，即保證對照干預優于安慰劑，此時證明試驗組干預的非劣效性才具有臨床意義。

在納入的研究中，大多數研究采用了非劣效性絕對界值作為統計推斷的依據，一項非劣效性試驗的Meta分析所納入的研究中有94.8%的原始研究采用非劣效性絕對界值作為統計推斷的依據^[20]，與我們的結果一致。使用非劣效性絕對界值進行統計推斷的優勢在于臨床意義明確，結果也更容易解釋，但其無法直接體現試驗干預相比陽性對照組的相對差距。此外，也有研究表明在非劣效性統計推斷過程中，使用絕對或相對界值會對檢驗效能與檢驗水準產生一定影響^[21]。在確定非劣效性界值時，應綜合考慮絕對界值與相對界值所帶來的影響。

我們發現在納入研究中，不論干預為何種支架，其非劣效性對照干預均以DES為最多。心血管支架問世初期主要采用BMS設計，緊接著出現了DES，隨著技術發展逐漸出現了BP-DES、PF-DES和BVS^[22]。我們分析造成此現象的原因在于DES上市時間較早，相關數據較為全面，其安全性、有效性已經得到充分驗證，而新產品很難在安全性、有效性上獲得更大優勢，因此多選擇開展非劣效性試驗。

非劣效性界值的設定與研究背景密切相關，需要考慮臨床意義與統計學意義并綜合確定。有學者認為如果新的干預能夠更大地減少患者負擔，則設置相對較大的非劣效性界值是合理的^[23]。研究者對于對照干預的看法在很大程度上能夠影響非劣效性界值的設置，因此報告非劣效性界值設置依據對于判定研究是否科學合理至關重要。納入的研究中，21.5%未報告非劣效性界值的設置依據，另有15.4%未報告設置非劣效性界值所使用的數據來源，非劣效性界值的設置依據的報告質量有待提升。

非劣效性界值的設置情況會直接影響統計推斷結果，FDA頒布的《非劣效性試驗指導原則》中建議，一般情況下可以將非劣效性界值設置為對照組效應值的50%^[19]。在定性資料的研究中，TLF和MACE的非劣界值設置圍繞在對照組效應值的50%左右，而TVF與定量變量的界值設置與50%存在較大偏離。我們所分析的研究均為低優指標，在定性資料的研究中未做出非劣效性推斷的研究其非劣效性相對界值均小于等于1.5（偏向于更難做出非劣效性統計推斷的設置），且其預估的對照組效應值均處于同類研究的極端值水平，可見非劣效性試驗中絕對界值與相對界值會共同對統計推斷產生影響。

既往有研究報告了以死亡為結局的非劣效性界值設置與研究設計情況^[15]、不同研究非劣效性界值設置依據的分析調查^[16]，但均未涉及某個具體的疾病領域，沒有對非劣效性界值的分布情況進行分析。本研究首次全面檢索心血管治療領域醫療器械的非劣效性研究，主要關注納入研究的非劣效性界值的指標選擇、設置依據與分布情況。

本研究亦存在局限性：① 心血管領域醫療器械種類眾多，本研究只分析了占比最高的冠脈支架和球囊干預研究的界值具體設置情況，且分析樣本較少，可能對結果的穩定性造成潛在影響；② 本研究為二次研究，研究質量受原始研究質量影響，部分原始研究存在數據報告不全的情況。

綜上所述，心血管疾病治療類醫療器械的非劣效性研究干預多為冠狀動脈支架與球囊，研究設計以雙臂試驗為主，非劣效性試驗終點結局指標多樣，多采用非劣效性絕對界值；相同干預、相同指標下非劣效性界值設置的差異較大，存在較多極端值；部分研究非劣效性界值置依據未報告或報告不清晰。希望在未來的研究中，研究者在設置非劣效性界值的過程中能夠同時考慮絕對與相對界值，同時在方法部分簡潔明了地報告非劣效性界值設置過程，以方便讀者評判其設置的合理性。