復合終點在臨床研究中的廣泛應用為研究者提供了更為全面的視角,使其能夠更深入地理解復雜醫學問題,同時有效提升研究的效能和效率,進而降低整體研究的經濟成本。理解復合終點的優勢和局限性對于正確應用復合終點及合理解讀結果至關重要。本文旨在介紹復合終點在臨床試驗中的應用進展,討論其優勢和局限性,總結復合終點的使用建議,以期為幫助研究者認識和處理復合終點提供指導。
引用本文: 王心怡, 龍囿霖, 方可, 楊健嵐, 李瑤, 蔣梓軒, 張娜, 王鑫瑤, 萬興麗, 郭瓊, 黃進, 李正赤, 杜亮. 復合終點在臨床研究中的應用與挑戰. 中國循證醫學雜志, 2023, 23(12): 1465-1471. doi: 10.7507/1672-2531.202311094 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
1 復合終點的提出背景及時間演進
醫學的進步使許多常見疾病(如心血管疾病和腫瘤)的發病率和死亡率逐漸降低,人群健康狀況得到全面改善。然而,低事件發生率卻給醫學研究帶來了越來越大的挑戰,因為針對較小效應量的臨床研究通常需要更大樣本量和更長隨訪時間,而這兩者往往需要更大的成本[1]。因此,為解決此類問題,19世紀80年代開始有學者提出使用復合終點作為試驗的主要終點,可以提高結果指標的統計效能[2]。復合終點進展時間線見圖1。

早在1980年,Lester等[3]通過將原始增益(指復合治療后調整評分與類似的復合治療前評分之間的差異用于患者和觀察者測量)和額定獲益(指對每個患者從治療中獲得多少收益的綜合評級)設定為復合結局指標,以此研究患者精神心理治療結果的可預測性,該研究的結果表明復合終點具有相當高的可靠性,其效果優于單一結果指標。盡管復合結局指標在可預測性研究上具有較為顯著的優勢,評級效益的預測也是醫師主觀評級的兩倍,但其推廣到其他研究的效果仍存在不確定性,因此需要更多單一結果指標與復合結果指標比較的研究[4]。
1981年Simpson等[5]在研究不同藥物濫用患者療效比較中以藥物使用、犯罪行為和就業的復合終點來比較美沙酮維持(methadone maintenance,MM)、藥物濫用治療社區(treatment community,TC)以及門診無藥(drug free,DF)3種患者類型。結果表明在3個主要分類組別中有55%的患者被正確分類,復合終點對這3種主要模式具有更好的概率預測效果。
1984年John等[6]在家庭和宗教對阿片類藥物成癮者長期影響的研究中將宗教變量、家庭變量以及個人變量作為3個復合結果指標。宗教變量被定義為兒童參與宗教活動的情況、目前成員資格、當前參與宗教活動情況以及宗教信仰的虔誠程度等的復合,家庭變量被定義為入學數據、基于當事人父母婚姻狀況的兒童時期家庭破裂情況以及主要負責撫養的委托人等的復合;個人背景變量被定義為年齡、種族、性別以及基于患者入院數據的廣泛縮放和聚類分析的復合。作者建議應考慮結局指標的測量方法以更為科學地解釋復合終點的結果。
1986年Gail等[7]在極低出生體重兒3歲時神經發育情況的早期預測因子的研究中回顧了以往相關研究,發現不論是單一變量還是單一評估的總計評分都不能準確預測早產新生兒的結局指標。因此作者提倡更廣泛地使用復合終點為研究提供更準確的預測。
1992年Alfred等[8]首次從統計學的角度提出復合結果存在的問題以及解決的辦法,分析結果時由于復合終點各構成組分中任意縮放(arbitrary scaling)所帶來的分配問題可能會導致效應估計出現偏倚,作者結合專家意見后為復合終點的各組成部分分配權重,使用等級測試來避免分配問題。
1993年Am J Cardiol發表了一篇綜述[9],首次總結并提出復合不良事件終點在小型急性心肌梗死溶栓試驗中的優勢(適用于小樣本急性心肌梗死溶栓試驗),可以與以死亡率為終點的大型試驗進行互補的方式使用。
2005年Victor[10]首次提出復合終點的定義,是由兩種及以上不良事件所組成的結果指標,并且其有效性取決于對患者的重要性、治療效果和各組成部分的相似性,當各成分間存在較大差異時,使用復合終點將產生較大偏倚,不利于結果估計。
2012年中國學者彭菊聰等[11]提出復合終點的兩種常見類型:① 等級量表,常見于臨床上各種量表和評分系統,由多個臨床終點指標組成的復合終點;② 多個事件發生率或事件發生時間,若受試者出現了預先確定的指標列表(如死亡、中風或血運重建等)中的一個或多個結局事件,可認為發生復合終點。復合終點源于生存分析,多見于心血管疾病的臨床試驗。作者根據國際協調會議(ICH)E9指南[12]制訂的“臨床試驗的統計原則”提出復合終點一般應符合以下3個條件:① 各構成組分必須具有臨床意義,且對患者具有相似的臨床重要性;② 各構成組分在同一時間段發生率必須相近;③ 干預措施對復合終點的各構成組分影響一致。
2018年McCoy醫生[1]在一篇綜述中將復合結果指標定義為由兩個或多個不同的結局指標組成。臨床上使用復合結果指標可以提高事件率和統計精度,減少納入患者數量和研究成本,同時可以避免競爭風險并解決無主要結果指標等問題。但目前對于復合結果指標尚無統一的標準和指南,使得復合終點的評估成為目前亟待解決的問題。
2020年Terheyden等[13]在發表的一篇文獻中提到,復合終點分類為:結構和功能復合終點、結構復合終點、功能復合終點和多分類復合終點。目前大多數研究都包括了二元復合終點。
2020年一項發表在Am Heart J上的橫斷面研究[14]提到有將近50%的心血管試驗采用復合結果作為結局指標,心血管相關復合結果將不同結局指標和不同臨床重要性結合起來以達到增加試驗效能的效果。例如,血運重建相較于死亡的臨床意義不重要,但卻在臨床上更為常見,因此將血運重建和死亡結合為復合終點會更容易有統計學意義。如果試驗中發現血運重建發生率遠高于死亡,可以舍棄復合結果指標,單獨報告各結局指標。
2021年一篇發表在J Am Heart Assoc的文章[15]提到目前心血管領域大多數隨機對照試驗(randomized controlled trial,RCT)認為復合結果指標的標準組合方法是一個致命事件與一個或多個非致命事件之間的結合。同時該文章建議將之前心血管研究中少見的腎臟結局與心血管事件結合,考慮了在早期非致命事件后發生的致命事件。
2 復合終點的廣泛應用及出現的問題
復合終點給臨床試驗帶來了巨大的變革,可確保在合理的時間內發生足夠數量的事件,從而降低試驗成本[16]。目前復合終點已在多個領域中廣泛應用,例如心血管領域臨床試驗中經常將復合終點作為主要指標,以增強統計效力。2003年Freemantle等[17]在JAMA發表的一項研究中發現,在檢索的167篇使用復合終點的文獻中,心血管領域約占50%(共83篇),其中支架相關的研究占所有文獻的12%(共20篇)。Shaikh等[14]于2020年在Am Heart J發表的一篇綜述中發現在檢索出的689篇使用復合終點的RCT中,有45.8%(316/689)是采用復合結局的心血管試驗,其中有79.4%將復合結局作為主要結局。此外,復合終點也被用于其他醫學專業領域(例如,麻醉、急救醫學)和疾病狀態(例如,肺部疾病、胃腸道疾病)的RCT的方法設計和實施[18-20]。
然而,研究者逐漸發現復合終點也存在一些問題。首先,傳統分析中,復合終點的所有組成部分在分析中都被分配了相似的權重[14],然而,由于不同終點事件對患者的重要性存在差別,每個單獨組件的臨床相關性可能有很大差異。Shaikh等[14]對復合終點內單個終點進行分析發現,血運重建對復合終點結果影響最大,死亡作為最重要的臨床結果對復合結果影響最小。此研究表明,臨床研究者需要對復合終點的設計進行一些改進,根據臨床重要性為復合終點各構成組分分配權重。因此,作者建議在對復合終點進行結果解釋時,應保持更謹慎的態度。
其次,試驗干預對單個試驗終點的影響可能不同。當這些單一終點聚合為復合終點時,各臨床指標對試驗的影響會變得模糊,不利于試驗結果的解釋[21]。例如,將急性心肌梗死事件和大出血發作合并為一個復合終點時,若心肌梗死發生率降低,但大出血發作的風險同時增加,則試驗藥物的總體凈收益可能不顯著[22]。Leon等[23]在一項冠狀動脈支架術后放療試驗的結果中發現由死亡、心肌梗死、緊急搭橋手術和靶病變血管血運重建組成的主要復合結局具有統計學意義。然而,他們在討論中解釋“主要心臟不良事件發生率的降低僅僅是由靶病變血運重建減少決定的,而不是由死亡或心肌梗死發生率的降低決定的”。此外,一篇對心血管疾病RCT的系統評價[24]表明,心血管領域的RCT中大部分復合終點的構成組分對患者重要性以及治療效果方面都具有顯著的梯度。特別是,重要性較低的結果對復合終點事件率的貢獻更大,并可能顯示出更大的治療效果。該研究結果顯示,幾乎所有心血管試驗復合終點中死亡的事件發生率最低,且治療效果最小。因此,研究者認為使用復合終點其中一個重要且合理的誤導性結論是,將死亡率降低歸因于實際上對死亡率沒有影響甚至可能增加死亡風險的干預措施,意即當構成組分在患者重要性上不同時,實際結果解釋可能存在問題。
此外,若復合終點各構成組分事件數差別較大,僅根據復合終點所得出的結果可能會被誤導[25]。例如一篇發表在N Engl J Med的文章[26]結果陳述:“在冠狀動脈旁路移植術支架內狹窄的患者中,γ輻射降低了由心源性死亡、Q波性心肌梗死和靶血管血運重建構成的復合終點”。然而通過觀察其他結局信息發現,在安慰劑組死亡、Q波性心肌梗死僅占復合終點總事件數的13.95%(6/43),在γ輻射組占22.73%(5/22)。因此,作者只證明了干預措施對血運重建的影響,該試驗并不能提供干預措施對死亡或心肌梗死影響的證據。
最后,復合終點由于尚無統一標準,又被大規模應用,其使用不規范,可能會導致錯誤的結論[27]。例如,Cordoba等[28]于2008年在BMJ發表了一篇關于臨床試驗復合終點的系統評價,在納入的40篇RCT中發現僅有1項研究為復合終點中構成組分的選擇提供了說明,6項(15%)研究使用復合終點的各構成組分之間臨床重要性相近并提供了可靠評估,然而,28項(70%)研究提供的構成組分之間重要性差異很大(包括20篇文獻將死亡率與住院率組合成復合終點),13篇文獻在摘要、方法或結果各部分對同一復合終點的定義描述不一致。再者,Ferreira-Gonzalez研究員[24]在一項對心血管疾病領域RCT的調查結果中發現,在114篇使用復合終點的文獻中,大多數研究(70篇,69%)披露是由企業直接提供資金贊助或是提供藥物及醫療器械。
3 復合終點在臨床試驗中應用的優劣性
3.1 復合終點的優勢
復合終點在臨床試驗中的應用帶來了多方面的優勢。首先,復合終點能夠有效增加終點事件的發生數量,從而提高試驗的統計效能和準確性[29-30]。第二,采用復合終點有助于減少臨床研究所需的樣本量和成本,同時縮短試驗周期,提高試驗的成本-效益比。第三,當多個結局指標的重要性相似時,使用復合終點可以更全面地評價干預措施的療效,提高統計檢驗效能。因為一個結局指標往往只能反映治療措施有效性或安全性的某一方面。第四,復合終點能夠避免對多個指標進行多重比較,從而規避了多重性問題的困擾。第五,復合終點還有助于避免由于競爭風險而對結果調整分析計劃或選擇性報告等偏倚風險[31]。最后,采用復合終點可以避免需要使用單獨的模型來預測每個結果,簡化了分析過程。
3.2 復合終點的局限性
然而,復合終點也存在一系列的局限性需要認真考慮。第一,當治療的重要性或效果的大小在各構成組分之間存在重要的異質性時,實際結果的解釋可能會受到影響。第二,如果各組成部分之間的事件率或相對風險降低存在明顯差異,可能導致對結果解釋的誤導,甚至產生截然相反的效果。第三,復合終點可能掩蓋與試驗干預相關的有害影響。第四,在使用復合終點時,如果需要確定各構成組分的事件數,為精確計算,需要調整Ⅰ類錯誤,這既增大了研究者的工作量,同時也增加了準確計算事件發生率的資源投入。復合終點組成數量越大,計算的工作量就越大[32]。第五,主觀(臨床醫生或研究者)成分可能過度影響結果。第六,當需要得出關于各構成組分的驗證性結論時,需要調整α誤差。且構成組分通常組合不合理,定義不一致,并為事后更改提供了機會。最后,復合終點還可能忽略掉不同構成組分事件的時間進展[33-34],而當復合終點作為主要指標時,其對所需樣本量的估計可能不準確[35-36]。
在復合終點的應用中,需全面權衡其優勢和局限性,以確保科學性和實用性之間的平衡。
4 復合終點的構建評價方法及使用建議
4.1 復合終點的構建
4.1.1 建立連續復合終點
首先對復合終點各構成組分賦分并分別設置權重,將各組分的賦分乘以其權重再相加的和即為復合終點事件數,將復合終點作為連續變量進行描述和統計分析[37]。
4.1.2 建立分類復合終點
采用前一種構建方法時,若各構成組分之間重要性差別較大,結果解釋可能存在困難,而且權重也是較難確定的部分。因此,可以使用構建分類的復合終點,即將多個構成組分構建成一個分類的復合終點[37]。
建立分類復合終點與對若干主要指標進行多重比較相比,能提高臨床試驗統計檢驗效能,從而降低了試驗成本,保留了復合終點本身的優勢。其次,分類復合終點比連續復合終點具有更高靈敏度及試驗結果解釋易被接受的優勢。多數疾病和干預的評價方式多樣,有時很難確定哪種指標最能體現干預的療效,臨床試驗通常會使用多種安全性和有效性的指標來評價治療效果。因此,為綜合評價干預措施的效果,復合終點中可能會包含重要性不一致的構成組分,僅使用計分法為各構成組分賦值可能存在偏倚,此時可根據臨床意義構建分類復合終點[38]。
4.2 復合終點評價方法
4.2.1 加權復合終點
1992年,Braunwald等[39]提出了一種加權方案,以考慮可能解釋復合終點中不公平現象的異質結果效應。研究者根據臨床重要性或嚴重程度,為復合終點內死亡、致殘性顱內出血、心力衰竭、大出血和其他不良事件分配權重。作者承認其權重的設置,較隨意缺乏科學性,并建議未來繼續完善這些權重分配。加權復合終點即根據復合終點的嚴重程度適當加權事件的累計數量。若復合終點各構成指標的重要性不同時,則需要賦予不同權重。權重分配需要根據領域專家根據事件嚴重程度和事件發生率大小等來評估[11],以明確干預對各構成組分的影響程度。加權復合模型可以考慮不同指標的復發和終末事件,依據事件的重要程度為不同構成組分分配不同的權重,以增強統計效能和臨床相關性[34]。例如Freemantle等[40]在一篇社論中指出,在臨床試驗中,那些出現不良事件結局的患者一般會最先出現嚴重程度較輕的癥狀,特別是在較長隨訪時間的試驗中,雖然一般認為死亡是最高優先事件,但其不僅發生概率較低且時間發生相對較晚。因此,死亡是一種相對罕見且較晚發生的事件,其效應估計可能相對不準確,有時甚至與總體療效的方向存在不一致。為解決此問題,Armstrong等[41]提出了對事件類型進行差異加權的建議。這種方法能夠更有效地結合每個患者所有結局的差異值,較傳統的時間事件分析(time-to-event analysis)提供了一個更科學的指標評價體系。目前統計學家已經研發出多種針對復合終點的加權統計方法[42-44],然而,在某些情況下,可能難以選擇所有研究者都能接受的臨床上合適的加權方案,更準確且更簡潔的新方法也在進一步測試中。
4.2.2 全球統計測試(global statistical test,GST)
這種由Baraniuk等[45]提出的GST方法適用于對復合終點中各構成組分之間的比較。例如由非致死性心肌梗死和血管成形術構成了一個冠心病不良事件復合終點,一名患者先后經歷了非致死性心肌梗死和血管成形術,出現這種情況只能說明復合終點發生了事件,但無法表明兩者都發生以及這兩個事件之間是否存在相關性,這些結果都不會體現在復合終點總體治療效果中。此時,GST方法可以考慮所有構成結果的影響以及不同結果構成之間的關系,并受到每個結果與治療關聯程度的影響。GST方法還提供了用單變量檢驗統計量來描述的總體收益,并考慮多個結果的相關性,且不會因多次檢驗而增大犯Ⅰ類錯誤的概率。即使結果較多、樣本量相對較小,GST方法也可以總結治療效果。構建GST主要是為了在復合終點的多個構成組分中提供一致的定向治療效果,即使存在單個結果中均沒有統計學意義的情況。
4.2.3 贏率法
為解決各構成組分重要性不一致問題,Pocock等[46]提出了一種基于臨床優先級的分析復合終點的新方法:贏率,在傳統復合終點的基礎上將復合終點各構成組分的臨床優先級加以考慮,即根據研究目的和臨床意義對各構成組分的重要性進行排序,優先考慮重要性高的事件[47-53]。贏率通常需要4個步驟[53]:① 按嚴重程度對事件進行排序;② 配對患者;③ 從每對患者中選出勝者;④ 計算贏率。贏率主要包括加權贏率和未加權贏率。加權贏率,即將事件和時間以及刪失時間進行加權。未加權贏率包括兩種分析方法:① 匹配贏率法,考慮了個體風險值,通過干預組和對照組患者個體的風險值進行匹配。但風險評分具有主觀性,如果兩組患者的數量相差較大,會導致大部分的患者被排除,缺失生存數據。② 不匹配贏率,不經過匹配,直接將試驗組中每位患者與對照組進行比較。此時贏率的計算看似與匹配法相同,但其95%CI是基于過程更為復雜的bootstrap重采樣構建。但bootstrap重采樣耗費時間長,且并無法給出方差的閉式解,所得結果不精確。
匹配贏率法可以考慮到患者本身的風險因素,更好地估計干預對復合終點的作用,但如果兩組患者差別較大,大部分患者被剔除,會丟失很多信息,不匹配贏率法和加權贏率法可以彌補這一局限性。當樣本量較大,不匹配贏率法的計算耗時耗力,加權贏率法可以更快地給出結果。因此學者[54]建議在非致命性事件常見的臨床研究中,若構成組分之間的優先級很重要時,使用加權贏率法更適宜。
4.3 復合終點的使用建議
復合結果在臨床試驗的發展中具有重要優勢,但研究者需要意識到其潛在的局限性。為了確保復合終點各構成組分之間的干預效應相似,一些作者建議應謹慎選擇復合終點,以代表相同潛在病理生理過程的不同表現。本文對近年來研究者對復合終點的各類看法[1,10,17,29,32,55-57]進行了總結,并提供以下建議。
4.3.1 試驗開始前
① 在開始進行一項研究之前,應預先準確指定結果中的復合終點并明確定義其所有組成部分,明確主要和次要結局指標。② 構建復合終點時,應避免包含一些不太可能受到干預影響的構成組分;避免納入臨床和患者重要性較低的組成部分;避免各組成部分在臨床重要性和干預效應方面存在較大的異質性。③ 為復合終點中各構成事件分別進行加權以反映其相對重要性,逐步建立結局事件定義(包括權重分配)的共識分級登記冊,供研究者使用。④ 根據試驗所有利益相關者(醫生、科研人員、患者、其他相關人員)的預期結果進行權重分配的校準。
4.3.2 試驗實施全過程
① 在數據收集與分析中使用所有事件分析,包括一個指標的多次事件發生率。② 使用加權或排序方案進行初步分析(考慮時間順序)。③ 在數據鎖定或分析之前,描述所構建指標的應急預案以及結果解釋的影響。
4.3.3 結果報告階段
① 研究者應遵循CONSORT指南并在描述試驗的報告或文章中清楚地報告結果。② 復合終點內的所有構成組分也應單獨報告(即作為次要終點),以確定復合終點是否由其中一個構成指標所控制,或構成指標終點治療效果的結果是否不一致。③ 當試驗將復合終點報告為主要結果時,應將這些變量一起解釋,而不是證明復合終點中各個構成組分的有效性。④ 適當時候使用系統評價和定量Meta分析來確定干預措施對罕見但重要的終點的影響,因為這些終點可能作為一些試驗復合終點的構成組分。⑤ 不僅報告復合終點的事件數結果,還應報告各構成組分的事件數結果,并且根據構成組分的臨床事件從“最嚴重”到“最輕”的先驗排序來報告[58]。
5 小結
復合終點如同一把雙刃劍,其廣泛應用表明它是解決事件發生率低、提高檢測主要終點差異的能力的簡單易行的方法。這種不同終點的匯集可導致更高的事件率和更高的統計精度,從而減少樣本量降低成本,可以使研究更及時地完成。然而,目前復合終點的解釋仍存在困難,因為尚無普遍接受的標準化結果解釋方法。若復合終點內各構成指標對患者重要性不一致、事件頻率差別較大及干預措施對各指標的影響不一致時,復合終點可能無法發揮其優勢,反而會增大樣本量,導致結果難以解釋,甚至得出錯誤結果。因此,在構建復合終點時,應仔細評價各組成指標。研究人員應在患者重要性、發生頻率和干預的預期效果方面防止各組成部分之間存在較大的異質性。最后,對于復合終點的結果應該謹慎對待。本文介紹了復合終點在臨床試驗中的應用進展,并討論了復合終點的優勢和局限性,所總結的關于復合終點如何使用的建議可有助于臨床醫生認識和處理復合終點帶來的局限性問題[59],并幫助研究者解讀復合終點的結果。
1 復合終點的提出背景及時間演進
醫學的進步使許多常見疾病(如心血管疾病和腫瘤)的發病率和死亡率逐漸降低,人群健康狀況得到全面改善。然而,低事件發生率卻給醫學研究帶來了越來越大的挑戰,因為針對較小效應量的臨床研究通常需要更大樣本量和更長隨訪時間,而這兩者往往需要更大的成本[1]。因此,為解決此類問題,19世紀80年代開始有學者提出使用復合終點作為試驗的主要終點,可以提高結果指標的統計效能[2]。復合終點進展時間線見圖1。

早在1980年,Lester等[3]通過將原始增益(指復合治療后調整評分與類似的復合治療前評分之間的差異用于患者和觀察者測量)和額定獲益(指對每個患者從治療中獲得多少收益的綜合評級)設定為復合結局指標,以此研究患者精神心理治療結果的可預測性,該研究的結果表明復合終點具有相當高的可靠性,其效果優于單一結果指標。盡管復合結局指標在可預測性研究上具有較為顯著的優勢,評級效益的預測也是醫師主觀評級的兩倍,但其推廣到其他研究的效果仍存在不確定性,因此需要更多單一結果指標與復合結果指標比較的研究[4]。
1981年Simpson等[5]在研究不同藥物濫用患者療效比較中以藥物使用、犯罪行為和就業的復合終點來比較美沙酮維持(methadone maintenance,MM)、藥物濫用治療社區(treatment community,TC)以及門診無藥(drug free,DF)3種患者類型。結果表明在3個主要分類組別中有55%的患者被正確分類,復合終點對這3種主要模式具有更好的概率預測效果。
1984年John等[6]在家庭和宗教對阿片類藥物成癮者長期影響的研究中將宗教變量、家庭變量以及個人變量作為3個復合結果指標。宗教變量被定義為兒童參與宗教活動的情況、目前成員資格、當前參與宗教活動情況以及宗教信仰的虔誠程度等的復合,家庭變量被定義為入學數據、基于當事人父母婚姻狀況的兒童時期家庭破裂情況以及主要負責撫養的委托人等的復合;個人背景變量被定義為年齡、種族、性別以及基于患者入院數據的廣泛縮放和聚類分析的復合。作者建議應考慮結局指標的測量方法以更為科學地解釋復合終點的結果。
1986年Gail等[7]在極低出生體重兒3歲時神經發育情況的早期預測因子的研究中回顧了以往相關研究,發現不論是單一變量還是單一評估的總計評分都不能準確預測早產新生兒的結局指標。因此作者提倡更廣泛地使用復合終點為研究提供更準確的預測。
1992年Alfred等[8]首次從統計學的角度提出復合結果存在的問題以及解決的辦法,分析結果時由于復合終點各構成組分中任意縮放(arbitrary scaling)所帶來的分配問題可能會導致效應估計出現偏倚,作者結合專家意見后為復合終點的各組成部分分配權重,使用等級測試來避免分配問題。
1993年Am J Cardiol發表了一篇綜述[9],首次總結并提出復合不良事件終點在小型急性心肌梗死溶栓試驗中的優勢(適用于小樣本急性心肌梗死溶栓試驗),可以與以死亡率為終點的大型試驗進行互補的方式使用。
2005年Victor[10]首次提出復合終點的定義,是由兩種及以上不良事件所組成的結果指標,并且其有效性取決于對患者的重要性、治療效果和各組成部分的相似性,當各成分間存在較大差異時,使用復合終點將產生較大偏倚,不利于結果估計。
2012年中國學者彭菊聰等[11]提出復合終點的兩種常見類型:① 等級量表,常見于臨床上各種量表和評分系統,由多個臨床終點指標組成的復合終點;② 多個事件發生率或事件發生時間,若受試者出現了預先確定的指標列表(如死亡、中風或血運重建等)中的一個或多個結局事件,可認為發生復合終點。復合終點源于生存分析,多見于心血管疾病的臨床試驗。作者根據國際協調會議(ICH)E9指南[12]制訂的“臨床試驗的統計原則”提出復合終點一般應符合以下3個條件:① 各構成組分必須具有臨床意義,且對患者具有相似的臨床重要性;② 各構成組分在同一時間段發生率必須相近;③ 干預措施對復合終點的各構成組分影響一致。
2018年McCoy醫生[1]在一篇綜述中將復合結果指標定義為由兩個或多個不同的結局指標組成。臨床上使用復合結果指標可以提高事件率和統計精度,減少納入患者數量和研究成本,同時可以避免競爭風險并解決無主要結果指標等問題。但目前對于復合結果指標尚無統一的標準和指南,使得復合終點的評估成為目前亟待解決的問題。
2020年Terheyden等[13]在發表的一篇文獻中提到,復合終點分類為:結構和功能復合終點、結構復合終點、功能復合終點和多分類復合終點。目前大多數研究都包括了二元復合終點。
2020年一項發表在Am Heart J上的橫斷面研究[14]提到有將近50%的心血管試驗采用復合結果作為結局指標,心血管相關復合結果將不同結局指標和不同臨床重要性結合起來以達到增加試驗效能的效果。例如,血運重建相較于死亡的臨床意義不重要,但卻在臨床上更為常見,因此將血運重建和死亡結合為復合終點會更容易有統計學意義。如果試驗中發現血運重建發生率遠高于死亡,可以舍棄復合結果指標,單獨報告各結局指標。
2021年一篇發表在J Am Heart Assoc的文章[15]提到目前心血管領域大多數隨機對照試驗(randomized controlled trial,RCT)認為復合結果指標的標準組合方法是一個致命事件與一個或多個非致命事件之間的結合。同時該文章建議將之前心血管研究中少見的腎臟結局與心血管事件結合,考慮了在早期非致命事件后發生的致命事件。
2 復合終點的廣泛應用及出現的問題
復合終點給臨床試驗帶來了巨大的變革,可確保在合理的時間內發生足夠數量的事件,從而降低試驗成本[16]。目前復合終點已在多個領域中廣泛應用,例如心血管領域臨床試驗中經常將復合終點作為主要指標,以增強統計效力。2003年Freemantle等[17]在JAMA發表的一項研究中發現,在檢索的167篇使用復合終點的文獻中,心血管領域約占50%(共83篇),其中支架相關的研究占所有文獻的12%(共20篇)。Shaikh等[14]于2020年在Am Heart J發表的一篇綜述中發現在檢索出的689篇使用復合終點的RCT中,有45.8%(316/689)是采用復合結局的心血管試驗,其中有79.4%將復合結局作為主要結局。此外,復合終點也被用于其他醫學專業領域(例如,麻醉、急救醫學)和疾病狀態(例如,肺部疾病、胃腸道疾病)的RCT的方法設計和實施[18-20]。
然而,研究者逐漸發現復合終點也存在一些問題。首先,傳統分析中,復合終點的所有組成部分在分析中都被分配了相似的權重[14],然而,由于不同終點事件對患者的重要性存在差別,每個單獨組件的臨床相關性可能有很大差異。Shaikh等[14]對復合終點內單個終點進行分析發現,血運重建對復合終點結果影響最大,死亡作為最重要的臨床結果對復合結果影響最小。此研究表明,臨床研究者需要對復合終點的設計進行一些改進,根據臨床重要性為復合終點各構成組分分配權重。因此,作者建議在對復合終點進行結果解釋時,應保持更謹慎的態度。
其次,試驗干預對單個試驗終點的影響可能不同。當這些單一終點聚合為復合終點時,各臨床指標對試驗的影響會變得模糊,不利于試驗結果的解釋[21]。例如,將急性心肌梗死事件和大出血發作合并為一個復合終點時,若心肌梗死發生率降低,但大出血發作的風險同時增加,則試驗藥物的總體凈收益可能不顯著[22]。Leon等[23]在一項冠狀動脈支架術后放療試驗的結果中發現由死亡、心肌梗死、緊急搭橋手術和靶病變血管血運重建組成的主要復合結局具有統計學意義。然而,他們在討論中解釋“主要心臟不良事件發生率的降低僅僅是由靶病變血運重建減少決定的,而不是由死亡或心肌梗死發生率的降低決定的”。此外,一篇對心血管疾病RCT的系統評價[24]表明,心血管領域的RCT中大部分復合終點的構成組分對患者重要性以及治療效果方面都具有顯著的梯度。特別是,重要性較低的結果對復合終點事件率的貢獻更大,并可能顯示出更大的治療效果。該研究結果顯示,幾乎所有心血管試驗復合終點中死亡的事件發生率最低,且治療效果最小。因此,研究者認為使用復合終點其中一個重要且合理的誤導性結論是,將死亡率降低歸因于實際上對死亡率沒有影響甚至可能增加死亡風險的干預措施,意即當構成組分在患者重要性上不同時,實際結果解釋可能存在問題。
此外,若復合終點各構成組分事件數差別較大,僅根據復合終點所得出的結果可能會被誤導[25]。例如一篇發表在N Engl J Med的文章[26]結果陳述:“在冠狀動脈旁路移植術支架內狹窄的患者中,γ輻射降低了由心源性死亡、Q波性心肌梗死和靶血管血運重建構成的復合終點”。然而通過觀察其他結局信息發現,在安慰劑組死亡、Q波性心肌梗死僅占復合終點總事件數的13.95%(6/43),在γ輻射組占22.73%(5/22)。因此,作者只證明了干預措施對血運重建的影響,該試驗并不能提供干預措施對死亡或心肌梗死影響的證據。
最后,復合終點由于尚無統一標準,又被大規模應用,其使用不規范,可能會導致錯誤的結論[27]。例如,Cordoba等[28]于2008年在BMJ發表了一篇關于臨床試驗復合終點的系統評價,在納入的40篇RCT中發現僅有1項研究為復合終點中構成組分的選擇提供了說明,6項(15%)研究使用復合終點的各構成組分之間臨床重要性相近并提供了可靠評估,然而,28項(70%)研究提供的構成組分之間重要性差異很大(包括20篇文獻將死亡率與住院率組合成復合終點),13篇文獻在摘要、方法或結果各部分對同一復合終點的定義描述不一致。再者,Ferreira-Gonzalez研究員[24]在一項對心血管疾病領域RCT的調查結果中發現,在114篇使用復合終點的文獻中,大多數研究(70篇,69%)披露是由企業直接提供資金贊助或是提供藥物及醫療器械。
3 復合終點在臨床試驗中應用的優劣性
3.1 復合終點的優勢
復合終點在臨床試驗中的應用帶來了多方面的優勢。首先,復合終點能夠有效增加終點事件的發生數量,從而提高試驗的統計效能和準確性[29-30]。第二,采用復合終點有助于減少臨床研究所需的樣本量和成本,同時縮短試驗周期,提高試驗的成本-效益比。第三,當多個結局指標的重要性相似時,使用復合終點可以更全面地評價干預措施的療效,提高統計檢驗效能。因為一個結局指標往往只能反映治療措施有效性或安全性的某一方面。第四,復合終點能夠避免對多個指標進行多重比較,從而規避了多重性問題的困擾。第五,復合終點還有助于避免由于競爭風險而對結果調整分析計劃或選擇性報告等偏倚風險[31]。最后,采用復合終點可以避免需要使用單獨的模型來預測每個結果,簡化了分析過程。
3.2 復合終點的局限性
然而,復合終點也存在一系列的局限性需要認真考慮。第一,當治療的重要性或效果的大小在各構成組分之間存在重要的異質性時,實際結果的解釋可能會受到影響。第二,如果各組成部分之間的事件率或相對風險降低存在明顯差異,可能導致對結果解釋的誤導,甚至產生截然相反的效果。第三,復合終點可能掩蓋與試驗干預相關的有害影響。第四,在使用復合終點時,如果需要確定各構成組分的事件數,為精確計算,需要調整Ⅰ類錯誤,這既增大了研究者的工作量,同時也增加了準確計算事件發生率的資源投入。復合終點組成數量越大,計算的工作量就越大[32]。第五,主觀(臨床醫生或研究者)成分可能過度影響結果。第六,當需要得出關于各構成組分的驗證性結論時,需要調整α誤差。且構成組分通常組合不合理,定義不一致,并為事后更改提供了機會。最后,復合終點還可能忽略掉不同構成組分事件的時間進展[33-34],而當復合終點作為主要指標時,其對所需樣本量的估計可能不準確[35-36]。
在復合終點的應用中,需全面權衡其優勢和局限性,以確保科學性和實用性之間的平衡。
4 復合終點的構建評價方法及使用建議
4.1 復合終點的構建
4.1.1 建立連續復合終點
首先對復合終點各構成組分賦分并分別設置權重,將各組分的賦分乘以其權重再相加的和即為復合終點事件數,將復合終點作為連續變量進行描述和統計分析[37]。
4.1.2 建立分類復合終點
采用前一種構建方法時,若各構成組分之間重要性差別較大,結果解釋可能存在困難,而且權重也是較難確定的部分。因此,可以使用構建分類的復合終點,即將多個構成組分構建成一個分類的復合終點[37]。
建立分類復合終點與對若干主要指標進行多重比較相比,能提高臨床試驗統計檢驗效能,從而降低了試驗成本,保留了復合終點本身的優勢。其次,分類復合終點比連續復合終點具有更高靈敏度及試驗結果解釋易被接受的優勢。多數疾病和干預的評價方式多樣,有時很難確定哪種指標最能體現干預的療效,臨床試驗通常會使用多種安全性和有效性的指標來評價治療效果。因此,為綜合評價干預措施的效果,復合終點中可能會包含重要性不一致的構成組分,僅使用計分法為各構成組分賦值可能存在偏倚,此時可根據臨床意義構建分類復合終點[38]。
4.2 復合終點評價方法
4.2.1 加權復合終點
1992年,Braunwald等[39]提出了一種加權方案,以考慮可能解釋復合終點中不公平現象的異質結果效應。研究者根據臨床重要性或嚴重程度,為復合終點內死亡、致殘性顱內出血、心力衰竭、大出血和其他不良事件分配權重。作者承認其權重的設置,較隨意缺乏科學性,并建議未來繼續完善這些權重分配。加權復合終點即根據復合終點的嚴重程度適當加權事件的累計數量。若復合終點各構成指標的重要性不同時,則需要賦予不同權重。權重分配需要根據領域專家根據事件嚴重程度和事件發生率大小等來評估[11],以明確干預對各構成組分的影響程度。加權復合模型可以考慮不同指標的復發和終末事件,依據事件的重要程度為不同構成組分分配不同的權重,以增強統計效能和臨床相關性[34]。例如Freemantle等[40]在一篇社論中指出,在臨床試驗中,那些出現不良事件結局的患者一般會最先出現嚴重程度較輕的癥狀,特別是在較長隨訪時間的試驗中,雖然一般認為死亡是最高優先事件,但其不僅發生概率較低且時間發生相對較晚。因此,死亡是一種相對罕見且較晚發生的事件,其效應估計可能相對不準確,有時甚至與總體療效的方向存在不一致。為解決此問題,Armstrong等[41]提出了對事件類型進行差異加權的建議。這種方法能夠更有效地結合每個患者所有結局的差異值,較傳統的時間事件分析(time-to-event analysis)提供了一個更科學的指標評價體系。目前統計學家已經研發出多種針對復合終點的加權統計方法[42-44],然而,在某些情況下,可能難以選擇所有研究者都能接受的臨床上合適的加權方案,更準確且更簡潔的新方法也在進一步測試中。
4.2.2 全球統計測試(global statistical test,GST)
這種由Baraniuk等[45]提出的GST方法適用于對復合終點中各構成組分之間的比較。例如由非致死性心肌梗死和血管成形術構成了一個冠心病不良事件復合終點,一名患者先后經歷了非致死性心肌梗死和血管成形術,出現這種情況只能說明復合終點發生了事件,但無法表明兩者都發生以及這兩個事件之間是否存在相關性,這些結果都不會體現在復合終點總體治療效果中。此時,GST方法可以考慮所有構成結果的影響以及不同結果構成之間的關系,并受到每個結果與治療關聯程度的影響。GST方法還提供了用單變量檢驗統計量來描述的總體收益,并考慮多個結果的相關性,且不會因多次檢驗而增大犯Ⅰ類錯誤的概率。即使結果較多、樣本量相對較小,GST方法也可以總結治療效果。構建GST主要是為了在復合終點的多個構成組分中提供一致的定向治療效果,即使存在單個結果中均沒有統計學意義的情況。
4.2.3 贏率法
為解決各構成組分重要性不一致問題,Pocock等[46]提出了一種基于臨床優先級的分析復合終點的新方法:贏率,在傳統復合終點的基礎上將復合終點各構成組分的臨床優先級加以考慮,即根據研究目的和臨床意義對各構成組分的重要性進行排序,優先考慮重要性高的事件[47-53]。贏率通常需要4個步驟[53]:① 按嚴重程度對事件進行排序;② 配對患者;③ 從每對患者中選出勝者;④ 計算贏率。贏率主要包括加權贏率和未加權贏率。加權贏率,即將事件和時間以及刪失時間進行加權。未加權贏率包括兩種分析方法:① 匹配贏率法,考慮了個體風險值,通過干預組和對照組患者個體的風險值進行匹配。但風險評分具有主觀性,如果兩組患者的數量相差較大,會導致大部分的患者被排除,缺失生存數據。② 不匹配贏率,不經過匹配,直接將試驗組中每位患者與對照組進行比較。此時贏率的計算看似與匹配法相同,但其95%CI是基于過程更為復雜的bootstrap重采樣構建。但bootstrap重采樣耗費時間長,且并無法給出方差的閉式解,所得結果不精確。
匹配贏率法可以考慮到患者本身的風險因素,更好地估計干預對復合終點的作用,但如果兩組患者差別較大,大部分患者被剔除,會丟失很多信息,不匹配贏率法和加權贏率法可以彌補這一局限性。當樣本量較大,不匹配贏率法的計算耗時耗力,加權贏率法可以更快地給出結果。因此學者[54]建議在非致命性事件常見的臨床研究中,若構成組分之間的優先級很重要時,使用加權贏率法更適宜。
4.3 復合終點的使用建議
復合結果在臨床試驗的發展中具有重要優勢,但研究者需要意識到其潛在的局限性。為了確保復合終點各構成組分之間的干預效應相似,一些作者建議應謹慎選擇復合終點,以代表相同潛在病理生理過程的不同表現。本文對近年來研究者對復合終點的各類看法[1,10,17,29,32,55-57]進行了總結,并提供以下建議。
4.3.1 試驗開始前
① 在開始進行一項研究之前,應預先準確指定結果中的復合終點并明確定義其所有組成部分,明確主要和次要結局指標。② 構建復合終點時,應避免包含一些不太可能受到干預影響的構成組分;避免納入臨床和患者重要性較低的組成部分;避免各組成部分在臨床重要性和干預效應方面存在較大的異質性。③ 為復合終點中各構成事件分別進行加權以反映其相對重要性,逐步建立結局事件定義(包括權重分配)的共識分級登記冊,供研究者使用。④ 根據試驗所有利益相關者(醫生、科研人員、患者、其他相關人員)的預期結果進行權重分配的校準。
4.3.2 試驗實施全過程
① 在數據收集與分析中使用所有事件分析,包括一個指標的多次事件發生率。② 使用加權或排序方案進行初步分析(考慮時間順序)。③ 在數據鎖定或分析之前,描述所構建指標的應急預案以及結果解釋的影響。
4.3.3 結果報告階段
① 研究者應遵循CONSORT指南并在描述試驗的報告或文章中清楚地報告結果。② 復合終點內的所有構成組分也應單獨報告(即作為次要終點),以確定復合終點是否由其中一個構成指標所控制,或構成指標終點治療效果的結果是否不一致。③ 當試驗將復合終點報告為主要結果時,應將這些變量一起解釋,而不是證明復合終點中各個構成組分的有效性。④ 適當時候使用系統評價和定量Meta分析來確定干預措施對罕見但重要的終點的影響,因為這些終點可能作為一些試驗復合終點的構成組分。⑤ 不僅報告復合終點的事件數結果,還應報告各構成組分的事件數結果,并且根據構成組分的臨床事件從“最嚴重”到“最輕”的先驗排序來報告[58]。
5 小結
復合終點如同一把雙刃劍,其廣泛應用表明它是解決事件發生率低、提高檢測主要終點差異的能力的簡單易行的方法。這種不同終點的匯集可導致更高的事件率和更高的統計精度,從而減少樣本量降低成本,可以使研究更及時地完成。然而,目前復合終點的解釋仍存在困難,因為尚無普遍接受的標準化結果解釋方法。若復合終點內各構成指標對患者重要性不一致、事件頻率差別較大及干預措施對各指標的影響不一致時,復合終點可能無法發揮其優勢,反而會增大樣本量,導致結果難以解釋,甚至得出錯誤結果。因此,在構建復合終點時,應仔細評價各組成指標。研究人員應在患者重要性、發生頻率和干預的預期效果方面防止各組成部分之間存在較大的異質性。最后,對于復合終點的結果應該謹慎對待。本文介紹了復合終點在臨床試驗中的應用進展,并討論了復合終點的優勢和局限性,所總結的關于復合終點如何使用的建議可有助于臨床醫生認識和處理復合終點帶來的局限性問題[59],并幫助研究者解讀復合終點的結果。