高質量隨機對照臨床試驗是評價藥械有效性和安全性的金標準,但常需要花費大量的資源,難以為監管部門和醫療決策者提供即時證據,尤其是面對新發或突發的重大疾病。與此同時,隨機對照試驗因嚴格的設計限制,結果的外部效度較弱,難以提供藥械在更廣泛人群的臨床療效評價證據。相比之下,大規模簡單臨床試驗(large simple trials,LST)可以縮短研究流程,降低研究花費,提供較好的外推性和可靠性證據。本文基于國內外有關LST的文獻和監管部門的指導原則,介紹LST的發展、特點以及其與傳統隨機對照試驗的區別,還有在進行LST時的特殊考慮。此外,本文還探討了真實世界數據支持開展LST的前景,以期為相關研究者開展LST提供參考和借鑒。
引用本文: 王鳴岐, 賈玉龍, 王雨寧, 李玲, 王雯, 任燕, 姚明宏, 孫鑫. 真實世界數據支持大規模簡單臨床試驗設計應用探討. 中國循證醫學雜志, 2024, 24(5): 605-611. doi: 10.7507/1672-2531.202311044 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
盡管經過良好設計的隨機對照試驗(randomized controlled trial,RCT)可以提供高質量的藥械臨床療效評價證據,但其也存在一定的局限,例如常需花費大量的財力、人力和時間[1],在實際應用中受到一定限制。有研究報告指出,一項RCT平均有35個研究終點,平均包含35個納入與排除標準和170頁的病例報告表,整體實施過程平均包含170個程序,需要研究者頻繁進行隨訪,平均在175天內進行11次隨訪[2]。同時,RCT往往設置嚴苛的入選標準和干預措施,其結果也難以代表在真實診療環境下干預的實際效應,導致結果的外推性受限。RCT的樣本量往往較少,難以提供可靠的風險-收益平衡估計,使得臨床醫生難以選擇可以對個人或人群健康產生有意義影響的干預措施[3]。尤其是在面對新發/突發的重大疾病,RCT難以為決策制定者提供及時最佳證據[2]。針對RCT的以上問題,已有學者提出了大規模簡單臨床試驗(large simple trials,LST)的概念。LST是一種不同于傳統RCT的試驗設計,旨在通過在大量患者中進行簡單的隨機分組,實現對治療手段的評估[2,4]。隨著真實世界數據(real world data,RWD)的廣泛應用,能為LST數據的產生提供新的實施路徑,不僅可以降低研究成本,還可以更好地代表真實世界的醫療保健環境,已經被應用于多項重要研究,并且取得了良好的成果[5]。本文基于國內外有關LST的文獻和監管部門的指導原則,系統介紹LST的發展、特點、與傳統RCT的區別,以及在進行LST時的特殊考慮。此外,本文還將探討RWD支持開展LST的前景,以期為相關學者和部門開展LST提供參考和借鑒。
1 LST設計簡介
1.1 LST的發展
LST的起源可以追溯到20世紀80年代,當時醫學界的部分研究者開始意識到傳統RCT存在的一系列問題,例如結果的外推性受限。Peto率先提出了LST的概念[6],他從重要性和可靠性兩個方面,闡述了利用LST對常見疾病中各種可行的治療方法進行療效評價的可行性:
① 如果待研究的疾病很常見,那么對有效治療的發現可能會更加“重要”,而針對常見疾病的治療效應研究可以大規模的形式開展。
② 相對于一些只能在較小范圍內開展研究的治療措施,對被廣泛使用的治療措施開展研究更加重要,而對這種治療方案的研究設計可以用簡單的方式開展。
③ 研究治療對主要終點的影響比次要終點的影響更加重要,如死亡,因此僅對主要終點進行評估,可以大幅簡化研究方案。
④ 治療對主要終點的效應方向在大部分的人群中可能是相似的,如果沒有必要對患者進行細分以決定哪些患者需要哪種治療,入組方案可以簡化。
⑤ 那些對終點事件有重大影響的治療方法,可能早已被人發現,但是一些效應較弱或者中等的治療手段,需要足夠大的試驗規模才能發現其效果[7]。
雖然LST早在1954年就被應用于疫苗的效果評價(引用Salk疫苗案例),但是目前僅美國食品藥品監督管理局(Food and Drug Administration,FDA)出臺了一系列的指導原則為開展LST的場景提供參考。2013年,美國國家科學院醫學研究所和美國衛生與公眾服務部組織了一批來自數理統計、臨床醫學、藥品評價研究等領域的專家成立了一個工作組,探討了阻礙LST開展和應用的因素,以及如何利用LST加速醫療決策和醫療產品開發的速度[2]。該工作組會議總結了幾個共識:① 確定治療的風險-收益平衡的試驗需要更大的樣本量,因為針對現有干預方案的改進主要依靠大量事件的大規模研究,來發現一些中等程度治療效應的干預;② 試驗必須更加簡單,不僅可以降低研究的花費,還可以將試驗結果推廣至更廣泛的同類人群;③ 需要使用隨機化進行效應估計。美國FDA自2012年來頒布了多項指導原則推動LST的應用[8-10]。除此之外,LST在藥物上市后安全性評價中的作用也逐漸被重視[11]。
1.2 LST的特點
從LST的提出和發展的過程中,可以總結出LST的以下特點:
① 研究人群:LST對研究人群采取了較寬泛的納入標準,也采用了隨機分組均衡基線協變量,這樣保證了LST可以納入足夠多的患者,使得人群代表性較好,隨機分組也保證了后續統計分析的結果可靠性。例如,一項系統評價通過對既往20年所開展的13項LST研究進行調查發現,LST的樣本量通常超過1 000人,足夠的試驗參與者保證了對輕微及中等程度干預效應的發現[12]。
② 研究方案:LST不僅簡化了患者的入組標準,減少了觀察指標數量,以臨床常見結局為研究結局,減少了數據收集需求[12],從而簡化了研究方案,大大降低了研究者的工作負擔,也減少了對患者的影響[12]。如在一項針對急性心肌梗死患者早期口服卡托普利、口服單硝酸鹽和靜脈注射硫酸鎂的療效研究中,直接將所有在24小時內出現疑似急性心肌梗死的患者都符合納入條件,而排除標準則直接采用臨床醫生確定的禁忌癥明確[13],并未設置其他的入選和排除條件。
③ 研究問題:LST更加關注在一些常見疾病或大流行疾病情況下,一些可以廣泛應用的治療方案對一些客觀且具有重要意義的臨床結局(如死亡、住院等)的效應研究[4]。
④ 研究時長:LST整體的研究周期較短,結果容易解釋,可以及時為決策者或者臨床醫生提供參考與應用[4]。
1.3 LST的適用場景
LST歷史悠久,不乏極具代表性的成功案例,并對臨床實踐和公共衛生政策產生了重大即時的影響,例如,在第一個口服脊髓灰質炎疫苗的現場試驗中(Salk疫苗),超過50萬名兒童接種了該疫苗,并在宣布結果后短短幾小時內監管部門即批準了該疫苗的免疫接種。而隨著真實世界研究的開展,LST也被作為可靠的真實世界證據來源[14]。LST適合研究那些具有明確研究問題,且所患疾病或癥狀的患者規模較大的情況,并且可以結合RWD的產生平臺開展研究。
首先,LST可用于解決一些公共衛生問題,比如:初級預防的有效性問題,針對疫苗的有效性和安全性評價[15],在緊急衛生狀況下為可能的治療手段進行評價[16]。比如使用mRNA技術開發的COVID-19疫苗(Pfizer–BioNTech),經過了近4萬名患者平均2個月隨訪的大規模試驗,證明了該疫苗兼具安全性和高效性,獲得了FDA緊急使用授權和歐洲藥品管理局(European Medicines Agency,EMA)有條件上市許可[16]。
此外,LST還可用于一些臨床實踐問題的探討,如對一些常見疾病的治療方案評價和回答老藥新用或常規操作是否有意義等問題。例如,在2020年開展的RECOVERY試驗,該試驗發現了當時已被廣泛使用的糖皮質激素地塞米松可減少重癥COVID-19患者的死亡率,從而被納入針對COVID-19的標準治療中。除了以上這些場景,LST也可以為一些開展新藥研究的RCT提供臨床結局或安全性數據[14]。
1.4 LST與RCT的區別
對于LST和傳統的RCT,在思路、實施流程、統計分析上并沒有特別明顯的區別,LST的具體設計與實施細節可以參考傳統RCT進行,都需要經過患者招募、征求知情同意、隨訪等過程,LST和傳統RCT的區別包括但不限于:
① LST不像RCT一樣有著復雜的研究設計和患者招募流程,其啟動的時間要快于RCT[2,4,12]。
② LST與RCT相比,沒有嚴格的患者納入標準,通常具有更大的樣本量和多樣化的人群,不僅結果的外推性更好而且更適用于發現較小及中等的干預效應[2,4,12]。
③ 與RCT相比,LST僅局限于操作比較簡單的干預,因為LST往往基于全科診所,由臨床一線醫生開展,這些醫務工作者往往已經超負荷工作,過于復雜的干預方案不僅難以開展,而且無法在眾多醫院或水平不一的醫生之間保證操作質量[4,12,17]。
④ LST多依賴于醫院常規收集的患者數據開展,可以反映患者在真實診療環境下接受干預的效果,而RCT無法反應在真實診療環境下患者接受治療的效應[4,12,18]。
⑤ LST通常更加依賴于多中心或跨國合作,并且更加依賴通用數據模型和通信網絡技術的協助,以達到統一納入標準以及后續隨訪的開展[2,4,19]。
2 進行LST設計時的特殊考量
LST作為臨床試驗的一種,其研究思路和實施過程與傳統RCT并無本質區別,但與傳統RCT相比,會存在一些特殊的考慮。LST研究需要考慮以下原則[4,17]:① 簡化的研究方案;② 治療方案需要是常規使用的;③ 在醫療大數據迅猛發展的背景下,利用電子臨床技術協調各中心開展研究、獲取患者信息是成功開展LST的關鍵,如電子數據采集系統(electronic data capture,EDC),臨床試驗信息管理系統(clinical trial management system,CTMS),eClinical技術;④ 需要在患者入組時進行風險基礎監測,防止納入潛在高不良反應事件發生風險的患者。
因此,在設計LST時,在樣本量、納入與排除標準、隨機化及隨訪等環節上,會基于以上原則有一些不同于傳統RCT的考慮:
① 監管考慮:在開展國際LST時,需要充分考慮不同國家的法律和監管框架,以確保LST合理合法的開展;LST常依賴多中心和國際合作開展,因此在倫理要求、數據采集與使用、試驗注冊與結果報告等方面,研究者可以參照不同國家/地區推出的臨床試驗相關法律法規,考慮研究方案中的具體細節。
② 樣本量:LST的樣本量主要由研究問題的性質、目標事件的罕見程度以及干預措施間有意義的臨床差異決定,LST可能會受到疾病罕見性或狹窄適應證的限制。在進行樣本量估算時,應側重于將假陰性結果(Ⅱ類錯誤)的風險降至最低。對LST來說,盡可能多的樣本量是必要的,可以避免因樣本量估算不準確導致納入的患者數量不夠,導致無法檢出差異。借助電子信息技術和醫療大數據的發展,為LST提供充足的樣本量已經不是主要的問題[4]。
③ 患者的入選標準:在進行入組標準制定時,不僅需要考慮如何更加簡單快速地識別和納入患者,還需要考慮到后續可以將研究結果推廣的人群。因此,LST的入組標準主要遵循以下原則:一是可以將來自不同地區、經歷不同臨床操作、不同醫療機構的患者納入到研究中來。所以納入標準需要清晰一致,并且具有可推斷性。排除標準應該根據所有目標干預的禁忌癥來確定,潛在不良反應高風險或者患有致命性疾病的患者也應當被排除在研究之外;二是需要考慮研究以多中心的形式進行:為了快速納入大量的患者,LST常常采取多中心試驗的方式進行,在不同的國家或地區同時納入大量的患者。這就需要在制定入組標準時,需要綜合考慮不同地區之間的硬件條件和醫療條件的差異,以保證一些關鍵標準、干預實施、乃至數據獲取等研究過程的一致和協調[4]。
④ 隨機分組與盲法:LST在對患者進行隨機分組時,其分配過程越簡單越好,以便在多中心間組織協調,通常來說,LST通常僅根據最重要和定義最明確的基線因素來對患者進行隨機分組。在LST中,通常不會考慮對患者實施盲法,因為這不僅會增加研究的成本和時間,而且龐大的研究人群也使得這項工作難以順利地進行。因此在進行LST時,是否采用盲法需要研究者仔細權衡,如果研究的干預措施足夠相似,可以考慮采取盲法。此外,在進行結果評價時可以采取盲法,但對于一些客觀指標如死亡,可不考慮盲法[4]。
⑤ 患者隨訪:在LST中,可以借助常規收集數據庫或者在線系統進行長期的在線隨訪。比如,患者的死亡結局可以通過電子病歷(electronic healthcare records,EHR)或國家登記數據庫獲取,或者是利用電話或移動設備應用進行隨訪,由此可以觀察到患者更加長期的結局[20]。
⑥ 統計分析方法:針對人群的異質性及不同時間段內的觀測結果,可以利用混合效應模型或廣義估計方程對人群的異質性及時間相關性進行處理;若因一些隱私或敏感信息無法獲取匯總數據,可能需要分布式的計算方法,將結果匯總或進行Meta分析,在此過程中,需要將分析代碼分發到每個中心運行以確保分析的一致性。此外,針對可能出現的缺失情況,在缺失率可以接受的情況下,可以考慮使用多水平多重填補進行處理[21]。在結果解釋方面,尤其是跨區域的LST,需要考慮回答兩個問題:一是回答研究藥物在所有中心或地區的總效應是否存在,二是回答在總效應存在的情況下,其研究結論能否推廣至特定的地區中心之間的效應差異,或是不同中心、地區的效應差異。
⑦ 數據安全:不同國家的數據隱私保護法律要求存在一些差異,這些差異可能會對某些研究數據的收集產生影響[22,23]。而且在數據收集和使用方面:有些國家對個人數據的收集和使用有嚴格的限制,可能需要更嚴格的許可和審批程序,如我國頒布的《人類遺傳資源管理條例》[24,25],就對相關數據資源信息進行了嚴格的規定,也增加了臨床試驗數據收集和使用的復雜性和成本。同時,一些國家對跨境數據傳輸有特定的規定,在數據傳輸過程中需要進行加密或采取其他安全措施。這可能會對涉及跨國合作的臨床試驗產生影響。不同國家對數據安全和保護的要求也有所不同,可能需要采取不同的安全措施來確保數據的安全性和隱私性。知情同意書在不同的國家可能存在不同的條款或信息,在開展LST時,需要充分了解并滿足當地法律的要求。不同國家對數據的保留期限也有所不同,需要根據各國的法律規定保留相關數據[26,27]。
3 LST設計實例介紹
3.1 實例1
因COVID-19在全球范圍內的蔓延,導致大量患者需要治療,但是在疫情爆發之初,尚無明確的治療方法,針對新冠的治療方式各不相同并且存在爭議。在此背景下,研究者發起RECOVERY試驗,該研究是在英國國家健康研究所臨床研究網絡組織下的176家醫療機構中進行的,旨在評估地塞米松治療對COVID-19住院患者28天內死亡的影響[28]。主要特點如下:
① 入選標準:臨床確診或懷疑為COVID-19的患者,且無治療史;開始定義為18歲以上,后移除年齡限制;孕婦或哺乳期婦女也被納入。
② 樣本量:在研究計劃之初,COVID-19正處于大流行階段,并未對樣本量進行計算,而是隨著試驗的逐步開展,利用逐步獲得的相關數據進行計算,最終計算得到的樣本量為治療組至少2 000例患者,常規治療組4 000例患者。
③ 隨機分組:通過收集患者的人口學資料(年齡、性別),共患病情況(糖尿病、心臟病、慢性肺部疾病等)的信息,同時考慮患者的病情嚴重程度和可接受的治療選項,不同的醫療機構通過同一個在線分配系統將患者以2∶1的比例隨機分配到地塞米松治療組和常規治療組。
④ 主要結局:患者入組后28天內的全因死亡,次要結局為住院時長,其他的臨床結局包括一些特異性死亡、患者是否接受透析治療、是否發生嚴重心律失常、是否接受機械通氣以及機械通氣時長。
最終,RECOVERY研究團隊通過簡化研究方案和研究流程,使該項研究在9天內得以啟動,并在2個月內完成了超過10 000例患者的招募,其中甚至包含了孕婦,最終近15%的英國COVID-19患者被納入。最終的研究結果發現,地塞米松可使病情嚴重患者的死亡人數減少1/3,該結果被英國國家衛生服務局管理的醫院接受,并將地塞米松納入到標準治療方案中,并在世界范圍內得到推廣。不僅如此,RECOVERY在研究進行過程中,借助平臺或母方案設計的方法,也納入了一些新型藥物并進行研究,得出了羥氯喹、洛匹那韋、利托那韋等藥物無效的結論。RECOVERY試驗是基于英國國家健康系統開展的,將住院數據、ICU數據以及死亡統計數據聯合起來,充分利用了英國完善的衛生系統,為日后針對重大健康問題開展高效、精簡的試驗,提供了一個良好的范例。
3.2 實例2
糖尿病預防項目(diabetes prevention program,DDP)是一項旨在評估生活方式干預和藥物治療對糖尿病預防效果的LST,該項目啟動于1996年,在美國27個中心開展[29,30]。通過將患者分為三組(生活方式干預組、藥物干預組、安慰劑組)并進行隨訪,比較其預防或延遲糖尿病發作的有效性和安全性,同時也研究了三組患者在心血管疾病進展、血糖變化等結局上的不同。具體研究設計如下:
① 入選標準:年齡大于25歲,BMI大于24 kg/m2,糖耐量受損(2小時血漿葡萄糖140~199 mg/dL,基于75 g口服葡萄糖耐量試驗),空腹血糖升高(95~125 mg/dL),美洲印第安人群除外。通過以上標準,該研究主要納入了一些發生糖尿病風險較高的人群。
② 排除標準:該研究的排除標準較多,在納入時患有糖尿病、心腦血管病、癌癥等疾病的患者均被排除,目的在于減少患者產生與干預措施有關不良反應的可能性。如:一些患有缺血性心臟病、主動脈瓣狹窄及高血壓的患者,因為不能接受高強度體力活動的干預措施而被排除。
③ 樣本量:該研究在計算樣本量時,結合了既往研究的結果并開展假設,計算得到的樣本量為2 834名患者,最終的樣本量確定為3 000名(1 000名患者/組)。
④ 隨機分組:該研究采用了適應性隨機的方法將患者分配至以下三組:(A)生活干預組,包括了對患者飲食、體力活動的諸多干預;(B)藥物干預組則是定期服用二甲雙胍;(C)安慰劑組。
⑤ 隨訪與研究結局:在該研究中,患者每個季度需要接受一次與生活方式改變有關的課程,若有患者發生了糖尿病,則會繼續隨訪并追蹤其他結局。該研究的主要結局是新發糖尿病;次要結局為心血管風險狀況和疾病;血糖、β細胞功能、胰島素敏感性、腎功能、身體成分、體力活動和營養攝入以及與健康相關的生活質量的變化,安全和健康經濟學也受到監控,在整個研究過程中監測死亡率、發病率及心血管事件。
DDP項目是改變全球預防2型糖尿病的重大研究,通過LST的方式,納入了不同種族、地區和文化背景的人群,證實了改變生活方式對預防2型糖尿病的有效性,為全球衛生政策制度提供了有力的科學依據和證據支持,有助于全球范圍內預防和控制2型糖尿病[30]。
4 基于RWD開展LST
雖然LST相對于RCT有諸多優勢,也有很多成功的案例,但是LST仍然存在一些問題。首先,LST對數據質量的要求較高,如何在多中心的情況下保證數據質量也是需要考慮的問題。數據缺失和數據標準化的問題在面對來自不同中心的數據時會更具挑戰性,這也是LST并不是經常被采用的原因之一[31,32];其次,LST的開展需要完善的醫療系統和基本設施,諸如RECOVERY試驗,均是基于完善的國家衛生服務體系和良好的基礎設施開展的,而在一些沒有完善醫療體系、基礎設施與數據系統的國家或地區如何開展LST,這些都是LST未來需要解決并回答的問題[17,19,31]。
但是隨著真實世界研究的發展,研發理念更新和創新技術的進步,如何有效利用RWD日益受到關注,美國FDA頒布了多個有關真實世界證據用于醫藥審批的指導原則,為全球的RWD利用提供了指導[3]。2020年,國家藥品監督管理局發布了多項真實世界證據支持藥械研發與審評的指導原則[33-35]。
借助RWD可以為LST的開展提供以下數據支持:
① 基于RWD開展LST,可提供患者的長期有效性和安全性隨訪結局。
② RWD可以提供LST所需大規模人群的基線特征、治療史、共患病情況等信息,為亞組人群的確定提供相關的數據標簽,通過EHR數據收集相關亞組人群的臨床和實驗室數據,以探討治療效應在亞組人群間的異質性。
③ 主要結局指標為客觀指標如死亡和臨床常見理化檢查指標時,死亡登記數據和醫院常規檢查數據可提供結局評價數據集;此外,穿戴式或移動式設備應用于捕捉患者的健康數據,也可以為LST未來的研究方向提供更多的可能[18]。
但是,在利用RWD開展LST時,RWD的質量、數據整合、倫理問題都是需要研究者考慮的問題[14]。基于登記數據庫或醫院EHR開展LST,在患者篩選、招募、隨訪以及最終的數據分析階段,都應該注重保護患者的隱私信息,在數據處理和數據分析前,應針對患者的身份證號、姓名、家庭住址等信息進行匿名化處理,確保數據在傳輸和存儲過程中的安全性。同時,建立嚴格的數據安全管理制度,包括訪問、備份、審計等措施,以及嚴格的數據授權機制[25]。
在開展國際LST時,雖然會面臨諸多挑戰,仍可借助中央隨機化系統和日趨成熟的全球合作網絡,并通過定期組織遠程會議,以增強多中心研究的協調和執行能力。與傳統的多中心臨床試驗類似,統一的研究方案和培訓支持都是必不可少的,而在開展LST時,面臨可能出現的不同文化背景情況,研究者需要充分了解各中心的文化、法律法規,與各中心主要研究者共同建立好跨文化溝通機制,彼此尊重理解不同文化背景下的工作方式和價值觀,構建靈活的合作模式。同時構建統一的數據質量和管理標準,建立靈活的數據監測審核機制,盡可能確保研究的一致性和質量[36]。
將RWD合理地與LST結合起來,可以進一步加速藥品評價,并為監管部門和臨床醫生提供即時的高質量的臨床證據,更好地改善患者的預后和解決公共衛生問題。
盡管經過良好設計的隨機對照試驗(randomized controlled trial,RCT)可以提供高質量的藥械臨床療效評價證據,但其也存在一定的局限,例如常需花費大量的財力、人力和時間[1],在實際應用中受到一定限制。有研究報告指出,一項RCT平均有35個研究終點,平均包含35個納入與排除標準和170頁的病例報告表,整體實施過程平均包含170個程序,需要研究者頻繁進行隨訪,平均在175天內進行11次隨訪[2]。同時,RCT往往設置嚴苛的入選標準和干預措施,其結果也難以代表在真實診療環境下干預的實際效應,導致結果的外推性受限。RCT的樣本量往往較少,難以提供可靠的風險-收益平衡估計,使得臨床醫生難以選擇可以對個人或人群健康產生有意義影響的干預措施[3]。尤其是在面對新發/突發的重大疾病,RCT難以為決策制定者提供及時最佳證據[2]。針對RCT的以上問題,已有學者提出了大規模簡單臨床試驗(large simple trials,LST)的概念。LST是一種不同于傳統RCT的試驗設計,旨在通過在大量患者中進行簡單的隨機分組,實現對治療手段的評估[2,4]。隨著真實世界數據(real world data,RWD)的廣泛應用,能為LST數據的產生提供新的實施路徑,不僅可以降低研究成本,還可以更好地代表真實世界的醫療保健環境,已經被應用于多項重要研究,并且取得了良好的成果[5]。本文基于國內外有關LST的文獻和監管部門的指導原則,系統介紹LST的發展、特點、與傳統RCT的區別,以及在進行LST時的特殊考慮。此外,本文還將探討RWD支持開展LST的前景,以期為相關學者和部門開展LST提供參考和借鑒。
1 LST設計簡介
1.1 LST的發展
LST的起源可以追溯到20世紀80年代,當時醫學界的部分研究者開始意識到傳統RCT存在的一系列問題,例如結果的外推性受限。Peto率先提出了LST的概念[6],他從重要性和可靠性兩個方面,闡述了利用LST對常見疾病中各種可行的治療方法進行療效評價的可行性:
① 如果待研究的疾病很常見,那么對有效治療的發現可能會更加“重要”,而針對常見疾病的治療效應研究可以大規模的形式開展。
② 相對于一些只能在較小范圍內開展研究的治療措施,對被廣泛使用的治療措施開展研究更加重要,而對這種治療方案的研究設計可以用簡單的方式開展。
③ 研究治療對主要終點的影響比次要終點的影響更加重要,如死亡,因此僅對主要終點進行評估,可以大幅簡化研究方案。
④ 治療對主要終點的效應方向在大部分的人群中可能是相似的,如果沒有必要對患者進行細分以決定哪些患者需要哪種治療,入組方案可以簡化。
⑤ 那些對終點事件有重大影響的治療方法,可能早已被人發現,但是一些效應較弱或者中等的治療手段,需要足夠大的試驗規模才能發現其效果[7]。
雖然LST早在1954年就被應用于疫苗的效果評價(引用Salk疫苗案例),但是目前僅美國食品藥品監督管理局(Food and Drug Administration,FDA)出臺了一系列的指導原則為開展LST的場景提供參考。2013年,美國國家科學院醫學研究所和美國衛生與公眾服務部組織了一批來自數理統計、臨床醫學、藥品評價研究等領域的專家成立了一個工作組,探討了阻礙LST開展和應用的因素,以及如何利用LST加速醫療決策和醫療產品開發的速度[2]。該工作組會議總結了幾個共識:① 確定治療的風險-收益平衡的試驗需要更大的樣本量,因為針對現有干預方案的改進主要依靠大量事件的大規模研究,來發現一些中等程度治療效應的干預;② 試驗必須更加簡單,不僅可以降低研究的花費,還可以將試驗結果推廣至更廣泛的同類人群;③ 需要使用隨機化進行效應估計。美國FDA自2012年來頒布了多項指導原則推動LST的應用[8-10]。除此之外,LST在藥物上市后安全性評價中的作用也逐漸被重視[11]。
1.2 LST的特點
從LST的提出和發展的過程中,可以總結出LST的以下特點:
① 研究人群:LST對研究人群采取了較寬泛的納入標準,也采用了隨機分組均衡基線協變量,這樣保證了LST可以納入足夠多的患者,使得人群代表性較好,隨機分組也保證了后續統計分析的結果可靠性。例如,一項系統評價通過對既往20年所開展的13項LST研究進行調查發現,LST的樣本量通常超過1 000人,足夠的試驗參與者保證了對輕微及中等程度干預效應的發現[12]。
② 研究方案:LST不僅簡化了患者的入組標準,減少了觀察指標數量,以臨床常見結局為研究結局,減少了數據收集需求[12],從而簡化了研究方案,大大降低了研究者的工作負擔,也減少了對患者的影響[12]。如在一項針對急性心肌梗死患者早期口服卡托普利、口服單硝酸鹽和靜脈注射硫酸鎂的療效研究中,直接將所有在24小時內出現疑似急性心肌梗死的患者都符合納入條件,而排除標準則直接采用臨床醫生確定的禁忌癥明確[13],并未設置其他的入選和排除條件。
③ 研究問題:LST更加關注在一些常見疾病或大流行疾病情況下,一些可以廣泛應用的治療方案對一些客觀且具有重要意義的臨床結局(如死亡、住院等)的效應研究[4]。
④ 研究時長:LST整體的研究周期較短,結果容易解釋,可以及時為決策者或者臨床醫生提供參考與應用[4]。
1.3 LST的適用場景
LST歷史悠久,不乏極具代表性的成功案例,并對臨床實踐和公共衛生政策產生了重大即時的影響,例如,在第一個口服脊髓灰質炎疫苗的現場試驗中(Salk疫苗),超過50萬名兒童接種了該疫苗,并在宣布結果后短短幾小時內監管部門即批準了該疫苗的免疫接種。而隨著真實世界研究的開展,LST也被作為可靠的真實世界證據來源[14]。LST適合研究那些具有明確研究問題,且所患疾病或癥狀的患者規模較大的情況,并且可以結合RWD的產生平臺開展研究。
首先,LST可用于解決一些公共衛生問題,比如:初級預防的有效性問題,針對疫苗的有效性和安全性評價[15],在緊急衛生狀況下為可能的治療手段進行評價[16]。比如使用mRNA技術開發的COVID-19疫苗(Pfizer–BioNTech),經過了近4萬名患者平均2個月隨訪的大規模試驗,證明了該疫苗兼具安全性和高效性,獲得了FDA緊急使用授權和歐洲藥品管理局(European Medicines Agency,EMA)有條件上市許可[16]。
此外,LST還可用于一些臨床實踐問題的探討,如對一些常見疾病的治療方案評價和回答老藥新用或常規操作是否有意義等問題。例如,在2020年開展的RECOVERY試驗,該試驗發現了當時已被廣泛使用的糖皮質激素地塞米松可減少重癥COVID-19患者的死亡率,從而被納入針對COVID-19的標準治療中。除了以上這些場景,LST也可以為一些開展新藥研究的RCT提供臨床結局或安全性數據[14]。
1.4 LST與RCT的區別
對于LST和傳統的RCT,在思路、實施流程、統計分析上并沒有特別明顯的區別,LST的具體設計與實施細節可以參考傳統RCT進行,都需要經過患者招募、征求知情同意、隨訪等過程,LST和傳統RCT的區別包括但不限于:
① LST不像RCT一樣有著復雜的研究設計和患者招募流程,其啟動的時間要快于RCT[2,4,12]。
② LST與RCT相比,沒有嚴格的患者納入標準,通常具有更大的樣本量和多樣化的人群,不僅結果的外推性更好而且更適用于發現較小及中等的干預效應[2,4,12]。
③ 與RCT相比,LST僅局限于操作比較簡單的干預,因為LST往往基于全科診所,由臨床一線醫生開展,這些醫務工作者往往已經超負荷工作,過于復雜的干預方案不僅難以開展,而且無法在眾多醫院或水平不一的醫生之間保證操作質量[4,12,17]。
④ LST多依賴于醫院常規收集的患者數據開展,可以反映患者在真實診療環境下接受干預的效果,而RCT無法反應在真實診療環境下患者接受治療的效應[4,12,18]。
⑤ LST通常更加依賴于多中心或跨國合作,并且更加依賴通用數據模型和通信網絡技術的協助,以達到統一納入標準以及后續隨訪的開展[2,4,19]。
2 進行LST設計時的特殊考量
LST作為臨床試驗的一種,其研究思路和實施過程與傳統RCT并無本質區別,但與傳統RCT相比,會存在一些特殊的考慮。LST研究需要考慮以下原則[4,17]:① 簡化的研究方案;② 治療方案需要是常規使用的;③ 在醫療大數據迅猛發展的背景下,利用電子臨床技術協調各中心開展研究、獲取患者信息是成功開展LST的關鍵,如電子數據采集系統(electronic data capture,EDC),臨床試驗信息管理系統(clinical trial management system,CTMS),eClinical技術;④ 需要在患者入組時進行風險基礎監測,防止納入潛在高不良反應事件發生風險的患者。
因此,在設計LST時,在樣本量、納入與排除標準、隨機化及隨訪等環節上,會基于以上原則有一些不同于傳統RCT的考慮:
① 監管考慮:在開展國際LST時,需要充分考慮不同國家的法律和監管框架,以確保LST合理合法的開展;LST常依賴多中心和國際合作開展,因此在倫理要求、數據采集與使用、試驗注冊與結果報告等方面,研究者可以參照不同國家/地區推出的臨床試驗相關法律法規,考慮研究方案中的具體細節。
② 樣本量:LST的樣本量主要由研究問題的性質、目標事件的罕見程度以及干預措施間有意義的臨床差異決定,LST可能會受到疾病罕見性或狹窄適應證的限制。在進行樣本量估算時,應側重于將假陰性結果(Ⅱ類錯誤)的風險降至最低。對LST來說,盡可能多的樣本量是必要的,可以避免因樣本量估算不準確導致納入的患者數量不夠,導致無法檢出差異。借助電子信息技術和醫療大數據的發展,為LST提供充足的樣本量已經不是主要的問題[4]。
③ 患者的入選標準:在進行入組標準制定時,不僅需要考慮如何更加簡單快速地識別和納入患者,還需要考慮到后續可以將研究結果推廣的人群。因此,LST的入組標準主要遵循以下原則:一是可以將來自不同地區、經歷不同臨床操作、不同醫療機構的患者納入到研究中來。所以納入標準需要清晰一致,并且具有可推斷性。排除標準應該根據所有目標干預的禁忌癥來確定,潛在不良反應高風險或者患有致命性疾病的患者也應當被排除在研究之外;二是需要考慮研究以多中心的形式進行:為了快速納入大量的患者,LST常常采取多中心試驗的方式進行,在不同的國家或地區同時納入大量的患者。這就需要在制定入組標準時,需要綜合考慮不同地區之間的硬件條件和醫療條件的差異,以保證一些關鍵標準、干預實施、乃至數據獲取等研究過程的一致和協調[4]。
④ 隨機分組與盲法:LST在對患者進行隨機分組時,其分配過程越簡單越好,以便在多中心間組織協調,通常來說,LST通常僅根據最重要和定義最明確的基線因素來對患者進行隨機分組。在LST中,通常不會考慮對患者實施盲法,因為這不僅會增加研究的成本和時間,而且龐大的研究人群也使得這項工作難以順利地進行。因此在進行LST時,是否采用盲法需要研究者仔細權衡,如果研究的干預措施足夠相似,可以考慮采取盲法。此外,在進行結果評價時可以采取盲法,但對于一些客觀指標如死亡,可不考慮盲法[4]。
⑤ 患者隨訪:在LST中,可以借助常規收集數據庫或者在線系統進行長期的在線隨訪。比如,患者的死亡結局可以通過電子病歷(electronic healthcare records,EHR)或國家登記數據庫獲取,或者是利用電話或移動設備應用進行隨訪,由此可以觀察到患者更加長期的結局[20]。
⑥ 統計分析方法:針對人群的異質性及不同時間段內的觀測結果,可以利用混合效應模型或廣義估計方程對人群的異質性及時間相關性進行處理;若因一些隱私或敏感信息無法獲取匯總數據,可能需要分布式的計算方法,將結果匯總或進行Meta分析,在此過程中,需要將分析代碼分發到每個中心運行以確保分析的一致性。此外,針對可能出現的缺失情況,在缺失率可以接受的情況下,可以考慮使用多水平多重填補進行處理[21]。在結果解釋方面,尤其是跨區域的LST,需要考慮回答兩個問題:一是回答研究藥物在所有中心或地區的總效應是否存在,二是回答在總效應存在的情況下,其研究結論能否推廣至特定的地區中心之間的效應差異,或是不同中心、地區的效應差異。
⑦ 數據安全:不同國家的數據隱私保護法律要求存在一些差異,這些差異可能會對某些研究數據的收集產生影響[22,23]。而且在數據收集和使用方面:有些國家對個人數據的收集和使用有嚴格的限制,可能需要更嚴格的許可和審批程序,如我國頒布的《人類遺傳資源管理條例》[24,25],就對相關數據資源信息進行了嚴格的規定,也增加了臨床試驗數據收集和使用的復雜性和成本。同時,一些國家對跨境數據傳輸有特定的規定,在數據傳輸過程中需要進行加密或采取其他安全措施。這可能會對涉及跨國合作的臨床試驗產生影響。不同國家對數據安全和保護的要求也有所不同,可能需要采取不同的安全措施來確保數據的安全性和隱私性。知情同意書在不同的國家可能存在不同的條款或信息,在開展LST時,需要充分了解并滿足當地法律的要求。不同國家對數據的保留期限也有所不同,需要根據各國的法律規定保留相關數據[26,27]。
3 LST設計實例介紹
3.1 實例1
因COVID-19在全球范圍內的蔓延,導致大量患者需要治療,但是在疫情爆發之初,尚無明確的治療方法,針對新冠的治療方式各不相同并且存在爭議。在此背景下,研究者發起RECOVERY試驗,該研究是在英國國家健康研究所臨床研究網絡組織下的176家醫療機構中進行的,旨在評估地塞米松治療對COVID-19住院患者28天內死亡的影響[28]。主要特點如下:
① 入選標準:臨床確診或懷疑為COVID-19的患者,且無治療史;開始定義為18歲以上,后移除年齡限制;孕婦或哺乳期婦女也被納入。
② 樣本量:在研究計劃之初,COVID-19正處于大流行階段,并未對樣本量進行計算,而是隨著試驗的逐步開展,利用逐步獲得的相關數據進行計算,最終計算得到的樣本量為治療組至少2 000例患者,常規治療組4 000例患者。
③ 隨機分組:通過收集患者的人口學資料(年齡、性別),共患病情況(糖尿病、心臟病、慢性肺部疾病等)的信息,同時考慮患者的病情嚴重程度和可接受的治療選項,不同的醫療機構通過同一個在線分配系統將患者以2∶1的比例隨機分配到地塞米松治療組和常規治療組。
④ 主要結局:患者入組后28天內的全因死亡,次要結局為住院時長,其他的臨床結局包括一些特異性死亡、患者是否接受透析治療、是否發生嚴重心律失常、是否接受機械通氣以及機械通氣時長。
最終,RECOVERY研究團隊通過簡化研究方案和研究流程,使該項研究在9天內得以啟動,并在2個月內完成了超過10 000例患者的招募,其中甚至包含了孕婦,最終近15%的英國COVID-19患者被納入。最終的研究結果發現,地塞米松可使病情嚴重患者的死亡人數減少1/3,該結果被英國國家衛生服務局管理的醫院接受,并將地塞米松納入到標準治療方案中,并在世界范圍內得到推廣。不僅如此,RECOVERY在研究進行過程中,借助平臺或母方案設計的方法,也納入了一些新型藥物并進行研究,得出了羥氯喹、洛匹那韋、利托那韋等藥物無效的結論。RECOVERY試驗是基于英國國家健康系統開展的,將住院數據、ICU數據以及死亡統計數據聯合起來,充分利用了英國完善的衛生系統,為日后針對重大健康問題開展高效、精簡的試驗,提供了一個良好的范例。
3.2 實例2
糖尿病預防項目(diabetes prevention program,DDP)是一項旨在評估生活方式干預和藥物治療對糖尿病預防效果的LST,該項目啟動于1996年,在美國27個中心開展[29,30]。通過將患者分為三組(生活方式干預組、藥物干預組、安慰劑組)并進行隨訪,比較其預防或延遲糖尿病發作的有效性和安全性,同時也研究了三組患者在心血管疾病進展、血糖變化等結局上的不同。具體研究設計如下:
① 入選標準:年齡大于25歲,BMI大于24 kg/m2,糖耐量受損(2小時血漿葡萄糖140~199 mg/dL,基于75 g口服葡萄糖耐量試驗),空腹血糖升高(95~125 mg/dL),美洲印第安人群除外。通過以上標準,該研究主要納入了一些發生糖尿病風險較高的人群。
② 排除標準:該研究的排除標準較多,在納入時患有糖尿病、心腦血管病、癌癥等疾病的患者均被排除,目的在于減少患者產生與干預措施有關不良反應的可能性。如:一些患有缺血性心臟病、主動脈瓣狹窄及高血壓的患者,因為不能接受高強度體力活動的干預措施而被排除。
③ 樣本量:該研究在計算樣本量時,結合了既往研究的結果并開展假設,計算得到的樣本量為2 834名患者,最終的樣本量確定為3 000名(1 000名患者/組)。
④ 隨機分組:該研究采用了適應性隨機的方法將患者分配至以下三組:(A)生活干預組,包括了對患者飲食、體力活動的諸多干預;(B)藥物干預組則是定期服用二甲雙胍;(C)安慰劑組。
⑤ 隨訪與研究結局:在該研究中,患者每個季度需要接受一次與生活方式改變有關的課程,若有患者發生了糖尿病,則會繼續隨訪并追蹤其他結局。該研究的主要結局是新發糖尿病;次要結局為心血管風險狀況和疾病;血糖、β細胞功能、胰島素敏感性、腎功能、身體成分、體力活動和營養攝入以及與健康相關的生活質量的變化,安全和健康經濟學也受到監控,在整個研究過程中監測死亡率、發病率及心血管事件。
DDP項目是改變全球預防2型糖尿病的重大研究,通過LST的方式,納入了不同種族、地區和文化背景的人群,證實了改變生活方式對預防2型糖尿病的有效性,為全球衛生政策制度提供了有力的科學依據和證據支持,有助于全球范圍內預防和控制2型糖尿病[30]。
4 基于RWD開展LST
雖然LST相對于RCT有諸多優勢,也有很多成功的案例,但是LST仍然存在一些問題。首先,LST對數據質量的要求較高,如何在多中心的情況下保證數據質量也是需要考慮的問題。數據缺失和數據標準化的問題在面對來自不同中心的數據時會更具挑戰性,這也是LST并不是經常被采用的原因之一[31,32];其次,LST的開展需要完善的醫療系統和基本設施,諸如RECOVERY試驗,均是基于完善的國家衛生服務體系和良好的基礎設施開展的,而在一些沒有完善醫療體系、基礎設施與數據系統的國家或地區如何開展LST,這些都是LST未來需要解決并回答的問題[17,19,31]。
但是隨著真實世界研究的發展,研發理念更新和創新技術的進步,如何有效利用RWD日益受到關注,美國FDA頒布了多個有關真實世界證據用于醫藥審批的指導原則,為全球的RWD利用提供了指導[3]。2020年,國家藥品監督管理局發布了多項真實世界證據支持藥械研發與審評的指導原則[33-35]。
借助RWD可以為LST的開展提供以下數據支持:
① 基于RWD開展LST,可提供患者的長期有效性和安全性隨訪結局。
② RWD可以提供LST所需大規模人群的基線特征、治療史、共患病情況等信息,為亞組人群的確定提供相關的數據標簽,通過EHR數據收集相關亞組人群的臨床和實驗室數據,以探討治療效應在亞組人群間的異質性。
③ 主要結局指標為客觀指標如死亡和臨床常見理化檢查指標時,死亡登記數據和醫院常規檢查數據可提供結局評價數據集;此外,穿戴式或移動式設備應用于捕捉患者的健康數據,也可以為LST未來的研究方向提供更多的可能[18]。
但是,在利用RWD開展LST時,RWD的質量、數據整合、倫理問題都是需要研究者考慮的問題[14]。基于登記數據庫或醫院EHR開展LST,在患者篩選、招募、隨訪以及最終的數據分析階段,都應該注重保護患者的隱私信息,在數據處理和數據分析前,應針對患者的身份證號、姓名、家庭住址等信息進行匿名化處理,確保數據在傳輸和存儲過程中的安全性。同時,建立嚴格的數據安全管理制度,包括訪問、備份、審計等措施,以及嚴格的數據授權機制[25]。
在開展國際LST時,雖然會面臨諸多挑戰,仍可借助中央隨機化系統和日趨成熟的全球合作網絡,并通過定期組織遠程會議,以增強多中心研究的協調和執行能力。與傳統的多中心臨床試驗類似,統一的研究方案和培訓支持都是必不可少的,而在開展LST時,面臨可能出現的不同文化背景情況,研究者需要充分了解各中心的文化、法律法規,與各中心主要研究者共同建立好跨文化溝通機制,彼此尊重理解不同文化背景下的工作方式和價值觀,構建靈活的合作模式。同時構建統一的數據質量和管理標準,建立靈活的數據監測審核機制,盡可能確保研究的一致性和質量[36]。
將RWD合理地與LST結合起來,可以進一步加速藥品評價,并為監管部門和臨床醫生提供即時的高質量的臨床證據,更好地改善患者的預后和解決公共衛生問題。