為了應對外科臨床研究中長期存在的挑戰,現對2022–2023年期間在JAMA Surgery發表的關于隨機對照試驗(randomized clinical trial,RCT)方法指導的系列文章進行了深入解讀,本部分內容重點介紹了RCT的設計、選擇、倫理考量、質量控制、預算、經費支持等方面的內容,旨在增強研究者,特別是外科醫生對RCT的全面理解,從而為臨床外科醫生開展更高質量和更具科學性的RCT研究提供方法學指導。
版權信息: ?四川大學華西醫院華西期刊社《中國普外基礎與臨床雜志》版權所有,未經授權不得轉載、改編
推薦意見分級評估、制定和評價工作組(Grading of Recommendations Assessment,Development and Evaluation,GRADE)系統是評估臨床研究并為系統性綜述提供建議的主要工具之一。在GRADE系統分級中,隨機對照試驗(randomized clinical trial,RCT)因其相對較低的偏倚風險而被視為最高級別的證據。有研究者[1]對1999–2009年間發表在各類期刊上的外科臨床試驗進行了系統回顧后發現,外科RCTs的絕對數量增加了50%,且試驗質量顯著提升。然而盡管中國相關研究的數量增加了5倍,但其質量卻未見顯著提高[1-2]。現通過解讀2022–2023年期間JAMA Surgery發表的關于RCTs方法指導的系列文章[3-7],重點探討試驗設計、設計選擇、倫理考量、質量控制以及預算、經費支持等方面,為我國外科RCT研究人員提供建議和參考,助力高質量RCTs的開展。
1 外科RCT的試驗設計
RCT是一種科學研究方法,用于評估特定干預措施(如藥物、手術、生活方式改變等)對特定人群的效果。在RCT中,受試者被隨機分配到不同研究組,以最大限度地減少偏倚和混雜因素對結果的影響。在此重點討論外科RCT設計階段需要考慮的幾個關鍵因素。
1.1 研究問題和假設
開展臨床試驗,首先需要提出一個重要的研究問題,該問題不僅應對臨床實踐或衛生政策產生重大影響,還應填補知識空白。在設計臨床試驗時,患者安全和倫理問題尤為關鍵,特別是手術的侵入性或因研究方案要求患者拒絕手術可能對患者造成的潛在傷害。因此,確保患者和醫生對研究問題達成共識非常重要,否則可能會影響試驗的可行性[8]。
1.2 確定主要終點和次要終點
所有臨床試驗都應設定一個明確的主要終點,該終點直接回應研究問題,同時作為樣本量計算和研究時間長短的依據。主要終點可以是單一結局或多個事件的復合結局。例如,羅伯特·波爾特教授在研究纖維蛋白密封劑在肝切除術后預防切除面相關并發癥中的應用時,便是將包括膽漏、出血或膿腫等并發癥的復合結局作為主要終點[9]。設定復合結局作為主要終點在臨床試驗中有諸多優勢:提高統計效能和準確性,減少所需樣本量,并更全面地評估干預效果[10]。
此外,還應預先定義次要終點,以更好地描述不同治療方法的效果。
事后分析(針對未在研究計劃中預先指定的結局進行的分析)通常是探索性的,它可以獨立于主要終點和次要終點,也可以基于主要終點和次要終點進行深入探討可能用來提出未來研究的假設。然而,這類分析可能引發報告偏倚以及Ⅰ類和Ⅱ類錯誤,如果結果與主要終點不同,可能會改變試驗的主要結論。
1.3 試驗組和對照組
試驗組和對照組的定義應兼顧普遍性和可行性并考慮患者的偏好。大多數外科試驗涉及單一干預,患者對某種治療方案的強烈偏好可能影響試驗的可行性并引入偏倚。明確不同治療的臨床療效并在試驗初期告知患者,是確保其全面參與研究的關鍵。
1.4 隨機法與盲法的選擇
為確保RCT的質量,必須明確規定隨機化、盲法、隨訪、樣本量、分析和報告的具體方法[11]。隨機化是指將研究對象隨機分配到試驗組和對照組中,最大限度地減少混雜因素的影響并優化基線平衡,從而提高組間的可比性。在大多數外科RCTs中,通常首選簡單隨機化,即每個參與者被隨機分配到任一組的可能性相同。盲法用于防止研究人員、研究對象和結果評估人員知曉干預措施的分配,分為單盲(對患者設盲)和雙盲(對患者和醫生同時設盲),它與隨機化同樣重要。然而在外科RCT中,由于試驗組和對照組不同術式非常容易被識別,往往難以對患者或外科醫生實施盲法,因此,外科RCT往往要求實施過程中即便無法采用盲法,但應確保結局評估時采用盲法。
2 外科RCT的設計選擇
RCT由其內部效度(internal validity)為研究提供了高質量的證據,但RCT也并不總是符合倫理規范及強的可行性[4]。保證RCT可行性的正確做法是,讓研究的問題和假設引導RCT研究設計的選擇,同時邀請方法學和統計學專家深度參與。在Dijkgraaf等[4]發布的指南中介紹了以下幾種RCT設計方案的優缺點,以及研究人員在RCT設計選擇過程中經常出現的問題,在本解讀中也將重點介紹RCT中常見的試驗設計方法。
2.1 常用的RCT設計方法
2.1.1 平行設計
平行設計(parallel group design)是將符合入選標準的研究對象隨機分配到試驗組和對照組,分別接受相應的治療,同時收集其有效性和安全性數據,然后通過統計分析評估干預效果。例如,為比較甲氧芐啶-磺胺甲惡唑與萬古霉素對耐甲氧西林金黃色葡萄球菌引起的嚴重感染的療效,研究者可以將受試者隨機分配到2組:一組受試者接受甲氧芐啶-磺胺甲惡唑治療,另一組受試者接受萬古霉素治療,通過比較2組患者的臨床結果,從而評估這兩種抗生素的相對療效[12]。平行設計的優勢包括[13]:① 基于隨機原則進行分組,能有效避免選擇偏倚,增強各組間的均衡可比性;② 設有對照組且各組同時進行,能有效控制非處理因素(例如環境因素、時間效應等)的影響,有助于揭示和比較總體參數之間的真實差異。然而平行設計的缺點也包括:① 無法對同一參與者的不同治療進行比較;② 當治療方式(如手術與藥物治療)或侵入方式(如開腹與腹腔鏡手術)存在差異時,由于參與者偏好不同,患者招募可能困難;③ 研究成本高昂;④ 醫生和患者的偏好可能影響研究結果的推廣。
2.1.2 交叉設計和配對設計
在交叉設計(cross-over design)中,每個參與者都接受所有干預措施,并作為自己的對照,從而消除了個體差異對結果的影響,同時降低了研究成本和樣本量要求。例如,為比較閉環系統與傳感器增強泵治療在妊娠期1型糖尿病患者中的血糖控制效果,研究者將受試者隨機分配到兩種治療順序之一:一組受試者首先接受夜間閉環系統治療,另一組則接受傳感器增強泵治療;經過第一階段干預后,所有受試者均經歷了2周的洗脫期,然后切換到另一種干預;通過比較兩種治療方式下受試者的血糖達標時間比例、平均血糖水平及低血糖發生情況,從而評估閉環系統相較于傳感器增強泵治療在妊娠期1型糖尿病患者中的相對療效[14]。此設計適用于干預措施不會對參與者產生長期影響且可以安全重復應用的情況,為了避免干預措施之間的相互影響,干預的時間間隔應足夠長。當參與者不能接受所有干預措施且樣本量有限時,可考慮使用配對設計(matched-pairs designs),配對設計通過配對增強組間的可比性,特別適合需要控制個體差異或特定患者群體的研究,但找到合適的配對對象是其主要挑戰。
2.1.3 基于專業技能的試驗設計和實效性試驗設計
不同治療間的直接比較可以采用基于專業技能的試驗設計或實效性設計。基于專業技能的試驗設計是假設研究對象均由相應資質的臨床專家治療,最大限度提高了試驗的內部效度,如果參與者僅在三級醫院治療,該設計的外部效度也能得到保障,并可能一定程度上解決外科新技術的學習曲線問題[15]。然而如果干預實施者是不同經驗水平的外科醫生,則應采用實效性試驗設計,實效性試驗設計是在真實臨床環境中比較不同干預措施效果的研究,考慮了現實中的臨床實踐,包括醫生技能和經驗的差異,其優勢在于能夠將研究成果推廣到更現實的環境中,減少臨床治療與研究之間的差距,以更低的成本和更寬松的入選標準生成更具普遍性的結果[16]。電子病歷系統(electronic health record system,EHRS)的廣泛應用使實效性臨床試驗的發展成為可能。
2.1.4 整群隨機化設計
為避免干預措施的沾染,可以采用整群隨機化設計。沾染是指在臨床試驗中,原本應僅在試驗組中使用的治療措施錯誤地應用于對照組,導致兩組之間的界限模糊,從而影響試驗結果的準確性。整群隨機化設計是將整個群體(如醫院、診所或其他分組)隨機分配到干預措施或常規治療中。例如,為評估基于工作場所的多組分干預方案對控制高血壓的有效性,研究者將各工作場所隨機分配至兩組:一組工作場所的受試者接受標準化的高血壓管理干預,包括工作場所健康促進計劃和社區衛生中心的定期隨訪,另一組工作場所的受試者則僅接受常規醫療護理;通過比較受試者的血壓控制率、吸煙和飲酒率、運動頻率、體質量等指標的變化,評估該多組分干預方案對改善血壓控制的相對效果[17]。其優勢在于,通過在較高層級上隨機化,減少了個體層面的沾染,并有助于維持試驗的盲法。然而該設計的缺點在于,不同群體(如醫院)之間可能存在的已知或未知差異(例如,不同醫院醫療資源的可用性、地區文化、社會經濟因素差異等),可能影響治療效果并混淆研究結果;此外,整群隨機化通常需要更大的樣本量和更復雜的分析方法。
2.1.5 階梯整群隨機設計
階梯整群隨機試驗設計是指不同群組的參與者隨機分配,在不同時間點對常規診療與新干預措施進行交叉轉換的設計[18]。隨著研究逐步推進,直至所有群組都接受干預措施。例如,為評估一項旨在改善缺氧性腦損傷患者預后評估質量的干預措施的效果,研究者將所參與的18家醫院分配到4個時間段,按照所分配的時間段依次實施干預,同時在整個試驗期間維持未干預的對照組醫院以供對比[19]。該設計適用于資源有限、患者隨機化不可行或存在治療沾染風險的情況。此外,階梯整群隨機還可用于發現和控制“時間趨勢”對效果評估的影響。在長期試驗中,隨著時間的推移或外部因素(如季節、衛生條件等)的變化,疾病發生和發展情況可能會變化,影響干預效果的評價,進而引發偏倚。階梯設計有助于識別和調整此類時間效應[20]。
2.1.6 析因設計
當研究者對兩種或多種干預措施感興趣,并希望研究其主要效應和聯合效應時,析因設計是理想選擇。這種設計適合于干預措施易于結合使用的情況。例如,為研究手術期間嚴格控制體溫(strict control of temperature,STC)和嚴格控制血糖(strict control of glucose,SGC)的效果,研究者可以對受試者進行兩次隨機化,分別分配到STC/無STC組和SGC/無SGC組;通過分析各研究組(STC+SGC、僅STC、僅SGC、無嚴格控制)的數據,如果發現交互作用,可進一步探討治療效果的普適性。析因設計能同時評估多種干預措施的效應,因此比平行設計更高效且信息量更豐富。然而由于多種干預措施的組合,其結果解釋可能變得復雜,并且試驗中的任何錯誤都可能影響研究結果。
2.1.7 適應性設計
適應性試驗設計是指在試驗開始后,在不破壞試驗整體性和有效性的前提下,根據前期結果及時發現并修正初始設計中的不合理假設,從而減少研究成本并縮短研究周期的一類研究設計方法[21]。當試驗設計階段存在較大不確定性時,如當出現樣本量計算不確定、治療的安全性和有效性可能與預期不符、新療法的推出可能引發倫理問題時適應性試驗設計尤為適用。例如,為評估一種新抗癌藥物的療效,研究者將患者隨機分配到兩階段試驗設計中:第一階段納入一部分患者并觀察治療反應,如果療效未達到預期則試驗終止,若達到療效標準則進入第二階段并繼續納入更多患者;通過比較兩階段的累積療效數據,評估該藥物對特定腫瘤類型的治療效果,從而判斷它是否具有進一步研究的價值[22]。適應性設計的優勢包括:① 在條件變化時保持試驗的有效性和可靠性;② 提高研究效率;③ 避免不必要或有害的過度治療或治療不足。盡管適應性設計增加了試驗設計的復雜性,并帶來了更多倫理和監管挑戰,但預先計劃和明確說明設計調整,有助于提高試驗的可信度和透明度。
2.2 常見問題
在設計外科RCT時,研究人員常犯的錯誤包括:① 在提出研究問題時忽略相關假設,清晰的假設是試驗設計的基礎,能明確研究方向和目標。如果假設模糊,可能導致研究目標不明確,從而使得試驗設計和結果解讀變得困難。② 缺乏對各種隨機化設計的了解,可能導致選擇不適合的設計方法。例如,若選用了不適合的整群隨機化設計而非個體隨機化,可能會導致不同群體間的差異影響結果,進而妨礙對治療效果的準確評估。③ 低估方法學和統計學專業知識的重要性。如果研究者未能適當應用統計分析,可能會導致數據解釋錯誤,從而使得研究結論不可靠。④ 忽視內部效度是外部效度的前提,低內部效度的研究無法產生有意義的高外部效度。例如,若研究內部效度較低,可能導致對治療效果的偏倚估計,這將影響臨床推廣時對治療有效性的信心。
為避免這些錯誤,研究者應考慮到:① 明確提出研究問題和假設,采用PICOS原則將臨床問題轉化為科學問題,從而確保研究的方向性和目標性;② 充分了解和考慮各種隨機化設計,確保設計選擇符合研究問題,以減少隨機化過程中的偏倚;③ 邀請方法學和統計學專家深度且全程參與,以確保試驗具有高內部效度,確保數據的準確性和結論的可靠性。
3 外科RCT的倫理考量
在所有臨床研究中,尤其是涉及人類的研究,必須嚴格遵守相關倫理標準。為此,我國于2023年發布并實施了《涉及人的生命科學和醫學研究倫理審查辦法》。該辦法強調每項研究的核心倫理責任是在確保研究風險不超過預期益處的前提下,最大限度地保護受試者的權益。
3.1 試驗研究人員職責
研究人員的首要職責是保障受試者的權益,確保研究中的風險與預期獲益相平衡。臨床研究應避免為了科學價值而故意危害受試者的生命與健康[23]。醫師在研究過程中應在研究者和醫療工作者的兩個角色之間找到平衡,始終確保患者的需求和治療優先于試驗要求。研究人員在試驗實施過程中應遵守以下倫理原則:不傷害原則、行善原則、自主原則和公正原則;此外,研究者還需及時向機構審查委員會(institutional review board,IRB)、數據安全監察委員會(data and safety monitoring board,DSMB)和研究申辦方報告明確定義的不良事件和突發問題并提出相應處理措施,以確保報告的及時性、參與者的安全性、數據的持續有效性及保密性。
3.2 受試者權利
《紐倫堡法典》和《赫爾辛基宣言》明確規定,所有受試者享有以下權利:知情同意權、隱私和保密權、退出研究的權利、免受不必要傷害的權利、獲得適當醫療的權利、知曉研究結果的權利、公平對待的權利,以及保護弱勢群體的權利。其中,知情同意權是核心。受試者在充分了解研究目的、程序、潛在風險和獲益后,應自愿決定是否參與,并且可以隨時退出,不會因此受到任何懲罰[24]。受試者參與必須是自愿的,在獲取同意的過程中不得存在任何不當行為[25]。因此,通常由了解試驗且客觀的第三方與患者討論試驗并獲取同意。18歲以下的受試者通常由父母作為主要決策者,如果兒童年齡足夠理解醫療過程,應在治療時也應征得其同意。
3.3 外科臨床RCT方案的制定與審批
《紐倫堡法典》規定,臨床試驗必須以生物學知識和臨床前實驗為基礎,應避免不必要的風險和傷害,風險應與試驗潛在發現的重要性成比例,且研究必須由合格的科學家實施和開展。自1974年起,美國強制要求所有由國家資助的人類研究必須經過IRB審批,以確保試驗風險最小化[26]。向IRB提交申請時,臨床試驗方案中應明確說明研究是否能為受試者或社會帶來潛在利益,哪些干預措施屬于常規醫療,哪些干預措施僅用于研究目的,以及參與和不參與研究時治療的差異,同時提供擬行干預措施的現有證據。干預措施和受試者群體的選擇應以降低或消除風險和不適為目標。所有研究人員必須接受相關倫理、法規及技術培訓,以避免無意增加受試者風險。此外,還應特別保護弱勢群體并確保研究人群的公平性和多樣性[27]。
4 外科臨床RCT的質量控制
在大多數臨床RCT中,質量控制主要涉及研究方案的依從性和數據完整性。對于外科手術類RCT,一個特別的挑戰在于,不同醫護人員在不同環境中執行操作時,可能因臨床情況的微小差異而導致操作本身的差異。現從數據完整性、手術操作規范、手術質量分析等方面探討如何控制試驗質量,并分析了可能遇到的常見問題。
4.1 RCT質量控制方法
4.1.1 數據完整性
數據完整性是高質量臨床試驗的基礎,準確的數據錄入是關鍵,這包括制定明確的數據錄入規則,以確保數據的一致性和準確性。研究開始前,應制定預防數據缺失的監控策略,并確定缺失數據的處理方法,以確保在數據缺失發生時能夠迅速有效地采取措施。在研究過程中,根據研究的風險和復雜性,需按適當的嚴格程度進行定期審核,及時發現和糾正潛在問題。審核的時間和頻率應在研究開始前明確規定,以確保每個階段的數據質量得到保障,并為最終結果的可靠性提供支持。
4.1.2 手術操作規范
在臨床RCT中,使用外科手術操作增加了質量控制的復雜性。詳細說明手術操作步驟,有助于研究人員理解干預措施的關鍵組成部分,使其他研究者能夠復制操作,從而減少差異。然而,對于廣泛應用的手術,標準化過度細節可能無法準確反映日常操作中的差異,進而降低比較結果的普適性。采用實效性試驗設計可使研究結果更具普適性。
4.1.3 手術質量分析
手術質量分析可以通過直接觀察手術過程、查看未經剪輯的手術視頻以及審查手術記錄進行。由中立專家直接觀察手術是最理想的方法,但因費時且費用高,通常難以在研究過程中多次實施;查看未經剪輯的手術視頻也是一種可行方法,但同樣費時費力,且獲取高質量視頻存在挑戰,此方法通常在研究初期用于檢查手術方案的執行情況,或作為定期審核和故障排除的輔助工具;審查手術記錄是最常用的方法,提前標準化手術描述并定義基本報告要素,有助于更有效地進行質量分析。
4.2 常見問題
4.2.1 缺乏認知上的均衡感
研究[28]表明,患者對特定治療方法的偏好是拒絕參加外科RCT的最常見原因。這種偏好在手術干預與非手術干預或僅觀察對比時尤為明顯。研究開始前,應對研究人員和潛在受試者進行相關培訓和知情告知,使其清楚認識到隨機至試驗組和對照組的均等性,以提高參與意愿,并減少隨機化后的退出和交叉情況。
4.2.2 技術快速發展帶來的不穩定性
隨著新技術和新設備的不斷涌現,使用標準化技術和設備的傳統RCT可能在試驗完成前已過時。因此,試驗設計需要具備靈活性和創新性。機構審查委員會應更接受并鼓勵手術操作性試驗中采用新型設計,以應對技術的快速變化。適應性試驗設計和“追蹤試驗”可能是應對快速演變程序的有效解決方案[29, 30]。
4.2.3 新手術的學習曲線問題
在設計外科臨床RCT時,必須考慮外科醫生對新手術的熟練程度,解決外科醫生的學習曲線問題是實施干預性手術RCT時最大挑戰之一[31]。然而大多數(近80%)外科RCT在設計時未考慮外科醫生的經驗[32]。為解決學習曲線問題,可以采用以下方法[33]:明確規定實施新手術的最低病例數量;對參與試驗的外科醫生進行培訓;查看手術錄像或直接觀察手術過程;規定手術質量標準;對切除標本進行質量評估。這些方法可結合使用,以確保試驗的有效性和可靠性。
5 外科臨床RCT的預算和經費支持
預算制定和基金申請是規劃臨床RCT的核心環節。申請者應基于切實可行的研究計劃制定預算并撰寫基金申報書。研究計劃必須有科學依據,確保受試者的倫理待遇,預算必須合理可行,以證明資金投入的合理性。
5.1 制定預算
預算的多少取決于樣本量、非常規臨床治療的需求、研究周期以及參與試驗的地點數量[34]。在制定預算前,應仔細審查研究方案的每個細節,為各項內容分配合理費用。樣本量和研究周期是影響預算的關鍵因素。在確保試驗科學性和嚴謹性的前提下,應優化樣本量以提高項目的可行性。例如,可以通過進行前期的樣本量計算,確保所選樣本量能夠在給定的效應大小和統計功效下實現科學性。
研究人員、統計學家、研究護士和數據協調員的工作量應以全職員工當量(full time equivalent,FTE)的部分時間來計算,并據此確定試驗周期。在美國,可以參考美國國立衛生研究院(National Institutes of Health,NIH)發布的薪資上限,以確保預算中人員薪資的合理性和一致性[35]。在中國,研究人員可以參考國家自然科學基金(National Natural Science Foundation of China,NSFC)發布的資助政策,其中包括對各類研究項目的資金支持和人員薪資標準。此外,部分地方衛生健康委員會也會針對臨床研究制定相應的資助政策,研究人員應及時了解和利用這些資源。
預算制定應與研究方案同步進行,以確保項目的可行性和操作性。如果試驗涉及常規醫療程序,患者的醫療保險可覆蓋治療費用,研究只承擔非常規治療的檢查和就診費用;涉及新藥或新設備的研究時,制造商應承擔相關費用并向患者披露。此外,試驗所需設備、預審會議、現場考察、數據和安全監測委員會的建立等費用也應納入預算。
5.2 基金申請
預算制定完成后,即可向各機構提交基金申請[36]。在美國,主要資金來源是聯邦政府,尤其是美國衛生及公眾服務部下的NIH。在我國,臨床試驗資金主要來源于研究者所在單位、藥企和廠商,此外還有國家科技部、國家自然科學基金委員會、各省科技廳等機構的資金來源資助。2021年,我國國家自然科學基金設立了“源于臨床實踐的科學問題探索研究”專項(即“臨床專項”)以支持臨床研究。
6 小結
對2022–2023年期間JAMA Surgery發表的關于RCT方法指導的系列文章進行了深入解讀,希望能為我國的外科研究人員進行RCT提供系統的指導,幫助他們進行合理規范的試驗設計,保障受試者權益,確保試驗質量,合理規劃預算,從而助力提升外科RCTs研究的整體質量。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:胥月晴負責文獻檢索及起草文章;孔雕負責完善總結要點;文天夫、李川和彭偉負責審核并修改。
—(未完待續)
推薦意見分級評估、制定和評價工作組(Grading of Recommendations Assessment,Development and Evaluation,GRADE)系統是評估臨床研究并為系統性綜述提供建議的主要工具之一。在GRADE系統分級中,隨機對照試驗(randomized clinical trial,RCT)因其相對較低的偏倚風險而被視為最高級別的證據。有研究者[1]對1999–2009年間發表在各類期刊上的外科臨床試驗進行了系統回顧后發現,外科RCTs的絕對數量增加了50%,且試驗質量顯著提升。然而盡管中國相關研究的數量增加了5倍,但其質量卻未見顯著提高[1-2]。現通過解讀2022–2023年期間JAMA Surgery發表的關于RCTs方法指導的系列文章[3-7],重點探討試驗設計、設計選擇、倫理考量、質量控制以及預算、經費支持等方面,為我國外科RCT研究人員提供建議和參考,助力高質量RCTs的開展。
1 外科RCT的試驗設計
RCT是一種科學研究方法,用于評估特定干預措施(如藥物、手術、生活方式改變等)對特定人群的效果。在RCT中,受試者被隨機分配到不同研究組,以最大限度地減少偏倚和混雜因素對結果的影響。在此重點討論外科RCT設計階段需要考慮的幾個關鍵因素。
1.1 研究問題和假設
開展臨床試驗,首先需要提出一個重要的研究問題,該問題不僅應對臨床實踐或衛生政策產生重大影響,還應填補知識空白。在設計臨床試驗時,患者安全和倫理問題尤為關鍵,特別是手術的侵入性或因研究方案要求患者拒絕手術可能對患者造成的潛在傷害。因此,確保患者和醫生對研究問題達成共識非常重要,否則可能會影響試驗的可行性[8]。
1.2 確定主要終點和次要終點
所有臨床試驗都應設定一個明確的主要終點,該終點直接回應研究問題,同時作為樣本量計算和研究時間長短的依據。主要終點可以是單一結局或多個事件的復合結局。例如,羅伯特·波爾特教授在研究纖維蛋白密封劑在肝切除術后預防切除面相關并發癥中的應用時,便是將包括膽漏、出血或膿腫等并發癥的復合結局作為主要終點[9]。設定復合結局作為主要終點在臨床試驗中有諸多優勢:提高統計效能和準確性,減少所需樣本量,并更全面地評估干預效果[10]。
此外,還應預先定義次要終點,以更好地描述不同治療方法的效果。
事后分析(針對未在研究計劃中預先指定的結局進行的分析)通常是探索性的,它可以獨立于主要終點和次要終點,也可以基于主要終點和次要終點進行深入探討可能用來提出未來研究的假設。然而,這類分析可能引發報告偏倚以及Ⅰ類和Ⅱ類錯誤,如果結果與主要終點不同,可能會改變試驗的主要結論。
1.3 試驗組和對照組
試驗組和對照組的定義應兼顧普遍性和可行性并考慮患者的偏好。大多數外科試驗涉及單一干預,患者對某種治療方案的強烈偏好可能影響試驗的可行性并引入偏倚。明確不同治療的臨床療效并在試驗初期告知患者,是確保其全面參與研究的關鍵。
1.4 隨機法與盲法的選擇
為確保RCT的質量,必須明確規定隨機化、盲法、隨訪、樣本量、分析和報告的具體方法[11]。隨機化是指將研究對象隨機分配到試驗組和對照組中,最大限度地減少混雜因素的影響并優化基線平衡,從而提高組間的可比性。在大多數外科RCTs中,通常首選簡單隨機化,即每個參與者被隨機分配到任一組的可能性相同。盲法用于防止研究人員、研究對象和結果評估人員知曉干預措施的分配,分為單盲(對患者設盲)和雙盲(對患者和醫生同時設盲),它與隨機化同樣重要。然而在外科RCT中,由于試驗組和對照組不同術式非常容易被識別,往往難以對患者或外科醫生實施盲法,因此,外科RCT往往要求實施過程中即便無法采用盲法,但應確保結局評估時采用盲法。
2 外科RCT的設計選擇
RCT由其內部效度(internal validity)為研究提供了高質量的證據,但RCT也并不總是符合倫理規范及強的可行性[4]。保證RCT可行性的正確做法是,讓研究的問題和假設引導RCT研究設計的選擇,同時邀請方法學和統計學專家深度參與。在Dijkgraaf等[4]發布的指南中介紹了以下幾種RCT設計方案的優缺點,以及研究人員在RCT設計選擇過程中經常出現的問題,在本解讀中也將重點介紹RCT中常見的試驗設計方法。
2.1 常用的RCT設計方法
2.1.1 平行設計
平行設計(parallel group design)是將符合入選標準的研究對象隨機分配到試驗組和對照組,分別接受相應的治療,同時收集其有效性和安全性數據,然后通過統計分析評估干預效果。例如,為比較甲氧芐啶-磺胺甲惡唑與萬古霉素對耐甲氧西林金黃色葡萄球菌引起的嚴重感染的療效,研究者可以將受試者隨機分配到2組:一組受試者接受甲氧芐啶-磺胺甲惡唑治療,另一組受試者接受萬古霉素治療,通過比較2組患者的臨床結果,從而評估這兩種抗生素的相對療效[12]。平行設計的優勢包括[13]:① 基于隨機原則進行分組,能有效避免選擇偏倚,增強各組間的均衡可比性;② 設有對照組且各組同時進行,能有效控制非處理因素(例如環境因素、時間效應等)的影響,有助于揭示和比較總體參數之間的真實差異。然而平行設計的缺點也包括:① 無法對同一參與者的不同治療進行比較;② 當治療方式(如手術與藥物治療)或侵入方式(如開腹與腹腔鏡手術)存在差異時,由于參與者偏好不同,患者招募可能困難;③ 研究成本高昂;④ 醫生和患者的偏好可能影響研究結果的推廣。
2.1.2 交叉設計和配對設計
在交叉設計(cross-over design)中,每個參與者都接受所有干預措施,并作為自己的對照,從而消除了個體差異對結果的影響,同時降低了研究成本和樣本量要求。例如,為比較閉環系統與傳感器增強泵治療在妊娠期1型糖尿病患者中的血糖控制效果,研究者將受試者隨機分配到兩種治療順序之一:一組受試者首先接受夜間閉環系統治療,另一組則接受傳感器增強泵治療;經過第一階段干預后,所有受試者均經歷了2周的洗脫期,然后切換到另一種干預;通過比較兩種治療方式下受試者的血糖達標時間比例、平均血糖水平及低血糖發生情況,從而評估閉環系統相較于傳感器增強泵治療在妊娠期1型糖尿病患者中的相對療效[14]。此設計適用于干預措施不會對參與者產生長期影響且可以安全重復應用的情況,為了避免干預措施之間的相互影響,干預的時間間隔應足夠長。當參與者不能接受所有干預措施且樣本量有限時,可考慮使用配對設計(matched-pairs designs),配對設計通過配對增強組間的可比性,特別適合需要控制個體差異或特定患者群體的研究,但找到合適的配對對象是其主要挑戰。
2.1.3 基于專業技能的試驗設計和實效性試驗設計
不同治療間的直接比較可以采用基于專業技能的試驗設計或實效性設計。基于專業技能的試驗設計是假設研究對象均由相應資質的臨床專家治療,最大限度提高了試驗的內部效度,如果參與者僅在三級醫院治療,該設計的外部效度也能得到保障,并可能一定程度上解決外科新技術的學習曲線問題[15]。然而如果干預實施者是不同經驗水平的外科醫生,則應采用實效性試驗設計,實效性試驗設計是在真實臨床環境中比較不同干預措施效果的研究,考慮了現實中的臨床實踐,包括醫生技能和經驗的差異,其優勢在于能夠將研究成果推廣到更現實的環境中,減少臨床治療與研究之間的差距,以更低的成本和更寬松的入選標準生成更具普遍性的結果[16]。電子病歷系統(electronic health record system,EHRS)的廣泛應用使實效性臨床試驗的發展成為可能。
2.1.4 整群隨機化設計
為避免干預措施的沾染,可以采用整群隨機化設計。沾染是指在臨床試驗中,原本應僅在試驗組中使用的治療措施錯誤地應用于對照組,導致兩組之間的界限模糊,從而影響試驗結果的準確性。整群隨機化設計是將整個群體(如醫院、診所或其他分組)隨機分配到干預措施或常規治療中。例如,為評估基于工作場所的多組分干預方案對控制高血壓的有效性,研究者將各工作場所隨機分配至兩組:一組工作場所的受試者接受標準化的高血壓管理干預,包括工作場所健康促進計劃和社區衛生中心的定期隨訪,另一組工作場所的受試者則僅接受常規醫療護理;通過比較受試者的血壓控制率、吸煙和飲酒率、運動頻率、體質量等指標的變化,評估該多組分干預方案對改善血壓控制的相對效果[17]。其優勢在于,通過在較高層級上隨機化,減少了個體層面的沾染,并有助于維持試驗的盲法。然而該設計的缺點在于,不同群體(如醫院)之間可能存在的已知或未知差異(例如,不同醫院醫療資源的可用性、地區文化、社會經濟因素差異等),可能影響治療效果并混淆研究結果;此外,整群隨機化通常需要更大的樣本量和更復雜的分析方法。
2.1.5 階梯整群隨機設計
階梯整群隨機試驗設計是指不同群組的參與者隨機分配,在不同時間點對常規診療與新干預措施進行交叉轉換的設計[18]。隨著研究逐步推進,直至所有群組都接受干預措施。例如,為評估一項旨在改善缺氧性腦損傷患者預后評估質量的干預措施的效果,研究者將所參與的18家醫院分配到4個時間段,按照所分配的時間段依次實施干預,同時在整個試驗期間維持未干預的對照組醫院以供對比[19]。該設計適用于資源有限、患者隨機化不可行或存在治療沾染風險的情況。此外,階梯整群隨機還可用于發現和控制“時間趨勢”對效果評估的影響。在長期試驗中,隨著時間的推移或外部因素(如季節、衛生條件等)的變化,疾病發生和發展情況可能會變化,影響干預效果的評價,進而引發偏倚。階梯設計有助于識別和調整此類時間效應[20]。
2.1.6 析因設計
當研究者對兩種或多種干預措施感興趣,并希望研究其主要效應和聯合效應時,析因設計是理想選擇。這種設計適合于干預措施易于結合使用的情況。例如,為研究手術期間嚴格控制體溫(strict control of temperature,STC)和嚴格控制血糖(strict control of glucose,SGC)的效果,研究者可以對受試者進行兩次隨機化,分別分配到STC/無STC組和SGC/無SGC組;通過分析各研究組(STC+SGC、僅STC、僅SGC、無嚴格控制)的數據,如果發現交互作用,可進一步探討治療效果的普適性。析因設計能同時評估多種干預措施的效應,因此比平行設計更高效且信息量更豐富。然而由于多種干預措施的組合,其結果解釋可能變得復雜,并且試驗中的任何錯誤都可能影響研究結果。
2.1.7 適應性設計
適應性試驗設計是指在試驗開始后,在不破壞試驗整體性和有效性的前提下,根據前期結果及時發現并修正初始設計中的不合理假設,從而減少研究成本并縮短研究周期的一類研究設計方法[21]。當試驗設計階段存在較大不確定性時,如當出現樣本量計算不確定、治療的安全性和有效性可能與預期不符、新療法的推出可能引發倫理問題時適應性試驗設計尤為適用。例如,為評估一種新抗癌藥物的療效,研究者將患者隨機分配到兩階段試驗設計中:第一階段納入一部分患者并觀察治療反應,如果療效未達到預期則試驗終止,若達到療效標準則進入第二階段并繼續納入更多患者;通過比較兩階段的累積療效數據,評估該藥物對特定腫瘤類型的治療效果,從而判斷它是否具有進一步研究的價值[22]。適應性設計的優勢包括:① 在條件變化時保持試驗的有效性和可靠性;② 提高研究效率;③ 避免不必要或有害的過度治療或治療不足。盡管適應性設計增加了試驗設計的復雜性,并帶來了更多倫理和監管挑戰,但預先計劃和明確說明設計調整,有助于提高試驗的可信度和透明度。
2.2 常見問題
在設計外科RCT時,研究人員常犯的錯誤包括:① 在提出研究問題時忽略相關假設,清晰的假設是試驗設計的基礎,能明確研究方向和目標。如果假設模糊,可能導致研究目標不明確,從而使得試驗設計和結果解讀變得困難。② 缺乏對各種隨機化設計的了解,可能導致選擇不適合的設計方法。例如,若選用了不適合的整群隨機化設計而非個體隨機化,可能會導致不同群體間的差異影響結果,進而妨礙對治療效果的準確評估。③ 低估方法學和統計學專業知識的重要性。如果研究者未能適當應用統計分析,可能會導致數據解釋錯誤,從而使得研究結論不可靠。④ 忽視內部效度是外部效度的前提,低內部效度的研究無法產生有意義的高外部效度。例如,若研究內部效度較低,可能導致對治療效果的偏倚估計,這將影響臨床推廣時對治療有效性的信心。
為避免這些錯誤,研究者應考慮到:① 明確提出研究問題和假設,采用PICOS原則將臨床問題轉化為科學問題,從而確保研究的方向性和目標性;② 充分了解和考慮各種隨機化設計,確保設計選擇符合研究問題,以減少隨機化過程中的偏倚;③ 邀請方法學和統計學專家深度且全程參與,以確保試驗具有高內部效度,確保數據的準確性和結論的可靠性。
3 外科RCT的倫理考量
在所有臨床研究中,尤其是涉及人類的研究,必須嚴格遵守相關倫理標準。為此,我國于2023年發布并實施了《涉及人的生命科學和醫學研究倫理審查辦法》。該辦法強調每項研究的核心倫理責任是在確保研究風險不超過預期益處的前提下,最大限度地保護受試者的權益。
3.1 試驗研究人員職責
研究人員的首要職責是保障受試者的權益,確保研究中的風險與預期獲益相平衡。臨床研究應避免為了科學價值而故意危害受試者的生命與健康[23]。醫師在研究過程中應在研究者和醫療工作者的兩個角色之間找到平衡,始終確保患者的需求和治療優先于試驗要求。研究人員在試驗實施過程中應遵守以下倫理原則:不傷害原則、行善原則、自主原則和公正原則;此外,研究者還需及時向機構審查委員會(institutional review board,IRB)、數據安全監察委員會(data and safety monitoring board,DSMB)和研究申辦方報告明確定義的不良事件和突發問題并提出相應處理措施,以確保報告的及時性、參與者的安全性、數據的持續有效性及保密性。
3.2 受試者權利
《紐倫堡法典》和《赫爾辛基宣言》明確規定,所有受試者享有以下權利:知情同意權、隱私和保密權、退出研究的權利、免受不必要傷害的權利、獲得適當醫療的權利、知曉研究結果的權利、公平對待的權利,以及保護弱勢群體的權利。其中,知情同意權是核心。受試者在充分了解研究目的、程序、潛在風險和獲益后,應自愿決定是否參與,并且可以隨時退出,不會因此受到任何懲罰[24]。受試者參與必須是自愿的,在獲取同意的過程中不得存在任何不當行為[25]。因此,通常由了解試驗且客觀的第三方與患者討論試驗并獲取同意。18歲以下的受試者通常由父母作為主要決策者,如果兒童年齡足夠理解醫療過程,應在治療時也應征得其同意。
3.3 外科臨床RCT方案的制定與審批
《紐倫堡法典》規定,臨床試驗必須以生物學知識和臨床前實驗為基礎,應避免不必要的風險和傷害,風險應與試驗潛在發現的重要性成比例,且研究必須由合格的科學家實施和開展。自1974年起,美國強制要求所有由國家資助的人類研究必須經過IRB審批,以確保試驗風險最小化[26]。向IRB提交申請時,臨床試驗方案中應明確說明研究是否能為受試者或社會帶來潛在利益,哪些干預措施屬于常規醫療,哪些干預措施僅用于研究目的,以及參與和不參與研究時治療的差異,同時提供擬行干預措施的現有證據。干預措施和受試者群體的選擇應以降低或消除風險和不適為目標。所有研究人員必須接受相關倫理、法規及技術培訓,以避免無意增加受試者風險。此外,還應特別保護弱勢群體并確保研究人群的公平性和多樣性[27]。
4 外科臨床RCT的質量控制
在大多數臨床RCT中,質量控制主要涉及研究方案的依從性和數據完整性。對于外科手術類RCT,一個特別的挑戰在于,不同醫護人員在不同環境中執行操作時,可能因臨床情況的微小差異而導致操作本身的差異。現從數據完整性、手術操作規范、手術質量分析等方面探討如何控制試驗質量,并分析了可能遇到的常見問題。
4.1 RCT質量控制方法
4.1.1 數據完整性
數據完整性是高質量臨床試驗的基礎,準確的數據錄入是關鍵,這包括制定明確的數據錄入規則,以確保數據的一致性和準確性。研究開始前,應制定預防數據缺失的監控策略,并確定缺失數據的處理方法,以確保在數據缺失發生時能夠迅速有效地采取措施。在研究過程中,根據研究的風險和復雜性,需按適當的嚴格程度進行定期審核,及時發現和糾正潛在問題。審核的時間和頻率應在研究開始前明確規定,以確保每個階段的數據質量得到保障,并為最終結果的可靠性提供支持。
4.1.2 手術操作規范
在臨床RCT中,使用外科手術操作增加了質量控制的復雜性。詳細說明手術操作步驟,有助于研究人員理解干預措施的關鍵組成部分,使其他研究者能夠復制操作,從而減少差異。然而,對于廣泛應用的手術,標準化過度細節可能無法準確反映日常操作中的差異,進而降低比較結果的普適性。采用實效性試驗設計可使研究結果更具普適性。
4.1.3 手術質量分析
手術質量分析可以通過直接觀察手術過程、查看未經剪輯的手術視頻以及審查手術記錄進行。由中立專家直接觀察手術是最理想的方法,但因費時且費用高,通常難以在研究過程中多次實施;查看未經剪輯的手術視頻也是一種可行方法,但同樣費時費力,且獲取高質量視頻存在挑戰,此方法通常在研究初期用于檢查手術方案的執行情況,或作為定期審核和故障排除的輔助工具;審查手術記錄是最常用的方法,提前標準化手術描述并定義基本報告要素,有助于更有效地進行質量分析。
4.2 常見問題
4.2.1 缺乏認知上的均衡感
研究[28]表明,患者對特定治療方法的偏好是拒絕參加外科RCT的最常見原因。這種偏好在手術干預與非手術干預或僅觀察對比時尤為明顯。研究開始前,應對研究人員和潛在受試者進行相關培訓和知情告知,使其清楚認識到隨機至試驗組和對照組的均等性,以提高參與意愿,并減少隨機化后的退出和交叉情況。
4.2.2 技術快速發展帶來的不穩定性
隨著新技術和新設備的不斷涌現,使用標準化技術和設備的傳統RCT可能在試驗完成前已過時。因此,試驗設計需要具備靈活性和創新性。機構審查委員會應更接受并鼓勵手術操作性試驗中采用新型設計,以應對技術的快速變化。適應性試驗設計和“追蹤試驗”可能是應對快速演變程序的有效解決方案[29, 30]。
4.2.3 新手術的學習曲線問題
在設計外科臨床RCT時,必須考慮外科醫生對新手術的熟練程度,解決外科醫生的學習曲線問題是實施干預性手術RCT時最大挑戰之一[31]。然而大多數(近80%)外科RCT在設計時未考慮外科醫生的經驗[32]。為解決學習曲線問題,可以采用以下方法[33]:明確規定實施新手術的最低病例數量;對參與試驗的外科醫生進行培訓;查看手術錄像或直接觀察手術過程;規定手術質量標準;對切除標本進行質量評估。這些方法可結合使用,以確保試驗的有效性和可靠性。
5 外科臨床RCT的預算和經費支持
預算制定和基金申請是規劃臨床RCT的核心環節。申請者應基于切實可行的研究計劃制定預算并撰寫基金申報書。研究計劃必須有科學依據,確保受試者的倫理待遇,預算必須合理可行,以證明資金投入的合理性。
5.1 制定預算
預算的多少取決于樣本量、非常規臨床治療的需求、研究周期以及參與試驗的地點數量[34]。在制定預算前,應仔細審查研究方案的每個細節,為各項內容分配合理費用。樣本量和研究周期是影響預算的關鍵因素。在確保試驗科學性和嚴謹性的前提下,應優化樣本量以提高項目的可行性。例如,可以通過進行前期的樣本量計算,確保所選樣本量能夠在給定的效應大小和統計功效下實現科學性。
研究人員、統計學家、研究護士和數據協調員的工作量應以全職員工當量(full time equivalent,FTE)的部分時間來計算,并據此確定試驗周期。在美國,可以參考美國國立衛生研究院(National Institutes of Health,NIH)發布的薪資上限,以確保預算中人員薪資的合理性和一致性[35]。在中國,研究人員可以參考國家自然科學基金(National Natural Science Foundation of China,NSFC)發布的資助政策,其中包括對各類研究項目的資金支持和人員薪資標準。此外,部分地方衛生健康委員會也會針對臨床研究制定相應的資助政策,研究人員應及時了解和利用這些資源。
預算制定應與研究方案同步進行,以確保項目的可行性和操作性。如果試驗涉及常規醫療程序,患者的醫療保險可覆蓋治療費用,研究只承擔非常規治療的檢查和就診費用;涉及新藥或新設備的研究時,制造商應承擔相關費用并向患者披露。此外,試驗所需設備、預審會議、現場考察、數據和安全監測委員會的建立等費用也應納入預算。
5.2 基金申請
預算制定完成后,即可向各機構提交基金申請[36]。在美國,主要資金來源是聯邦政府,尤其是美國衛生及公眾服務部下的NIH。在我國,臨床試驗資金主要來源于研究者所在單位、藥企和廠商,此外還有國家科技部、國家自然科學基金委員會、各省科技廳等機構的資金來源資助。2021年,我國國家自然科學基金設立了“源于臨床實踐的科學問題探索研究”專項(即“臨床專項”)以支持臨床研究。
6 小結
對2022–2023年期間JAMA Surgery發表的關于RCT方法指導的系列文章進行了深入解讀,希望能為我國的外科研究人員進行RCT提供系統的指導,幫助他們進行合理規范的試驗設計,保障受試者權益,確保試驗質量,合理規劃預算,從而助力提升外科RCTs研究的整體質量。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:胥月晴負責文獻檢索及起草文章;孔雕負責完善總結要點;文天夫、李川和彭偉負責審核并修改。
—(未完待續)