完整、透明、規范地報告一項臨床試驗的結局,是保障臨床試驗的實用性、可重復性和透明度,以及降低選擇性報告偏倚的關鍵因素。臨床試驗報告統一標準(CONSORT)2010聲明為臨床試驗的報告提供了規范指南。2022年12月,JAMA發表了臨床試驗報告中的結局報告規范(CONSORT-Outcomes)2022擴展聲明,旨在對CONSORT 2010聲明中關于試驗結局、樣本量、統計方法以及輔助分析相關條目進行擴充和解釋,以進一步完善臨床試驗報告中的結局報告的標準。本文結合研究實例,對CONSORT-Outcomes擴展聲明進行解讀,以期為國內學者報告臨床研究結果提供規范性參考。
引用本文: 龐博, 張晨瑤, 馬毓聰, 杜亮, 張永剛, 田金徽, 張俊華. 臨床試驗報告中的結局報告規范(CONSORT-Outcomes)2022擴展聲明解讀. 中國循證醫學雜志, 2024, 24(11): 1337-1346. doi: 10.7507/1672-2531.202312088 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
臨床研究的最終目的是為臨床治療決策提供依據,設計良好、實施合理且報告得當的隨機對照試驗(randomized clinical trials,RCT)是循證臨床決策的重要證據來源[1]。在RCT中,試驗的結局(outcome)往往用來評估干預措施的效果,充分報告試驗結局對試驗的可重復性、研究結果的綜合以及防止報告偏倚至關重要[2,3]。臨床試驗報告統一標準(consolidated standards of reporting trials,CONSORT)聲明為作者提供了一種標準的方式來進行試驗結果報告,以提高報告的完整度和透明度[1,4,5]。針對試驗結局,CONSORT聲明指出“應完整、確切地說明預先指定的主要和次要結局,包括它們是在何時、如何測評的”[1]。
然而,研究結果的不充分報告現象仍普遍存在,比如對結局的選擇、定義、評估、分析等關鍵信息的描述不規范或不合理,同一個結局在不同研究中報告存在較大差異[3,6-8],影響結果合并和二次分析結論。有研究顯示,已發表的臨床研究論文存在較顯著的選擇性報告結果現象,還有部分研究為尋求統計學陽性結果改變研究方案確定的評價指標及其統計方法[8],直接影響干預措施效果的全面評價,甚至誤導臨床決策。
為提高RCT結局的報告質量,CONSORT工作組曾專門針對臨床試驗中危害和患者報告結局(patient-reported outcomes,PRO),分別制定了相應擴展條目—CONSORT Harms(2004年,已于2022年更新)[9]和CONSORT PRO(2013年)[10]。但尚缺少適用于所有結局類型和試驗設計的基本結局報告指南[3,11]。為此,CONSORT工作組在CONSORT 2010的基礎上,基于提高健康研究質量和透明度(enhancing the quality and transparency of health research,EQUATOR)方法學框架,制訂了臨床試驗報告中的結局報告規范(CONSORT-Outcomes)2022擴展版,于2022年12月正式發表在JAMA[3],旨在為臨床試驗報告提供統一的、基于證據和共識的結局報告標準。本文就CONSORT-Outcomes的制訂過程及其內容進行介紹,并結合實例對條目要求進行解讀,以幫助國內學者理解和應用CONSORT-Outcomes,為臨床試驗人員規范報告RCT結局提供參考。
1 CONSORT-Outcomes制訂過程
CONSORT-Outcomes 2022擴展版屬于“臨床試驗計劃終點報告工具”(instrument for reporting planned endpoints in clinical trials,InsPECT)研究項目的一部分[12],研制流程根據EQUATOR關于報告指南研制的方法學框架[13]設計。首先,工作小組通過專家咨詢,并基于專家征詢、檢索MEDLINE和Cochrane方法學注冊資料等電子數據庫、檢索灰色文獻和參考文獻列表,對現有的(在2018年3月19日之前的10年間發表)臨床試驗結局報告指南進行范圍綜述,將產生的128項建議整理為64個條目,綜合形成RCT報告結局推薦條目的初始清單[11,14]。2018年11月至2019年2月,來自22個國家的124名小組成員參與完成了3輪國際范圍的德爾菲(Delphi)調查,以收集其他補充條目,并評估每一個條目的重要性。最后,2019年4月9日至10日,來自4個國家的25名成員參加了面對面專家共識會議,對Delphi調查確定的30個條目進一步評估,最終確定17個臨床試驗報告中的結局報告基本條目集。CONSORT-Outcomes 2022擴展版的制訂與規范臨床研究方案內容聲明(standard protocol items: recommendations for interventional trials,SPIRIT)-Outcomes 2022擴展版同步進行[15]。
2 CONSORT-Outcomes條目解讀與實例
CONSORT-Outcomes 2022擴展版在CONSORT 2010基礎上,對原有結局相關條目6a、7a、12a、17a和18擴展了共17個亞條目(表1)。此外,由于不同學科和地區存在術語和定義的差異,工作組對于一個特定結局應該包含的5個核心要素進行了明確定義和示例,見表2。


2.1 關于試驗結局的選擇、測量和描述的清單條目
條目6a.1:提供試驗中主要結局域(outcome domain)的選擇依據。
解讀:6a.1是CONSORT 2010聲明條目6a的擴展條目。“域”一詞也指“概念”或“屬性”,“結局域”在廣義上指某一結局的名稱或定義(例如疼痛)[16]。條目6a建議作者“完整、確切地說明預先指定的主要和次要結局”,而在此基礎上,對于選擇某結局(域)作為主要結局的理由也應進行詳細說明,因其與研究的主要目的密切相關。6a.1建議作者在對主要結局域進行解釋時重點考慮以下幾點:① 該結局域對試驗參與者(包括患者、公眾、臨床醫生、政策制定者、資助者或醫療消費付費者)的重要性;② 干預措施對該結局域的預期效果;③ 在試驗期間是否能準確、安全、切實地評估該結局域。此外,還建議報告所選結局域是否來自某核心結局指標集(core outcome set,COS)[17]。
示例:“主要結局是術后30天綜合并發癥指數(comprehensive complications index,CCI),即采用0(無并發癥)~100(死亡)連續性評分量表對所有并發癥及各自的嚴重程度進行綜合評分……前期研究支持CCI作為術后發病率指標的有效性,并表明CCI與傳統的發病率指標(如總并發癥發生率、嚴重并發癥發生率)相比,為外科研究提供了一個更全面、更敏感的終點指標”[18]。
條目6a.2:描述具體的測量變量(如收縮壓)、分析度量指標(如從基線開始的改變、終值、時間事件)、數據匯總方式(如均值、構成比),以及每個結局的觀測時點。
解讀:6a.2是CONSORT 2010聲明條目6a的擴展條目。在6a建議完整定義預設的主要和次要結局的基礎上,該條目進一步建議提供一個結局所涉及的所有要素(表2)。因為對于臨床試驗而言,如缺少對其中任一要素的報告,讀者將難以判斷試驗中可能存在的重假設檢驗問題(P-hacking,即做多次實驗但只取其中的幾個P值)[3,19]、“采櫻桃謬誤”(cherry picking,最初用來描述農民采摘櫻桃過程中只挑選成熟果實,而忽略未成熟或壞掉的果實。后來,該詞被引申為只選擇符合自己觀點的證據,而忽略不符合自己觀點的證據)[20]及選擇性不報告結果的情況。相關建議與SPIRIT 2013聲明清單條目12相一致[21],ClinicalTrials.gov等注冊機構已經要求所有試驗在注冊時采用這一框架來對結局進行描述[19,22]。
示例:“在基線和6個月時進行面對面評估。研究人員使用自動化設備(歐姆龍健康醫療有限公司HEM-907XL數字自動血壓計)以標準化方式測量血壓。連續進行了3次血壓記錄,取第二次和第三次讀數的平均值”[23]。
條目6a.3:如果主要結局的分析指標代表了受試者自身的變化,則定義并說明個體間的最小重要變化(minimal important change,MIC)。
解讀:6a.3是對6a.2的延伸。MIC指“患者、臨床醫生或其他相關人員認為重要的受試者自身最小變化值”[3],對于所有觀測受試者自身指標變化的試驗,報告MIC都十分必要。醫學文獻中也常采用最小重要差異(minimal important difference,MID)、最小臨床重要差異(minimal clinical important difference,MCID)等表述形式[3]。MIC既可以是連續性或有序變量,也可以是二分類變量[24,25]。此外,由于臨床相關性和方法學質量的差異,同一研究工具可能得出多個不同的MIC,因此在報告中還應具體說明所設定MIC的理由[25,26],這將有助于臨床醫生、患者和決策人員對該試驗結果及其臨床相關性進行判斷。如果研究工具對于試驗人群和場景方面的MIC未知,也應進行報告。
示例:“主要結局是抑郁或臨床相關抑郁癥狀的風險(發生和復發病例的總數)和情緒評分的平均差值[8項患者健康問卷抑郁量表(PHQ-8);0分(癥狀最少)至24分(癥狀最多);評分MCID為0.5分]”[27]。“主要終點是2年時通過定量MRI測量的股骨頸關節軟骨總厚度的變化。主要結果的MCID未知……次要終點西大略和麥克馬斯特大學骨關節炎指數(WOMAC)評分的MCID為7U[95%CI(4U,10U)],MCID百分比為14%[95%CI(9%,18%)]”[28]。
條目6a.4:如果結局是連續性數據,但被作為分類變量進行分析(數據匯總),需說明所采用的截斷值(cut-off value)。
解讀:6a.4是對6a.2的延伸。該條目提示作者(如果適用),對于將連續型(或有序)自變量轉換為分類變量分析的情況,應說明預先設定的截斷值(一般通過ROC分析進行確定)[6,21],并解釋相關理由。不同試驗采用不同截斷值的情況十分普遍,當臨床相關性明確時,所選擇的臨界值才最為適用[29]。報告這些信息將有助于避免出現多重假設檢驗問題、“采櫻桃謬誤”及選擇性不報告結果的問題[6,19,20]。
示例:“預先設定15分和45分的截斷值來對疾病輕度、中度和重度進行定義”[30]。“本研究的主要結局是各組(Hp)根除率,根除被定義為13C尿素呼氣試驗(13C‐UBT)(<4‰)轉陰(4‰為截斷值)”[31]。
條目6a.5:如果隨機分組后在多個時點進行結局評估,具體說明進行分析的時點。
解讀:6a.5是對6a.2的延伸。該條目提示(如果適用),對于多時點重復測量的情況(如在隨機分組后12周的每天測量血壓),需預先指定主要分析中所采用的時點,同時建議對時點選擇依據進行解釋[3]。指標觀測時點主要包括基線點、試驗終點、訪視點、隨訪終點,其中訪視點和觀測時間周期的設定需要結合適應證、臨床試驗目的和觀測指標的特點、臨床實際可操作性和實際應答負擔等多種因素綜合考慮[11,19,28]。在報告中說明預設的評價時點,有助于限制對多個評估時點進行計劃外分析的可能性,并能避免選擇性不報告問題[21,22]。
示例:“主要結局是24小時平均舒張壓,在訪視4時(產后6~9個月)通過動態血壓監測儀進行測量,并根據產后基線血壓進行調整……次要血壓指標結果包括訪視4時的24小時、日間和夜間動態血壓參數,以及訪視2、3和4時的臨床血壓,采集數據均根據產后基線血壓進行調整”[32]。
條目6a.6:如果使用了復合結局,對復合結局中的每個獨立結局進行說明。
解讀:復合結局是同時考慮多個結局的綜合指標,通常是多個主要結局或主要結局和次要結局的組合(如將“受試者中發生死亡或非致命性中風的比例”作為一個復合結局[3]),復合結局的優點是綜合考慮了多個指標,更全面地評價了藥物或治療方法的效果。受試者如果經歷了組成這個復合結局的任何一個結局,即被認為經歷了這個復合結局[33,34]。但需要注意,對復合結局的解釋存在難度,如果組成復合結局的各個獨立結局效應方向相反,或者各自呈現不同的效應水平(如死亡和殘疾的組合),那么復合結局的效應可能會掩蓋真實的干預效果,這時應更強調對每個獨立結局的報告,以驗證結局效應主要來自哪個結局指標[3,34,35]。
示例:“主要結局預先指定為圍產期死亡(定義為隨機分組后的子宮內胎兒死亡或出生后7天內的已知新生兒死亡)、早產(妊娠<37周)或新生兒住院至少4小時(從出生到出院)的復合結局。每個嬰兒在這個組合中被計數一次”[36]。“主要結局是ICU入院、無創(雙水平或持續氣道正壓)或有創機械通氣,或死亡28天復合指標”[37]。
條目6a.7:報告試驗注冊或試驗方案中未預先設定的任何結局。
解讀:該條目建議,對于試驗方案或注冊時未預先設定但在試驗中采用的結局,需要指出或說明。“未預先設定”的結局可能是由于添加了一個最初未計劃的全新的結局域,如計劃外納入和分析從醫院數據庫中獲得的心血管疾病住院率的變化;另外,表2中涉及的結局相關要素,試驗期間的變化往往不會提前預設,因此對于發生的變化也應該在報告中進行說明。此外,對于主要結局發生的重要變化,研究者應報告詳細信息,包括變化的性質、時間和動機,原因是來自于內部還是外部數據源,以及誰提議、誰贊成了這些改變等[3]。
示例:“以下主要復合結局中的指標未包括在試驗方案中,但在統計分析計劃中被預先指定為次要結局:有創機械通氣、復合有創或無創機械通氣、入住重癥監護室”“一個不知道分配方案的獨立事件裁決委員會,事先對主要結局的組成、出血、血栓性事件和死亡原因進行了裁決。試驗中未預先設定事件裁決方案”[37]。
條目6a.8:描述用于評價結局的工具(如問卷、實驗室檢測),以及該工具在與研究受試者相似人群中的信度、效度和反應度。
解讀:該條目建議作者對于結局的測量工具進行充分說明,這對于保障試驗的可重復性和結果的可解釋性非常重要[3,22]。在說明的同時,建議提供測量工具信度(如重測信度、評價者間信度或評價者內信度、內部一致性)、效度(如內容、結構、標準、跨文化、以及結構效度)和反應度(檢測所評估的健康結局指標變化的能力)的相關參考文獻。此外,由于我們無法假設工具的測量特性在不同人群間是否具有可推廣性,因此還建議報告與研究樣本相似(或至少沒有實質性差異)人群的相關測量屬性[3]。
示例:“采用Maslach職業倦怠量表評估工作倦怠情況,該量表被廣泛用于醫生職業倦怠的評估。相關信度系數、重測信度、聚合效度和判別效度的信息可以在《Maslach職業倦怠量表手冊》中找到,該量表在醫生中的有效性數據近期也有總結”[38]。“采用EQ-5D-5L評估生存質量,該量表是一個通用的健康調查工具,用于評估患者報告的健康狀況。EQ-5D-5L的心理測量特性已被證實優于之前的EQ-5D-3L量表……EQ-5D-5L對變化的反應度尚未被描述,但有研究提供了EQ-5D-3L的反應度證據”[39]。
條目6a.9:對結局的評估者(如護士、父母)進行說明,以及應用研究工具進行結局評估時所需具備的資質或特定培訓。
解讀:臨床研究中結局評估者一般是結果的測量者或療效考核者,評估者的培訓或個人經驗/觀點的差別,或患者回憶的差異,均可能導致評估結果的差別[40]。美國食品藥品監督管理局(Food and Drug Administration,FDA)將臨床結局評估(clinical outcome assessment,COA)類型分為醫生報告結局(clinician-reported outcome,ClinRO)、PRO、觀察者報告結局(observer reported outcome,ObsRO)和行為結局(performance rated outcome,PerfO)[41],有必要對結局評估者的設定和選擇情況進行報告,特別是對于主觀結局事件,不同角色的評估者可能得出較大差異的結果[3,21,41]。對于不會受結局評估者影響的客觀指標(如理化檢查等),該條目信息的相關性較小。
示例:“使用第二版韋氏簡明智力量表人員應具有博士或心理科學博士學位,有5年及以上相關患者群體診療經驗,且有15次及以上使用該工具或類似智商評估工具的經驗”[3]。“5名學士學位以上的評估員(4名女性,1名男性)對入組兒童進行結局評估,并通過采訪照顧者獲取人口學資料和家庭信息。評估員從研究區域外招募,在干預和對照區組中進行輪流評估,且不清楚分組情況。一位擁有10年兒童成長評估經驗的心理學家對評估員進行了為期1個月的培訓。當評估員在每次測試中與培訓師達成>90%的一致意見時,開始進行測試”[42]。
條目6a.10:描述在數據收集期間(如重復測量)和之后(如結局數據的范圍核查)任何用于提高結局數據質量的過程,或者說明在哪里可以找到這些細節。
解讀:說明通過什么方式提高結局數據的質量,能夠確保試驗透明度并有助于評估試驗數據的質量。例如,為了確保結局評估過程的獨立和準確性,對于主觀結局指標的評估(例如病理評估)可能會通過重復評價或采用中央裁決委員會的方式[3]。一般而言,提升數據質量涉及合理設計數據結構(如標準化數據元素、預設數據驗證規則)、強化數據錄入規范(如制訂詳細的數據導入指南、實行雙人錄入制度)、定期進行數據質量檢查(如制定數據質量檢查計劃、采用多種檢查方法)等環節。相關信息均應該在試驗報告中進行描述或總結,并說明可以在哪里找到完整的信息,同時提供相應參考文獻。
示例:“每個臨床事件由兩名評審員進行獨立評審,評審員確定該事件是否符合預先規定的標準(根據方案中的定義)。這些事件被歸類為‘確定事件’‘可能事件’或‘非事件’(參考以下裁決手冊中的裁決表)。最終裁決結果基于一致意見。如果兩名裁決者之間存在分歧,醫療監督員將介入”[37]。
2.2 關于樣本量的清單條目
條目7a.1:定義并說明各治療組間的目標差異(如MID)。
解讀:7a.1是CONSORT 2010 聲明條目7a的擴展條目。該條目要求作者說明樣本量的確定方式,以及樣本量計算時設定的目標差異(target difference)。目標差異是特定時點主要結局在各治療組被檢測到、并用于分析的差異,其可能是MID,也可能是最小有價值效果(即干預措施最小的獲益效應,用以證明由患者決定的干預措施成本、危害和不便的合理性)[43,44]。目標差異可能受實際情況或臨床因素影響(例如用于評估主要結局指標的研究工具是否有一個可靠的MID),并且可能會有眾多不同的可選值(例如,多個MID值中的一個或基于先導試驗得出的值),因此對于目標差異的選擇進行解釋是十分必要的[44,45]。
示例:“樣本量:以3年時總死亡率的10%差異作為MID和劣效性界限。在指數生存曲線的假設下,介入組的預期3年生存率為30%,那么非介入組生存率20%,非介入組與介入組患者的相對死亡風險為1.3”[46]。
2.3 關于統計方法的清單條目
條目12a.1:說明在分析或解釋主要和次要結局時用于解釋多重性的任何方法(如共同主要結果、在多時點評估的相同結局或一個結局的亞組分析)。
解讀:12a.1是CONSORT 2010聲明條目12a的擴展條目。臨床試驗中的多重性(multiplicity)是指多重檢驗,比如共同主要結局、單個結局多次重復測量、單個結局進行多次分析(如期中或亞組分析、多組試驗)、多個次要結局等[3]。對于此類多重性的解釋主要包括統計學方法和描述性方法[47],相關信息可以在報告正文中簡要說明,也可在統計分析計劃中更詳細地描述。如果試驗未使用任何方法來進行多重性分析(如不適用或沒有必要),作者也應進行說明。
示例:“預先設定對主要結局進行亞組分析,分組依據包括根據受試者年齡、性別、體重指數、新冠肺炎癥狀發作時間、糖尿病、冠狀動脈疾病等,并對交互作用進行檢驗。對任何原因導致的死亡進行事后亞組分析……次要結局的分析被認為是探索性的,因此沒有針對多重比較進行調整;次要結局的95%置信區間寬度不用于推斷治療效果。補充文件提供了統計方法的具體說明”[37]。
條目12a.2:說明分析和報告中排除任何結局數據的標準并陳述理由,或報告并未排除結局數據。
解讀:12a.2是CONSORT 2010聲明條目12a的擴展條目。該條目建議作者對于排除結局數據的兩種可能情況都要進行報告:其一,說明并解釋在分析中排除特定結局數據的依據;其二,報告沒有排除任何結局數據。這里所指的結局數據是明確和有意排除的結局數據,諸如受試者已完成的問卷中有太多缺失條目的情況,或有其他充分理由排除的特定結局的異常值。這將有助于讀者解讀報告的結果。相關信息可以呈現在CONSORT流程圖中,按照治療組別列出排除每個結局數據的原因[3]。
示例:“如果一個結局在超過5%的受試者中缺失,除了在原假設下(患者在28天前活著出院時沒有任何結局)的分析策略,還進行完整的病例分析、逆概率加權分析和結果的多重插補”[37]。
條目12a.3:描述用于評估缺失模式的方法(如非隨機缺失),并描述用于處理缺失結果項或整體評估的方法。
解讀:12a.3是CONSORT 2010聲明條目12a的擴展條目。一般來說,無論采取何種數據預防措施,結局數據缺失幾乎都是不可避免的。而數據缺失并不是隨機的,而是與治療組的分配、患者特定(預后)因素或特定健康結局的發生有關[48]。當出現數據缺失時,建議作者說明:① 用于評估或確定數據缺失模式(也稱為數據缺失機制)的方法;② 在統計分析過程用于處理缺失數據或整體評估的方法,例如多重插補、完整案例、根據似然度、逆概率加權等。數據缺失模式包括完全隨機缺失(missing completely at random,MCAR)、隨機缺失(missing at random,MAR)和非隨機缺失(not missing at random,MNAR)[49],需要在報告中進行說明;對于缺失模式的處理方式(如多重插補和最大似然分析法假設數據至少是隨機缺失的)也應進行報告。
示例:“在量表的計算中使用了簡單插補方法。如果缺失條目不超過20%,則使用量表或分量表中其余部分受試者具體完成項目的中值來替換變量中的缺失值”[50]。“因為我們預先只設定了一個確證性結局,所以沒有對多重比較進行調整。為了最大限度地減少數據缺失引起的潛在偏倚,我們的主要分析是在假設數據隨機缺失的情況下,通過鏈式方程和預測均數匹配進行多重插補”[18]。
條目12a.4:提供違背試驗方案的結局分析人群的定義(如作為隨機分析)。
解讀:12a.4是CONSORT 2010聲明條目12a的擴展條目。方案違背,不僅影響到受試者的權益、安全性和獲益,以及數據的完整性、精確性和可靠性,還直接關系到整個研究的質量。由于不同結局的缺失數據量不同,數據缺失原因也不同,因此本擴展條目進一步提出對涉及違背試驗方案人群進行定義。對于每一個結局的分析,研究者均應說明是否納入所有隨機分組的受試者(即意向性分析)[8,21]。
示例:“一個完整的數據集可能用于分析死亡率這一結局,但不能用于分析同一試驗中的患者報告結局”“對不良事件的分析僅限于接受試驗干預的受試者”[3]。“預先設定的主要結局的敏感性分析排除了未進行28天評估的受試者,僅納入符合方案隊列的受試者”[37]。
2.4 關于結局描述和評價的清單條目
條目17a.1:包括所有預先設定結局的分析結果,如果相關結果未在本報告中呈現,則說明在哪里可以找到相關內容。
解讀:17a.1是CONSORT 2010聲明條目17a的擴展條目。該條目提示作者報告試驗方案或統計分析計劃中所有預設的結局指標的結果。盡管CONSORT 2010對此進行了規范要求,但試驗研究對該條目信息的報告仍然不充分,讀者難以確定是否存在選擇不報告某些試驗結果的情況[51]。當難以在一個試驗報告中報告所有預設的分析時(如試驗預先設定的次要結局指標的數量很多),作者應該報告在哪里能夠找到其他的結果(如鏈接的出版物或在線數據存儲庫中),或表明將在長期隨訪后再進行報告[3]。
示例:“ARAT分量表的分析和其余次要結局的描述性統計數據[FMA(運動范圍和感覺分量表)和SIS(力量、情緒、記憶、溝通和中風恢復)]見附錄”[50]。“不良反應和通過手機軟件報告的癥狀的詳細信息見附錄”[32]。
2.5 關于輔助分析的清單條目
條目18.1:如果有任何未預先設定的分析,解釋進行這些分析的原因。
解讀:18.1是CONSORT 2010聲明條目18的擴展條目。本條目建議作者對任何未預先設定的(如試驗方案或統計分析計劃中)、但在試驗報告中出現的分析提供解釋。對于未預先設定但采用并報告的分析,闡明相關理由對于試驗透明度和正確評估試驗可信度尤為重要。此外,還應注意要說明這些附加分析是在何時開展的(如在看到其他結局的比較分析結果之前或之后)[3]。
示例:“由于并非所有中心都提供體外肺支持,我們對體外支持對60天死亡率的影響進行了兩種可能情況下的評估:將任何一組中的所有體外輔助患者視為死亡,或排除兩組中的全部體外輔助患者”[18]。
3 小結
研究結局的選擇和測量是關乎臨床研究價值的關鍵問題之一,對研究結局的充分報告是保障研究質量、影響Meta分析結果的關鍵環節[11]。對于研究結果報告的問題,早在20年前就已得到關注,相關研究表明了選擇性報告臨床試驗結果將導致不適當的監管決定[52],以及影響大部分Cochrane系統評價的結論[3,53]。CONSORT-Outcomes對CONSORT 2010聲明方法部分的結局指標(6a)、樣本量(7a)、統計學方法(12a),以及結果部分的結局和估計值(17a)擴展了17個報告條目,對原有結局報告相關條目進行了延伸,為臨床試驗中結局的報告提供了基于證據和共識的規范性指導。同時,相關報告建議與SPIRIT-Outcomes 2022擴展版保持一致[15],兩個擴展版指南協同實現了從試驗方案到試驗結果報告的連續性,這將有助于研究人員對試驗方案和試驗報告的整理,更重要的是有利于評估最終報告對于試驗方案的依從性[3]。為了更好地解讀CONSORT-Outcomes,本文選取了擴展條目對應的部分國內外發表的相關文獻做示例。建議醫學期刊作者在撰寫和提交稿件時,主動遵循相應報告規范,醫學期刊和編輯也應積極將相應報告規范引入稿約。同時,希望盡早將CONSORT-Outcomes附加條目整合到主要的CONSORT清單中,以促進實踐應用。
臨床研究的最終目的是為臨床治療決策提供依據,設計良好、實施合理且報告得當的隨機對照試驗(randomized clinical trials,RCT)是循證臨床決策的重要證據來源[1]。在RCT中,試驗的結局(outcome)往往用來評估干預措施的效果,充分報告試驗結局對試驗的可重復性、研究結果的綜合以及防止報告偏倚至關重要[2,3]。臨床試驗報告統一標準(consolidated standards of reporting trials,CONSORT)聲明為作者提供了一種標準的方式來進行試驗結果報告,以提高報告的完整度和透明度[1,4,5]。針對試驗結局,CONSORT聲明指出“應完整、確切地說明預先指定的主要和次要結局,包括它們是在何時、如何測評的”[1]。
然而,研究結果的不充分報告現象仍普遍存在,比如對結局的選擇、定義、評估、分析等關鍵信息的描述不規范或不合理,同一個結局在不同研究中報告存在較大差異[3,6-8],影響結果合并和二次分析結論。有研究顯示,已發表的臨床研究論文存在較顯著的選擇性報告結果現象,還有部分研究為尋求統計學陽性結果改變研究方案確定的評價指標及其統計方法[8],直接影響干預措施效果的全面評價,甚至誤導臨床決策。
為提高RCT結局的報告質量,CONSORT工作組曾專門針對臨床試驗中危害和患者報告結局(patient-reported outcomes,PRO),分別制定了相應擴展條目—CONSORT Harms(2004年,已于2022年更新)[9]和CONSORT PRO(2013年)[10]。但尚缺少適用于所有結局類型和試驗設計的基本結局報告指南[3,11]。為此,CONSORT工作組在CONSORT 2010的基礎上,基于提高健康研究質量和透明度(enhancing the quality and transparency of health research,EQUATOR)方法學框架,制訂了臨床試驗報告中的結局報告規范(CONSORT-Outcomes)2022擴展版,于2022年12月正式發表在JAMA[3],旨在為臨床試驗報告提供統一的、基于證據和共識的結局報告標準。本文就CONSORT-Outcomes的制訂過程及其內容進行介紹,并結合實例對條目要求進行解讀,以幫助國內學者理解和應用CONSORT-Outcomes,為臨床試驗人員規范報告RCT結局提供參考。
1 CONSORT-Outcomes制訂過程
CONSORT-Outcomes 2022擴展版屬于“臨床試驗計劃終點報告工具”(instrument for reporting planned endpoints in clinical trials,InsPECT)研究項目的一部分[12],研制流程根據EQUATOR關于報告指南研制的方法學框架[13]設計。首先,工作小組通過專家咨詢,并基于專家征詢、檢索MEDLINE和Cochrane方法學注冊資料等電子數據庫、檢索灰色文獻和參考文獻列表,對現有的(在2018年3月19日之前的10年間發表)臨床試驗結局報告指南進行范圍綜述,將產生的128項建議整理為64個條目,綜合形成RCT報告結局推薦條目的初始清單[11,14]。2018年11月至2019年2月,來自22個國家的124名小組成員參與完成了3輪國際范圍的德爾菲(Delphi)調查,以收集其他補充條目,并評估每一個條目的重要性。最后,2019年4月9日至10日,來自4個國家的25名成員參加了面對面專家共識會議,對Delphi調查確定的30個條目進一步評估,最終確定17個臨床試驗報告中的結局報告基本條目集。CONSORT-Outcomes 2022擴展版的制訂與規范臨床研究方案內容聲明(standard protocol items: recommendations for interventional trials,SPIRIT)-Outcomes 2022擴展版同步進行[15]。
2 CONSORT-Outcomes條目解讀與實例
CONSORT-Outcomes 2022擴展版在CONSORT 2010基礎上,對原有結局相關條目6a、7a、12a、17a和18擴展了共17個亞條目(表1)。此外,由于不同學科和地區存在術語和定義的差異,工作組對于一個特定結局應該包含的5個核心要素進行了明確定義和示例,見表2。


2.1 關于試驗結局的選擇、測量和描述的清單條目
條目6a.1:提供試驗中主要結局域(outcome domain)的選擇依據。
解讀:6a.1是CONSORT 2010聲明條目6a的擴展條目。“域”一詞也指“概念”或“屬性”,“結局域”在廣義上指某一結局的名稱或定義(例如疼痛)[16]。條目6a建議作者“完整、確切地說明預先指定的主要和次要結局”,而在此基礎上,對于選擇某結局(域)作為主要結局的理由也應進行詳細說明,因其與研究的主要目的密切相關。6a.1建議作者在對主要結局域進行解釋時重點考慮以下幾點:① 該結局域對試驗參與者(包括患者、公眾、臨床醫生、政策制定者、資助者或醫療消費付費者)的重要性;② 干預措施對該結局域的預期效果;③ 在試驗期間是否能準確、安全、切實地評估該結局域。此外,還建議報告所選結局域是否來自某核心結局指標集(core outcome set,COS)[17]。
示例:“主要結局是術后30天綜合并發癥指數(comprehensive complications index,CCI),即采用0(無并發癥)~100(死亡)連續性評分量表對所有并發癥及各自的嚴重程度進行綜合評分……前期研究支持CCI作為術后發病率指標的有效性,并表明CCI與傳統的發病率指標(如總并發癥發生率、嚴重并發癥發生率)相比,為外科研究提供了一個更全面、更敏感的終點指標”[18]。
條目6a.2:描述具體的測量變量(如收縮壓)、分析度量指標(如從基線開始的改變、終值、時間事件)、數據匯總方式(如均值、構成比),以及每個結局的觀測時點。
解讀:6a.2是CONSORT 2010聲明條目6a的擴展條目。在6a建議完整定義預設的主要和次要結局的基礎上,該條目進一步建議提供一個結局所涉及的所有要素(表2)。因為對于臨床試驗而言,如缺少對其中任一要素的報告,讀者將難以判斷試驗中可能存在的重假設檢驗問題(P-hacking,即做多次實驗但只取其中的幾個P值)[3,19]、“采櫻桃謬誤”(cherry picking,最初用來描述農民采摘櫻桃過程中只挑選成熟果實,而忽略未成熟或壞掉的果實。后來,該詞被引申為只選擇符合自己觀點的證據,而忽略不符合自己觀點的證據)[20]及選擇性不報告結果的情況。相關建議與SPIRIT 2013聲明清單條目12相一致[21],ClinicalTrials.gov等注冊機構已經要求所有試驗在注冊時采用這一框架來對結局進行描述[19,22]。
示例:“在基線和6個月時進行面對面評估。研究人員使用自動化設備(歐姆龍健康醫療有限公司HEM-907XL數字自動血壓計)以標準化方式測量血壓。連續進行了3次血壓記錄,取第二次和第三次讀數的平均值”[23]。
條目6a.3:如果主要結局的分析指標代表了受試者自身的變化,則定義并說明個體間的最小重要變化(minimal important change,MIC)。
解讀:6a.3是對6a.2的延伸。MIC指“患者、臨床醫生或其他相關人員認為重要的受試者自身最小變化值”[3],對于所有觀測受試者自身指標變化的試驗,報告MIC都十分必要。醫學文獻中也常采用最小重要差異(minimal important difference,MID)、最小臨床重要差異(minimal clinical important difference,MCID)等表述形式[3]。MIC既可以是連續性或有序變量,也可以是二分類變量[24,25]。此外,由于臨床相關性和方法學質量的差異,同一研究工具可能得出多個不同的MIC,因此在報告中還應具體說明所設定MIC的理由[25,26],這將有助于臨床醫生、患者和決策人員對該試驗結果及其臨床相關性進行判斷。如果研究工具對于試驗人群和場景方面的MIC未知,也應進行報告。
示例:“主要結局是抑郁或臨床相關抑郁癥狀的風險(發生和復發病例的總數)和情緒評分的平均差值[8項患者健康問卷抑郁量表(PHQ-8);0分(癥狀最少)至24分(癥狀最多);評分MCID為0.5分]”[27]。“主要終點是2年時通過定量MRI測量的股骨頸關節軟骨總厚度的變化。主要結果的MCID未知……次要終點西大略和麥克馬斯特大學骨關節炎指數(WOMAC)評分的MCID為7U[95%CI(4U,10U)],MCID百分比為14%[95%CI(9%,18%)]”[28]。
條目6a.4:如果結局是連續性數據,但被作為分類變量進行分析(數據匯總),需說明所采用的截斷值(cut-off value)。
解讀:6a.4是對6a.2的延伸。該條目提示作者(如果適用),對于將連續型(或有序)自變量轉換為分類變量分析的情況,應說明預先設定的截斷值(一般通過ROC分析進行確定)[6,21],并解釋相關理由。不同試驗采用不同截斷值的情況十分普遍,當臨床相關性明確時,所選擇的臨界值才最為適用[29]。報告這些信息將有助于避免出現多重假設檢驗問題、“采櫻桃謬誤”及選擇性不報告結果的問題[6,19,20]。
示例:“預先設定15分和45分的截斷值來對疾病輕度、中度和重度進行定義”[30]。“本研究的主要結局是各組(Hp)根除率,根除被定義為13C尿素呼氣試驗(13C‐UBT)(<4‰)轉陰(4‰為截斷值)”[31]。
條目6a.5:如果隨機分組后在多個時點進行結局評估,具體說明進行分析的時點。
解讀:6a.5是對6a.2的延伸。該條目提示(如果適用),對于多時點重復測量的情況(如在隨機分組后12周的每天測量血壓),需預先指定主要分析中所采用的時點,同時建議對時點選擇依據進行解釋[3]。指標觀測時點主要包括基線點、試驗終點、訪視點、隨訪終點,其中訪視點和觀測時間周期的設定需要結合適應證、臨床試驗目的和觀測指標的特點、臨床實際可操作性和實際應答負擔等多種因素綜合考慮[11,19,28]。在報告中說明預設的評價時點,有助于限制對多個評估時點進行計劃外分析的可能性,并能避免選擇性不報告問題[21,22]。
示例:“主要結局是24小時平均舒張壓,在訪視4時(產后6~9個月)通過動態血壓監測儀進行測量,并根據產后基線血壓進行調整……次要血壓指標結果包括訪視4時的24小時、日間和夜間動態血壓參數,以及訪視2、3和4時的臨床血壓,采集數據均根據產后基線血壓進行調整”[32]。
條目6a.6:如果使用了復合結局,對復合結局中的每個獨立結局進行說明。
解讀:復合結局是同時考慮多個結局的綜合指標,通常是多個主要結局或主要結局和次要結局的組合(如將“受試者中發生死亡或非致命性中風的比例”作為一個復合結局[3]),復合結局的優點是綜合考慮了多個指標,更全面地評價了藥物或治療方法的效果。受試者如果經歷了組成這個復合結局的任何一個結局,即被認為經歷了這個復合結局[33,34]。但需要注意,對復合結局的解釋存在難度,如果組成復合結局的各個獨立結局效應方向相反,或者各自呈現不同的效應水平(如死亡和殘疾的組合),那么復合結局的效應可能會掩蓋真實的干預效果,這時應更強調對每個獨立結局的報告,以驗證結局效應主要來自哪個結局指標[3,34,35]。
示例:“主要結局預先指定為圍產期死亡(定義為隨機分組后的子宮內胎兒死亡或出生后7天內的已知新生兒死亡)、早產(妊娠<37周)或新生兒住院至少4小時(從出生到出院)的復合結局。每個嬰兒在這個組合中被計數一次”[36]。“主要結局是ICU入院、無創(雙水平或持續氣道正壓)或有創機械通氣,或死亡28天復合指標”[37]。
條目6a.7:報告試驗注冊或試驗方案中未預先設定的任何結局。
解讀:該條目建議,對于試驗方案或注冊時未預先設定但在試驗中采用的結局,需要指出或說明。“未預先設定”的結局可能是由于添加了一個最初未計劃的全新的結局域,如計劃外納入和分析從醫院數據庫中獲得的心血管疾病住院率的變化;另外,表2中涉及的結局相關要素,試驗期間的變化往往不會提前預設,因此對于發生的變化也應該在報告中進行說明。此外,對于主要結局發生的重要變化,研究者應報告詳細信息,包括變化的性質、時間和動機,原因是來自于內部還是外部數據源,以及誰提議、誰贊成了這些改變等[3]。
示例:“以下主要復合結局中的指標未包括在試驗方案中,但在統計分析計劃中被預先指定為次要結局:有創機械通氣、復合有創或無創機械通氣、入住重癥監護室”“一個不知道分配方案的獨立事件裁決委員會,事先對主要結局的組成、出血、血栓性事件和死亡原因進行了裁決。試驗中未預先設定事件裁決方案”[37]。
條目6a.8:描述用于評價結局的工具(如問卷、實驗室檢測),以及該工具在與研究受試者相似人群中的信度、效度和反應度。
解讀:該條目建議作者對于結局的測量工具進行充分說明,這對于保障試驗的可重復性和結果的可解釋性非常重要[3,22]。在說明的同時,建議提供測量工具信度(如重測信度、評價者間信度或評價者內信度、內部一致性)、效度(如內容、結構、標準、跨文化、以及結構效度)和反應度(檢測所評估的健康結局指標變化的能力)的相關參考文獻。此外,由于我們無法假設工具的測量特性在不同人群間是否具有可推廣性,因此還建議報告與研究樣本相似(或至少沒有實質性差異)人群的相關測量屬性[3]。
示例:“采用Maslach職業倦怠量表評估工作倦怠情況,該量表被廣泛用于醫生職業倦怠的評估。相關信度系數、重測信度、聚合效度和判別效度的信息可以在《Maslach職業倦怠量表手冊》中找到,該量表在醫生中的有效性數據近期也有總結”[38]。“采用EQ-5D-5L評估生存質量,該量表是一個通用的健康調查工具,用于評估患者報告的健康狀況。EQ-5D-5L的心理測量特性已被證實優于之前的EQ-5D-3L量表……EQ-5D-5L對變化的反應度尚未被描述,但有研究提供了EQ-5D-3L的反應度證據”[39]。
條目6a.9:對結局的評估者(如護士、父母)進行說明,以及應用研究工具進行結局評估時所需具備的資質或特定培訓。
解讀:臨床研究中結局評估者一般是結果的測量者或療效考核者,評估者的培訓或個人經驗/觀點的差別,或患者回憶的差異,均可能導致評估結果的差別[40]。美國食品藥品監督管理局(Food and Drug Administration,FDA)將臨床結局評估(clinical outcome assessment,COA)類型分為醫生報告結局(clinician-reported outcome,ClinRO)、PRO、觀察者報告結局(observer reported outcome,ObsRO)和行為結局(performance rated outcome,PerfO)[41],有必要對結局評估者的設定和選擇情況進行報告,特別是對于主觀結局事件,不同角色的評估者可能得出較大差異的結果[3,21,41]。對于不會受結局評估者影響的客觀指標(如理化檢查等),該條目信息的相關性較小。
示例:“使用第二版韋氏簡明智力量表人員應具有博士或心理科學博士學位,有5年及以上相關患者群體診療經驗,且有15次及以上使用該工具或類似智商評估工具的經驗”[3]。“5名學士學位以上的評估員(4名女性,1名男性)對入組兒童進行結局評估,并通過采訪照顧者獲取人口學資料和家庭信息。評估員從研究區域外招募,在干預和對照區組中進行輪流評估,且不清楚分組情況。一位擁有10年兒童成長評估經驗的心理學家對評估員進行了為期1個月的培訓。當評估員在每次測試中與培訓師達成>90%的一致意見時,開始進行測試”[42]。
條目6a.10:描述在數據收集期間(如重復測量)和之后(如結局數據的范圍核查)任何用于提高結局數據質量的過程,或者說明在哪里可以找到這些細節。
解讀:說明通過什么方式提高結局數據的質量,能夠確保試驗透明度并有助于評估試驗數據的質量。例如,為了確保結局評估過程的獨立和準確性,對于主觀結局指標的評估(例如病理評估)可能會通過重復評價或采用中央裁決委員會的方式[3]。一般而言,提升數據質量涉及合理設計數據結構(如標準化數據元素、預設數據驗證規則)、強化數據錄入規范(如制訂詳細的數據導入指南、實行雙人錄入制度)、定期進行數據質量檢查(如制定數據質量檢查計劃、采用多種檢查方法)等環節。相關信息均應該在試驗報告中進行描述或總結,并說明可以在哪里找到完整的信息,同時提供相應參考文獻。
示例:“每個臨床事件由兩名評審員進行獨立評審,評審員確定該事件是否符合預先規定的標準(根據方案中的定義)。這些事件被歸類為‘確定事件’‘可能事件’或‘非事件’(參考以下裁決手冊中的裁決表)。最終裁決結果基于一致意見。如果兩名裁決者之間存在分歧,醫療監督員將介入”[37]。
2.2 關于樣本量的清單條目
條目7a.1:定義并說明各治療組間的目標差異(如MID)。
解讀:7a.1是CONSORT 2010 聲明條目7a的擴展條目。該條目要求作者說明樣本量的確定方式,以及樣本量計算時設定的目標差異(target difference)。目標差異是特定時點主要結局在各治療組被檢測到、并用于分析的差異,其可能是MID,也可能是最小有價值效果(即干預措施最小的獲益效應,用以證明由患者決定的干預措施成本、危害和不便的合理性)[43,44]。目標差異可能受實際情況或臨床因素影響(例如用于評估主要結局指標的研究工具是否有一個可靠的MID),并且可能會有眾多不同的可選值(例如,多個MID值中的一個或基于先導試驗得出的值),因此對于目標差異的選擇進行解釋是十分必要的[44,45]。
示例:“樣本量:以3年時總死亡率的10%差異作為MID和劣效性界限。在指數生存曲線的假設下,介入組的預期3年生存率為30%,那么非介入組生存率20%,非介入組與介入組患者的相對死亡風險為1.3”[46]。
2.3 關于統計方法的清單條目
條目12a.1:說明在分析或解釋主要和次要結局時用于解釋多重性的任何方法(如共同主要結果、在多時點評估的相同結局或一個結局的亞組分析)。
解讀:12a.1是CONSORT 2010聲明條目12a的擴展條目。臨床試驗中的多重性(multiplicity)是指多重檢驗,比如共同主要結局、單個結局多次重復測量、單個結局進行多次分析(如期中或亞組分析、多組試驗)、多個次要結局等[3]。對于此類多重性的解釋主要包括統計學方法和描述性方法[47],相關信息可以在報告正文中簡要說明,也可在統計分析計劃中更詳細地描述。如果試驗未使用任何方法來進行多重性分析(如不適用或沒有必要),作者也應進行說明。
示例:“預先設定對主要結局進行亞組分析,分組依據包括根據受試者年齡、性別、體重指數、新冠肺炎癥狀發作時間、糖尿病、冠狀動脈疾病等,并對交互作用進行檢驗。對任何原因導致的死亡進行事后亞組分析……次要結局的分析被認為是探索性的,因此沒有針對多重比較進行調整;次要結局的95%置信區間寬度不用于推斷治療效果。補充文件提供了統計方法的具體說明”[37]。
條目12a.2:說明分析和報告中排除任何結局數據的標準并陳述理由,或報告并未排除結局數據。
解讀:12a.2是CONSORT 2010聲明條目12a的擴展條目。該條目建議作者對于排除結局數據的兩種可能情況都要進行報告:其一,說明并解釋在分析中排除特定結局數據的依據;其二,報告沒有排除任何結局數據。這里所指的結局數據是明確和有意排除的結局數據,諸如受試者已完成的問卷中有太多缺失條目的情況,或有其他充分理由排除的特定結局的異常值。這將有助于讀者解讀報告的結果。相關信息可以呈現在CONSORT流程圖中,按照治療組別列出排除每個結局數據的原因[3]。
示例:“如果一個結局在超過5%的受試者中缺失,除了在原假設下(患者在28天前活著出院時沒有任何結局)的分析策略,還進行完整的病例分析、逆概率加權分析和結果的多重插補”[37]。
條目12a.3:描述用于評估缺失模式的方法(如非隨機缺失),并描述用于處理缺失結果項或整體評估的方法。
解讀:12a.3是CONSORT 2010聲明條目12a的擴展條目。一般來說,無論采取何種數據預防措施,結局數據缺失幾乎都是不可避免的。而數據缺失并不是隨機的,而是與治療組的分配、患者特定(預后)因素或特定健康結局的發生有關[48]。當出現數據缺失時,建議作者說明:① 用于評估或確定數據缺失模式(也稱為數據缺失機制)的方法;② 在統計分析過程用于處理缺失數據或整體評估的方法,例如多重插補、完整案例、根據似然度、逆概率加權等。數據缺失模式包括完全隨機缺失(missing completely at random,MCAR)、隨機缺失(missing at random,MAR)和非隨機缺失(not missing at random,MNAR)[49],需要在報告中進行說明;對于缺失模式的處理方式(如多重插補和最大似然分析法假設數據至少是隨機缺失的)也應進行報告。
示例:“在量表的計算中使用了簡單插補方法。如果缺失條目不超過20%,則使用量表或分量表中其余部分受試者具體完成項目的中值來替換變量中的缺失值”[50]。“因為我們預先只設定了一個確證性結局,所以沒有對多重比較進行調整。為了最大限度地減少數據缺失引起的潛在偏倚,我們的主要分析是在假設數據隨機缺失的情況下,通過鏈式方程和預測均數匹配進行多重插補”[18]。
條目12a.4:提供違背試驗方案的結局分析人群的定義(如作為隨機分析)。
解讀:12a.4是CONSORT 2010聲明條目12a的擴展條目。方案違背,不僅影響到受試者的權益、安全性和獲益,以及數據的完整性、精確性和可靠性,還直接關系到整個研究的質量。由于不同結局的缺失數據量不同,數據缺失原因也不同,因此本擴展條目進一步提出對涉及違背試驗方案人群進行定義。對于每一個結局的分析,研究者均應說明是否納入所有隨機分組的受試者(即意向性分析)[8,21]。
示例:“一個完整的數據集可能用于分析死亡率這一結局,但不能用于分析同一試驗中的患者報告結局”“對不良事件的分析僅限于接受試驗干預的受試者”[3]。“預先設定的主要結局的敏感性分析排除了未進行28天評估的受試者,僅納入符合方案隊列的受試者”[37]。
2.4 關于結局描述和評價的清單條目
條目17a.1:包括所有預先設定結局的分析結果,如果相關結果未在本報告中呈現,則說明在哪里可以找到相關內容。
解讀:17a.1是CONSORT 2010聲明條目17a的擴展條目。該條目提示作者報告試驗方案或統計分析計劃中所有預設的結局指標的結果。盡管CONSORT 2010對此進行了規范要求,但試驗研究對該條目信息的報告仍然不充分,讀者難以確定是否存在選擇不報告某些試驗結果的情況[51]。當難以在一個試驗報告中報告所有預設的分析時(如試驗預先設定的次要結局指標的數量很多),作者應該報告在哪里能夠找到其他的結果(如鏈接的出版物或在線數據存儲庫中),或表明將在長期隨訪后再進行報告[3]。
示例:“ARAT分量表的分析和其余次要結局的描述性統計數據[FMA(運動范圍和感覺分量表)和SIS(力量、情緒、記憶、溝通和中風恢復)]見附錄”[50]。“不良反應和通過手機軟件報告的癥狀的詳細信息見附錄”[32]。
2.5 關于輔助分析的清單條目
條目18.1:如果有任何未預先設定的分析,解釋進行這些分析的原因。
解讀:18.1是CONSORT 2010聲明條目18的擴展條目。本條目建議作者對任何未預先設定的(如試驗方案或統計分析計劃中)、但在試驗報告中出現的分析提供解釋。對于未預先設定但采用并報告的分析,闡明相關理由對于試驗透明度和正確評估試驗可信度尤為重要。此外,還應注意要說明這些附加分析是在何時開展的(如在看到其他結局的比較分析結果之前或之后)[3]。
示例:“由于并非所有中心都提供體外肺支持,我們對體外支持對60天死亡率的影響進行了兩種可能情況下的評估:將任何一組中的所有體外輔助患者視為死亡,或排除兩組中的全部體外輔助患者”[18]。
3 小結
研究結局的選擇和測量是關乎臨床研究價值的關鍵問題之一,對研究結局的充分報告是保障研究質量、影響Meta分析結果的關鍵環節[11]。對于研究結果報告的問題,早在20年前就已得到關注,相關研究表明了選擇性報告臨床試驗結果將導致不適當的監管決定[52],以及影響大部分Cochrane系統評價的結論[3,53]。CONSORT-Outcomes對CONSORT 2010聲明方法部分的結局指標(6a)、樣本量(7a)、統計學方法(12a),以及結果部分的結局和估計值(17a)擴展了17個報告條目,對原有結局報告相關條目進行了延伸,為臨床試驗中結局的報告提供了基于證據和共識的規范性指導。同時,相關報告建議與SPIRIT-Outcomes 2022擴展版保持一致[15],兩個擴展版指南協同實現了從試驗方案到試驗結果報告的連續性,這將有助于研究人員對試驗方案和試驗報告的整理,更重要的是有利于評估最終報告對于試驗方案的依從性[3]。為了更好地解讀CONSORT-Outcomes,本文選取了擴展條目對應的部分國內外發表的相關文獻做示例。建議醫學期刊作者在撰寫和提交稿件時,主動遵循相應報告規范,醫學期刊和編輯也應積極將相應報告規范引入稿約。同時,希望盡早將CONSORT-Outcomes附加條目整合到主要的CONSORT清單中,以促進實踐應用。