引用本文: 王瀚東, 柴倩云, 馮玉婷, 羅慜婧, 曹蕊, 陶立元, 費宇彤. 中醫藥臨床療效評價中目標值法單臂試驗適用性與理論對策的定性研究. 中國循證醫學雜志, 2024, 24(11): 1317-1324. doi: 10.7507/1672-2531.202404038 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
目標值法單臂試驗是指將試驗干預措施的結局指標與適宜的“目標值”進行對比,以評估干預措施療效的研究方法[1]。目標值法單臂試驗近年來在國內外醫療器械領域已得到廣泛應用[1],同時該研究設計也被美國食品藥品監督管理局及我國藥品監督管理局在部分臨床試驗指導原則中所推薦[2]。目標值法單臂試驗屬于類試驗的一種,雖然是只有試驗組一個組別的臨床試驗,但其設計、實施的嚴密程度與隨機對照試驗(randomized controlled trial,RCT)相同,只是不設同期平行對照組,而是將目標值作為外部對照[3]。近年來,有學者對目標值法單臂試驗在中醫藥臨床療效評價領域中的應用進行了探討[4-6],認為其研究設計貼合中醫臨床實際,可作為無法開展RCT時的替代;還有部分學者已將目標值法單臂試驗應用于中醫藥臨床療效評價中,并取得一定成果[7-9]。但由于目標值法單臂試驗在中醫藥臨床療效評價中仍處于起步階段,常常存在目標值法應用場景不明確、目標值制定方法表述不清晰的情況,未得到廣泛認可,在設計與實施過程中多參照現代醫學醫療器械相關研究的模式,同時由于未能形成統一規范,不同研究采取的統計分析方法間存在較大差異,在實際應用中面臨一定的挑戰。
本研究使用半結構化訪談法,對參與目標值法單臂試驗相關臨床研究的臨床專家和方法學家開展深度訪談,了解訪談對象對于在中醫藥臨床療效評價中應用目標值法單臂試驗的看法,探討目標值法單臂試驗在中醫臨床療效評價中的適用范圍,影響其應用的優勢與局限,應用過程中的難點并基于此提出理論對策,為未來推廣目標值法單臂試驗在中醫藥臨床療效評價中的應用提供思路與建議。
1 對象與方法
1.1 訪談對象
本研究已通過北京中醫藥大學倫理委員會批準(審批號:2023BZYLL0503)。本研究訪談對象為實際參與過目標值法單臂試驗設計與實施的臨床專家或方法學家。采用目的性抽樣并結合滾雪球法選取訪談對象,依托天津中醫藥大學附屬醫院“注射用丹參多酚酸治療缺血性腦血管病急性期/恢復期的臨床精準定位研究”和北京中醫藥大學“基于‘道術結合’思路與多元融合方法的名老中醫經驗傳承創新研究”兩項國家重點研發課題選擇臨床研究者,同時檢索發表過目標值法相關學術論文的第一作者及通訊作者,并由已訪談對象推薦其他研究者。不限制訪談對象的職稱、資歷、領域和地域,當訪問新的受訪者不再出現新信息時,視為信息飽和。
1.2 訪談方法
采用半結構化深入訪談的方法,優先選擇面對面深入訪談形式,結合騰訊會議、微信通話、電話等線上方式開展訪談。訪談人員為接受過定性研究訪談培訓的研究生(博士研究生1名,碩士研究生1名),均為女性,且與訪談對象無直接利益關系。訪談人員以課題研究者身份與受訪者進行溝通交流,現場設立主要訪談者1名,場記1名,僅對每位受訪者進行一次訪談,訪談時間為30~60分鐘。在訪談對象知情同意的前提下對訪談內容進行全程錄音,并記錄受訪者的語氣、表情、肢體動作等變化。
根據既往已發表的文獻和本研究的主要目的制定預訪談提綱,在正式訪談前,先對2名訪談對象進行預訪談,根據預訪談的內容對訪談提綱進行調整和補充,形成正式訪談提綱。與訪談對象建立聯系后,依據訪談對象的學術背景細化訪談提綱中的問題:對于臨床專家,問題側重于臨床實施;對于方法學專家,問題側重于研究設計。
1.3 資料的收集與分析
訪談結束后由訪談人員如實對錄音及時進行轉錄與校對,采用Word文檔對轉錄資料進行保存,確認無誤后不再對轉錄資料進行修改。將轉錄資料及原始音頻妥善設置訪問和修改權限,僅研究者內部使用,以保證訪談內容的保密。使用定性研究數據分析工具NVIVO 12.0對轉錄文字進行編碼和整理。采用主題分析法[10]對資料進行歸納并進行三級編碼,運用類屬分析方法將編碼進行歸類和提煉,結合情景分析方法將已歸類的資料坐落在一定的情景中進行關聯分析。對比不同研究對象,根據訪談的結果以及與既往文獻比較,確定不同來源資料是否相互印證,以評價資料的真實性和研究效度。參照定性研究報告的統一標準COREQ[11,12]對結果進行報告。
2 結果
2.1 訪談對象的基本特征
共12名受訪者接受了深度訪談,其中臨床專家7名,方法學專家5名;男性7名、女性5名。高級職稱4名,副高級職稱4名,中級職稱4名。臨床專家均參與過目標值法單臂試驗設計的臨床研究,方法學專家均具有目標值法單臂試驗研究設計和統計經驗。研究信息達到飽和。
2.2 研究結果概述及類屬關系
對訪談內容進行編碼,共獲得一級編碼216條,形成36個子主題,進一步歸納為17個主題,經類屬分析后,得到目標值法單臂試驗在中醫藥臨床療效評價中的適用情境、優勢、局限、應用過程中的難點及理論對策5個類別,詳見表1。目標值法單臂試驗在中醫藥臨床療效評價中應用的特點類屬關系詳見圖1。


2.3 目標值法單臂試驗在中醫藥臨床療效評價中的適用情境
適用情境類別包含3個主題,7個子主題。3個主題分別為替代性情境、補充性情境以及探索性情境。
目標值法單臂試驗是單臂試驗與目標值外部對照的組合,其適用情境首先考慮單臂試驗的適用情境,即對照研究的替代。受訪者普遍認為,針對罕見病群體等特殊人群,在倫理上不被允許或客觀上難以開展對照研究,是目標值法單臂試驗的主要應用情境。此外,部分患者存在未被滿足的臨床需求,在評價中醫藥干預措施的效果時往往缺乏合適、公認的陽性對照,應用目標值法單臂試驗評價可一定程度上避免不得不開展安慰劑對照或空白對照臨床試驗所帶來的倫理風險。部分受訪者指出,國內患者對中醫藥干預的選擇存在偏好,在實踐中存在患者因自身選擇偏好而拒絕入組或脫落的情況,不僅在實施層面存在困難[13],也使研究結果存在較大的偏倚風險。基于以上因素,應用目標值法單臂試驗更貼合中醫藥干預措施特點及臨床實際情況,能較好反映中醫藥臨床療效,提供臨床證據。但也有受訪者持相反觀點,認為中醫藥干預應先通過證據等級較高RCT確證其基礎療效,再進一步針對個體化干預措施進行評價,而非以目標值法單臂試驗為首選設計。
其次,多數受訪者認為,在某些研究開展較為成熟的領域中,選擇公認的診療水準或權威機構頒布的標準作為目標值開展單臂試驗,在保證研究結果科學性的同時,還能節省樣本量,減少資源浪費;還有受訪者提及當滿足“全或無”條件的情況下,也可開展目標值法單臂試驗;也有受訪者認為在前期已有確證性臨床研究的基礎上擴大樣本量進一步探索療效,或在較為成熟的干預措施基礎上有工藝的改進或療效的顯著提升時,也可將前期研究作為基礎開展目標值法單臂試驗。
最后,受訪者認為,目標值法單臂試驗還可以適用于對新療法的前期小范圍探索,當結合現實人力、物力情況暫時不適于開展RCT或隊列研究時,可以使用目標值法單臂試驗結果作為研究基礎,為未來繼續開展大型研究做鋪墊。
2.4 目標值法單臂試驗的優勢
優勢類別包含3個主題,8個子主題。3個主題分別為與RCT比較、與觀察性研究比較、與傳統單臂試驗比較。
有開展臨床試驗經驗的受訪者認為,除了研究方案的科學性和規范程度外,實施難度也是影響臨床研究能否順利開展的重要因素,RCT雖然是驗證臨床療效的金標準,但由于其開展過程相對復雜,受到多種現實因素的限制,應用存在一定困難;目標值法單臂臨床試驗因不設對照組,招募方便,節約樣本量的同時,避免了患者因對干預措施的偏好引起脫落;在實際操作的過程中也減少了對人力、物力、時間等資源的消耗,更便于開展。
同時,受訪者認為目標值法單臂試驗屬于干預性研究,相對于觀察性研究而言,除節約樣本量外,其方案設計更明確,對受試對象、干預措施等要求更具體,一定程度上減少了混雜因素;且研究目的更明確,得出的數據更貼切,避免了繁雜的數據篩選、清理等工作。
此外,與傳統單臂試驗相比,目標值法單臂試驗在方案設計階段即明確目標值,做出研究假設,對樣本量等做出確切估算,研究設計更為嚴謹;目標值為行業公認的標準或水準,相較于歷史對照而言可比性更強,可信度更高。
2.5 目標值法單臂試驗的局限
局限類別包含2個主題,3個子主題。2個主題分別為未被廣泛認知和證據等級不被認可。
有目標值法單臂試驗實施經驗的臨床專家受訪者大多提及接觸目標值法單臂試驗的契機多是機緣巧合,或由于臨床實際需求迫使,在檢索國外相關文獻后嘗試性使用;同時他們在申請項目、論文投稿等過程中發現其他研究者及相關人員也多表示對這種研究設計類型較為陌生,或與其他研究設計類型相混淆。
此外,多數受訪者對目標值法單臂試驗的證據等級持保守態度,主要擔憂目標值法單臂試驗不設同期平行對照組,納入患者時存在較高的選擇性偏倚風險,結論不具有較高的說服力,除特殊情況無法設置對照組外,其應用可能受到較大限制;部分受訪者認為目標值法單臂試驗在進行統計推斷時,受統計方法及參數設置等影響較大,對其結論的穩定性有一定影響,也是其證據等級不被認可的原因之一。
2.6 目標值法單臂臨床試驗應用的難點
難點類別包含4個主題,9個子主題。4個主題分別為目標值的選擇、樣本量計算、偏倚的控制以及統計分析方法。
受訪者一致認為,目標值法單臂試驗的最主要難點在于如何科學合理地選定目標值。目標值法單臂試驗在器械領域應用較多,其目標值在美國會受到食品藥品監督管理局的認可與確定,但在國內中醫藥領域,尤其是藥物臨床試驗中,尚無專門的組織機構協助制定和認定目標值供研究者使用,行業內亦很難就某一療效目標形成共識,往往需要研究者結合研究目的自行查找制定。受訪者也提出在目標值制定的過程中存在以下諸多困難:目標值的制定方法尚無系統規范可供參考,研究者多憑借自身主觀意愿制定,科學性受到質疑;某些特殊患病群體既往相關研究資料較少,也有部分研究文獻中表述模糊又無法取得原始數據進行參考,難以制定目標值;此外有些原始文獻證據質量偏低,或年代相對久遠,難以反映當前臨床普遍診療水平,得出的目標值無法被認可;目標值來源的人群與單臂試驗關注的目標人群間存在較大差異,可比性受到影響。
此外,部分受訪者提出樣本量計算也是研究設計時需要面對的難點之一。目標值法單臂試驗雖不設同期對照組,但使用目標值進行對照又與傳統的單臂試驗不同,在計算樣本量時不能完全按照傳統單臂研究的方法進行。目前提出的樣本量計算方法較多,受到研究目的、目標值數據類型、假設檢驗方法等多層面影響,尚未形成共識與規范,研究者難以確定能夠證明預期假設的最小樣本量。
在研究實施層面,多數受訪者認為目標值法單臂試驗的難點與其他研究設計類型存在共性,集中表現在偏倚風險的控制方面,由于缺乏系統的方案設計與質量控制規范,其偏倚風險可能高于其他研究設計類型。
多名受訪者提及目標值法單臂試驗的統計分析方法尚不明確,采用不同的估計方法和假設檢驗方法對結果影響較大,在統計推斷層面難以做出精確推斷;同時相關統計分析軟件可能不支持統計實現,或參數設置存在差異,不便于實際應用。
2.7 針對目標值法單臂臨床試驗應用的理論對策
理論對策類別包含4個主題,9個子主題。4個主題分別為目標值的制定、樣本量計算、研究的實施以及統計分析方法。
針對目標值法單臂臨床試驗在中醫藥療效評價領域的應用,受訪者也給出了對研究設計及未來研究要點的建議與考量,形成了初步的理論對策。針對最主要的目標值制定方面,受訪者認為應由權威機構主導,明確制定核心結局指標及其對應的目標值,在現有文獻與真實世界數據的基礎上進行綜合,并由相關行業專家結合臨床實際、地域、時間以及文化等因素對前期數據修訂,最終形成公認的目標值,并定期更新;研究者在應用目標值進行研究時,也應考慮研究對象、干預措施、結局指標等研究要素與目標值來源的一致性對研究的影響,進而判斷目標值的選取是否合理。
有關目標值法單臂試驗的樣本量計算公式,受訪者提出可以通過數據模擬的形式,比較不同的樣本量計算公式估算結果的差異及其對統計推斷的影響,綜合研究目的、療效指標、數據類型等多種因素,最終確定相對穩健的樣本量計算方法。
此外,有研究者提出應用目標值法單臂試驗前,應明確當前研究問題及情境是否適合其開展,避免研究設計的誤用;同時應形成統一的試驗規范與質量控制標準供研究者參考,以提高目標值法單臂試驗的科學性。
在統計方法方面,可基于數據模擬的方式建立模型,并應用真實研究數據進行驗證,最終確立適用于目標值法單臂試驗的統計分析方法;也有研究者提及可以參照非劣效檢驗的方法進行目標值法單臂試驗的假設檢驗和區間估計。
3 討論
本研究對接觸過目標值法單臂試驗的研究者進行半結構化訪談,通過類屬分析將訪談結果深化為5個類別,包括目標值法單臂試驗在中醫藥臨床療效評價中的適用情境、優勢、局限、應用過程中的難點及理論對策。目標值法單臂試驗可作為無法開展對照試驗的替代,也可用作成熟領域的研究證據補充,還能用于前期探索性研究。相較于其他研究設計類型而言,目標值法單臂試驗具有節約樣本量、患者依從性好、節省資源投入和可控性較強等優勢;但其存在認知度不高以及證據等級不被認可的局限,影響了在中醫藥臨床療效評價中的應用。在實際應用目標值法單臂試驗進行療效評價時,還存在目標值選擇困難、偏倚風險不易控制以及統計分析方法不明確等多種阻礙。未來可通過完善目標值制定策略,形成應用實施規范以及明確統計分析方法等對策,使目標值單臂試驗在中醫藥臨床療效評價中的應用更合理、更科學。
本研究中受訪者包括臨床專家、方法學家,并涵蓋了中醫西醫不同領域,遵循信息飽和原則,研究結果相對全面。同時本研究總結目標值法單臂試驗在中醫臨床療效評價中應用的優勢、局限及難點,結果呈現較為客觀。本研究針對目標值法單臂試驗的應用總結理論對策,對后續進一步開發目標值法單臂試驗的應用以及完善相關規范給出建議,為后續深入研究提供思路。
但本研究也存在一定局限性。首先,本研究大部分訪談采取線上的方式開展,且多數受訪者來自北京地區,研究結果存在一定的地理偏倚。其次,部分受訪者認為難以實施安慰劑對照便無法開展RCT,并將之視為目標值法單臂試驗的必要適用情境,但實際上在無法開展安慰劑對照的解釋性RCT時,還有實用性RCT等其他研究設計類型可供選擇,這可能是由于受訪者對臨床研究設計類型的認識尚有不足,錯誤地擴大了目標值法單臂試驗的適用情境。此外,有部分受訪者對中醫藥干預措施認識不足,對待目標值法單臂試驗在中醫藥臨床療效評價領域中的應用時可能受到一定程度的主觀情緒影響。
難以設置合適的對照是開展中醫藥臨床療效評價的一大痛點。中醫藥干預措施本身具有復雜化、個體化等特點,療效評價受到較多因素影響,往往難以良好實施安慰劑對照。且中醫藥具備文化屬性,國內民眾普遍對中醫藥干預有一定基礎認知,增加了安慰劑對照的破盲風險。以針刺干預為例,目前常用的安慰針刺或假針刺對照方法,包括不刺入干預穴位或刺入非干預穴位的其他位置[14],但是否刺入穴位的差異可被患者感知,刺入非干預穴位有可能產生其他與治療相關的效應;此外針刺實施者的技能經驗及其與患者的溝通交流也對療效存在一定影響[15],種種因素給針刺干預的療效評價帶來挑戰。除去干預措施的特點,患者的選擇也是中醫藥干預難以設置合適對照的重要影響因素。在國內接受中醫藥干預的患者,除對中醫藥有特殊選擇偏好外,還有一部分是由于其所患疾病特殊,西醫沒有合適的治療手段或療效達不到預期[16,17],故而轉為接受中醫藥干預[18]。由于患者對于接受中醫藥干預存在強烈的主觀傾向,往往不愿接受隨機分配,依從性不高,給試驗的招募、隨訪帶來困難。
單臂試驗不設置同期平行對照組,降低了實施的難度,但也因其證據等級不足而受到質疑。而目標值法單臂試驗作為單臂試驗的一個類型,選用公認的目標值,又稱客觀性能標準(objective performance criteria)作為外部對照,一定程度上增強了試驗結論的可信度。且相較于觀察性研究而言,目標值法單臂試驗仍屬于“干預性試驗”范疇,即有控制地實施干預方案,這在療效評價中可較嚴格地控制混雜因素的影響。因此,也有學者[19]提出,有外部對照的單臂試驗其證據等級僅次于擴增型RCT,即在對照組樣本量不足的情況下,選用外部數據對對照組進行補充的RCT。目標值法單臂試驗在醫療器械領域應用較多,目前已被美國食品藥品監督管理局納入快速批準器械進入市場的政策[20]。對于前期已完成確證性研究的相對成熟的干預措施,使用目標值法單臂試驗可以探索更廣泛人群[21]或改良工藝[22]的療效;而業界已有成熟的目標值,再消耗樣本設置對照組的價值不大,此時應用目標值法單臂試驗可以減輕受試者招募壓力[23],便于試驗開展。
既往有研究[4,5]提出目標值法單臂試驗在中醫藥領域的應用條件,需要在客觀上設置對照不可行(如倫理限制、患者有強烈的選擇意愿等),且對研究疾病及干預措施所在領域有足夠的了解方可開展。對于前期研究基礎較成熟的領域而言,評價中醫藥干預措施療效時應用目標值法單臂試驗確有其優勢,一方面與臨床實際契合度較高,既能減少人力物力消耗,也能減輕受試者招募及隨訪的壓力;另一方面相較于觀察性研究而言能一定程度控制混雜因素,具備一定的論證強度,有助于中醫藥成果的進一步轉化和推廣[24,25]。
然而要在中醫藥領域實際應用目標值法單臂試驗進行療效評價,還要面臨諸多困境。目標值的選擇是目標值法單臂試驗的核心與關鍵,即便在目標值法應用較為成熟的醫療器械領域,目標值的制定仍具有一定的挑戰,目前并無統一的制定目標值的標準,且僅有極少的目標值可供使用[26,27]。有研究者總結醫療器械領域目標值的確定方法,包括臨床試驗監管部門指南、行業標準或專家共識以及同類產品歷史研究結果等途徑,可為中醫藥領域制定目標值的方法提供參考[28],也有學者提出中醫藥領域目標值的選擇方法[5],但目前業內尚未建立成熟的目標值認定體系,尚無權威機構牽頭制定目標值,常須研究者自行制定,在實踐過程中仍是主要難點。基于已發表的文獻研究及系統評價制定目標值是目前較為常用的方法[9,27],這樣得出的目標值有可溯源的數據來源,具有可重復性,具備一定的可信度;但由于這些數據并非受試者水平的一手數據,且可能存在發表偏倚風險,無法準確反映臨床真實療效。中醫藥有豐富的歷史經驗積累,在我國也有較為廣泛的應用,但中醫藥臨床療效的循證評價仍處于發展階段,許多領域仍在探索,前期研究不足,或現有研究證據等級較低,以至于缺少足夠的高質量循證證據作為獲取目標值的原始資料。基于專家共識制定的目標值,能一定程度上反應當地現實診療水平,但由于缺乏數據支撐,且受到專家主觀認識偏好影響,外推性差且容易受到質疑。此外,由于中醫藥干預強調整體觀念,療效評價常采用主觀結局或復合結局指標[29],其客觀測量標準較難做到統一,也會對目標值的選擇造成一定影響。最后,中醫藥干預強調辨證論治,當研究設計關注某一疾病的某種特殊證候類型時,由于辨證標準不同,或不同操作者對證候的理解存在差異[30],增大了目標值來源研究間異質性,進而影響單臂試驗組與目標值人群間基線可比性,使得最終得出的結論難以反映真實療效。
目標值法單臂試驗在中醫藥療效評價領域的應用仍缺乏業界認可,由于單臂試驗本身不設同期平行對照的研究設計特點,注定其證據等級會受到詬病。本研究中有在中醫藥療效評價領域應用目標值法單臂試驗經歷的受訪者,幾乎都面臨過被課題審查部門、論文雜志審稿人等質疑的情形;部分有方法學背景的受訪者也指出,“患者存在明顯偏好”“難以設置合適的對照”等因素只是困難而非無法解決的問題,為了確保研究結論的科學性,在進行中醫藥臨床療效評價時,仍應將RCT作為首選研究設計類型,盡可能開展高證據等級的研究。
目標值法單臂試驗證據等級較弱,對其進行從設計到實施的全過程質量控制是保證其結果科學性的重要措施。研究設計方面,除目標值的選擇外,受試者的納入與排除標準、結局評價方法與目標值來源數據的可比性也應受到重視。在研究進行過程中,嚴格遵照試驗方案進行,定期進行稽查、視察,涉及到多中心的研究,確保干預措施、結局評價措施的一致性,都是加強質量控制的重要措施。
對于前期研究相對充分,且設置對照相對困難的中醫藥臨床研究,可以嘗試應用目標值法單臂試驗進行療效評價,以提供新的證據。而對于前期研究相對薄弱、研究領域較新的,可以應用目標值法單臂試驗作簡單探索,但不建議將其作為提供確證性證據的研究類型。目前仍建議有條件的情況下首選開展高質量的RCT,目標值法單臂試驗僅是基于現實考量的備擇設計方案。
目標值法單臂試驗可用作無法開展對照研究時的替代方案,也可作為前期探索或證據補充。目標值法單臂試驗的優勢主要體現在節約樣本量、患者依從性好、節省資源投入、設計相對嚴謹等方面;但由于推廣度不高、證據等級未得到廣泛認可而限制了其應用;這可能與目標值設置、樣本量計算、質量控制及統計分析等多種實施要素不明確,未形成統一規范有關。
目標值法單臂試驗在中醫藥臨床療效評價領域的探索尚處于起步階段,部分臨床專家已經開始實際應用探索其可行性。同時,目標值法單臂試驗已在國內外臨床試驗設計和審查中被官方機構所推薦或認可,為其在中醫藥領域的應用提供了進一步支持。但目標值法單臂試驗在中醫藥臨床療效評價中的應用仍需要漫長和艱辛的探索,不僅需進一步完善目標值法的選擇和確定方法,還需在實施規范及統計分析技術等方面進行更深入的研究和更廣泛的共識,使這種研究方法能得到合理應用。相信隨著中醫藥領域內有關結局評價、證型劃分等進一步發展和規范,目標值法單臂試驗的應用范圍可以得到進一步推廣和擴大,為提供中醫藥循證證據貢獻力量。
目標值法單臂試驗是指將試驗干預措施的結局指標與適宜的“目標值”進行對比,以評估干預措施療效的研究方法[1]。目標值法單臂試驗近年來在國內外醫療器械領域已得到廣泛應用[1],同時該研究設計也被美國食品藥品監督管理局及我國藥品監督管理局在部分臨床試驗指導原則中所推薦[2]。目標值法單臂試驗屬于類試驗的一種,雖然是只有試驗組一個組別的臨床試驗,但其設計、實施的嚴密程度與隨機對照試驗(randomized controlled trial,RCT)相同,只是不設同期平行對照組,而是將目標值作為外部對照[3]。近年來,有學者對目標值法單臂試驗在中醫藥臨床療效評價領域中的應用進行了探討[4-6],認為其研究設計貼合中醫臨床實際,可作為無法開展RCT時的替代;還有部分學者已將目標值法單臂試驗應用于中醫藥臨床療效評價中,并取得一定成果[7-9]。但由于目標值法單臂試驗在中醫藥臨床療效評價中仍處于起步階段,常常存在目標值法應用場景不明確、目標值制定方法表述不清晰的情況,未得到廣泛認可,在設計與實施過程中多參照現代醫學醫療器械相關研究的模式,同時由于未能形成統一規范,不同研究采取的統計分析方法間存在較大差異,在實際應用中面臨一定的挑戰。
本研究使用半結構化訪談法,對參與目標值法單臂試驗相關臨床研究的臨床專家和方法學家開展深度訪談,了解訪談對象對于在中醫藥臨床療效評價中應用目標值法單臂試驗的看法,探討目標值法單臂試驗在中醫臨床療效評價中的適用范圍,影響其應用的優勢與局限,應用過程中的難點并基于此提出理論對策,為未來推廣目標值法單臂試驗在中醫藥臨床療效評價中的應用提供思路與建議。
1 對象與方法
1.1 訪談對象
本研究已通過北京中醫藥大學倫理委員會批準(審批號:2023BZYLL0503)。本研究訪談對象為實際參與過目標值法單臂試驗設計與實施的臨床專家或方法學家。采用目的性抽樣并結合滾雪球法選取訪談對象,依托天津中醫藥大學附屬醫院“注射用丹參多酚酸治療缺血性腦血管病急性期/恢復期的臨床精準定位研究”和北京中醫藥大學“基于‘道術結合’思路與多元融合方法的名老中醫經驗傳承創新研究”兩項國家重點研發課題選擇臨床研究者,同時檢索發表過目標值法相關學術論文的第一作者及通訊作者,并由已訪談對象推薦其他研究者。不限制訪談對象的職稱、資歷、領域和地域,當訪問新的受訪者不再出現新信息時,視為信息飽和。
1.2 訪談方法
采用半結構化深入訪談的方法,優先選擇面對面深入訪談形式,結合騰訊會議、微信通話、電話等線上方式開展訪談。訪談人員為接受過定性研究訪談培訓的研究生(博士研究生1名,碩士研究生1名),均為女性,且與訪談對象無直接利益關系。訪談人員以課題研究者身份與受訪者進行溝通交流,現場設立主要訪談者1名,場記1名,僅對每位受訪者進行一次訪談,訪談時間為30~60分鐘。在訪談對象知情同意的前提下對訪談內容進行全程錄音,并記錄受訪者的語氣、表情、肢體動作等變化。
根據既往已發表的文獻和本研究的主要目的制定預訪談提綱,在正式訪談前,先對2名訪談對象進行預訪談,根據預訪談的內容對訪談提綱進行調整和補充,形成正式訪談提綱。與訪談對象建立聯系后,依據訪談對象的學術背景細化訪談提綱中的問題:對于臨床專家,問題側重于臨床實施;對于方法學專家,問題側重于研究設計。
1.3 資料的收集與分析
訪談結束后由訪談人員如實對錄音及時進行轉錄與校對,采用Word文檔對轉錄資料進行保存,確認無誤后不再對轉錄資料進行修改。將轉錄資料及原始音頻妥善設置訪問和修改權限,僅研究者內部使用,以保證訪談內容的保密。使用定性研究數據分析工具NVIVO 12.0對轉錄文字進行編碼和整理。采用主題分析法[10]對資料進行歸納并進行三級編碼,運用類屬分析方法將編碼進行歸類和提煉,結合情景分析方法將已歸類的資料坐落在一定的情景中進行關聯分析。對比不同研究對象,根據訪談的結果以及與既往文獻比較,確定不同來源資料是否相互印證,以評價資料的真實性和研究效度。參照定性研究報告的統一標準COREQ[11,12]對結果進行報告。
2 結果
2.1 訪談對象的基本特征
共12名受訪者接受了深度訪談,其中臨床專家7名,方法學專家5名;男性7名、女性5名。高級職稱4名,副高級職稱4名,中級職稱4名。臨床專家均參與過目標值法單臂試驗設計的臨床研究,方法學專家均具有目標值法單臂試驗研究設計和統計經驗。研究信息達到飽和。
2.2 研究結果概述及類屬關系
對訪談內容進行編碼,共獲得一級編碼216條,形成36個子主題,進一步歸納為17個主題,經類屬分析后,得到目標值法單臂試驗在中醫藥臨床療效評價中的適用情境、優勢、局限、應用過程中的難點及理論對策5個類別,詳見表1。目標值法單臂試驗在中醫藥臨床療效評價中應用的特點類屬關系詳見圖1。


2.3 目標值法單臂試驗在中醫藥臨床療效評價中的適用情境
適用情境類別包含3個主題,7個子主題。3個主題分別為替代性情境、補充性情境以及探索性情境。
目標值法單臂試驗是單臂試驗與目標值外部對照的組合,其適用情境首先考慮單臂試驗的適用情境,即對照研究的替代。受訪者普遍認為,針對罕見病群體等特殊人群,在倫理上不被允許或客觀上難以開展對照研究,是目標值法單臂試驗的主要應用情境。此外,部分患者存在未被滿足的臨床需求,在評價中醫藥干預措施的效果時往往缺乏合適、公認的陽性對照,應用目標值法單臂試驗評價可一定程度上避免不得不開展安慰劑對照或空白對照臨床試驗所帶來的倫理風險。部分受訪者指出,國內患者對中醫藥干預的選擇存在偏好,在實踐中存在患者因自身選擇偏好而拒絕入組或脫落的情況,不僅在實施層面存在困難[13],也使研究結果存在較大的偏倚風險。基于以上因素,應用目標值法單臂試驗更貼合中醫藥干預措施特點及臨床實際情況,能較好反映中醫藥臨床療效,提供臨床證據。但也有受訪者持相反觀點,認為中醫藥干預應先通過證據等級較高RCT確證其基礎療效,再進一步針對個體化干預措施進行評價,而非以目標值法單臂試驗為首選設計。
其次,多數受訪者認為,在某些研究開展較為成熟的領域中,選擇公認的診療水準或權威機構頒布的標準作為目標值開展單臂試驗,在保證研究結果科學性的同時,還能節省樣本量,減少資源浪費;還有受訪者提及當滿足“全或無”條件的情況下,也可開展目標值法單臂試驗;也有受訪者認為在前期已有確證性臨床研究的基礎上擴大樣本量進一步探索療效,或在較為成熟的干預措施基礎上有工藝的改進或療效的顯著提升時,也可將前期研究作為基礎開展目標值法單臂試驗。
最后,受訪者認為,目標值法單臂試驗還可以適用于對新療法的前期小范圍探索,當結合現實人力、物力情況暫時不適于開展RCT或隊列研究時,可以使用目標值法單臂試驗結果作為研究基礎,為未來繼續開展大型研究做鋪墊。
2.4 目標值法單臂試驗的優勢
優勢類別包含3個主題,8個子主題。3個主題分別為與RCT比較、與觀察性研究比較、與傳統單臂試驗比較。
有開展臨床試驗經驗的受訪者認為,除了研究方案的科學性和規范程度外,實施難度也是影響臨床研究能否順利開展的重要因素,RCT雖然是驗證臨床療效的金標準,但由于其開展過程相對復雜,受到多種現實因素的限制,應用存在一定困難;目標值法單臂臨床試驗因不設對照組,招募方便,節約樣本量的同時,避免了患者因對干預措施的偏好引起脫落;在實際操作的過程中也減少了對人力、物力、時間等資源的消耗,更便于開展。
同時,受訪者認為目標值法單臂試驗屬于干預性研究,相對于觀察性研究而言,除節約樣本量外,其方案設計更明確,對受試對象、干預措施等要求更具體,一定程度上減少了混雜因素;且研究目的更明確,得出的數據更貼切,避免了繁雜的數據篩選、清理等工作。
此外,與傳統單臂試驗相比,目標值法單臂試驗在方案設計階段即明確目標值,做出研究假設,對樣本量等做出確切估算,研究設計更為嚴謹;目標值為行業公認的標準或水準,相較于歷史對照而言可比性更強,可信度更高。
2.5 目標值法單臂試驗的局限
局限類別包含2個主題,3個子主題。2個主題分別為未被廣泛認知和證據等級不被認可。
有目標值法單臂試驗實施經驗的臨床專家受訪者大多提及接觸目標值法單臂試驗的契機多是機緣巧合,或由于臨床實際需求迫使,在檢索國外相關文獻后嘗試性使用;同時他們在申請項目、論文投稿等過程中發現其他研究者及相關人員也多表示對這種研究設計類型較為陌生,或與其他研究設計類型相混淆。
此外,多數受訪者對目標值法單臂試驗的證據等級持保守態度,主要擔憂目標值法單臂試驗不設同期平行對照組,納入患者時存在較高的選擇性偏倚風險,結論不具有較高的說服力,除特殊情況無法設置對照組外,其應用可能受到較大限制;部分受訪者認為目標值法單臂試驗在進行統計推斷時,受統計方法及參數設置等影響較大,對其結論的穩定性有一定影響,也是其證據等級不被認可的原因之一。
2.6 目標值法單臂臨床試驗應用的難點
難點類別包含4個主題,9個子主題。4個主題分別為目標值的選擇、樣本量計算、偏倚的控制以及統計分析方法。
受訪者一致認為,目標值法單臂試驗的最主要難點在于如何科學合理地選定目標值。目標值法單臂試驗在器械領域應用較多,其目標值在美國會受到食品藥品監督管理局的認可與確定,但在國內中醫藥領域,尤其是藥物臨床試驗中,尚無專門的組織機構協助制定和認定目標值供研究者使用,行業內亦很難就某一療效目標形成共識,往往需要研究者結合研究目的自行查找制定。受訪者也提出在目標值制定的過程中存在以下諸多困難:目標值的制定方法尚無系統規范可供參考,研究者多憑借自身主觀意愿制定,科學性受到質疑;某些特殊患病群體既往相關研究資料較少,也有部分研究文獻中表述模糊又無法取得原始數據進行參考,難以制定目標值;此外有些原始文獻證據質量偏低,或年代相對久遠,難以反映當前臨床普遍診療水平,得出的目標值無法被認可;目標值來源的人群與單臂試驗關注的目標人群間存在較大差異,可比性受到影響。
此外,部分受訪者提出樣本量計算也是研究設計時需要面對的難點之一。目標值法單臂試驗雖不設同期對照組,但使用目標值進行對照又與傳統的單臂試驗不同,在計算樣本量時不能完全按照傳統單臂研究的方法進行。目前提出的樣本量計算方法較多,受到研究目的、目標值數據類型、假設檢驗方法等多層面影響,尚未形成共識與規范,研究者難以確定能夠證明預期假設的最小樣本量。
在研究實施層面,多數受訪者認為目標值法單臂試驗的難點與其他研究設計類型存在共性,集中表現在偏倚風險的控制方面,由于缺乏系統的方案設計與質量控制規范,其偏倚風險可能高于其他研究設計類型。
多名受訪者提及目標值法單臂試驗的統計分析方法尚不明確,采用不同的估計方法和假設檢驗方法對結果影響較大,在統計推斷層面難以做出精確推斷;同時相關統計分析軟件可能不支持統計實現,或參數設置存在差異,不便于實際應用。
2.7 針對目標值法單臂臨床試驗應用的理論對策
理論對策類別包含4個主題,9個子主題。4個主題分別為目標值的制定、樣本量計算、研究的實施以及統計分析方法。
針對目標值法單臂臨床試驗在中醫藥療效評價領域的應用,受訪者也給出了對研究設計及未來研究要點的建議與考量,形成了初步的理論對策。針對最主要的目標值制定方面,受訪者認為應由權威機構主導,明確制定核心結局指標及其對應的目標值,在現有文獻與真實世界數據的基礎上進行綜合,并由相關行業專家結合臨床實際、地域、時間以及文化等因素對前期數據修訂,最終形成公認的目標值,并定期更新;研究者在應用目標值進行研究時,也應考慮研究對象、干預措施、結局指標等研究要素與目標值來源的一致性對研究的影響,進而判斷目標值的選取是否合理。
有關目標值法單臂試驗的樣本量計算公式,受訪者提出可以通過數據模擬的形式,比較不同的樣本量計算公式估算結果的差異及其對統計推斷的影響,綜合研究目的、療效指標、數據類型等多種因素,最終確定相對穩健的樣本量計算方法。
此外,有研究者提出應用目標值法單臂試驗前,應明確當前研究問題及情境是否適合其開展,避免研究設計的誤用;同時應形成統一的試驗規范與質量控制標準供研究者參考,以提高目標值法單臂試驗的科學性。
在統計方法方面,可基于數據模擬的方式建立模型,并應用真實研究數據進行驗證,最終確立適用于目標值法單臂試驗的統計分析方法;也有研究者提及可以參照非劣效檢驗的方法進行目標值法單臂試驗的假設檢驗和區間估計。
3 討論
本研究對接觸過目標值法單臂試驗的研究者進行半結構化訪談,通過類屬分析將訪談結果深化為5個類別,包括目標值法單臂試驗在中醫藥臨床療效評價中的適用情境、優勢、局限、應用過程中的難點及理論對策。目標值法單臂試驗可作為無法開展對照試驗的替代,也可用作成熟領域的研究證據補充,還能用于前期探索性研究。相較于其他研究設計類型而言,目標值法單臂試驗具有節約樣本量、患者依從性好、節省資源投入和可控性較強等優勢;但其存在認知度不高以及證據等級不被認可的局限,影響了在中醫藥臨床療效評價中的應用。在實際應用目標值法單臂試驗進行療效評價時,還存在目標值選擇困難、偏倚風險不易控制以及統計分析方法不明確等多種阻礙。未來可通過完善目標值制定策略,形成應用實施規范以及明確統計分析方法等對策,使目標值單臂試驗在中醫藥臨床療效評價中的應用更合理、更科學。
本研究中受訪者包括臨床專家、方法學家,并涵蓋了中醫西醫不同領域,遵循信息飽和原則,研究結果相對全面。同時本研究總結目標值法單臂試驗在中醫臨床療效評價中應用的優勢、局限及難點,結果呈現較為客觀。本研究針對目標值法單臂試驗的應用總結理論對策,對后續進一步開發目標值法單臂試驗的應用以及完善相關規范給出建議,為后續深入研究提供思路。
但本研究也存在一定局限性。首先,本研究大部分訪談采取線上的方式開展,且多數受訪者來自北京地區,研究結果存在一定的地理偏倚。其次,部分受訪者認為難以實施安慰劑對照便無法開展RCT,并將之視為目標值法單臂試驗的必要適用情境,但實際上在無法開展安慰劑對照的解釋性RCT時,還有實用性RCT等其他研究設計類型可供選擇,這可能是由于受訪者對臨床研究設計類型的認識尚有不足,錯誤地擴大了目標值法單臂試驗的適用情境。此外,有部分受訪者對中醫藥干預措施認識不足,對待目標值法單臂試驗在中醫藥臨床療效評價領域中的應用時可能受到一定程度的主觀情緒影響。
難以設置合適的對照是開展中醫藥臨床療效評價的一大痛點。中醫藥干預措施本身具有復雜化、個體化等特點,療效評價受到較多因素影響,往往難以良好實施安慰劑對照。且中醫藥具備文化屬性,國內民眾普遍對中醫藥干預有一定基礎認知,增加了安慰劑對照的破盲風險。以針刺干預為例,目前常用的安慰針刺或假針刺對照方法,包括不刺入干預穴位或刺入非干預穴位的其他位置[14],但是否刺入穴位的差異可被患者感知,刺入非干預穴位有可能產生其他與治療相關的效應;此外針刺實施者的技能經驗及其與患者的溝通交流也對療效存在一定影響[15],種種因素給針刺干預的療效評價帶來挑戰。除去干預措施的特點,患者的選擇也是中醫藥干預難以設置合適對照的重要影響因素。在國內接受中醫藥干預的患者,除對中醫藥有特殊選擇偏好外,還有一部分是由于其所患疾病特殊,西醫沒有合適的治療手段或療效達不到預期[16,17],故而轉為接受中醫藥干預[18]。由于患者對于接受中醫藥干預存在強烈的主觀傾向,往往不愿接受隨機分配,依從性不高,給試驗的招募、隨訪帶來困難。
單臂試驗不設置同期平行對照組,降低了實施的難度,但也因其證據等級不足而受到質疑。而目標值法單臂試驗作為單臂試驗的一個類型,選用公認的目標值,又稱客觀性能標準(objective performance criteria)作為外部對照,一定程度上增強了試驗結論的可信度。且相較于觀察性研究而言,目標值法單臂試驗仍屬于“干預性試驗”范疇,即有控制地實施干預方案,這在療效評價中可較嚴格地控制混雜因素的影響。因此,也有學者[19]提出,有外部對照的單臂試驗其證據等級僅次于擴增型RCT,即在對照組樣本量不足的情況下,選用外部數據對對照組進行補充的RCT。目標值法單臂試驗在醫療器械領域應用較多,目前已被美國食品藥品監督管理局納入快速批準器械進入市場的政策[20]。對于前期已完成確證性研究的相對成熟的干預措施,使用目標值法單臂試驗可以探索更廣泛人群[21]或改良工藝[22]的療效;而業界已有成熟的目標值,再消耗樣本設置對照組的價值不大,此時應用目標值法單臂試驗可以減輕受試者招募壓力[23],便于試驗開展。
既往有研究[4,5]提出目標值法單臂試驗在中醫藥領域的應用條件,需要在客觀上設置對照不可行(如倫理限制、患者有強烈的選擇意愿等),且對研究疾病及干預措施所在領域有足夠的了解方可開展。對于前期研究基礎較成熟的領域而言,評價中醫藥干預措施療效時應用目標值法單臂試驗確有其優勢,一方面與臨床實際契合度較高,既能減少人力物力消耗,也能減輕受試者招募及隨訪的壓力;另一方面相較于觀察性研究而言能一定程度控制混雜因素,具備一定的論證強度,有助于中醫藥成果的進一步轉化和推廣[24,25]。
然而要在中醫藥領域實際應用目標值法單臂試驗進行療效評價,還要面臨諸多困境。目標值的選擇是目標值法單臂試驗的核心與關鍵,即便在目標值法應用較為成熟的醫療器械領域,目標值的制定仍具有一定的挑戰,目前并無統一的制定目標值的標準,且僅有極少的目標值可供使用[26,27]。有研究者總結醫療器械領域目標值的確定方法,包括臨床試驗監管部門指南、行業標準或專家共識以及同類產品歷史研究結果等途徑,可為中醫藥領域制定目標值的方法提供參考[28],也有學者提出中醫藥領域目標值的選擇方法[5],但目前業內尚未建立成熟的目標值認定體系,尚無權威機構牽頭制定目標值,常須研究者自行制定,在實踐過程中仍是主要難點。基于已發表的文獻研究及系統評價制定目標值是目前較為常用的方法[9,27],這樣得出的目標值有可溯源的數據來源,具有可重復性,具備一定的可信度;但由于這些數據并非受試者水平的一手數據,且可能存在發表偏倚風險,無法準確反映臨床真實療效。中醫藥有豐富的歷史經驗積累,在我國也有較為廣泛的應用,但中醫藥臨床療效的循證評價仍處于發展階段,許多領域仍在探索,前期研究不足,或現有研究證據等級較低,以至于缺少足夠的高質量循證證據作為獲取目標值的原始資料。基于專家共識制定的目標值,能一定程度上反應當地現實診療水平,但由于缺乏數據支撐,且受到專家主觀認識偏好影響,外推性差且容易受到質疑。此外,由于中醫藥干預強調整體觀念,療效評價常采用主觀結局或復合結局指標[29],其客觀測量標準較難做到統一,也會對目標值的選擇造成一定影響。最后,中醫藥干預強調辨證論治,當研究設計關注某一疾病的某種特殊證候類型時,由于辨證標準不同,或不同操作者對證候的理解存在差異[30],增大了目標值來源研究間異質性,進而影響單臂試驗組與目標值人群間基線可比性,使得最終得出的結論難以反映真實療效。
目標值法單臂試驗在中醫藥療效評價領域的應用仍缺乏業界認可,由于單臂試驗本身不設同期平行對照的研究設計特點,注定其證據等級會受到詬病。本研究中有在中醫藥療效評價領域應用目標值法單臂試驗經歷的受訪者,幾乎都面臨過被課題審查部門、論文雜志審稿人等質疑的情形;部分有方法學背景的受訪者也指出,“患者存在明顯偏好”“難以設置合適的對照”等因素只是困難而非無法解決的問題,為了確保研究結論的科學性,在進行中醫藥臨床療效評價時,仍應將RCT作為首選研究設計類型,盡可能開展高證據等級的研究。
目標值法單臂試驗證據等級較弱,對其進行從設計到實施的全過程質量控制是保證其結果科學性的重要措施。研究設計方面,除目標值的選擇外,受試者的納入與排除標準、結局評價方法與目標值來源數據的可比性也應受到重視。在研究進行過程中,嚴格遵照試驗方案進行,定期進行稽查、視察,涉及到多中心的研究,確保干預措施、結局評價措施的一致性,都是加強質量控制的重要措施。
對于前期研究相對充分,且設置對照相對困難的中醫藥臨床研究,可以嘗試應用目標值法單臂試驗進行療效評價,以提供新的證據。而對于前期研究相對薄弱、研究領域較新的,可以應用目標值法單臂試驗作簡單探索,但不建議將其作為提供確證性證據的研究類型。目前仍建議有條件的情況下首選開展高質量的RCT,目標值法單臂試驗僅是基于現實考量的備擇設計方案。
目標值法單臂試驗可用作無法開展對照研究時的替代方案,也可作為前期探索或證據補充。目標值法單臂試驗的優勢主要體現在節約樣本量、患者依從性好、節省資源投入、設計相對嚴謹等方面;但由于推廣度不高、證據等級未得到廣泛認可而限制了其應用;這可能與目標值設置、樣本量計算、質量控制及統計分析等多種實施要素不明確,未形成統一規范有關。
目標值法單臂試驗在中醫藥臨床療效評價領域的探索尚處于起步階段,部分臨床專家已經開始實際應用探索其可行性。同時,目標值法單臂試驗已在國內外臨床試驗設計和審查中被官方機構所推薦或認可,為其在中醫藥領域的應用提供了進一步支持。但目標值法單臂試驗在中醫藥臨床療效評價中的應用仍需要漫長和艱辛的探索,不僅需進一步完善目標值法的選擇和確定方法,還需在實施規范及統計分析技術等方面進行更深入的研究和更廣泛的共識,使這種研究方法能得到合理應用。相信隨著中醫藥領域內有關結局評價、證型劃分等進一步發展和規范,目標值法單臂試驗的應用范圍可以得到進一步推廣和擴大,為提供中醫藥循證證據貢獻力量。