版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
目標值法單臂試驗是應用從歷史研究數據中獲取的目標值作為外對照的一種單臂臨床試驗類型,最早廣泛應用于醫療器械的安全性及有效性評價[1]。隨著真實世界研究方法的不斷發展及推廣,目前目標值法單臂試驗的應用范圍也逐漸擴展到藥物及其他干預措施評價領域[2-4],國內外有關監管機構,如美國食品藥品監督管理局(FDA)、國家藥品監督管理局(NMPA)等也相應出臺了諸多支持性的政策[5-8]。但由于其不設同期對照組,且目前尚缺乏有關目標值選擇的標準規范性文件,目標值的選擇范圍寬泛,選擇標準并不明確,這導致了與試驗組人群基線特征可比性差、結局指標定義及測量時點不一致等一系列方法學漏洞。雖然既往有研究[9,10]對目標值法中目標值的選取、統計分析方法以及目標值法單臂試驗設計步驟等方法學層面進行了初步探討,但其內容較多體現在理論層面和原則層面,并沒有在試驗實施過程中各環節提供更細致的方法學建議。綜上所述,由于目前目標值法單臂試驗的方法學體系并不完善,導致其證據等級整體低于隨機對照試驗,業內認可度不足。
本研究旨在構建關于單臂試驗中目標值選擇的方法學質量評價清單,為目標值法在單臂試驗中進行規范化應用提供方法學建議。首先根據國內外關于目標值法的政策性文件,如美國FDA發布的《現代化法案的最低負擔條款:概念和原則》[5]和《醫療器械關鍵臨床研究的設計考慮》[6],以及我國NMPA發布的《真實世界數據用于醫療器械臨床評價技術指導原則(試行)》[7]和《藥物真實世界研究設計與方案框架指導原則(試行)》[8]等文件中對目標值法的相關指導;結合國內外已發表的關于目標值法單臂試驗的理論探討及研究報告等內容;再根據EQUATOR協作網[11]匯總的研究報告的報告規范清單內容,形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿。并采用名義群體法(NGT)針對目標值選擇的質量評價清單集中采納專家意見,進行初步共識,最終形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》,以期為單臂試驗中關于目標值的選擇與質量評價提供引導性工具,并進一步對目標值法單臂試驗的全質量評價工具的研制給出方法學指引。
1 資料收集與分析方法
1.1 《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿的產生
本研究前期進行了訪談工作和文獻調研[1]來擬定該質量評價清單及其說明初稿。采用半結構化定性訪談形式,在真實中醫臨床研究的背景下,針對實際應用目標值法的臨床研究,對課題負責人、實施者開展深度訪談采集原始資料,了解目標值法在實際中醫臨床研究中各環節的存在障礙,以定性研究方法進行主題抽提和分析,總結了目標值的選擇在實際中醫臨床研究中各環節的障礙并形成理論對策。同時檢索國內外有關目標值法的標準規范性文件和方法學研究[2-8,11],歸納當前已發布的關于目標值選擇的規范或說明;檢索單臂目標值法臨床研究,評估篩選標準、基線特征和結局特征等在單臂試驗與其匹配的目標值之間的可比性,進一步就如何選擇合適的目標值提供建議。基于上述的訪談和文獻調研工作形成了該方法學質量評價清單及其說明初稿。
1.2 共識專家組成員
本研究的共識組專家要求為具有設計、實施、統計分析目標值法單臂試驗經驗的臨床專家和方法學家。根據文獻調研及前期訪談研究所獲取的專家信息,目的性選取臨床專家6名、方法學專家7名,其中高級職稱專家11位,副高級職稱專家2位,臨床專家涉及中醫學、針灸推拿學、臨床醫學等方向,方法學專家涉及臨床流行病學、統計學、醫學倫理學等方向。詳見附件表1。
1.3 NGT
NGT又稱名義小組技術,是旨在解決問題、產生想法或確定優先事項的共識方法。當面對某一問題意見難以達成一致意見,利益相關群體組成的名義小組共同討論,集體決策以達成共識的過程[12-14]。本研究采用NGT進行《單臂試驗中目標值選擇的方法學質量評價清單及其說明》的評價,探究本清單條目和結構是否可靠且適用。首先將該清單初稿每一條目制作成電子問卷,對參加共識的所有專家講解完研究主體后,將電子問卷分發給所有專家進行第一輪投票。采集第一輪評分后,專家們對該方法學質量評價清單中的條目進行了逐條討論,并且給出了更多的建議與意見,隨后根據專家意見進行補充說明,請各位專家進行第二輪打分并收集結果。
1.4 投票系統統計指標
采用專家積極程度、清單協調程度、專家權威程度來反映投票結果。本研究中專家積極程度用專家積極系數表示,即問卷回收率。發放的問卷回收的越多,代表專家的積極程度越高。清單協調程度是指參與共識的專家對各個條目是否存在分歧,本研究用變異系數(CV)反映清單協調程度,系數越小說明專家間的協調程度越好。專家權威程度是指專家針對某一問題或者領域的權威性,其值的大小對評價的可靠性影響顯著,因此需要對專家權威程度進行量化計算。專家權威程度用專家權威系數(Cr)表示,由專家對各條目的判斷依據和熟悉程度兩個因素決定。判斷依據用Ca表示,熟悉程度用Cs表示。專家權威系數Cr=(Ca+Cs)/2。一般認為專家權威系數Cr≥0.7即認為研究結果可靠。專家對問題的判斷依據主要分為實踐經驗、理論分析、參考國內外文獻、直觀感受4個維度[15,16],每個維度分為大、中、小不同程度;不同維度的大、中、小不同層次賦分為:實踐經驗(0.5、0.4、0.3)、理論分析(0.3、0.2、0.1)、參考國內外文獻(0.1、0.1、0.1)、直觀感受(0.1、0.1、0.1)。專家對問題的熟悉程度分為:很熟悉(0.9)、較熟悉(0.7)、一般熟悉(0.5)、不太熟悉(0.3)、不熟悉(0.1)5個層次。
1.5 共識投票與整理
采用騰訊會議結合問卷星的形式對專家共識兩輪投票結果進行收集,將投票結果進行轉錄與整理后,采用Excel表對投票結果進行保存。根據投票結果將數據資料分為定量數據與定性數據。定量數據分為計量資料與計數資料。計量資料為專家對原始清單各條目的重要性評分,計數資料包括是否同意原始清單的具體某條目納入該清單、專家對本清單的熟悉程度、實踐經驗、理論分析、參考國內外文獻程度、直觀感受。定性數據包括在原始清單條目下產生的建議或陳述,以及對新條目的總結。基于原始的投票數據,計算專家積極系數、協調程度、權威程度3個復合指標。
將調查問卷后臺鏈接SPSSAU平臺對定量數據進行描述性統計分析,計量資料采用均數±標準差(x±s)表示,計數資料采用構成比(%)表示。定性數據由工作人員進行歸納和總結,主旨相同的新條目將由工作組整理成為一條條目。任何獨立的新條目和意見陳述都將會被保留,并用于構建第二輪會議所使用的方法學清單。
2 結果
2.1 NGT會議投票結果
第一輪共13位專家參加投票,專家積極系數100%。專家對各條目相對重要性評分結果平均分均在4分以上,各條目滿分比均在50%以上。該清單的協調程度好,各條目變異系數均在30%以下。10位(76.92%)專家同意該清單的評價方法。11位專家(84.62%)對該方法學清單內容很熟悉或較熟悉,10位專家(76.92%)根據實踐經驗判斷,10位專家(76.92%)根據理論分析判斷,4位專家(30.77%)參考過較多的國內外文獻,6位專家(46.15%)通過較多的直觀感受判斷。最后,根據專家們的判斷依據,給與相應的權重賦分,熟悉程度總得分10.6,實踐經驗總得分5.4,理論分析總得分3.6,參考國內外文獻總得分2.1,直觀感受總得分0.65;根據公式[15,16]算得專家權威系數為0.863。
第二輪共13位專家參與投票,專家積極系數為100%,權威性和溯源性的滿分比達到100%,各條目的重要性評分均在4分以上,條目納入方法學清單的同意百分比均在60%以上。“條目7目標值的外部因素與單臂試驗可比性,包括時間性、地域性”和“注1中醫藥特征考量條目”這兩條變異系數>30%,但均<40%,主要是由于其中有專家未予填寫打分;其他條目均<30%。第二輪的專家熟悉程度明顯增加,權威系數達到0.915(見附件表2和表3)。
專家們兩輪逐條討論的要點如下:條目1關于目標值的權威性,有專家認為權威性和公認性要有所區別或定義,此外在評分方面建議將專家共識和國家標準的級別進行區分,同時也需要將考慮團體標準、地方標準、企業標準納入考量,或者根據場景、緊急程度分別評價。條目2關于目標值的共識性,有專家表示需要考慮并列舉具體的共識形式、范圍,以及共識級別的界定,如某公認學術組織,已發表文章數目和質量等。條目3至條目6專家認可度較高,但是認為實際有一定操作難度,主要難度在于目標值所代表的人群、醫療措施、結局指標等數據難以獲取。雖然條目3至條目6具有一定難度,但是目標值作為單臂試驗外對照科學性、適用性的重要方面,因此專家對條目的認可度較高。條目7是爭議較大的條目,該條目主要考慮目標值的外部因素與單臂試驗可比性,包括時間性、地域性。專家們普遍認為該條目不具有普適性,比如很多結局指標的時效性或者地域性未必有明顯差異,應該針對疾病具體情況分析,對于時間和地域有差異的情況應具體分析時間和地域的相對重要性,以及具體需考慮到的范圍和程度。條目8和條目9部分專家認為如果來源于國家標準而非原始文獻,評分等級需要有進一步的補充說明。條目10多源證據一致性問題,需要考慮國家標準、行業標準的適用性,以及部分領域目標值來源比較稀缺的問題。注解1關于中醫藥特色條款,有一位專家建議將特色內容表述分別融入表單各條目。
對于整個評價方法,有專家建議提供3個等級,但也有專家認為3個等級的支持度不夠,本研究最終保留了2級評價。綜合以上專家意見和兩輪投票結果,最終形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》(見表1)。

2.2 單臂試驗中目標值選擇的質量評價方法清單及其說明
通過兩輪專家會議投票結果及最終決策建議,形成了本方法學質量評價清單。本清單共設立4個領域10個條目,4個領域分別為目標值的權威性、溯源性、可比性、可靠性。10個條目,除條目1有半顆星☆評價外,其他條目分別設立2顆星★★、1顆星★,因此10個條目最多獲得20顆★,最少獲得1顆★。當總體評價獲得10顆星及以上★時,認為質量較好;少于10顆星★時,則對質量存疑。目標值選擇的評價重點在可比性,因此當可比性領域任一條目不得★時,則需重點考慮目標值的質量。
本清單的擬定旨在為研究者提供一個評價目標值質量的方法學工具,在設計目標值法單臂試驗時,本清單亦可為目標值的選擇提供參考。評價之前首先應確定擬評價的目標值及其相關信息;其次建議閱讀整個條目,將擬評價的目標值溯源信息列表或文字說明,以便評價時能夠快速獲取相關內容并做出合理評價。
3 討論
本研究通過整理回顧既往文獻,形成了《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿。采用NGT開展專家共識,專家們對該方法學清單的權威系數達到了0.85以上,說明參加NGT共識的專家對該領域的熟悉程度和判斷依據具有較高的權威性和可靠性。其中各條目的重要性評分均到了4分以上,條目納入方法學清單的同意百分比也均在50%以上,說明該方法學清單的內容有較好的集中程度。綜合以上專家意見進行完善,最終形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》。
如何選擇一個與單臂試驗組可比性良好的目標值、如何評價已選擇的目標值是影響目標值法單臂臨床試驗療效評價的重要因素,也是質量評價中的重要考慮因素之一。目標值法單臂試驗在醫療器械領域應用較為廣泛,美國FDA已經將其納入快速審批器械進入市場的政策[17]。醫療器械領域目標值的確定方法包括臨床試驗監管部門指南、行業標準或專家共識以及同類產品歷史研究結果等途徑[18],但即便在應用成熟的醫療器械領域,目標值的選擇仍具有一定挑戰,目前并無統一的制定目標值的標準,且僅有極少的成熟目標值可供直接參考使用[19,20]。推廣至全臨床試驗領域,既往有研究總結基于已發表的單個臨床研究數據或Meta分析制定目標值是目前較為常用的方法[21-26],這樣得出的目標值有可追溯的數據來源,具有可重復性,具備一定的可信度,但由于缺乏臨床研究的原始數據,且可能存在發表偏倚風險,無法準確反映臨床真實療效。基于專家共識制定的目標值,能一定程度上反應專家所在地區現實診療水平,但由于缺乏嚴謹的臨床研究數據支撐,且受到專家主觀認識偏好、專家所在單位醫療水平的差異等影響,外推性差且不容易被業內大范圍認可。但目前也尚未建立成熟的目標值選擇的方法學體系,尚無相關部門發布有關目標值選擇及評價的規范性文件,常須研究者自行制定,這在臨床實踐中仍是主要痛點。
也正因如此,目標值法單臂試驗的證據等級定位不明確,雖然有研究[27]認為有外部對照的單臂試驗其證據等級僅次于擴增型RCT,即在對照組樣本量不足的情況下,選用外部數據對對照組進行補充的RCT。但由于缺乏對有外部對照的單臂試驗的質量評價工具,業內依然普遍認為其證據等級較弱,所以本研究系統制定了關于目標值選擇的質量評價清單,從療效評價和質量評價兩個角度綜合考慮,共包含了4個領域共10個條目,每個領域又滲透了設計和實施兩個環節貫穿臨床試驗始終。通過NGT兩輪投票討論修改后,最終形成的目標值選擇的質量評價清單,可以作為保證目標值法單臂臨床試驗全過程質量控制的重要工具之一。
本研究參與共識的專家包括臨床專家、方法學家,并涵蓋了中醫院、西醫院、大學及科研院所等不同領域,且均在目標值法單臂試驗領域具有較高的權威程度和熟悉程度,研究結果參考價值較高。同時本研究考慮了在中醫藥領域單臂試驗中目標值選擇的質量評價,形成相關條目進行補充說明,研究結果較為全面。目前業內尚未形成公認的目標值質量評價規范,本研究為后續深入完善目標值選擇的質量評價規范研究提供研究基礎和思路。
本研究的局限性:① 由于對目標值法單臂試驗有深入理論了解或實際使用經驗的臨床專家和方法學家的數量非常有限[1],所以無法做到更大規模的專家共識組。但是根據權威系數判斷,參與共識的專家權威性較好,可以使本研究結果有更好的權威性;② 本研究形成的清單條目屬于泛用性,各個醫療細分領域間可能存在一定差異,應用時需要進一步完善。③ 本研究初步構建了單臂試驗關于目標值選擇的方法學質量評價方法學體系,但在實際應用時可能面臨以下問題,例如目標值來源于國家標準、行業標準時,在文獻溯源方面可能存在困難;低質量的直接證據與高質量的間接證據如何平衡的問題等。
本研究形成單臂試驗中目標值選擇的方法學質量評價清單,未來可以開展該質量評價清單的實際應用價值研究。通過系統檢索目標值法單臂試驗對目標值進行系統的質量評價,根據研究結果進一步完善該清單內容,以期提高目標值法在單臂試驗中使用的規范程度,為深入研究目標值法單臂試驗的證據等級提供前期研究鋪墊,為臨床研究工作者在進行目標值法單臂臨床試驗過程中提供偏倚風險控制與質量評價的方法學工具,同時,對未來進一步構建目標值法單臂臨床試驗質量評價方法學體系提供了豐富的扎實的研究背景和理論。
目標值法單臂試驗是應用從歷史研究數據中獲取的目標值作為外對照的一種單臂臨床試驗類型,最早廣泛應用于醫療器械的安全性及有效性評價[1]。隨著真實世界研究方法的不斷發展及推廣,目前目標值法單臂試驗的應用范圍也逐漸擴展到藥物及其他干預措施評價領域[2-4],國內外有關監管機構,如美國食品藥品監督管理局(FDA)、國家藥品監督管理局(NMPA)等也相應出臺了諸多支持性的政策[5-8]。但由于其不設同期對照組,且目前尚缺乏有關目標值選擇的標準規范性文件,目標值的選擇范圍寬泛,選擇標準并不明確,這導致了與試驗組人群基線特征可比性差、結局指標定義及測量時點不一致等一系列方法學漏洞。雖然既往有研究[9,10]對目標值法中目標值的選取、統計分析方法以及目標值法單臂試驗設計步驟等方法學層面進行了初步探討,但其內容較多體現在理論層面和原則層面,并沒有在試驗實施過程中各環節提供更細致的方法學建議。綜上所述,由于目前目標值法單臂試驗的方法學體系并不完善,導致其證據等級整體低于隨機對照試驗,業內認可度不足。
本研究旨在構建關于單臂試驗中目標值選擇的方法學質量評價清單,為目標值法在單臂試驗中進行規范化應用提供方法學建議。首先根據國內外關于目標值法的政策性文件,如美國FDA發布的《現代化法案的最低負擔條款:概念和原則》[5]和《醫療器械關鍵臨床研究的設計考慮》[6],以及我國NMPA發布的《真實世界數據用于醫療器械臨床評價技術指導原則(試行)》[7]和《藥物真實世界研究設計與方案框架指導原則(試行)》[8]等文件中對目標值法的相關指導;結合國內外已發表的關于目標值法單臂試驗的理論探討及研究報告等內容;再根據EQUATOR協作網[11]匯總的研究報告的報告規范清單內容,形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿。并采用名義群體法(NGT)針對目標值選擇的質量評價清單集中采納專家意見,進行初步共識,最終形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》,以期為單臂試驗中關于目標值的選擇與質量評價提供引導性工具,并進一步對目標值法單臂試驗的全質量評價工具的研制給出方法學指引。
1 資料收集與分析方法
1.1 《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿的產生
本研究前期進行了訪談工作和文獻調研[1]來擬定該質量評價清單及其說明初稿。采用半結構化定性訪談形式,在真實中醫臨床研究的背景下,針對實際應用目標值法的臨床研究,對課題負責人、實施者開展深度訪談采集原始資料,了解目標值法在實際中醫臨床研究中各環節的存在障礙,以定性研究方法進行主題抽提和分析,總結了目標值的選擇在實際中醫臨床研究中各環節的障礙并形成理論對策。同時檢索國內外有關目標值法的標準規范性文件和方法學研究[2-8,11],歸納當前已發布的關于目標值選擇的規范或說明;檢索單臂目標值法臨床研究,評估篩選標準、基線特征和結局特征等在單臂試驗與其匹配的目標值之間的可比性,進一步就如何選擇合適的目標值提供建議。基于上述的訪談和文獻調研工作形成了該方法學質量評價清單及其說明初稿。
1.2 共識專家組成員
本研究的共識組專家要求為具有設計、實施、統計分析目標值法單臂試驗經驗的臨床專家和方法學家。根據文獻調研及前期訪談研究所獲取的專家信息,目的性選取臨床專家6名、方法學專家7名,其中高級職稱專家11位,副高級職稱專家2位,臨床專家涉及中醫學、針灸推拿學、臨床醫學等方向,方法學專家涉及臨床流行病學、統計學、醫學倫理學等方向。詳見附件表1。
1.3 NGT
NGT又稱名義小組技術,是旨在解決問題、產生想法或確定優先事項的共識方法。當面對某一問題意見難以達成一致意見,利益相關群體組成的名義小組共同討論,集體決策以達成共識的過程[12-14]。本研究采用NGT進行《單臂試驗中目標值選擇的方法學質量評價清單及其說明》的評價,探究本清單條目和結構是否可靠且適用。首先將該清單初稿每一條目制作成電子問卷,對參加共識的所有專家講解完研究主體后,將電子問卷分發給所有專家進行第一輪投票。采集第一輪評分后,專家們對該方法學質量評價清單中的條目進行了逐條討論,并且給出了更多的建議與意見,隨后根據專家意見進行補充說明,請各位專家進行第二輪打分并收集結果。
1.4 投票系統統計指標
采用專家積極程度、清單協調程度、專家權威程度來反映投票結果。本研究中專家積極程度用專家積極系數表示,即問卷回收率。發放的問卷回收的越多,代表專家的積極程度越高。清單協調程度是指參與共識的專家對各個條目是否存在分歧,本研究用變異系數(CV)反映清單協調程度,系數越小說明專家間的協調程度越好。專家權威程度是指專家針對某一問題或者領域的權威性,其值的大小對評價的可靠性影響顯著,因此需要對專家權威程度進行量化計算。專家權威程度用專家權威系數(Cr)表示,由專家對各條目的判斷依據和熟悉程度兩個因素決定。判斷依據用Ca表示,熟悉程度用Cs表示。專家權威系數Cr=(Ca+Cs)/2。一般認為專家權威系數Cr≥0.7即認為研究結果可靠。專家對問題的判斷依據主要分為實踐經驗、理論分析、參考國內外文獻、直觀感受4個維度[15,16],每個維度分為大、中、小不同程度;不同維度的大、中、小不同層次賦分為:實踐經驗(0.5、0.4、0.3)、理論分析(0.3、0.2、0.1)、參考國內外文獻(0.1、0.1、0.1)、直觀感受(0.1、0.1、0.1)。專家對問題的熟悉程度分為:很熟悉(0.9)、較熟悉(0.7)、一般熟悉(0.5)、不太熟悉(0.3)、不熟悉(0.1)5個層次。
1.5 共識投票與整理
采用騰訊會議結合問卷星的形式對專家共識兩輪投票結果進行收集,將投票結果進行轉錄與整理后,采用Excel表對投票結果進行保存。根據投票結果將數據資料分為定量數據與定性數據。定量數據分為計量資料與計數資料。計量資料為專家對原始清單各條目的重要性評分,計數資料包括是否同意原始清單的具體某條目納入該清單、專家對本清單的熟悉程度、實踐經驗、理論分析、參考國內外文獻程度、直觀感受。定性數據包括在原始清單條目下產生的建議或陳述,以及對新條目的總結。基于原始的投票數據,計算專家積極系數、協調程度、權威程度3個復合指標。
將調查問卷后臺鏈接SPSSAU平臺對定量數據進行描述性統計分析,計量資料采用均數±標準差(x±s)表示,計數資料采用構成比(%)表示。定性數據由工作人員進行歸納和總結,主旨相同的新條目將由工作組整理成為一條條目。任何獨立的新條目和意見陳述都將會被保留,并用于構建第二輪會議所使用的方法學清單。
2 結果
2.1 NGT會議投票結果
第一輪共13位專家參加投票,專家積極系數100%。專家對各條目相對重要性評分結果平均分均在4分以上,各條目滿分比均在50%以上。該清單的協調程度好,各條目變異系數均在30%以下。10位(76.92%)專家同意該清單的評價方法。11位專家(84.62%)對該方法學清單內容很熟悉或較熟悉,10位專家(76.92%)根據實踐經驗判斷,10位專家(76.92%)根據理論分析判斷,4位專家(30.77%)參考過較多的國內外文獻,6位專家(46.15%)通過較多的直觀感受判斷。最后,根據專家們的判斷依據,給與相應的權重賦分,熟悉程度總得分10.6,實踐經驗總得分5.4,理論分析總得分3.6,參考國內外文獻總得分2.1,直觀感受總得分0.65;根據公式[15,16]算得專家權威系數為0.863。
第二輪共13位專家參與投票,專家積極系數為100%,權威性和溯源性的滿分比達到100%,各條目的重要性評分均在4分以上,條目納入方法學清單的同意百分比均在60%以上。“條目7目標值的外部因素與單臂試驗可比性,包括時間性、地域性”和“注1中醫藥特征考量條目”這兩條變異系數>30%,但均<40%,主要是由于其中有專家未予填寫打分;其他條目均<30%。第二輪的專家熟悉程度明顯增加,權威系數達到0.915(見附件表2和表3)。
專家們兩輪逐條討論的要點如下:條目1關于目標值的權威性,有專家認為權威性和公認性要有所區別或定義,此外在評分方面建議將專家共識和國家標準的級別進行區分,同時也需要將考慮團體標準、地方標準、企業標準納入考量,或者根據場景、緊急程度分別評價。條目2關于目標值的共識性,有專家表示需要考慮并列舉具體的共識形式、范圍,以及共識級別的界定,如某公認學術組織,已發表文章數目和質量等。條目3至條目6專家認可度較高,但是認為實際有一定操作難度,主要難度在于目標值所代表的人群、醫療措施、結局指標等數據難以獲取。雖然條目3至條目6具有一定難度,但是目標值作為單臂試驗外對照科學性、適用性的重要方面,因此專家對條目的認可度較高。條目7是爭議較大的條目,該條目主要考慮目標值的外部因素與單臂試驗可比性,包括時間性、地域性。專家們普遍認為該條目不具有普適性,比如很多結局指標的時效性或者地域性未必有明顯差異,應該針對疾病具體情況分析,對于時間和地域有差異的情況應具體分析時間和地域的相對重要性,以及具體需考慮到的范圍和程度。條目8和條目9部分專家認為如果來源于國家標準而非原始文獻,評分等級需要有進一步的補充說明。條目10多源證據一致性問題,需要考慮國家標準、行業標準的適用性,以及部分領域目標值來源比較稀缺的問題。注解1關于中醫藥特色條款,有一位專家建議將特色內容表述分別融入表單各條目。
對于整個評價方法,有專家建議提供3個等級,但也有專家認為3個等級的支持度不夠,本研究最終保留了2級評價。綜合以上專家意見和兩輪投票結果,最終形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》(見表1)。

2.2 單臂試驗中目標值選擇的質量評價方法清單及其說明
通過兩輪專家會議投票結果及最終決策建議,形成了本方法學質量評價清單。本清單共設立4個領域10個條目,4個領域分別為目標值的權威性、溯源性、可比性、可靠性。10個條目,除條目1有半顆星☆評價外,其他條目分別設立2顆星★★、1顆星★,因此10個條目最多獲得20顆★,最少獲得1顆★。當總體評價獲得10顆星及以上★時,認為質量較好;少于10顆星★時,則對質量存疑。目標值選擇的評價重點在可比性,因此當可比性領域任一條目不得★時,則需重點考慮目標值的質量。
本清單的擬定旨在為研究者提供一個評價目標值質量的方法學工具,在設計目標值法單臂試驗時,本清單亦可為目標值的選擇提供參考。評價之前首先應確定擬評價的目標值及其相關信息;其次建議閱讀整個條目,將擬評價的目標值溯源信息列表或文字說明,以便評價時能夠快速獲取相關內容并做出合理評價。
3 討論
本研究通過整理回顧既往文獻,形成了《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿。采用NGT開展專家共識,專家們對該方法學清單的權威系數達到了0.85以上,說明參加NGT共識的專家對該領域的熟悉程度和判斷依據具有較高的權威性和可靠性。其中各條目的重要性評分均到了4分以上,條目納入方法學清單的同意百分比也均在50%以上,說明該方法學清單的內容有較好的集中程度。綜合以上專家意見進行完善,最終形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》。
如何選擇一個與單臂試驗組可比性良好的目標值、如何評價已選擇的目標值是影響目標值法單臂臨床試驗療效評價的重要因素,也是質量評價中的重要考慮因素之一。目標值法單臂試驗在醫療器械領域應用較為廣泛,美國FDA已經將其納入快速審批器械進入市場的政策[17]。醫療器械領域目標值的確定方法包括臨床試驗監管部門指南、行業標準或專家共識以及同類產品歷史研究結果等途徑[18],但即便在應用成熟的醫療器械領域,目標值的選擇仍具有一定挑戰,目前并無統一的制定目標值的標準,且僅有極少的成熟目標值可供直接參考使用[19,20]。推廣至全臨床試驗領域,既往有研究總結基于已發表的單個臨床研究數據或Meta分析制定目標值是目前較為常用的方法[21-26],這樣得出的目標值有可追溯的數據來源,具有可重復性,具備一定的可信度,但由于缺乏臨床研究的原始數據,且可能存在發表偏倚風險,無法準確反映臨床真實療效。基于專家共識制定的目標值,能一定程度上反應專家所在地區現實診療水平,但由于缺乏嚴謹的臨床研究數據支撐,且受到專家主觀認識偏好、專家所在單位醫療水平的差異等影響,外推性差且不容易被業內大范圍認可。但目前也尚未建立成熟的目標值選擇的方法學體系,尚無相關部門發布有關目標值選擇及評價的規范性文件,常須研究者自行制定,這在臨床實踐中仍是主要痛點。
也正因如此,目標值法單臂試驗的證據等級定位不明確,雖然有研究[27]認為有外部對照的單臂試驗其證據等級僅次于擴增型RCT,即在對照組樣本量不足的情況下,選用外部數據對對照組進行補充的RCT。但由于缺乏對有外部對照的單臂試驗的質量評價工具,業內依然普遍認為其證據等級較弱,所以本研究系統制定了關于目標值選擇的質量評價清單,從療效評價和質量評價兩個角度綜合考慮,共包含了4個領域共10個條目,每個領域又滲透了設計和實施兩個環節貫穿臨床試驗始終。通過NGT兩輪投票討論修改后,最終形成的目標值選擇的質量評價清單,可以作為保證目標值法單臂臨床試驗全過程質量控制的重要工具之一。
本研究參與共識的專家包括臨床專家、方法學家,并涵蓋了中醫院、西醫院、大學及科研院所等不同領域,且均在目標值法單臂試驗領域具有較高的權威程度和熟悉程度,研究結果參考價值較高。同時本研究考慮了在中醫藥領域單臂試驗中目標值選擇的質量評價,形成相關條目進行補充說明,研究結果較為全面。目前業內尚未形成公認的目標值質量評價規范,本研究為后續深入完善目標值選擇的質量評價規范研究提供研究基礎和思路。
本研究的局限性:① 由于對目標值法單臂試驗有深入理論了解或實際使用經驗的臨床專家和方法學家的數量非常有限[1],所以無法做到更大規模的專家共識組。但是根據權威系數判斷,參與共識的專家權威性較好,可以使本研究結果有更好的權威性;② 本研究形成的清單條目屬于泛用性,各個醫療細分領域間可能存在一定差異,應用時需要進一步完善。③ 本研究初步構建了單臂試驗關于目標值選擇的方法學質量評價方法學體系,但在實際應用時可能面臨以下問題,例如目標值來源于國家標準、行業標準時,在文獻溯源方面可能存在困難;低質量的直接證據與高質量的間接證據如何平衡的問題等。
本研究形成單臂試驗中目標值選擇的方法學質量評價清單,未來可以開展該質量評價清單的實際應用價值研究。通過系統檢索目標值法單臂試驗對目標值進行系統的質量評價,根據研究結果進一步完善該清單內容,以期提高目標值法在單臂試驗中使用的規范程度,為深入研究目標值法單臂試驗的證據等級提供前期研究鋪墊,為臨床研究工作者在進行目標值法單臂臨床試驗過程中提供偏倚風險控制與質量評價的方法學工具,同時,對未來進一步構建目標值法單臂臨床試驗質量評價方法學體系提供了豐富的扎實的研究背景和理論。