《單臂試驗中目標值選擇的方法學質量評價清單及其說明》的形成_《中國循證醫學雜志》

作者：

曹蕊 ¹ , 柴倩云 ^1,2 , 王瀚東 ¹ , 羅慜婧 ^1,3,4 , 李賀 ⁵ , 李姝穎 ⁵ , 劉芷含 ¹ ,  陶立元 ⁶ ,  劉建平 ¹ ,  費宇彤 ¹

1. 北京中醫藥大學循證醫學中心（北京 100029）;
2. 中醫雜志社（北京 100700）;
3. 廣東省中醫院（廣州 511400）;
4. 廣東省中醫藥科學院（廣州 511400）;
5. 北京中醫藥大學第一臨床學院（北京 100027）;
6. 北京大學第三醫院臨床流行病研究中心（北京 100191）;

關鍵詞：

單臂試驗目標值名義群體法專家共識方法學

DOI：

10.7507/1672-2531.202410031

視頻：

導出 下載 收藏 掃碼 引用

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

目的形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》，初步構建有關目標值選擇與評價的方法學引導性工具，為完善目標值法單臂試驗方法學質量評價體系提供研究基礎。方法結合觀察性研究與干預性試驗的偏倚風險評價方法學工具以及國內外政策性文件，系統搜集了臨床研究方法學質量評價中的常見偏倚和評價要點等，初步擬定了單臂試驗中目標值選擇的評價方法清單，運用名義群體法進行兩輪專家共識投票，最終結合投票結果和專家意見擬定該清單。結果研究人員通過兩輪討論、排序，綜合確定專家修改意見并對該清單中相應條目加以完善，最終形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》，包括4個領域：權威性、溯源性、可比性、可靠性，共包含10個條目。每個領域的條目綜合考慮了設計和實施兩個環節貫穿臨床試驗始終。結論本研究制定的方法學清單為目標值的選擇以及質量評價提供方法學引導，為建立完整的目標值法單臂試驗質量評價方法學體系提供了扎實的理論基礎。

目標值法單臂試驗是應用從歷史研究數據中獲取的目標值作為外對照的一種單臂臨床試驗類型，最早廣泛應用于醫療器械的安全性及有效性評價^[1]。隨著真實世界研究方法的不斷發展及推廣，目前目標值法單臂試驗的應用范圍也逐漸擴展到藥物及其他干預措施評價領域^[2-4]，國內外有關監管機構，如美國食品藥品監督管理局（FDA）、國家藥品監督管理局（NMPA）等也相應出臺了諸多支持性的政策^[5-8]。但由于其不設同期對照組，且目前尚缺乏有關目標值選擇的標準規范性文件，目標值的選擇范圍寬泛，選擇標準并不明確，這導致了與試驗組人群基線特征可比性差、結局指標定義及測量時點不一致等一系列方法學漏洞。雖然既往有研究^[9,10]對目標值法中目標值的選取、統計分析方法以及目標值法單臂試驗設計步驟等方法學層面進行了初步探討，但其內容較多體現在理論層面和原則層面，并沒有在試驗實施過程中各環節提供更細致的方法學建議。綜上所述，由于目前目標值法單臂試驗的方法學體系并不完善，導致其證據等級整體低于隨機對照試驗，業內認可度不足。

本研究旨在構建關于單臂試驗中目標值選擇的方法學質量評價清單，為目標值法在單臂試驗中進行規范化應用提供方法學建議。首先根據國內外關于目標值法的政策性文件，如美國FDA發布的《現代化法案的最低負擔條款：概念和原則》^[5]和《醫療器械關鍵臨床研究的設計考慮》^[6]，以及我國NMPA發布的《真實世界數據用于醫療器械臨床評價技術指導原則（試行）》^[7]和《藥物真實世界研究設計與方案框架指導原則（試行）》^[8]等文件中對目標值法的相關指導；結合國內外已發表的關于目標值法單臂試驗的理論探討及研究報告等內容；再根據EQUATOR協作網^[11]匯總的研究報告的報告規范清單內容，形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿。并采用名義群體法（NGT）針對目標值選擇的質量評價清單集中采納專家意見，進行初步共識，最終形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》，以期為單臂試驗中關于目標值的選擇與質量評價提供引導性工具，并進一步對目標值法單臂試驗的全質量評價工具的研制給出方法學指引。

1 資料收集與分析方法

1.1 《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿的產生

本研究前期進行了訪談工作和文獻調研^[1]來擬定該質量評價清單及其說明初稿。采用半結構化定性訪談形式，在真實中醫臨床研究的背景下，針對實際應用目標值法的臨床研究，對課題負責人、實施者開展深度訪談采集原始資料，了解目標值法在實際中醫臨床研究中各環節的存在障礙，以定性研究方法進行主題抽提和分析，總結了目標值的選擇在實際中醫臨床研究中各環節的障礙并形成理論對策。同時檢索國內外有關目標值法的標準規范性文件和方法學研究^[2-8,11]，歸納當前已發布的關于目標值選擇的規范或說明；檢索單臂目標值法臨床研究，評估篩選標準、基線特征和結局特征等在單臂試驗與其匹配的目標值之間的可比性，進一步就如何選擇合適的目標值提供建議。基于上述的訪談和文獻調研工作形成了該方法學質量評價清單及其說明初稿。

1.2 共識專家組成員

本研究的共識組專家要求為具有設計、實施、統計分析目標值法單臂試驗經驗的臨床專家和方法學家。根據文獻調研及前期訪談研究所獲取的專家信息，目的性選取臨床專家6名、方法學專家7名，其中高級職稱專家11位，副高級職稱專家2位，臨床專家涉及中醫學、針灸推拿學、臨床醫學等方向，方法學專家涉及臨床流行病學、統計學、醫學倫理學等方向。詳見附件表1。

1.3 NGT

NGT又稱名義小組技術，是旨在解決問題、產生想法或確定優先事項的共識方法。當面對某一問題意見難以達成一致意見，利益相關群體組成的名義小組共同討論，集體決策以達成共識的過程^[12-14]。本研究采用NGT進行《單臂試驗中目標值選擇的方法學質量評價清單及其說明》的評價，探究本清單條目和結構是否可靠且適用。首先將該清單初稿每一條目制作成電子問卷，對參加共識的所有專家講解完研究主體后，將電子問卷分發給所有專家進行第一輪投票。采集第一輪評分后，專家們對該方法學質量評價清單中的條目進行了逐條討論，并且給出了更多的建議與意見，隨后根據專家意見進行補充說明，請各位專家進行第二輪打分并收集結果。

1.4 投票系統統計指標

采用專家積極程度、清單協調程度、專家權威程度來反映投票結果。本研究中專家積極程度用專家積極系數表示，即問卷回收率。發放的問卷回收的越多，代表專家的積極程度越高。清單協調程度是指參與共識的專家對各個條目是否存在分歧，本研究用變異系數（CV）反映清單協調程度，系數越小說明專家間的協調程度越好。專家權威程度是指專家針對某一問題或者領域的權威性，其值的大小對評價的可靠性影響顯著，因此需要對專家權威程度進行量化計算。專家權威程度用專家權威系數（Cr）表示，由專家對各條目的判斷依據和熟悉程度兩個因素決定。判斷依據用Ca表示，熟悉程度用Cs表示。專家權威系數Cr=（Ca+Cs）/2。一般認為專家權威系數Cr≥0.7即認為研究結果可靠。專家對問題的判斷依據主要分為實踐經驗、理論分析、參考國內外文獻、直觀感受4個維度^[15,16]，每個維度分為大、中、小不同程度；不同維度的大、中、小不同層次賦分為：實踐經驗（0.5、0.4、0.3）、理論分析（0.3、0.2、0.1）、參考國內外文獻（0.1、0.1、0.1）、直觀感受（0.1、0.1、0.1）。專家對問題的熟悉程度分為：很熟悉（0.9）、較熟悉（0.7）、一般熟悉（0.5）、不太熟悉（0.3）、不熟悉（0.1）5個層次。

1.5 共識投票與整理

采用騰訊會議結合問卷星的形式對專家共識兩輪投票結果進行收集，將投票結果進行轉錄與整理后，采用Excel表對投票結果進行保存。根據投票結果將數據資料分為定量數據與定性數據。定量數據分為計量資料與計數資料。計量資料為專家對原始清單各條目的重要性評分，計數資料包括是否同意原始清單的具體某條目納入該清單、專家對本清單的熟悉程度、實踐經驗、理論分析、參考國內外文獻程度、直觀感受。定性數據包括在原始清單條目下產生的建議或陳述，以及對新條目的總結。基于原始的投票數據，計算專家積極系數、協調程度、權威程度3個復合指標。

將調查問卷后臺鏈接SPSSAU平臺對定量數據進行描述性統計分析，計量資料采用均數±標準差（x±s）表示，計數資料采用構成比（%）表示。定性數據由工作人員進行歸納和總結，主旨相同的新條目將由工作組整理成為一條條目。任何獨立的新條目和意見陳述都將會被保留，并用于構建第二輪會議所使用的方法學清單。

2 結果

2.1 NGT會議投票結果

第一輪共13位專家參加投票，專家積極系數100%。專家對各條目相對重要性評分結果平均分均在4分以上，各條目滿分比均在50%以上。該清單的協調程度好，各條目變異系數均在30%以下。10位（76.92%）專家同意該清單的評價方法。11位專家（84.62%）對該方法學清單內容很熟悉或較熟悉，10位專家（76.92%）根據實踐經驗判斷，10位專家（76.92%）根據理論分析判斷，4位專家（30.77%）參考過較多的國內外文獻，6位專家（46.15%）通過較多的直觀感受判斷。最后，根據專家們的判斷依據，給與相應的權重賦分，熟悉程度總得分10.6，實踐經驗總得分5.4，理論分析總得分3.6，參考國內外文獻總得分2.1，直觀感受總得分0.65；根據公式^[15,16]算得專家權威系數為0.863。

第二輪共13位專家參與投票，專家積極系數為100%，權威性和溯源性的滿分比達到100%，各條目的重要性評分均在4分以上，條目納入方法學清單的同意百分比均在60%以上。“條目7目標值的外部因素與單臂試驗可比性，包括時間性、地域性”和“注1中醫藥特征考量條目”這兩條變異系數>30%，但均<40%，主要是由于其中有專家未予填寫打分；其他條目均<30%。第二輪的專家熟悉程度明顯增加，權威系數達到0.915（見附件表2和表3）。

專家們兩輪逐條討論的要點如下：條目1關于目標值的權威性，有專家認為權威性和公認性要有所區別或定義，此外在評分方面建議將專家共識和國家標準的級別進行區分，同時也需要將考慮團體標準、地方標準、企業標準納入考量，或者根據場景、緊急程度分別評價。條目2關于目標值的共識性，有專家表示需要考慮并列舉具體的共識形式、范圍，以及共識級別的界定，如某公認學術組織，已發表文章數目和質量等。條目3至條目6專家認可度較高，但是認為實際有一定操作難度，主要難度在于目標值所代表的人群、醫療措施、結局指標等數據難以獲取。雖然條目3至條目6具有一定難度，但是目標值作為單臂試驗外對照科學性、適用性的重要方面，因此專家對條目的認可度較高。條目7是爭議較大的條目，該條目主要考慮目標值的外部因素與單臂試驗可比性，包括時間性、地域性。專家們普遍認為該條目不具有普適性，比如很多結局指標的時效性或者地域性未必有明顯差異，應該針對疾病具體情況分析，對于時間和地域有差異的情況應具體分析時間和地域的相對重要性，以及具體需考慮到的范圍和程度。條目8和條目9部分專家認為如果來源于國家標準而非原始文獻，評分等級需要有進一步的補充說明。條目10多源證據一致性問題，需要考慮國家標準、行業標準的適用性，以及部分領域目標值來源比較稀缺的問題。注解1關于中醫藥特色條款，有一位專家建議將特色內容表述分別融入表單各條目。

對于整個評價方法，有專家建議提供3個等級，但也有專家認為3個等級的支持度不夠，本研究最終保留了2級評價。綜合以上專家意見和兩輪投票結果，最終形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》（見表1）。

表1 單臂試驗中目標值選擇的方法學質量評價清單及其說明

表選項

下載CSV

表1 單臂試驗中目標值選擇的方法學質量評價清單及其說明

領域	編號	條目	解讀	評價
權威性	1	目標值的來源	目標值的確定應有充分依據，優先依次考慮國家標準、行業標準和專家共識，否則，需要根據已有的相關信息，包括但不限于公開發表的文獻、研究報告、相關研究的原始數據等，通過綜合分析確定目標值。當所開展的目標值法單臂試驗是用于支持藥物/醫療器械研發或上市時，目標值的選定還需要得到官方機構的認定	評價方法： ★★：來源于國家標準、行業標準、指南或專家共識（報告對應標準、指南或共識的全稱、制訂單位、年份并提供來源） ★☆：來源于公開發表的高質量的文獻、研究報告、相關研究的Meta分析匯總結果，應系統檢索相關，根據研究目的制定目標值選擇標準，并報告對應的檢索策略，明確選取目標值的流程，必要時解釋原因；（在正文或附加材料中報告了文獻檢索策略、選擇標準，提供了文獻質量評價結果） ★：來源于公開發表的中質量的Meta分析和高質量單個研究文獻、研究報告、相關研究的數據，應系統檢索相關文獻，根據研究目的制定目標值選擇標準，并報告對應的檢索策略，明確選取目標值的流程，必要時解釋原因不符合上述條件者，不給星★
權威性	2	目標值的確定通過專家共識決定	無論目標值來源及溯源情況如何，目標值的選擇均應經過專家共識決定，專家共識過程需要對上述目標值選擇的權威性、可靠性、可比性等做出判定，還需要對目標值與單臂試驗的適用性、可比性進行充分論證	評價方法： ★★：目標值的選擇過程經過嚴肅且充分地討論并達成共識，共識內容包括目標值選擇的權威性、可靠性、適用性等；（在正文或附加材料中詳細報告了對目標值確定的共識人員及其背景、過程及共識結果，共識人員應包括對應領域的臨床專家，并基于本清單對目標值來源文獻的不同維度進行評價） ★：目標值的選擇經過專家共識充分討論和評估確定，但共識過程和共識內容不明確；（在正文中提及了目標值經過專家組共識，但未詳細說明具體內容）不符合上述條件者，不給星★
溯源性	3	目標值的可溯源性	無論目標值來源于何種途徑，均需要可以溯源，包括參考文獻、數據庫鏈接、官方公告、官方證明等。目標值的可溯源性直接影響著目標值與單臂試驗可比性的判斷，因此即使是來源于國家標準、行業標準等，也應明確這些標準形成時所基于的數據信息	目標值溯源途徑的評價取決于能否獲得目標值所代表的各種重要特征，如P-人群特征（人口學、臨床特征，含診斷標準等）、T-作為外對照的目標值醫療措施（治療標準及伴隨治療）、O-結局指標（測量、評價標準及時點）及S-等對結局（預后）有潛在影響的各種其他影響因素（如場所） ★★：PTOS信息可溯源且清晰[根據文中的目標值來源文獻，可檢索到目標值制定的對應數據，且PTOS信息可直接獲得，或作者提供了對應信息的整合方式（如人群基本特征的匯總）] ★：PTOS信息可部分溯源，或溯源信息但欠清晰[根據文中的目標值來源文獻，可檢索到目標值制定的部分相關數據，或相關數據需要進一步處理但并未提供對應的方法（如目標值來源于多篇文獻，但對于年齡、性別等因素并未提供相應的匯總方法）] 不符合上述條件者，不給星★
可比性	4	目標值人群與單臂試驗人群的重要人群特征比較	目標值來源于大量歷史數據，其人群特征往往較為復雜，當以目標值作為單臂試驗的對照方法時，尤其是當所研究疾病和療法與這些特征相關時，人群特征的比較則更為重要。《藥物真實世界研究設計與方案框架指導原則（試行）》中提到人群特征包括人口學、基線水平和臨床特征等。此外，臨床特征又可包括基本病情、合并病癥等	評價方法：比較需同時考察基線均衡性（計算目標值源文獻與單臂試驗組重要人群特征的標準均值差（SMD））和臨床意義（通過臨床專家共識評價）。 ★★：重要人群特征方面（如年齡、性別等）具有可比性（當重要人群特征標準均值差均小于0.1，同時專家共識認為兩組差異無臨床意義時，認為具有可比性） ★：重要人群特征方面具有部分可比性（部分重要人群特征標準均值差可大于0.1但小于0.5且差異無臨床意義）不符合上述條件者，不給星★
	5	作為外對照的目標值醫療措施與研究方案中規定的對照措施比較	單臂試驗所評價的干預措施通常與目標值的醫療措施有所不同。這時需要根據設計方案中的要求進行考察，評價作為外對照的目標值醫療措施應與目標值法單臂試驗方案中規定的對照措施是否保持一致。主要醫療措施及其伴隨治療需同步考慮	評價方法： ★★：與方案規定對照措施完全一致 ★：與方案規定對照不完全一致，但差異可能不存在臨床意義不符合上述條件者，不給星★
	6	目標值的結局指標與單臂試驗結局指標比較	目標值的選擇提倡使用能夠進行科學客觀測量的結局指標。在對目標值結局指標與單臂試驗結局指標比較時，不僅需要考察其指標是否一致，還需要考察其指標的內涵、測量方法、測量時點是否一致	評價方法： ★★：指標內涵及測量時點、測量方法一致 ★：指標內涵不一致，經轉化后指標內涵符合方案要求；或指標內涵一致或轉化后一致，測量時點和方法不完全一致，但差異可能不存在臨床意義（如目標值來源采用復合結局指標-包括A、B、C三部分，其涵蓋范圍大于單臂組的對應結局的意義-單臂組只關注A、B兩部分，與單臂試驗組一致的具體指標可以在源文獻中獲得-源文獻中提供了A、B、C各自對應的結局數值，可自行轉化）不符合上述條件者，不給星★
	7	目標值的外部因素與單臂試驗比較，包括時間性、地域性	目標值的選定和評價還需要考慮一些外部因素，例如時間性、地域性等。時間性主要考察目標值與單臂試驗時間同步性，同步性越強越好，如果是歷史對照需要考慮時間（時代）差異對試驗的人群、病因、診斷、治療、預后、結局等全方位特征的影響；地域性主要考察目標值所代表的地域環境、經濟水平、醫療水平等，與單臂試驗開展的地域是否相似或一致，如若不一致要考慮地域差異對試驗的人群、病因、診斷、治療、預后、結局等全方位特征的影響	評價方法： ★★：目標值來源與單臂試驗開展時間相近，且地域性與單臂試驗相似 ★目標值來源與單臂試驗開展時間有一定差異，但這段時間內該領域未有突破性進展，或全球健康領域未出現明顯變革；且地域性與單臂試驗相似或其差異經專家共識后被認為與結局關聯不明顯不符合上述條件者，不給星★
可靠性	8	目標值源研究的方法學質量	目標值來源的方法學質量是目標值可靠性的重要方面，根據目標值溯源到的文獻類型，使用相應的國內外公認方法學工具進行質量評價，例如隨機對照試驗使用ROB 2、Meta分析使用AMSTAR Ⅱ	評價方法： ★★：方法學質量非常好（使用對應的方法學質量評價工具進行評價，評價結果屬于高質量） ★：方法學質量尚可（使用對應的方法學質量評價工具進行評價，評價結果屬于中等質量）不符合上述條件者，不給星★
	9	目標值源研究的設計類型是否為最佳選擇	根據目標值溯源到的文獻類型，評估目標值源研究的設計類型與研究目的的對應性等級體系，如《牛津證據等級和推薦等級》	評價方法： ★★：目標值源研究是最佳設計（如研究目的是評價臨床療效，首先選擇隨機對照試驗RCT-有同質性，如研究目的是評價安全性，優先考慮隊列研究） ★：目標值源研究是次優設計（高質量單個隨機對照試驗）不符合上述條件者，不給星★
	10	目標值源研究的證據多樣性	目標值通常來源于大量歷史數據的匯總結果，通過不同的調查或數據挖掘的結果，相互佐證和參考，其可靠性和代表性更好	評價方法： ★★：具有多個目標值的潛在來源，且所獲得目標值數據相近（提供目標值來源文獻的檢索策略，檢索到多篇符合條件的目標值來源文獻，這些文獻的目標值相近或一致） ★：具有多個目標值的潛在來源，其中方法學質量較高的目標值數據類似，但并不是所有目標值均相似（提供目標值來源文獻的檢索策略，檢索到多篇符合條件的目標值來源文獻，部分方法學質量較高的文獻的目標值相近或一致，并最終采用了對應文獻作為目標值來源）不符合上述條件者，不給星★
注1：當目標值法單臂試驗應用于中醫藥領域時，還需考慮中醫藥的特色條款。例如，在人群比較時需要考慮中醫診斷、證型、體質等；在干預措施比較時，需要制作工藝的改良、辨證論治加減藥物，以及非藥物療法中針灸醫生、推拿醫生等的資歷和技術；在結局比較時，若采用中醫藥特色結局指標時，需要嚴謹評估指標的客觀性和公認性。注2：當研究目的是對同種干預措施再評價，或擴大適應癥，或擴大適用人群時，對于干預措施的比較則需要更加嚴格，即作為外對照的目標值醫療措施與單臂試驗干預措施在各方面是否保持一致，還需要比較的除了所評價的干預措施外的其他伴隨治療是否一致，此時人群特征不要求與單臂試驗保持一致，而需要評價是否符合目標值法單臂試驗方案規定。

2.2 單臂試驗中目標值選擇的質量評價方法清單及其說明

通過兩輪專家會議投票結果及最終決策建議，形成了本方法學質量評價清單。本清單共設立4個領域10個條目，4個領域分別為目標值的權威性、溯源性、可比性、可靠性。10個條目，除條目1有半顆星☆評價外，其他條目分別設立2顆星★★、1顆星★，因此10個條目最多獲得20顆★，最少獲得1顆★。當總體評價獲得10顆星及以上★時，認為質量較好；少于10顆星★時，則對質量存疑。目標值選擇的評價重點在可比性，因此當可比性領域任一條目不得★時，則需重點考慮目標值的質量。

本清單的擬定旨在為研究者提供一個評價目標值質量的方法學工具，在設計目標值法單臂試驗時，本清單亦可為目標值的選擇提供參考。評價之前首先應確定擬評價的目標值及其相關信息；其次建議閱讀整個條目，將擬評價的目標值溯源信息列表或文字說明，以便評價時能夠快速獲取相關內容并做出合理評價。

3 討論

本研究通過整理回顧既往文獻，形成了《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿。采用NGT開展專家共識，專家們對該方法學清單的權威系數達到了0.85以上，說明參加NGT共識的專家對該領域的熟悉程度和判斷依據具有較高的權威性和可靠性。其中各條目的重要性評分均到了4分以上，條目納入方法學清單的同意百分比也均在50%以上，說明該方法學清單的內容有較好的集中程度。綜合以上專家意見進行完善，最終形成《單臂試驗中目標值選擇的方法學質量評價清單及其說明》。

如何選擇一個與單臂試驗組可比性良好的目標值、如何評價已選擇的目標值是影響目標值法單臂臨床試驗療效評價的重要因素，也是質量評價中的重要考慮因素之一。目標值法單臂試驗在醫療器械領域應用較為廣泛，美國FDA已經將其納入快速審批器械進入市場的政策^[17]。醫療器械領域目標值的確定方法包括臨床試驗監管部門指南、行業標準或專家共識以及同類產品歷史研究結果等途徑^[18]，但即便在應用成熟的醫療器械領域，目標值的選擇仍具有一定挑戰，目前并無統一的制定目標值的標準，且僅有極少的成熟目標值可供直接參考使用^[19,20]。推廣至全臨床試驗領域，既往有研究總結基于已發表的單個臨床研究數據或Meta分析制定目標值是目前較為常用的方法^[21-26]，這樣得出的目標值有可追溯的數據來源，具有可重復性，具備一定的可信度，但由于缺乏臨床研究的原始數據，且可能存在發表偏倚風險，無法準確反映臨床真實療效。基于專家共識制定的目標值，能一定程度上反應專家所在地區現實診療水平，但由于缺乏嚴謹的臨床研究數據支撐，且受到專家主觀認識偏好、專家所在單位醫療水平的差異等影響，外推性差且不容易被業內大范圍認可。但目前也尚未建立成熟的目標值選擇的方法學體系，尚無相關部門發布有關目標值選擇及評價的規范性文件，常須研究者自行制定，這在臨床實踐中仍是主要痛點。

也正因如此，目標值法單臂試驗的證據等級定位不明確，雖然有研究^[27]認為有外部對照的單臂試驗其證據等級僅次于擴增型RCT，即在對照組樣本量不足的情況下，選用外部數據對對照組進行補充的RCT。但由于缺乏對有外部對照的單臂試驗的質量評價工具，業內依然普遍認為其證據等級較弱，所以本研究系統制定了關于目標值選擇的質量評價清單，從療效評價和質量評價兩個角度綜合考慮，共包含了4個領域共10個條目，每個領域又滲透了設計和實施兩個環節貫穿臨床試驗始終。通過NGT兩輪投票討論修改后，最終形成的目標值選擇的質量評價清單，可以作為保證目標值法單臂臨床試驗全過程質量控制的重要工具之一。

本研究參與共識的專家包括臨床專家、方法學家，并涵蓋了中醫院、西醫院、大學及科研院所等不同領域，且均在目標值法單臂試驗領域具有較高的權威程度和熟悉程度，研究結果參考價值較高。同時本研究考慮了在中醫藥領域單臂試驗中目標值選擇的質量評價，形成相關條目進行補充說明，研究結果較為全面。目前業內尚未形成公認的目標值質量評價規范，本研究為后續深入完善目標值選擇的質量評價規范研究提供研究基礎和思路。

本研究的局限性：① 由于對目標值法單臂試驗有深入理論了解或實際使用經驗的臨床專家和方法學家的數量非常有限^[1]，所以無法做到更大規模的專家共識組。但是根據權威系數判斷，參與共識的專家權威性較好，可以使本研究結果有更好的權威性；② 本研究形成的清單條目屬于泛用性，各個醫療細分領域間可能存在一定差異，應用時需要進一步完善。③ 本研究初步構建了單臂試驗關于目標值選擇的方法學質量評價方法學體系，但在實際應用時可能面臨以下問題，例如目標值來源于國家標準、行業標準時，在文獻溯源方面可能存在困難；低質量的直接證據與高質量的間接證據如何平衡的問題等。

本研究形成單臂試驗中目標值選擇的方法學質量評價清單，未來可以開展該質量評價清單的實際應用價值研究。通過系統檢索目標值法單臂試驗對目標值進行系統的質量評價，根據研究結果進一步完善該清單內容，以期提高目標值法在單臂試驗中使用的規范程度，為深入研究目標值法單臂試驗的證據等級提供前期研究鋪墊，為臨床研究工作者在進行目標值法單臂臨床試驗過程中提供偏倚風險控制與質量評價的方法學工具，同時，對未來進一步構建目標值法單臂臨床試驗質量評價方法學體系提供了豐富的扎實的研究背景和理論。

1 資料收集與分析方法

1.1 《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿的產生

1.2 共識專家組成員

1.3 NGT

1.4 投票系統統計指標

1.5 共識投票與整理

2 結果

2.1 NGT會議投票結果

表1 單臂試驗中目標值選擇的方法學質量評價清單及其說明

表選項

下載CSV

表1 單臂試驗中目標值選擇的方法學質量評價清單及其說明

領域	編號	條目	解讀	評價
權威性	1	目標值的來源	目標值的確定應有充分依據，優先依次考慮國家標準、行業標準和專家共識，否則，需要根據已有的相關信息，包括但不限于公開發表的文獻、研究報告、相關研究的原始數據等，通過綜合分析確定目標值。當所開展的目標值法單臂試驗是用于支持藥物/醫療器械研發或上市時，目標值的選定還需要得到官方機構的認定	評價方法： ★★：來源于國家標準、行業標準、指南或專家共識（報告對應標準、指南或共識的全稱、制訂單位、年份并提供來源） ★☆：來源于公開發表的高質量的文獻、研究報告、相關研究的Meta分析匯總結果，應系統檢索相關，根據研究目的制定目標值選擇標準，并報告對應的檢索策略，明確選取目標值的流程，必要時解釋原因；（在正文或附加材料中報告了文獻檢索策略、選擇標準，提供了文獻質量評價結果） ★：來源于公開發表的中質量的Meta分析和高質量單個研究文獻、研究報告、相關研究的數據，應系統檢索相關文獻，根據研究目的制定目標值選擇標準，并報告對應的檢索策略，明確選取目標值的流程，必要時解釋原因不符合上述條件者，不給星★
權威性	2	目標值的確定通過專家共識決定	無論目標值來源及溯源情況如何，目標值的選擇均應經過專家共識決定，專家共識過程需要對上述目標值選擇的權威性、可靠性、可比性等做出判定，還需要對目標值與單臂試驗的適用性、可比性進行充分論證	評價方法： ★★：目標值的選擇過程經過嚴肅且充分地討論并達成共識，共識內容包括目標值選擇的權威性、可靠性、適用性等；（在正文或附加材料中詳細報告了對目標值確定的共識人員及其背景、過程及共識結果，共識人員應包括對應領域的臨床專家，并基于本清單對目標值來源文獻的不同維度進行評價） ★：目標值的選擇經過專家共識充分討論和評估確定，但共識過程和共識內容不明確；（在正文中提及了目標值經過專家組共識，但未詳細說明具體內容）不符合上述條件者，不給星★
溯源性	3	目標值的可溯源性	無論目標值來源于何種途徑，均需要可以溯源，包括參考文獻、數據庫鏈接、官方公告、官方證明等。目標值的可溯源性直接影響著目標值與單臂試驗可比性的判斷，因此即使是來源于國家標準、行業標準等，也應明確這些標準形成時所基于的數據信息	目標值溯源途徑的評價取決于能否獲得目標值所代表的各種重要特征，如P-人群特征（人口學、臨床特征，含診斷標準等）、T-作為外對照的目標值醫療措施（治療標準及伴隨治療）、O-結局指標（測量、評價標準及時點）及S-等對結局（預后）有潛在影響的各種其他影響因素（如場所） ★★：PTOS信息可溯源且清晰[根據文中的目標值來源文獻，可檢索到目標值制定的對應數據，且PTOS信息可直接獲得，或作者提供了對應信息的整合方式（如人群基本特征的匯總）] ★：PTOS信息可部分溯源，或溯源信息但欠清晰[根據文中的目標值來源文獻，可檢索到目標值制定的部分相關數據，或相關數據需要進一步處理但并未提供對應的方法（如目標值來源于多篇文獻，但對于年齡、性別等因素并未提供相應的匯總方法）] 不符合上述條件者，不給星★
可比性	4	目標值人群與單臂試驗人群的重要人群特征比較	目標值來源于大量歷史數據，其人群特征往往較為復雜，當以目標值作為單臂試驗的對照方法時，尤其是當所研究疾病和療法與這些特征相關時，人群特征的比較則更為重要。《藥物真實世界研究設計與方案框架指導原則（試行）》中提到人群特征包括人口學、基線水平和臨床特征等。此外，臨床特征又可包括基本病情、合并病癥等	評價方法：比較需同時考察基線均衡性（計算目標值源文獻與單臂試驗組重要人群特征的標準均值差（SMD））和臨床意義（通過臨床專家共識評價）。 ★★：重要人群特征方面（如年齡、性別等）具有可比性（當重要人群特征標準均值差均小于0.1，同時專家共識認為兩組差異無臨床意義時，認為具有可比性） ★：重要人群特征方面具有部分可比性（部分重要人群特征標準均值差可大于0.1但小于0.5且差異無臨床意義）不符合上述條件者，不給星★
	5	作為外對照的目標值醫療措施與研究方案中規定的對照措施比較	單臂試驗所評價的干預措施通常與目標值的醫療措施有所不同。這時需要根據設計方案中的要求進行考察，評價作為外對照的目標值醫療措施應與目標值法單臂試驗方案中規定的對照措施是否保持一致。主要醫療措施及其伴隨治療需同步考慮	評價方法： ★★：與方案規定對照措施完全一致 ★：與方案規定對照不完全一致，但差異可能不存在臨床意義不符合上述條件者，不給星★
	6	目標值的結局指標與單臂試驗結局指標比較	目標值的選擇提倡使用能夠進行科學客觀測量的結局指標。在對目標值結局指標與單臂試驗結局指標比較時，不僅需要考察其指標是否一致，還需要考察其指標的內涵、測量方法、測量時點是否一致	評價方法： ★★：指標內涵及測量時點、測量方法一致 ★：指標內涵不一致，經轉化后指標內涵符合方案要求；或指標內涵一致或轉化后一致，測量時點和方法不完全一致，但差異可能不存在臨床意義（如目標值來源采用復合結局指標-包括A、B、C三部分，其涵蓋范圍大于單臂組的對應結局的意義-單臂組只關注A、B兩部分，與單臂試驗組一致的具體指標可以在源文獻中獲得-源文獻中提供了A、B、C各自對應的結局數值，可自行轉化）不符合上述條件者，不給星★
	7	目標值的外部因素與單臂試驗比較，包括時間性、地域性	目標值的選定和評價還需要考慮一些外部因素，例如時間性、地域性等。時間性主要考察目標值與單臂試驗時間同步性，同步性越強越好，如果是歷史對照需要考慮時間（時代）差異對試驗的人群、病因、診斷、治療、預后、結局等全方位特征的影響；地域性主要考察目標值所代表的地域環境、經濟水平、醫療水平等，與單臂試驗開展的地域是否相似或一致，如若不一致要考慮地域差異對試驗的人群、病因、診斷、治療、預后、結局等全方位特征的影響	評價方法： ★★：目標值來源與單臂試驗開展時間相近，且地域性與單臂試驗相似 ★目標值來源與單臂試驗開展時間有一定差異，但這段時間內該領域未有突破性進展，或全球健康領域未出現明顯變革；且地域性與單臂試驗相似或其差異經專家共識后被認為與結局關聯不明顯不符合上述條件者，不給星★
可靠性	8	目標值源研究的方法學質量	目標值來源的方法學質量是目標值可靠性的重要方面，根據目標值溯源到的文獻類型，使用相應的國內外公認方法學工具進行質量評價，例如隨機對照試驗使用ROB 2、Meta分析使用AMSTAR Ⅱ	評價方法： ★★：方法學質量非常好（使用對應的方法學質量評價工具進行評價，評價結果屬于高質量） ★：方法學質量尚可（使用對應的方法學質量評價工具進行評價，評價結果屬于中等質量）不符合上述條件者，不給星★
	9	目標值源研究的設計類型是否為最佳選擇	根據目標值溯源到的文獻類型，評估目標值源研究的設計類型與研究目的的對應性等級體系，如《牛津證據等級和推薦等級》	評價方法： ★★：目標值源研究是最佳設計（如研究目的是評價臨床療效，首先選擇隨機對照試驗RCT-有同質性，如研究目的是評價安全性，優先考慮隊列研究） ★：目標值源研究是次優設計（高質量單個隨機對照試驗）不符合上述條件者，不給星★
	10	目標值源研究的證據多樣性	目標值通常來源于大量歷史數據的匯總結果，通過不同的調查或數據挖掘的結果，相互佐證和參考，其可靠性和代表性更好	評價方法： ★★：具有多個目標值的潛在來源，且所獲得目標值數據相近（提供目標值來源文獻的檢索策略，檢索到多篇符合條件的目標值來源文獻，這些文獻的目標值相近或一致） ★：具有多個目標值的潛在來源，其中方法學質量較高的目標值數據類似，但并不是所有目標值均相似（提供目標值來源文獻的檢索策略，檢索到多篇符合條件的目標值來源文獻，部分方法學質量較高的文獻的目標值相近或一致，并最終采用了對應文獻作為目標值來源）不符合上述條件者，不給星★
注1：當目標值法單臂試驗應用于中醫藥領域時，還需考慮中醫藥的特色條款。例如，在人群比較時需要考慮中醫診斷、證型、體質等；在干預措施比較時，需要制作工藝的改良、辨證論治加減藥物，以及非藥物療法中針灸醫生、推拿醫生等的資歷和技術；在結局比較時，若采用中醫藥特色結局指標時，需要嚴謹評估指標的客觀性和公認性。注2：當研究目的是對同種干預措施再評價，或擴大適應癥，或擴大適用人群時，對于干預措施的比較則需要更加嚴格，即作為外對照的目標值醫療措施與單臂試驗干預措施在各方面是否保持一致，還需要比較的除了所評價的干預措施外的其他伴隨治療是否一致，此時人群特征不要求與單臂試驗保持一致，而需要評價是否符合目標值法單臂試驗方案規定。

2.2 單臂試驗中目標值選擇的質量評價方法清單及其說明

3 討論

表1 單臂試驗中目標值選擇的方法學質量評價清單及其說明

領域	編號	條目	解讀	評價
權威性	1	目標值的來源	目標值的確定應有充分依據，優先依次考慮國家標準、行業標準和專家共識，否則，需要根據已有的相關信息，包括但不限于公開發表的文獻、研究報告、相關研究的原始數據等，通過綜合分析確定目標值。當所開展的目標值法單臂試驗是用于支持藥物/醫療器械研發或上市時，目標值的選定還需要得到官方機構的認定	評價方法： ★★：來源于國家標準、行業標準、指南或專家共識（報告對應標準、指南或共識的全稱、制訂單位、年份并提供來源） ★☆：來源于公開發表的高質量的文獻、研究報告、相關研究的Meta分析匯總結果，應系統檢索相關，根據研究目的制定目標值選擇標準，并報告對應的檢索策略，明確選取目標值的流程，必要時解釋原因；（在正文或附加材料中報告了文獻檢索策略、選擇標準，提供了文獻質量評價結果） ★：來源于公開發表的中質量的Meta分析和高質量單個研究文獻、研究報告、相關研究的數據，應系統檢索相關文獻，根據研究目的制定目標值選擇標準，并報告對應的檢索策略，明確選取目標值的流程，必要時解釋原因不符合上述條件者，不給星★
權威性	2	目標值的確定通過專家共識決定	無論目標值來源及溯源情況如何，目標值的選擇均應經過專家共識決定，專家共識過程需要對上述目標值選擇的權威性、可靠性、可比性等做出判定，還需要對目標值與單臂試驗的適用性、可比性進行充分論證	評價方法： ★★：目標值的選擇過程經過嚴肅且充分地討論并達成共識，共識內容包括目標值選擇的權威性、可靠性、適用性等；（在正文或附加材料中詳細報告了對目標值確定的共識人員及其背景、過程及共識結果，共識人員應包括對應領域的臨床專家，并基于本清單對目標值來源文獻的不同維度進行評價） ★：目標值的選擇經過專家共識充分討論和評估確定，但共識過程和共識內容不明確；（在正文中提及了目標值經過專家組共識，但未詳細說明具體內容）不符合上述條件者，不給星★
溯源性	3	目標值的可溯源性	無論目標值來源于何種途徑，均需要可以溯源，包括參考文獻、數據庫鏈接、官方公告、官方證明等。目標值的可溯源性直接影響著目標值與單臂試驗可比性的判斷，因此即使是來源于國家標準、行業標準等，也應明確這些標準形成時所基于的數據信息	目標值溯源途徑的評價取決于能否獲得目標值所代表的各種重要特征，如P-人群特征（人口學、臨床特征，含診斷標準等）、T-作為外對照的目標值醫療措施（治療標準及伴隨治療）、O-結局指標（測量、評價標準及時點）及S-等對結局（預后）有潛在影響的各種其他影響因素（如場所） ★★：PTOS信息可溯源且清晰[根據文中的目標值來源文獻，可檢索到目標值制定的對應數據，且PTOS信息可直接獲得，或作者提供了對應信息的整合方式（如人群基本特征的匯總）] ★：PTOS信息可部分溯源，或溯源信息但欠清晰[根據文中的目標值來源文獻，可檢索到目標值制定的部分相關數據，或相關數據需要進一步處理但并未提供對應的方法（如目標值來源于多篇文獻，但對于年齡、性別等因素并未提供相應的匯總方法）] 不符合上述條件者，不給星★
可比性	4	目標值人群與單臂試驗人群的重要人群特征比較	目標值來源于大量歷史數據，其人群特征往往較為復雜，當以目標值作為單臂試驗的對照方法時，尤其是當所研究疾病和療法與這些特征相關時，人群特征的比較則更為重要。《藥物真實世界研究設計與方案框架指導原則（試行）》中提到人群特征包括人口學、基線水平和臨床特征等。此外，臨床特征又可包括基本病情、合并病癥等	評價方法：比較需同時考察基線均衡性（計算目標值源文獻與單臂試驗組重要人群特征的標準均值差（SMD））和臨床意義（通過臨床專家共識評價）。 ★★：重要人群特征方面（如年齡、性別等）具有可比性（當重要人群特征標準均值差均小于0.1，同時專家共識認為兩組差異無臨床意義時，認為具有可比性） ★：重要人群特征方面具有部分可比性（部分重要人群特征標準均值差可大于0.1但小于0.5且差異無臨床意義）不符合上述條件者，不給星★
	5	作為外對照的目標值醫療措施與研究方案中規定的對照措施比較	單臂試驗所評價的干預措施通常與目標值的醫療措施有所不同。這時需要根據設計方案中的要求進行考察，評價作為外對照的目標值醫療措施應與目標值法單臂試驗方案中規定的對照措施是否保持一致。主要醫療措施及其伴隨治療需同步考慮	評價方法： ★★：與方案規定對照措施完全一致 ★：與方案規定對照不完全一致，但差異可能不存在臨床意義不符合上述條件者，不給星★
	6	目標值的結局指標與單臂試驗結局指標比較	目標值的選擇提倡使用能夠進行科學客觀測量的結局指標。在對目標值結局指標與單臂試驗結局指標比較時，不僅需要考察其指標是否一致，還需要考察其指標的內涵、測量方法、測量時點是否一致	評價方法： ★★：指標內涵及測量時點、測量方法一致 ★：指標內涵不一致，經轉化后指標內涵符合方案要求；或指標內涵一致或轉化后一致，測量時點和方法不完全一致，但差異可能不存在臨床意義（如目標值來源采用復合結局指標-包括A、B、C三部分，其涵蓋范圍大于單臂組的對應結局的意義-單臂組只關注A、B兩部分，與單臂試驗組一致的具體指標可以在源文獻中獲得-源文獻中提供了A、B、C各自對應的結局數值，可自行轉化）不符合上述條件者，不給星★
	7	目標值的外部因素與單臂試驗比較，包括時間性、地域性	目標值的選定和評價還需要考慮一些外部因素，例如時間性、地域性等。時間性主要考察目標值與單臂試驗時間同步性，同步性越強越好，如果是歷史對照需要考慮時間（時代）差異對試驗的人群、病因、診斷、治療、預后、結局等全方位特征的影響；地域性主要考察目標值所代表的地域環境、經濟水平、醫療水平等，與單臂試驗開展的地域是否相似或一致，如若不一致要考慮地域差異對試驗的人群、病因、診斷、治療、預后、結局等全方位特征的影響	評價方法： ★★：目標值來源與單臂試驗開展時間相近，且地域性與單臂試驗相似 ★目標值來源與單臂試驗開展時間有一定差異，但這段時間內該領域未有突破性進展，或全球健康領域未出現明顯變革；且地域性與單臂試驗相似或其差異經專家共識后被認為與結局關聯不明顯不符合上述條件者，不給星★
可靠性	8	目標值源研究的方法學質量	目標值來源的方法學質量是目標值可靠性的重要方面，根據目標值溯源到的文獻類型，使用相應的國內外公認方法學工具進行質量評價，例如隨機對照試驗使用ROB 2、Meta分析使用AMSTAR Ⅱ	評價方法： ★★：方法學質量非常好（使用對應的方法學質量評價工具進行評價，評價結果屬于高質量） ★：方法學質量尚可（使用對應的方法學質量評價工具進行評價，評價結果屬于中等質量）不符合上述條件者，不給星★
	9	目標值源研究的設計類型是否為最佳選擇	根據目標值溯源到的文獻類型，評估目標值源研究的設計類型與研究目的的對應性等級體系，如《牛津證據等級和推薦等級》	評價方法： ★★：目標值源研究是最佳設計（如研究目的是評價臨床療效，首先選擇隨機對照試驗RCT-有同質性，如研究目的是評價安全性，優先考慮隊列研究） ★：目標值源研究是次優設計（高質量單個隨機對照試驗）不符合上述條件者，不給星★
	10	目標值源研究的證據多樣性	目標值通常來源于大量歷史數據的匯總結果，通過不同的調查或數據挖掘的結果，相互佐證和參考，其可靠性和代表性更好	評價方法： ★★：具有多個目標值的潛在來源，且所獲得目標值數據相近（提供目標值來源文獻的檢索策略，檢索到多篇符合條件的目標值來源文獻，這些文獻的目標值相近或一致） ★：具有多個目標值的潛在來源，其中方法學質量較高的目標值數據類似，但并不是所有目標值均相似（提供目標值來源文獻的檢索策略，檢索到多篇符合條件的目標值來源文獻，部分方法學質量較高的文獻的目標值相近或一致，并最終采用了對應文獻作為目標值來源）不符合上述條件者，不給星★
注1：當目標值法單臂試驗應用于中醫藥領域時，還需考慮中醫藥的特色條款。例如，在人群比較時需要考慮中醫診斷、證型、體質等；在干預措施比較時，需要制作工藝的改良、辨證論治加減藥物，以及非藥物療法中針灸醫生、推拿醫生等的資歷和技術；在結局比較時，若采用中醫藥特色結局指標時，需要嚴謹評估指標的客觀性和公認性。注2：當研究目的是對同種干預措施再評價，或擴大適應癥，或擴大適用人群時，對于干預措施的比較則需要更加嚴格，即作為外對照的目標值醫療措施與單臂試驗干預措施在各方面是否保持一致，還需要比較的除了所評價的干預措施外的其他伴隨治療是否一致，此時人群特征不要求與單臂試驗保持一致，而需要評價是否符合目標值法單臂試驗方案規定。

表選項

下載CSV

1.	于明坤, 明揚, 夏如玉, 等. 國際目標值法臨床研究的文獻和方法學特征分析. 中國循證醫學雜志, 2019, 19(11): 1308-1316.
2.	呂德良, 李雪迎, 朱賽楠, 等. 目標值法在醫療器械非隨機對照臨床試驗中的應用. 中國衛生統計, 2009, 26(3): 258-260.
3.	季聰華, 曹毅, 陳健. 單組試驗目標值法在中醫臨床研究中的應用. 中國中西醫結合雜志, 2012, 32(12): 1589-1591.
4.	韓梅, 曹卉娟, 張穎, 等. 單組試驗目標值法及其在中醫非藥物療法評價中的應用. 北京中醫藥, 2020, 39(5): 499-503.
5.	U. S. Department of Health And Human Services Food and Drug Administration. Design considerations for pivotal clinical investigations for medical devices-guidance for industry, clinical investigators, Institutional Review Boards and Food and Drug Administration staff. 2018.
6.	FDA Center for Devices and Radiological Health. The least burdensome provisions: concept and principles: Guidance for industry and FDA staff.
7.	國家藥監局. 關于發布真實世界數據用于醫療器械臨床評價技術指導原則(試行)的通告(2020年第77號). 2020.
8.	中國國家藥監局藥品審評中心. 藥物真實世界研究設計與方案框架指導原則(試行). 2023.
9.	陳晨, 韓曉紅. 中國罕見病藥物臨床試驗10年現狀分析: 基于《第一批罕見病目錄》. 協和醫學雜志, 2022, 13(6): 1028-1035.
10.	張晨, 于明坤, 唐金平, 等. 目標值法在中藥上市后再評價中的應用. 中國中藥雜志, 2021, 46(8): 1999-2003.
11.	EQUATOR Network. Enhancing the quality and transparency of health research.
12.	Delbecq AL, van de Ven AH, Gustafson DH. Group techniques for program planning, a guide to nominal group and Delphi processes. Glenview, IL: Scott, Foresman and Company, 1975.
13.	Tully MP, Cantrill JA. The use of the nominal group technique in pharmacy practice research: processes and practicalities. J Soc Admin Pharm, 1997, 14: 93-104.
14.	Jones J, Hunter D. Consensus methods for medical and health services research. BMJ, 1995, 311: 376-380.
15.	Wei W, Liu Y, Zhou N, et al. Constructing an emergency preparedness evaluation index system for public use during major emerging infectious disease outbreaks: a Delphi study. BMC Public Health, 2023, 23(1): 1109.
16.	Zhang D, Yan Y, Liao MX, et al. How to evaluate surgical tourism service organizations in China: indicators system development and a pilot application. Glob Health Res Policy, 2022, 7(1): 26.
17.	FDA Center For Devices And Radiological Health. The least burdensome provisions: concept and principles: guidance for industry and FDA staff. 2019.
18.	李衛, 趙耐青. 單組目標值臨床試驗的統計學考慮. 中國衛生統計, 2017, 34(3): 505-508.
19.	Gressler LE, Marinac-Dabic D, dosReis S, et al. Creation of objective performance criteria among medical devices. BMJ Surg Interv Health Technol, 2022, 4(1): e000106.
20.	Nieuwenhuijse MJ, Randsborg PH, Hyde JH, et al. Evidence-based objective performance criteria for the evaluation of hip and knee replacement devices and technologies. Int J Surg, 2023, 109(5): 1125-1135.
21.	Dong Z, Dai H, Gao Y, et al. Effect of Mahuang Fuzi and Shenzhuo decoction on idiopathic membranous nephropathy: a multicenter, nonrandomized, single-arm clinical trial. Front Pharmacol, 2021, 12: 724744.
22.	霍雨晴. 注射用丹參多酚酸治療缺血性腦卒中恢復期療效評價及精準定位研究. 天津: 天津中醫藥大學, 2021.
23.	Mehran R, Cao D, Angiolillo DJ, et al. 3- or 1-month DAPT in patients at high bleeding risk undergoing everolimus-eluting stent implantation. JACC Cardiovasc Interv, 2021, 14(17): 1870-1883.
24.	Kandzari DE, Kirtane AJ, Windecker S, et al. One-month dual antiplatelet therapy following percutaneous coronary intervention with Zotarolimus-eluting stents in high-bleeding-risk patients. Circ Cardiovasc Interv, 2020, 13(11): e009565.
25.	李倩. 基于第三方復證和目標值法建立中醫個體化診療循證模式的研究(以IBS為例). 廣州: 廣州中醫藥大學, 2020.
26.	牛毅. 運用桂枝茯苓丸加減治療子宮肌瘤療效的臨床研究. 成都: 成都中醫藥大學, 2020.
27.	Gray CM, Grimson F, Layton D, et al. A framework for methodological choice and evidence assessment for studies using external comparators from real-world data. Drug Saf, 2020, 43(7): 623-633.

1. 于明坤, 明揚, 夏如玉, 等. 國際目標值法臨床研究的文獻和方法學特征分析. 中國循證醫學雜志, 2019, 19(11): 1308-1316.
2. 呂德良, 李雪迎, 朱賽楠, 等. 目標值法在醫療器械非隨機對照臨床試驗中的應用. 中國衛生統計, 2009, 26(3): 258-260.
3. 季聰華, 曹毅, 陳健. 單組試驗目標值法在中醫臨床研究中的應用. 中國中西醫結合雜志, 2012, 32(12): 1589-1591.
4. 韓梅, 曹卉娟, 張穎, 等. 單組試驗目標值法及其在中醫非藥物療法評價中的應用. 北京中醫藥, 2020, 39(5): 499-503.
5. U. S. Department of Health And Human Services Food and Drug Administration. Design considerations for pivotal clinical investigations for medical devices-guidance for industry, clinical investigators, Institutional Review Boards and Food and Drug Administration staff. 2018.
6. FDA Center for Devices and Radiological Health. The least burdensome provisions: concept and principles: Guidance for industry and FDA staff.
7. 國家藥監局. 關于發布真實世界數據用于醫療器械臨床評價技術指導原則(試行)的通告(2020年第77號). 2020.
8. 中國國家藥監局藥品審評中心. 藥物真實世界研究設計與方案框架指導原則(試行). 2023.
9. 陳晨, 韓曉紅. 中國罕見病藥物臨床試驗10年現狀分析: 基于《第一批罕見病目錄》. 協和醫學雜志, 2022, 13(6): 1028-1035.
10. 張晨, 于明坤, 唐金平, 等. 目標值法在中藥上市后再評價中的應用. 中國中藥雜志, 2021, 46(8): 1999-2003.
11. EQUATOR Network. Enhancing the quality and transparency of health research.
12. Delbecq AL, van de Ven AH, Gustafson DH. Group techniques for program planning, a guide to nominal group and Delphi processes. Glenview, IL: Scott, Foresman and Company, 1975.
13. Tully MP, Cantrill JA. The use of the nominal group technique in pharmacy practice research: processes and practicalities. J Soc Admin Pharm, 1997, 14: 93-104.
14. Jones J, Hunter D. Consensus methods for medical and health services research. BMJ, 1995, 311: 376-380.
15. Wei W, Liu Y, Zhou N, et al. Constructing an emergency preparedness evaluation index system for public use during major emerging infectious disease outbreaks: a Delphi study. BMC Public Health, 2023, 23(1): 1109.
16. Zhang D, Yan Y, Liao MX, et al. How to evaluate surgical tourism service organizations in China: indicators system development and a pilot application. Glob Health Res Policy, 2022, 7(1): 26.
17. FDA Center For Devices And Radiological Health. The least burdensome provisions: concept and principles: guidance for industry and FDA staff. 2019.
18. 李衛, 趙耐青. 單組目標值臨床試驗的統計學考慮. 中國衛生統計, 2017, 34(3): 505-508.
19. Gressler LE, Marinac-Dabic D, dosReis S, et al. Creation of objective performance criteria among medical devices. BMJ Surg Interv Health Technol, 2022, 4(1): e000106.
20. Nieuwenhuijse MJ, Randsborg PH, Hyde JH, et al. Evidence-based objective performance criteria for the evaluation of hip and knee replacement devices and technologies. Int J Surg, 2023, 109(5): 1125-1135.
21. Dong Z, Dai H, Gao Y, et al. Effect of Mahuang Fuzi and Shenzhuo decoction on idiopathic membranous nephropathy: a multicenter, nonrandomized, single-arm clinical trial. Front Pharmacol, 2021, 12: 724744.
22. 霍雨晴. 注射用丹參多酚酸治療缺血性腦卒中恢復期療效評價及精準定位研究. 天津: 天津中醫藥大學, 2021.
23. Mehran R, Cao D, Angiolillo DJ, et al. 3- or 1-month DAPT in patients at high bleeding risk undergoing everolimus-eluting stent implantation. JACC Cardiovasc Interv, 2021, 14(17): 1870-1883.
24. Kandzari DE, Kirtane AJ, Windecker S, et al. One-month dual antiplatelet therapy following percutaneous coronary intervention with Zotarolimus-eluting stents in high-bleeding-risk patients. Circ Cardiovasc Interv, 2020, 13(11): e009565.
25. 李倩. 基于第三方復證和目標值法建立中醫個體化診療循證模式的研究(以IBS為例). 廣州: 廣州中醫藥大學, 2020.
26. 牛毅. 運用桂枝茯苓丸加減治療子宮肌瘤療效的臨床研究. 成都: 成都中醫藥大學, 2020.
27. Gray CM, Grimson F, Layton D, et al. A framework for methodological choice and evidence assessment for studies using external comparators from real-world data. Drug Saf, 2020, 43(7): 623-633.

《中國循證醫學雜志》

優先發表《單臂試驗中目標值選擇的方法學質量評價清單及其說明》的形成

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

1 資料收集與分析方法

1.1 《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿的產生

1.2 共識專家組成員

1.4 投票系統統計指標

1.5 共識投票與整理

2 結果

2.1 NGT會議投票結果

2.2 單臂試驗中目標值選擇的質量評價方法清單及其說明

3 討論

1 資料收集與分析方法

1.1 《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿的產生

1.2 共識專家組成員

1.4 投票系統統計指標

1.5 共識投票與整理

2 結果

2.1 NGT會議投票結果

2.2 單臂試驗中目標值選擇的質量評價方法清單及其說明

3 討論

Format

Content

《中國循證醫學雜志》

優先發表《單臂試驗中目標值選擇的方法學質量評價清單及其說明》的形成

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

1 資料收集與分析方法

1.1 《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿的產生

1.2 共識專家組成員

1.4 投票系統統計指標

1.5 共識投票與整理

2 結果

2.1 NGT會議投票結果

2.2 單臂試驗中目標值選擇的質量評價方法清單及其說明

3 討論

1 資料收集與分析方法

1.1 《單臂試驗中目標值選擇的方法學質量評價清單及其說明》初稿的產生

1.2 共識專家組成員

1.4 投票系統統計指標

1.5 共識投票與整理

2 結果

2.1 NGT會議投票結果

2.2 單臂試驗中目標值選擇的質量評價方法清單及其說明

3 討論

Format

Content

摘要全文圖表視頻參考文獻施引文獻補充材料