AutoMeta是一款國人自主開發、具有獨立知識產權的半自動化、交互式、用戶友好型的在線平臺。該平臺旨在輔助用戶開展雙臂Meta分析、逆方差Meta分析、網狀Meta分析和診斷試驗準確性Meta分析等,并使用GRADE方法實現對證據確信度的自動分級。目前,AutoMeta v1.0已可實現雙臂Meta分析和逆方差Meta分析功能,以及雙臂Meta分析結局指標的證據確信度自動分級。本文從平臺的開發技術、操作方法與結果準確性驗證向用戶介紹證據分級與合成平臺,旨在協助相關研究人員快速完成系統評價。
引用本文: 田晨, 晏毅龍, 王勇, 童博, 田金徽, 葛龍. 證據智能合成與分級:AutoMeta平臺開發與驗證. 中國循證醫學雜志, 2024, 24(4): 459-465. doi: 10.7507/1672-2531.202309023 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
循證醫學是一門將最佳研究證據、臨床經驗和患者價值觀進行整合的科學,而系統評價和/或Meta分析是循證醫學的重要技術和工具[1]。系統評價綜合分析多個具有相同研究主題文獻,克服了傳統文獻綜述的缺陷,具有可對同一問題提供系統的、可重復的、客觀的綜合方法等特點,但也存在費時費力、制作者需具有專業知識等不足[1]。由于對高質量證據需求的不斷增加以及利益相關者相關專業知識的匱乏[2],特別是在應對突發公共衛生事件(例如,新型冠狀病毒感染)時,動態系統評價、快速動態指南和快速動態循證要覽等作為加速證據向實踐轉化的重要工具,都迫切需要快速證據合成與分級[3-7]。為此,MERGE(Merge Evidence-based Research and artificial intelliGent to support smart dEcision)工作組—一個專注于循證研究并融合人工智能輔助智慧決策的交叉創新團隊[8]構建了AutoMeta(http://www.autometa.org.cn/),該平臺可以為利益相關人員提供一個可實現傳統Meta分析、逆方差Meta分析、網狀Meta分析和診斷試驗準確性Meta分析及其GRADE證據分級的一站式、半自動化、交互式平臺,加快系統評價的制作和證據轉化并為用戶制作系統評價提供指導。目前,平臺1.0版本(AutoMeta v1.0)已可實現雙臂Meta分析和逆方差Meta分析及其證據確信度的自動分級。本文對該平臺開發技術、操作方法及結果準確性驗證進行介紹。
1 平臺搭建
在AutoMeta平臺設計階段成立平臺設計專家組,包括循證方法學專家(3人)、統計學專家(2人)、臨床科研人員(2人)和網絡技術團隊(3人)。其中,循證方法學專家提供循證領域的專業知識與指導,確保平臺的整體設計和功能符合循證醫學研究的原則與標準;統計學專家指導Meta分析方法的選擇與實施,確保平臺在數據處理和分析過程中的準確性和可靠性;臨床科研人員作為終端用戶,為平臺的功能實現和用戶體驗提供反饋;網絡技術團隊基于其他專家組提出的模塊設計及功能需求,負責該平臺的界面設計、功能實現、系統維護、運營和升級等。
該平臺通過充分利用Nginx的負載均衡功能,優化Web服務器集群,解決Web端高峰時的并發請求問題,并通過反向代理功能增加平臺的安全防護[9]。為提高系統的靈活性和可移植性,該平臺使用Docker容器作為核心來構建虛擬網絡中的各虛擬節點,并結合虛擬鏈路技術,實現在物理宿主機上的虛擬網絡仿真,以有效提供資源的隔離和管理,保證系統的穩定性和性能[10]。同時,采用CentOS服務器和2核8G服務器等以滿足平臺運行所需的計算能力和內存要求,確保平臺的高效運行和數據處理能力。
2 平臺開發技術
AutoMeta是基于R軟件中shiny程序包[11]搭建web式的數據交互程序和metafor程序包(傳統Meta分析和逆方差Meta分析)、netmeta程序包(網狀Meta分析)和mada程序包(診斷試驗準確性Meta分析)等實現證據自動合成,并調用相應分析結果完成對證據體確信度分級。用戶在使用平臺時,無需復雜的手動操作,只需按照指定格式上傳數據并選擇相應參數即可生成各種類型的Meta分析及其GRADE分級結果[12]。目前,平臺1.0版本已可實現雙臂Meta分析和逆方差Meta分析,該模塊參數設置見表1。

平臺中證據自動分級模塊基于2019年國家重點研發計劃“中醫藥現代化研究”重點專項課題《10個中醫藥優勢病種臨床指南制修訂示范應用》研究內容,通過對GRADE方法指南和GRADE在Cochrane系統評價中應用現狀調研[13]的基礎上,邀請來自四川大學、蘭州大學、北京中醫藥大學等機構10余位專家進行共識,對GRADE證據分級標準5個降級因素進行量化[13-15](表2),通過調用Meta分析結果中效應量異質性、發表偏倚等信息來實現對每個結局證據確信度的自動分級。目前,該平臺僅考慮來自于隨機對照試驗的證據,默認證據確信度為高,可能會因為不同的降級因素降低證據確信度等級。考慮自動降級規則的局限性,用戶可檢查降級結果,并可手動調整和修改每個降級因素以及總體證據確信度的自動分級結果。

3 平臺操作與結果準確性驗證
3.1 數據上傳
以雙臂Meta分析為例進行介紹,點擊平臺首頁“AutoMeta”選擇“META-ANALYSIS”進入數據上傳(Upload File)頁面后,點擊“Browse”從本地文件夾選擇以“.xlsx”格式保存的二分類變量和連續性變量數據文件并上傳[16,17](表3、表4)。數據上傳完成后,可在數據上傳頁面底部對數據進行預覽與檢查;待確認上傳數據無誤后,可點擊“Evidence Synthesis”按鈕進入數據分析頁面。


3.2 證據自動合成
在證據合成模塊,根據表1選擇相應參數后生成分析結果。在分析模型選擇“隨機效應模型”,異質性評估方法選擇“DerSimonian-Laird”,統計分析方法選擇“Mantel-Haenszel法”時,與R軟件中meta程序包分析結果相比,效應量估計值和異質性無顯著差異(表5)。在分析模型選擇“固定效應模型”,統計分析方法選擇“Inverse Varianace法”時,與RevMan軟件分析結果相比,效應量估計值和異質性(保留兩位小數后)相同(表6)。


3.3 證據自動分級
點擊左側任務欄中“Evidence Grading”后,點擊頁面中“Select an outcome”選擇上傳的數據文件中的工作表,輸入臨床重要差異值(例如,等效線或最小臨床差異值)并選擇相應參數量以實現對目標結局的證據確信度分級。待參數設置好后,點擊“Generate”即可根據平臺設置參數生成GRADE分級結果,結果中包含干預、對照、結局、納入研究數量、GRADE標準條目等信息并可查看偏倚風險評價圖、森林圖和漏斗圖以復核偏倚風險、不精確性、不一致性和發表偏倚。用戶可根據分析情況點擊GRADE標準條目的下拉選項對證據確信度分級結果進行自行調整。此外,點擊“Summary table”可生成證據概要表(evidence profile)和證據匯總表(summary of findings),點擊“Download word”可將上述表格保存為Word格式以便文章撰寫時使用。證據分級結果顯示,與人工評價結果相比,由于不精確性條目評價標準不一致,因此該條目差異顯著,此外,23組對照中,共有12組對照在偏倚風險評估條目上存在差異(表7)。

3.4 與傳統Meta分析軟件的比較
經反復測試,相較于傳統Meta分析軟件(RevMan、R和Stata),AutoMeta平臺可在確保準確性的情況下,顯著提升Meta分析和證據確信度分級的效率(表8)。

4 討論
循證醫學的理念和方法正在不斷影響和改變醫學科學甚至是社會科學的實踐[18]。在整個循證實踐過程中,證據的生產、合成、評價與轉化之間的有機銜接能夠有效促進證據的流動與更新。本文介紹了AutoMeta平臺的技術支持、操作方法與結果驗證,使利益相關人員能夠更輕松地進行Meta分析,并更好地支持決策和政策制定。國內外已開發和使用多種循證醫學輔助工具以加速文獻篩選、數據提取與質量評價等環節,例如Covidence、EppiReviewer或Swift-Active Screener by Sciome等,此外還可以使用自動化算法(例如,使用自動納入排除證據的機器學習分類算法)[3]。2014年瑞士伯爾尼大學Salanti等學者開發并進一步完善的一款在線應用程序Confidence In Network Meta-Analysis(CINeMA)用以評估網狀Meta分析的證據確信度。目前,國內外尚無平臺可一體化實現各種類型Meta分析與證據確信度分級。因此,AutoMeta平臺通過上傳包含多比較多結局數據的文件,能夠提升分析效率,有效地協助研究人員制作動態系統評價,為相關人群提供便利。與Cochrane協作網開發的RevMan軟件相比,該平臺可實現Meta回歸、Egger’s檢驗和Begg’s檢驗等功能,在交互式便捷操作的基礎上能夠極大的節省用戶在RevMan軟件中手動新建系統評價、添加納入研究、導入數據和添加偏倚風險等步驟的時間;與在R軟件、Stata軟件中直接操作相比,用戶在使用該平臺時無需編碼或掌握專業統計分析知識,只需數據按照格式要求將數據格式化并導入即可生成分析結果。同時,相較于傳統Meta分析軟件(RevMan、R和Stata),該平臺可顯著提升Meta分析和證據分級的效率。此外,在實現Meta分析的基礎上,該平臺通過文獻調研和專家共識對GRADE降級因素量化,實現對分析結果證據確信度的自動分級,并且在必要的時候用戶可自行調整降級結果,使得分級結果更加客觀、可信。在用戶確認最后分級結果后,可將證據確信度評估結果導出為“.doc”格式的證據匯總表文件以便用戶在撰寫文章時使用。
然而,當前版本的AutoMeta平臺仍存在著一定的局限性:① 在上傳數據前,用戶必須按照指定格式整理數據,將待分析的數據與偏倚風險評估結果同時上傳,否則平臺無法識別字段進而無法產生分析結果。② 在證據合成過程中,用戶需逐一切換統計模型或分析方法以獲取最終結果。③ 在證據確信度分級過程中,該平臺所設置的降級規則可能與GRADE指導原則有所差異,用戶可能需要結合GRADE指導原則,在自動分級基礎上自行修改分級結果,例如,在評估不精確性時,除臨床重要差異值之外,GRADE工作組認為如果系統評價的總病例數低于單個具有充分檢驗效能的常規樣本量試驗所需病例數,應該考慮因不精確性而降低證據確信度結果,此閾值稱為“最優信息樣本量”(optional information samplesize,OIS)[15];該平臺對不一致性的降級主要基于I2值,然而GRADE指南中要求同時考慮研究之間點估計值的分布、可信區間重疊程度以及I2值,若所有單個研究估計值都是有益的,那么唯一可能不確定的便是治療效果的強弱,因此,即便I2值較大,也不應因不一致性而降級[19]。此外,該平臺自動分級時未考慮重復降級的問題,例如,當不一致性是由納入研究人群特征間存在的差異引起時,可考慮不一致性和間接性聯合降級,或者不精確性是因為研究之間不一致性引起時,也可考慮聯合降級。④ 盡管我們盡最大可能的對GRADE降級標準進行了量化,但仍不可避免的存在一些主觀性,因此用戶在使用時還需對評估結果進行可重復性測試。
目前,該平臺1.0版本已可實現雙臂Meta分析和逆方差Meta分析及其證據確信度的自動分級,后續版本中將持續添加單臂Meta分析、網狀Meta分析、劑量-反應關系研究Meta分析和診斷試驗準確性Meta分析等針對不同數據類型的證據合成與分級模塊以滿足不同用戶對不同研究證據合成的需求。同時,也將著手開發用戶注冊和登錄等功能,以便用戶能夠在每次完成證據合成與分級后對數據和分析結果進行保存,增強用戶體驗,使用戶能夠方便地管理和查閱之前的研究數據,同時有助于實現數據的長期跟蹤與比較分析。
循證醫學是一門將最佳研究證據、臨床經驗和患者價值觀進行整合的科學,而系統評價和/或Meta分析是循證醫學的重要技術和工具[1]。系統評價綜合分析多個具有相同研究主題文獻,克服了傳統文獻綜述的缺陷,具有可對同一問題提供系統的、可重復的、客觀的綜合方法等特點,但也存在費時費力、制作者需具有專業知識等不足[1]。由于對高質量證據需求的不斷增加以及利益相關者相關專業知識的匱乏[2],特別是在應對突發公共衛生事件(例如,新型冠狀病毒感染)時,動態系統評價、快速動態指南和快速動態循證要覽等作為加速證據向實踐轉化的重要工具,都迫切需要快速證據合成與分級[3-7]。為此,MERGE(Merge Evidence-based Research and artificial intelliGent to support smart dEcision)工作組—一個專注于循證研究并融合人工智能輔助智慧決策的交叉創新團隊[8]構建了AutoMeta(http://www.autometa.org.cn/),該平臺可以為利益相關人員提供一個可實現傳統Meta分析、逆方差Meta分析、網狀Meta分析和診斷試驗準確性Meta分析及其GRADE證據分級的一站式、半自動化、交互式平臺,加快系統評價的制作和證據轉化并為用戶制作系統評價提供指導。目前,平臺1.0版本(AutoMeta v1.0)已可實現雙臂Meta分析和逆方差Meta分析及其證據確信度的自動分級。本文對該平臺開發技術、操作方法及結果準確性驗證進行介紹。
1 平臺搭建
在AutoMeta平臺設計階段成立平臺設計專家組,包括循證方法學專家(3人)、統計學專家(2人)、臨床科研人員(2人)和網絡技術團隊(3人)。其中,循證方法學專家提供循證領域的專業知識與指導,確保平臺的整體設計和功能符合循證醫學研究的原則與標準;統計學專家指導Meta分析方法的選擇與實施,確保平臺在數據處理和分析過程中的準確性和可靠性;臨床科研人員作為終端用戶,為平臺的功能實現和用戶體驗提供反饋;網絡技術團隊基于其他專家組提出的模塊設計及功能需求,負責該平臺的界面設計、功能實現、系統維護、運營和升級等。
該平臺通過充分利用Nginx的負載均衡功能,優化Web服務器集群,解決Web端高峰時的并發請求問題,并通過反向代理功能增加平臺的安全防護[9]。為提高系統的靈活性和可移植性,該平臺使用Docker容器作為核心來構建虛擬網絡中的各虛擬節點,并結合虛擬鏈路技術,實現在物理宿主機上的虛擬網絡仿真,以有效提供資源的隔離和管理,保證系統的穩定性和性能[10]。同時,采用CentOS服務器和2核8G服務器等以滿足平臺運行所需的計算能力和內存要求,確保平臺的高效運行和數據處理能力。
2 平臺開發技術
AutoMeta是基于R軟件中shiny程序包[11]搭建web式的數據交互程序和metafor程序包(傳統Meta分析和逆方差Meta分析)、netmeta程序包(網狀Meta分析)和mada程序包(診斷試驗準確性Meta分析)等實現證據自動合成,并調用相應分析結果完成對證據體確信度分級。用戶在使用平臺時,無需復雜的手動操作,只需按照指定格式上傳數據并選擇相應參數即可生成各種類型的Meta分析及其GRADE分級結果[12]。目前,平臺1.0版本已可實現雙臂Meta分析和逆方差Meta分析,該模塊參數設置見表1。

平臺中證據自動分級模塊基于2019年國家重點研發計劃“中醫藥現代化研究”重點專項課題《10個中醫藥優勢病種臨床指南制修訂示范應用》研究內容,通過對GRADE方法指南和GRADE在Cochrane系統評價中應用現狀調研[13]的基礎上,邀請來自四川大學、蘭州大學、北京中醫藥大學等機構10余位專家進行共識,對GRADE證據分級標準5個降級因素進行量化[13-15](表2),通過調用Meta分析結果中效應量異質性、發表偏倚等信息來實現對每個結局證據確信度的自動分級。目前,該平臺僅考慮來自于隨機對照試驗的證據,默認證據確信度為高,可能會因為不同的降級因素降低證據確信度等級。考慮自動降級規則的局限性,用戶可檢查降級結果,并可手動調整和修改每個降級因素以及總體證據確信度的自動分級結果。

3 平臺操作與結果準確性驗證
3.1 數據上傳
以雙臂Meta分析為例進行介紹,點擊平臺首頁“AutoMeta”選擇“META-ANALYSIS”進入數據上傳(Upload File)頁面后,點擊“Browse”從本地文件夾選擇以“.xlsx”格式保存的二分類變量和連續性變量數據文件并上傳[16,17](表3、表4)。數據上傳完成后,可在數據上傳頁面底部對數據進行預覽與檢查;待確認上傳數據無誤后,可點擊“Evidence Synthesis”按鈕進入數據分析頁面。


3.2 證據自動合成
在證據合成模塊,根據表1選擇相應參數后生成分析結果。在分析模型選擇“隨機效應模型”,異質性評估方法選擇“DerSimonian-Laird”,統計分析方法選擇“Mantel-Haenszel法”時,與R軟件中meta程序包分析結果相比,效應量估計值和異質性無顯著差異(表5)。在分析模型選擇“固定效應模型”,統計分析方法選擇“Inverse Varianace法”時,與RevMan軟件分析結果相比,效應量估計值和異質性(保留兩位小數后)相同(表6)。


3.3 證據自動分級
點擊左側任務欄中“Evidence Grading”后,點擊頁面中“Select an outcome”選擇上傳的數據文件中的工作表,輸入臨床重要差異值(例如,等效線或最小臨床差異值)并選擇相應參數量以實現對目標結局的證據確信度分級。待參數設置好后,點擊“Generate”即可根據平臺設置參數生成GRADE分級結果,結果中包含干預、對照、結局、納入研究數量、GRADE標準條目等信息并可查看偏倚風險評價圖、森林圖和漏斗圖以復核偏倚風險、不精確性、不一致性和發表偏倚。用戶可根據分析情況點擊GRADE標準條目的下拉選項對證據確信度分級結果進行自行調整。此外,點擊“Summary table”可生成證據概要表(evidence profile)和證據匯總表(summary of findings),點擊“Download word”可將上述表格保存為Word格式以便文章撰寫時使用。證據分級結果顯示,與人工評價結果相比,由于不精確性條目評價標準不一致,因此該條目差異顯著,此外,23組對照中,共有12組對照在偏倚風險評估條目上存在差異(表7)。

3.4 與傳統Meta分析軟件的比較
經反復測試,相較于傳統Meta分析軟件(RevMan、R和Stata),AutoMeta平臺可在確保準確性的情況下,顯著提升Meta分析和證據確信度分級的效率(表8)。

4 討論
循證醫學的理念和方法正在不斷影響和改變醫學科學甚至是社會科學的實踐[18]。在整個循證實踐過程中,證據的生產、合成、評價與轉化之間的有機銜接能夠有效促進證據的流動與更新。本文介紹了AutoMeta平臺的技術支持、操作方法與結果驗證,使利益相關人員能夠更輕松地進行Meta分析,并更好地支持決策和政策制定。國內外已開發和使用多種循證醫學輔助工具以加速文獻篩選、數據提取與質量評價等環節,例如Covidence、EppiReviewer或Swift-Active Screener by Sciome等,此外還可以使用自動化算法(例如,使用自動納入排除證據的機器學習分類算法)[3]。2014年瑞士伯爾尼大學Salanti等學者開發并進一步完善的一款在線應用程序Confidence In Network Meta-Analysis(CINeMA)用以評估網狀Meta分析的證據確信度。目前,國內外尚無平臺可一體化實現各種類型Meta分析與證據確信度分級。因此,AutoMeta平臺通過上傳包含多比較多結局數據的文件,能夠提升分析效率,有效地協助研究人員制作動態系統評價,為相關人群提供便利。與Cochrane協作網開發的RevMan軟件相比,該平臺可實現Meta回歸、Egger’s檢驗和Begg’s檢驗等功能,在交互式便捷操作的基礎上能夠極大的節省用戶在RevMan軟件中手動新建系統評價、添加納入研究、導入數據和添加偏倚風險等步驟的時間;與在R軟件、Stata軟件中直接操作相比,用戶在使用該平臺時無需編碼或掌握專業統計分析知識,只需數據按照格式要求將數據格式化并導入即可生成分析結果。同時,相較于傳統Meta分析軟件(RevMan、R和Stata),該平臺可顯著提升Meta分析和證據分級的效率。此外,在實現Meta分析的基礎上,該平臺通過文獻調研和專家共識對GRADE降級因素量化,實現對分析結果證據確信度的自動分級,并且在必要的時候用戶可自行調整降級結果,使得分級結果更加客觀、可信。在用戶確認最后分級結果后,可將證據確信度評估結果導出為“.doc”格式的證據匯總表文件以便用戶在撰寫文章時使用。
然而,當前版本的AutoMeta平臺仍存在著一定的局限性:① 在上傳數據前,用戶必須按照指定格式整理數據,將待分析的數據與偏倚風險評估結果同時上傳,否則平臺無法識別字段進而無法產生分析結果。② 在證據合成過程中,用戶需逐一切換統計模型或分析方法以獲取最終結果。③ 在證據確信度分級過程中,該平臺所設置的降級規則可能與GRADE指導原則有所差異,用戶可能需要結合GRADE指導原則,在自動分級基礎上自行修改分級結果,例如,在評估不精確性時,除臨床重要差異值之外,GRADE工作組認為如果系統評價的總病例數低于單個具有充分檢驗效能的常規樣本量試驗所需病例數,應該考慮因不精確性而降低證據確信度結果,此閾值稱為“最優信息樣本量”(optional information samplesize,OIS)[15];該平臺對不一致性的降級主要基于I2值,然而GRADE指南中要求同時考慮研究之間點估計值的分布、可信區間重疊程度以及I2值,若所有單個研究估計值都是有益的,那么唯一可能不確定的便是治療效果的強弱,因此,即便I2值較大,也不應因不一致性而降級[19]。此外,該平臺自動分級時未考慮重復降級的問題,例如,當不一致性是由納入研究人群特征間存在的差異引起時,可考慮不一致性和間接性聯合降級,或者不精確性是因為研究之間不一致性引起時,也可考慮聯合降級。④ 盡管我們盡最大可能的對GRADE降級標準進行了量化,但仍不可避免的存在一些主觀性,因此用戶在使用時還需對評估結果進行可重復性測試。
目前,該平臺1.0版本已可實現雙臂Meta分析和逆方差Meta分析及其證據確信度的自動分級,后續版本中將持續添加單臂Meta分析、網狀Meta分析、劑量-反應關系研究Meta分析和診斷試驗準確性Meta分析等針對不同數據類型的證據合成與分級模塊以滿足不同用戶對不同研究證據合成的需求。同時,也將著手開發用戶注冊和登錄等功能,以便用戶能夠在每次完成證據合成與分級后對數據和分析結果進行保存,增強用戶體驗,使用戶能夠方便地管理和查閱之前的研究數據,同時有助于實現數據的長期跟蹤與比較分析。