ChatGPT作為當前熱點的人工智能技術之一,在推動循證醫學學科發展方面發揮著重要作用,尤其體現在:擴展原始證據來源、提高證據獲取的效率、協助醫患共同決策、促進循證醫學教育和科普教育。當前ChatGPT正處于“技術萌芽期”,需要警惕其帶來的風險,例如“證據污染”、算法黑箱、安全漏洞和數字鴻溝等。為了平衡ChatGPT在循證醫學領域的積極作用與潛在風險,本研究從ChatGPT的倫理規范、證據來源、專家驗證和使用規范等角度給出了對策和建議。
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
ChatGPT一經發布,吹響了人工智能時代來臨的號角。這項最具革命性的科技成果,在循證醫學領域引起了廣泛關注。ChatGPT是人工智能技術驅動的自然語言處理工具,能夠進行流暢、高效的人機對話,而且還可以通過學習進行信息加工、信息歸納、語義理解和“二次創作”等,遠超其他人工智能產品。ChatGPT不僅僅是技術進步的一種體現,更是循證醫學領域的一個重要轉折點。當前ChatGPT正處于“技術萌芽期”,需要警惕其帶來的風險,例如大規模的“證據污染”、算法黑箱下ChatGPT信任存疑、潛在的安全漏洞對用戶隱私的威脅、加劇新一輪的數字鴻溝以及過度依賴ChatGPT可能會弱化人類思維能力等。鑒于此,制定有效的應對策略,將是推動循證醫學未來發展的關鍵。
1 ChatGPT對循證醫學學科發展的重要意義
1.1 ChatGPT擴展原始證據來源:重塑未來臨床決策的新路徑
ChatGPT不只是簡單復制現有資料庫中的內容,其本身就是全域數據匯聚融合推理能力的新型信息源[1]。在傳統的循證醫學中,盡管隨機對照試驗一直被視為臨床證據的“金標準”,證據強度級別最高,但它們往往無法反映真實世界中的復雜性和多樣性。而真實世界研究可以作為隨機對照試驗的補充,有助于推動循證醫學向更高質量發展。ChatGPT引入了“網絡-機器-用戶”的個體化知識生成要素,使科學知識生產呈現出數據驅動邏輯[2]。它可以與大數據深度融合,對真實世界中產生的醫療大數據進行挖掘和再加工,成為擴展循證醫學證據庫的重要工具。尤其在罕見病和新發傳染病領域,可以提供重要的臨床決策支持(clinical decision support,CDS)。自2022年ChatGPT公開發布以來,開展了諸多研究評估其在CDS領域的應用價值[3-10],見表1。

1.2 ChatGPT提高證據獲取的效率:推動循證醫學知識服務的智能化轉型
目前,循證醫學的知識服務主要依賴于文獻檢索,通過文獻數據和文獻元數據的索引,實現對海量醫學文獻的檢索服務,但也帶來了檢索全面性和準確性的問題。ChatGPT提供了基于自然語言處理的對話交互能力,集成了搜索引擎、語言翻譯、語義分析、場景問答、觀點提煉、圖像生成和圖像識別等多種應用場景。推動了索引式信息檢索方式向問答式知識應答方式的轉變,使得ChatGPT在與用戶的交互過程中表現出高度的智能化和靈活性,并且進一步提升了用戶體驗的完整性[11]。ChatGPT創造了一種動態連接方式,加速了特征、信息的交換、流動,以及關系的確認和瓦解[12]。因此,在實際應用中,用戶通過調整對話策略,可以使ChatGPT精確識別用戶的具體檢索需求,ChatGPT根據用戶的反饋進行信息的補充。當它面對未曾學習過的信息,ChatGPT可以通過內置搜索工具進行互聯網訪問,從而生成更加全面和多層次的響應。ChatGPT的知識內容并非一成不變,OpenAI公司定期對模型進行迭代訓練和更新。在與用戶交互過程中,ChatGPT也不斷生成新的知識內容,這些新知識內容融入ChatGPT的知識儲量中,實現了對ChatGPT的訓練優化。
除此之外,ChatGPT能夠從語義層面深入理解文獻內容,識別細粒度知識元,整合文獻中的觀點,形成大規模的知識網絡[11]。用戶僅需提交他們希望閱讀的文獻資源,ChatGPT便能自動進行文本提取、文本分類、關系揭示等操作,并以對話交互的方式為用戶提供相應的響應。這種方法在處理海量文獻與滿足用戶個性化需求之間架起了橋梁,使傳統的線性閱讀模式轉變為多維度的內容分析,從而顯著提高文獻閱讀的效率[2]。一些基于GPT開發的其他生成式人工智能工具也可以提高文獻閱讀的效率,如表2所示[13]。相較之下,人類在全面涉獵各類文獻并將其與證據相銜接方面存在著明顯的局限,而且處理速度遠不及ChatGPT[14]。假以時日,借助ChatGPT強大的“內容生產力”,二次研究的證據(例如系統評價、臨床實踐指南)可以在極短的時間內順利完成。

1.3 ChatGPT協助醫患共同決策:推動構建和諧的醫患關系
醫患共同決策作為打通循證醫學實踐“最后一公里”的重要方式,近年來受到高度重視[15]。醫患共同決策是醫生和患者基于最新的醫學研究證據以及患者的偏好和價值觀,共同選擇診斷、治療、管理和隨訪方案的決策過程[16]。傳統的醫患關系中,代表專業權威的醫生主導著整個醫療過程,患者被視為不懂醫學、蒙昧無知的被動承受者[17]。循證醫學改變了醫生絕對主導醫療的局面,將患者作為循證實踐服務的主體。然而,在我國醫患共同決策并未在臨床實踐中得到廣泛應用,主要歸結于以下三個方面:① 患者的健康素養和認知水平較低,與醫生的疾病知識不對等,導致的醫患溝通障礙[18];② 臨床醫生面臨巨大的工作壓力,難以具備足夠的時間和耐心幫助患者全面理解和正確看待自己的病情;③ 臨床醫生可能缺乏醫患溝通技巧、存在無意識的偏見,并且往往會高估患者的健康素養[19]。在這種背景下,ChatGPT的應用在促進醫患共同決策中展現出獨特優勢。首先,ChatGPT能夠基于患者的特定背景(例如不同國家、不同地區、不同宗教信仰)、健康狀況和需求,提供更多準確、易于獲取和理解的健康信息和臨床建議。有助于彌補患者在健康素養和認知水平方面的不足,幫助患者更加深入地了解自己的病情以及治療方案的利弊。其次,ChatGPT對患者的健康素養不做任何假設。它基于大數據分析、機器學習算法為患者提供客觀的醫療建議,因此理論上消除了無意識的偏見。除此之外,ChatGPT還能夠有效減輕臨床醫生的工作壓力。撰寫醫療文件是一個冗長且耗時的過程,ChatGPT已被證明在生成患者放射學報告[20]、診療記錄[21]和出院小結[22]等方面是有效的,從而提高臨床醫生的工作效率。這意味著臨床醫生可以有更多的時間和精力去關注每位患者的個體需求,提升醫患溝通的質量,更好地引導患者參與到決策過程中。
1.4 ChatGPT突破循證醫學教育瓶頸:開啟醫學教育新紀元
循證醫學教育是一種基于最佳醫學證據、教師專業技能和學習者偏好為基礎的醫學教育模式[23]。循證醫學教育方式主要以在校教育和繼續教育為主[23]。在校教育主要是通過在高校中針對臨床醫學類及相關專業的本科生、研究生所開展的一定學時的循證醫學課程。繼續教育是針對已參加工作的臨床醫護人員,其循證醫學課程的設置更注重滿足實際臨床需求。在我國,大多數院校仍采用“以學科為中心”的課程課堂教學模式,主要注重基礎知識、基本理論和基本技能的培養。這種教學模式存在教師教學觀念老化、教學內容陳舊、教學方法死板、個性化教育薄弱等問題。此外,繼續教育的人員多數是臨床一線的醫務人員,由于臨床工作繁忙,學習時間相對較少,使其有時難以協調學習與工作的關系[24]。因此,探索與循證醫學理念相符合的教學模式已成為當前研究的重點。我國政府也相繼推出系列指導文件,要求利用智能技術推動人才培養模式、教學方法改革,構建包含智能學習、交互式學習的新型教育體系[25]。ChatGPT的出現極大地沖擊了以知識傳遞為中心的循證醫學教育模式,有望改變我國循證醫學教育的時空場景和供給水平,使超越“基礎知識”范疇的個性化、多元化循證醫學教育模式成為可能。ChatGPT能夠借助用戶反饋實現強化學習、促成話題的全面覆蓋、并學習用戶的價值偏好,提供擬人化和貼近用戶需求的交互感受。對于醫學生而言,在與ChatGPT進行“一對一”的模擬對話過程中,它能夠根據學生的個體差異、學科需求和學習偏好,為其量身定制合適的教學內容、設計個性化的學習路徑,并提供智能化的輔導和答疑服務。其次,案例教學是貫徹循證醫學教學的主要形式之一。有研究發現,基于案例的教學方法有助于培養醫學生根據當前臨床問題檢索證據、評價證據、應用證據的能力,彌補了傳統教育中對實際操作的不足,實現理論與實踐的充分結合,提高了醫學生循證思維能力和循證實踐能力[23,26,27]。ChatGPT能夠模擬豐富的臨床場景,提供虛擬的醫學案例和病例分析,幫助醫學生在模擬環境中進行實踐操作和循證決策。對于教師而言,ChatGPT是教師教學資源更新和專業知識增長的驅動器。ChatGPT能夠迅速檢索、整合醫學領域的最新醫學文獻、研究報告和臨床實踐指南等信息,為教師提供及時、全面的醫學知識支持。教師也可以向ChatGPT咨詢定制化教學策略、課程計劃等,以促進教師教學經驗的累積[28-29]。
1.5 ChatGPT助力循證醫學科普教育:提升全民健康素養
循證醫學科普教育是提高社會公眾健康素養和認知水平的關鍵手段。它的目標是通過多樣化的方法,向公眾普及醫學科學知識、疾病預防和治療技巧、醫療保健措施以及健康生活理念。然而,我國面向社會公眾的循證醫學科普教育存在許多問題,例如科普內容過于專業化、科普手段單一、未采用最新的研究證據等問題。ChatGPT既可以直接面向大眾提供循證醫學科普知識,也可以輔助醫療專業人員和科普工作者,幫助他們在創作科普內容時檢索合理的、可靠的、最新的證據作為科普創作的參考資料。Ayoub等[19]認為醫學信息具有復雜性,而ChatGPT可以將信息轉化為更簡單易懂的表述,從而改善循證醫學的普及性和可及性。ChatGPT強大的自然語言處理能力能夠將抽象專業的文字內容轉化為通俗易懂的表達(例如繞口令、故事),也能夠利用圖形、色彩將復雜繁瑣的信息轉變為最直觀的科普圖片。這些創意表達方式不僅增加了科普內容的趣味性,也有助于提高社會公眾對復雜醫學信息的理解和記憶。例如,有研究顯示,57%的急性腹瀉患者不恰當地使用了抗生素[30]。因此,針對這一現象,可以利用ChatGPT生成警示避免抗生素濫用的科普圖片。
2 ChatGPT給循證醫學學科發展帶來的挑戰
2.1 大規模的“證據污染”風險
獲取可靠的研究證據是循證醫學研究的重要步驟。盡管ChatGPT可提高知識生產、整合、更新和傳播的效率,但其仍會產生看似合理的事實性錯誤(通常稱為“幻覺”)[31]。ChatGPT的性能很大程度上受訓練數據集的質量和范圍的影響[32]。如果訓練數據存在虛假信息和信息噪聲,那么ChatGPT在決策過程中可能會產生偏見。ChatGPT的訓練數據來源于互聯網上公開的通用知識庫(包括維基百科、各類書籍、ArXiv論文庫、StackExchange問答網站等基礎數據集)[33],這些海量信息難以經過實質性篩選、過濾。根據哥本哈根未來研究所(Copenhagen Institute for Futures Studies,CIFS)專家Timothy估計,如果生成式人工智能工具得到廣泛應用,到2025年至2030年,互聯網上99%至99.9%的內容將由人工智能生成[34]。因此,如果將大量信息來源不透明或混入了非同行評審的內容“投喂”給大模型,必然會導致“垃圾輸入,垃圾輸出”的惡果,即偽科學或毫無循證依據的證據的廣泛傳播。這種“信息污染”現象的存在會降低醫療信息資源利用的效率,長期存在會使搜尋信息的成本大于獲得信息的價值。在循證醫學領域中,采用正確方法來準確評估偏差和質量對于證據綜合至關重要[35]。而ChatGPT不具備甄別虛假信息的能力,沒有內置的機制來評價證據的真實性和可靠性。其本身就存在算法偏見,且不是為了回答醫學問題而開發的,它缺乏臨床經驗。因此,如果缺乏批判性的人類思維可能會導致放大或持續訓練數據中已存在的偏見和偏倚。對于準確率要求較高的循證醫學來說,大規模的“證據污染”會導致嚴重的后果,如疾病進展的誤判、延誤治療進程或對患者的生命和健康產生負面影響[36]。
2.2 算法黑箱下ChatGPT信任存疑
當生成式人工智能的決策過程被透明地展示出來時,用戶往往更容易信任其決策與建議。然而,ChatGPT的算法應用及其前身的基礎訓練集缺乏公開性和透明性,對于人類來說仍然是一個“黑匣子”,這有悖于透明、開放的科學發展趨勢,而且難以追溯ChatGPT的知識來源或識別其潛在的缺陷[37-39]。由此,為什么會產生當前的答案既無法被證實也無法被證偽,從而降低了患者和醫護人員對該技術的信任度[31]。在Temsah等[40]的研究中,評估了醫護人員對ChatGPT的信任度,研究結果顯示,醫護人員對ChatGPT做出醫療決策的能力表現出中等到低等的信任水平。Praveen等[41]的傾向性分析研究表明,20名醫生中僅有3名(15%)對使用ChatGPT進行咨詢持積極的態度,近42%的醫生對此表示負面看法,而43%的醫生則持中立態度。
2.3 ChatGPT存在嚴重的安全漏洞,用戶隱私或被泄露
ChatGPT面臨“最后一公里”難題可能會限制其在醫學領域的全面應用[42]。換言之,大型語言模型在臨床應用的門檻很高,即使高達99%的準確率仍不足以直接面向患者提供醫療指導(類似于自動駕駛汽車,即使99.9%的安全率也是不能接受的)。醫療人工智能的安全問題是其實踐過程中出現的一系列潛在風險和危害,包括程序錯誤、數據泄露、惡意攻擊等。ChatGPT中的技術漏洞可能對患者構成的風險超過個別醫生的誤診,因為自動化系統會導致錯誤的廣泛復制[43]。此外,ChatGPT的使用條款明確指出,為了提升系統性能,用戶的輸入將經過人工審查,即明確了其會收集全部的輸入信息。ChatGPT在醫學領域提供知識問答服務的過程中,通常包含患者敏感的個人信息(例如醫療記錄、健康狀況等)。而OpenAI公司并未提供技術手段對敏感數據進行匿名化或脫敏處理[44],這使得用戶面臨隱私泄露的風險。據西班牙《經濟學家報》網站3月31日報道,在指責OpenAI未能遵守用戶數據保護法規后,意大利負責監管數據的機構3月31日宣布將禁止在其境內使用ChatGPT[45]。這項限制措施發起前,OpenAI也發布了由用戶數據泄露問題引起的臨時中斷服務報告[46]。在資本逐利的浪潮中,OpenAI的商業屬性難以保證其是否將用戶隱私信息的安全性置于優先位置[47]。
2.4 ChatGPT的應用熱潮加劇新一輪的數字鴻溝
ChatGPT一方面確實降低了循證醫學知識的傳播門檻,讓社會公眾也有機會了解到無法企及的循證醫學知識。但另一方面由于ChatGPT的商業選擇涉及到某種形式的“付費墻”,又進一步加劇了新一輪的數字鴻溝。ChatGPT在研究預覽期間,可以免費使用[48]。然而,免費使用只是暫時的,該產品最終將被貨幣化[49]。2023年3月發布的ChatGPT-4已經采用了訂閱模式。在社會經濟較為優越的地區,機構或許能夠承擔得起獲取信息的費用,但對于低收入和中等收入國家的機構,這筆費用可能難以承受[50]。此外,ChatGPT生成的內容也必然包含算法偏見。當前“信息窮人”缺乏的并不僅僅是信息,更是缺乏應對算法偏見的算法素養和專業知識[51]。如果“信息窮人”過度依賴ChatGPT作為信息來源,那么他們會被困于算法編織的世界而逐漸失去主體性[51],進一步加劇“信息窮人”與“信息富人”之間的信息不平等。因此,在人工智能時代,能否在利用生成式人工智能提高生產力的同時又保持人的主體性?這個問題,成為了推動技術公平性和包容性的關鍵挑戰。
2.5 過度依賴ChatGPT可能會弱化人類思維
過度依賴生成式人工智能工具,很容易使用戶產生思維惰性,從而削弱他們的批判性和創造性思維能力。這種過度依賴對于循證醫學學科的發展是不利的。ChatGPT確實提高了信息檢索、管理和利用的效率,但這也可能導致一種對即時信息和快捷解答的過分依賴,從而削弱了醫療專業人員進行深度思考和獨立分析的能力。ChatGPT作為一種新興技術,其迅速普及和廣泛應用無疑是技術革命的一個縮影。技術的進步本應是推動社會前進的動力,但如果過度依賴,則可能變成制約個體思維發展和適應新環境的桎梏。對于醫學生而言,過度依賴ChatGPT,會將學習過程扁平化、碎片化,不利于進行系統學習和深入思考[52]。此外,由于人工智能系統在處理問題時往往采用固定的算法和邏輯,這可能會導致人們在接受其提供的信息和解決方案時形成一種“思維套路”,從而導致思維的同質化。
3 ChatGPT在循證醫學領域中的發展策略
3.1 人工智能的倫理規范:建立監管和質量控制框架
為了應對人工智能給循證醫學帶來的倫理挑戰,應當通過建立一個多元協調機制來促進ChatGPT在知識轉化中發揮的積極作用。例如,針對政府、醫療機構和人工智能公司這三個主體建立的監管框架綜合考慮了法律倫理、人文倫理、算法倫理和信息倫理[53]。首先,政府應制定相關政策,明確人工智能在醫療領域應用的法律責任邊界,制定法律來維護患者數據和隱私,負責審查和批準新的醫療技術和人工智能應用,確保它們符合規定的安全和性能標準。其次,醫療機構在采用人工智能技術時,需嚴格遵守醫療行業的標準和倫理規范,即使使用人工智能進行輔助診斷和治療,醫生對患者的個人關注、專業判斷和人文關懷仍然不可或缺。最后,人工智能公司應負起技術創新的責任,持續改進算法,并嚴格遵守隱私法律。這包括開發大規模泄漏檢測和即時響應分析系統,采取定制化的方法以防止數據泄露。同時,公司應提高推理響應的透明度,通過持續的驗證和評估減少偏差和錯誤,并實施技術的透明化管理。
3.2 人工智能的倫理觀:將“以患者為中心”融入科技
人工智能的發展和應用應當反映和服務于人類的思想和意志,而不是取而代之。在循證醫學領域,這一原則尤為重要。循證醫學建立的初衷就是呼吁對患者核心需求的滿足。把患者價值觀和所處境況放至與科學證據、臨床經驗同等地位,兼顧了醫學的科學性和社會性。這是以人為本,促進現代醫學發展趨于完整的體現[54]。這意味著在應用人工智能輔助醫療決策時,應充分考慮患者的個體化需求。倫理學家們指出,如果在醫療決策過程中,人工智能系統僅僅提供基于證據的選項,而不考慮或納入患者的個人偏好和價值觀,那么這個過程不能被認為是真正的以患者為中心[55]。因此,為了確保使用人工智能時從根本上實現醫患共同決策,患者的偏好必須納入設計中,這種設計方法被稱為“價值敏感設計”。其核心理念是在整個設計過程中,從概念化到應用,都要考慮和反映人類的價值觀和道德原則。然而,將患者個體價值觀納入算法設計仍需要進一步研究。
3.3 人工智能的可靠性:從源頭上遏制垃圾信息的傳播與擴散
考慮到醫學研究和技術的快速發展,缺乏高質量醫療信息可能會影響其在循證實踐中的可靠性。為了確保ChatGPT可以訪問高質量且具有代表性的醫學信息源,我們建議生成式聊天機器人使用的信息來源應僅限于經過同行評審已發布的數據,即經過科學驗證和專業審查的資料。從源頭上避免無效、低質量的醫學信息隨意散播,以至于為科研人員和臨床醫生提供最專業的醫學知識搜索和循證問答服務。同時,應建立完善的數據循證體系,附加數據證據鏈、數據來源詳情,實現對風險的有效管控和溯源。
3.4 人工智能的適用性:進行跨學科團隊合作驗證
一個由多學科專家組成的驗證過程仍然是強制性的,這包括醫學、數據科學、倫理學以及政策制定等不同領域的專家共同參與[56]。通過這種跨學科合作,可以確保這些大型語言模型在開發時不僅考慮到了醫療需求和面臨的挑戰,還考慮到了使用這些技術可能帶來的倫理、法律和社會影響。其次,建立一個反饋機制,允許醫療專業人員和研究者對ChatGPT的輸出結果提供評價和建議。這些反饋將被用于訓練和優化ChatGPT的算法,使其更好地適應循證醫學領域的特殊需求。
3.5 人工智能的公正性:確保ChatGPT平等服務所有人群
ChatGPT的開發和實施應當遵循一項核心原則:確保所有社會成員,不論其社會經濟地位或其他人口特征,都能平等地獲得其服務并從中受益[57]。為此,開發者必須特別關注系統的普及性和無障礙性,積極消除ChatGPT中的潛在偏見和刻板印象。此外,ChatGPT需在不同因素之間權衡取舍—在輔助臨床決策時,成本效益、不惜代價的療效、便利性、副作用最小還是醫療公正[58]?這需要一個平衡的視角,不僅要考慮技術的先進性和實用性,也要充分考慮到醫學倫理和社會責任。
3.6 醫學研究的透明度:制訂使用生成式人工智能工具的報告指南
建議世界衛生組織指南實施與知識轉化合作中心制訂在醫學領域使用ChatGPT等類似生成式人工智能對話工具的報告指南。當使用ChatGPT等類似生成式人工智能對話工具進行論文撰寫或醫學研究時,應遵循報告標準并提供有關該過程的詳細信息。Luo等[58]已表示計劃成立一個國際多學科專家組織,制訂ChatGPT在醫學研究中的應用指南,旨在提高ChatGPT等生成式人工智能在醫學研究領域中使用的透明度。
3.7 臨床決策的理性和科學性:保持獨立性和批判性思維
在循證醫學中,我們應強調人工智能工具的輔助性,而非替代性。ChatGPT嚴密的語言邏輯導致其生成的虛假信息具有很強的迷惑性。因此,在循證實踐中,醫護人員使用ChatGPT做出臨床決策之前,應當采用人工監督,并持批判態度去看待所獲得的研究成果、正確評估和應用證據,以避免對虛假信息的盲目信任[59]。醫護人員在利用人工智能技術獲取最新證據輔助決策時,必須保持獨立性和批判性思維,以確保決策過程的理性和科學性。
4 結語
ChatGPT引領了一種全新的知識檢索、歸類和呈現模式,將知識獲取、整合與傳播過程以繁化簡,成為新一代具有顛覆能力的智能媒介。ChatGPT帶來的改變已是大勢所趨,但它依然不會取代人類的醫療判斷和臨床經驗。ChatGPT的出現只是人工智能在醫療領域改革的起點,而非終點。循證醫學的發展必須把握機遇,積極應用ChatGPT等人工智能技術挖掘多維證據,對所有可用數據進行深度整合和融合,推動循證醫學學科發展。
ChatGPT一經發布,吹響了人工智能時代來臨的號角。這項最具革命性的科技成果,在循證醫學領域引起了廣泛關注。ChatGPT是人工智能技術驅動的自然語言處理工具,能夠進行流暢、高效的人機對話,而且還可以通過學習進行信息加工、信息歸納、語義理解和“二次創作”等,遠超其他人工智能產品。ChatGPT不僅僅是技術進步的一種體現,更是循證醫學領域的一個重要轉折點。當前ChatGPT正處于“技術萌芽期”,需要警惕其帶來的風險,例如大規模的“證據污染”、算法黑箱下ChatGPT信任存疑、潛在的安全漏洞對用戶隱私的威脅、加劇新一輪的數字鴻溝以及過度依賴ChatGPT可能會弱化人類思維能力等。鑒于此,制定有效的應對策略,將是推動循證醫學未來發展的關鍵。
1 ChatGPT對循證醫學學科發展的重要意義
1.1 ChatGPT擴展原始證據來源:重塑未來臨床決策的新路徑
ChatGPT不只是簡單復制現有資料庫中的內容,其本身就是全域數據匯聚融合推理能力的新型信息源[1]。在傳統的循證醫學中,盡管隨機對照試驗一直被視為臨床證據的“金標準”,證據強度級別最高,但它們往往無法反映真實世界中的復雜性和多樣性。而真實世界研究可以作為隨機對照試驗的補充,有助于推動循證醫學向更高質量發展。ChatGPT引入了“網絡-機器-用戶”的個體化知識生成要素,使科學知識生產呈現出數據驅動邏輯[2]。它可以與大數據深度融合,對真實世界中產生的醫療大數據進行挖掘和再加工,成為擴展循證醫學證據庫的重要工具。尤其在罕見病和新發傳染病領域,可以提供重要的臨床決策支持(clinical decision support,CDS)。自2022年ChatGPT公開發布以來,開展了諸多研究評估其在CDS領域的應用價值[3-10],見表1。

1.2 ChatGPT提高證據獲取的效率:推動循證醫學知識服務的智能化轉型
目前,循證醫學的知識服務主要依賴于文獻檢索,通過文獻數據和文獻元數據的索引,實現對海量醫學文獻的檢索服務,但也帶來了檢索全面性和準確性的問題。ChatGPT提供了基于自然語言處理的對話交互能力,集成了搜索引擎、語言翻譯、語義分析、場景問答、觀點提煉、圖像生成和圖像識別等多種應用場景。推動了索引式信息檢索方式向問答式知識應答方式的轉變,使得ChatGPT在與用戶的交互過程中表現出高度的智能化和靈活性,并且進一步提升了用戶體驗的完整性[11]。ChatGPT創造了一種動態連接方式,加速了特征、信息的交換、流動,以及關系的確認和瓦解[12]。因此,在實際應用中,用戶通過調整對話策略,可以使ChatGPT精確識別用戶的具體檢索需求,ChatGPT根據用戶的反饋進行信息的補充。當它面對未曾學習過的信息,ChatGPT可以通過內置搜索工具進行互聯網訪問,從而生成更加全面和多層次的響應。ChatGPT的知識內容并非一成不變,OpenAI公司定期對模型進行迭代訓練和更新。在與用戶交互過程中,ChatGPT也不斷生成新的知識內容,這些新知識內容融入ChatGPT的知識儲量中,實現了對ChatGPT的訓練優化。
除此之外,ChatGPT能夠從語義層面深入理解文獻內容,識別細粒度知識元,整合文獻中的觀點,形成大規模的知識網絡[11]。用戶僅需提交他們希望閱讀的文獻資源,ChatGPT便能自動進行文本提取、文本分類、關系揭示等操作,并以對話交互的方式為用戶提供相應的響應。這種方法在處理海量文獻與滿足用戶個性化需求之間架起了橋梁,使傳統的線性閱讀模式轉變為多維度的內容分析,從而顯著提高文獻閱讀的效率[2]。一些基于GPT開發的其他生成式人工智能工具也可以提高文獻閱讀的效率,如表2所示[13]。相較之下,人類在全面涉獵各類文獻并將其與證據相銜接方面存在著明顯的局限,而且處理速度遠不及ChatGPT[14]。假以時日,借助ChatGPT強大的“內容生產力”,二次研究的證據(例如系統評價、臨床實踐指南)可以在極短的時間內順利完成。

1.3 ChatGPT協助醫患共同決策:推動構建和諧的醫患關系
醫患共同決策作為打通循證醫學實踐“最后一公里”的重要方式,近年來受到高度重視[15]。醫患共同決策是醫生和患者基于最新的醫學研究證據以及患者的偏好和價值觀,共同選擇診斷、治療、管理和隨訪方案的決策過程[16]。傳統的醫患關系中,代表專業權威的醫生主導著整個醫療過程,患者被視為不懂醫學、蒙昧無知的被動承受者[17]。循證醫學改變了醫生絕對主導醫療的局面,將患者作為循證實踐服務的主體。然而,在我國醫患共同決策并未在臨床實踐中得到廣泛應用,主要歸結于以下三個方面:① 患者的健康素養和認知水平較低,與醫生的疾病知識不對等,導致的醫患溝通障礙[18];② 臨床醫生面臨巨大的工作壓力,難以具備足夠的時間和耐心幫助患者全面理解和正確看待自己的病情;③ 臨床醫生可能缺乏醫患溝通技巧、存在無意識的偏見,并且往往會高估患者的健康素養[19]。在這種背景下,ChatGPT的應用在促進醫患共同決策中展現出獨特優勢。首先,ChatGPT能夠基于患者的特定背景(例如不同國家、不同地區、不同宗教信仰)、健康狀況和需求,提供更多準確、易于獲取和理解的健康信息和臨床建議。有助于彌補患者在健康素養和認知水平方面的不足,幫助患者更加深入地了解自己的病情以及治療方案的利弊。其次,ChatGPT對患者的健康素養不做任何假設。它基于大數據分析、機器學習算法為患者提供客觀的醫療建議,因此理論上消除了無意識的偏見。除此之外,ChatGPT還能夠有效減輕臨床醫生的工作壓力。撰寫醫療文件是一個冗長且耗時的過程,ChatGPT已被證明在生成患者放射學報告[20]、診療記錄[21]和出院小結[22]等方面是有效的,從而提高臨床醫生的工作效率。這意味著臨床醫生可以有更多的時間和精力去關注每位患者的個體需求,提升醫患溝通的質量,更好地引導患者參與到決策過程中。
1.4 ChatGPT突破循證醫學教育瓶頸:開啟醫學教育新紀元
循證醫學教育是一種基于最佳醫學證據、教師專業技能和學習者偏好為基礎的醫學教育模式[23]。循證醫學教育方式主要以在校教育和繼續教育為主[23]。在校教育主要是通過在高校中針對臨床醫學類及相關專業的本科生、研究生所開展的一定學時的循證醫學課程。繼續教育是針對已參加工作的臨床醫護人員,其循證醫學課程的設置更注重滿足實際臨床需求。在我國,大多數院校仍采用“以學科為中心”的課程課堂教學模式,主要注重基礎知識、基本理論和基本技能的培養。這種教學模式存在教師教學觀念老化、教學內容陳舊、教學方法死板、個性化教育薄弱等問題。此外,繼續教育的人員多數是臨床一線的醫務人員,由于臨床工作繁忙,學習時間相對較少,使其有時難以協調學習與工作的關系[24]。因此,探索與循證醫學理念相符合的教學模式已成為當前研究的重點。我國政府也相繼推出系列指導文件,要求利用智能技術推動人才培養模式、教學方法改革,構建包含智能學習、交互式學習的新型教育體系[25]。ChatGPT的出現極大地沖擊了以知識傳遞為中心的循證醫學教育模式,有望改變我國循證醫學教育的時空場景和供給水平,使超越“基礎知識”范疇的個性化、多元化循證醫學教育模式成為可能。ChatGPT能夠借助用戶反饋實現強化學習、促成話題的全面覆蓋、并學習用戶的價值偏好,提供擬人化和貼近用戶需求的交互感受。對于醫學生而言,在與ChatGPT進行“一對一”的模擬對話過程中,它能夠根據學生的個體差異、學科需求和學習偏好,為其量身定制合適的教學內容、設計個性化的學習路徑,并提供智能化的輔導和答疑服務。其次,案例教學是貫徹循證醫學教學的主要形式之一。有研究發現,基于案例的教學方法有助于培養醫學生根據當前臨床問題檢索證據、評價證據、應用證據的能力,彌補了傳統教育中對實際操作的不足,實現理論與實踐的充分結合,提高了醫學生循證思維能力和循證實踐能力[23,26,27]。ChatGPT能夠模擬豐富的臨床場景,提供虛擬的醫學案例和病例分析,幫助醫學生在模擬環境中進行實踐操作和循證決策。對于教師而言,ChatGPT是教師教學資源更新和專業知識增長的驅動器。ChatGPT能夠迅速檢索、整合醫學領域的最新醫學文獻、研究報告和臨床實踐指南等信息,為教師提供及時、全面的醫學知識支持。教師也可以向ChatGPT咨詢定制化教學策略、課程計劃等,以促進教師教學經驗的累積[28-29]。
1.5 ChatGPT助力循證醫學科普教育:提升全民健康素養
循證醫學科普教育是提高社會公眾健康素養和認知水平的關鍵手段。它的目標是通過多樣化的方法,向公眾普及醫學科學知識、疾病預防和治療技巧、醫療保健措施以及健康生活理念。然而,我國面向社會公眾的循證醫學科普教育存在許多問題,例如科普內容過于專業化、科普手段單一、未采用最新的研究證據等問題。ChatGPT既可以直接面向大眾提供循證醫學科普知識,也可以輔助醫療專業人員和科普工作者,幫助他們在創作科普內容時檢索合理的、可靠的、最新的證據作為科普創作的參考資料。Ayoub等[19]認為醫學信息具有復雜性,而ChatGPT可以將信息轉化為更簡單易懂的表述,從而改善循證醫學的普及性和可及性。ChatGPT強大的自然語言處理能力能夠將抽象專業的文字內容轉化為通俗易懂的表達(例如繞口令、故事),也能夠利用圖形、色彩將復雜繁瑣的信息轉變為最直觀的科普圖片。這些創意表達方式不僅增加了科普內容的趣味性,也有助于提高社會公眾對復雜醫學信息的理解和記憶。例如,有研究顯示,57%的急性腹瀉患者不恰當地使用了抗生素[30]。因此,針對這一現象,可以利用ChatGPT生成警示避免抗生素濫用的科普圖片。
2 ChatGPT給循證醫學學科發展帶來的挑戰
2.1 大規模的“證據污染”風險
獲取可靠的研究證據是循證醫學研究的重要步驟。盡管ChatGPT可提高知識生產、整合、更新和傳播的效率,但其仍會產生看似合理的事實性錯誤(通常稱為“幻覺”)[31]。ChatGPT的性能很大程度上受訓練數據集的質量和范圍的影響[32]。如果訓練數據存在虛假信息和信息噪聲,那么ChatGPT在決策過程中可能會產生偏見。ChatGPT的訓練數據來源于互聯網上公開的通用知識庫(包括維基百科、各類書籍、ArXiv論文庫、StackExchange問答網站等基礎數據集)[33],這些海量信息難以經過實質性篩選、過濾。根據哥本哈根未來研究所(Copenhagen Institute for Futures Studies,CIFS)專家Timothy估計,如果生成式人工智能工具得到廣泛應用,到2025年至2030年,互聯網上99%至99.9%的內容將由人工智能生成[34]。因此,如果將大量信息來源不透明或混入了非同行評審的內容“投喂”給大模型,必然會導致“垃圾輸入,垃圾輸出”的惡果,即偽科學或毫無循證依據的證據的廣泛傳播。這種“信息污染”現象的存在會降低醫療信息資源利用的效率,長期存在會使搜尋信息的成本大于獲得信息的價值。在循證醫學領域中,采用正確方法來準確評估偏差和質量對于證據綜合至關重要[35]。而ChatGPT不具備甄別虛假信息的能力,沒有內置的機制來評價證據的真實性和可靠性。其本身就存在算法偏見,且不是為了回答醫學問題而開發的,它缺乏臨床經驗。因此,如果缺乏批判性的人類思維可能會導致放大或持續訓練數據中已存在的偏見和偏倚。對于準確率要求較高的循證醫學來說,大規模的“證據污染”會導致嚴重的后果,如疾病進展的誤判、延誤治療進程或對患者的生命和健康產生負面影響[36]。
2.2 算法黑箱下ChatGPT信任存疑
當生成式人工智能的決策過程被透明地展示出來時,用戶往往更容易信任其決策與建議。然而,ChatGPT的算法應用及其前身的基礎訓練集缺乏公開性和透明性,對于人類來說仍然是一個“黑匣子”,這有悖于透明、開放的科學發展趨勢,而且難以追溯ChatGPT的知識來源或識別其潛在的缺陷[37-39]。由此,為什么會產生當前的答案既無法被證實也無法被證偽,從而降低了患者和醫護人員對該技術的信任度[31]。在Temsah等[40]的研究中,評估了醫護人員對ChatGPT的信任度,研究結果顯示,醫護人員對ChatGPT做出醫療決策的能力表現出中等到低等的信任水平。Praveen等[41]的傾向性分析研究表明,20名醫生中僅有3名(15%)對使用ChatGPT進行咨詢持積極的態度,近42%的醫生對此表示負面看法,而43%的醫生則持中立態度。
2.3 ChatGPT存在嚴重的安全漏洞,用戶隱私或被泄露
ChatGPT面臨“最后一公里”難題可能會限制其在醫學領域的全面應用[42]。換言之,大型語言模型在臨床應用的門檻很高,即使高達99%的準確率仍不足以直接面向患者提供醫療指導(類似于自動駕駛汽車,即使99.9%的安全率也是不能接受的)。醫療人工智能的安全問題是其實踐過程中出現的一系列潛在風險和危害,包括程序錯誤、數據泄露、惡意攻擊等。ChatGPT中的技術漏洞可能對患者構成的風險超過個別醫生的誤診,因為自動化系統會導致錯誤的廣泛復制[43]。此外,ChatGPT的使用條款明確指出,為了提升系統性能,用戶的輸入將經過人工審查,即明確了其會收集全部的輸入信息。ChatGPT在醫學領域提供知識問答服務的過程中,通常包含患者敏感的個人信息(例如醫療記錄、健康狀況等)。而OpenAI公司并未提供技術手段對敏感數據進行匿名化或脫敏處理[44],這使得用戶面臨隱私泄露的風險。據西班牙《經濟學家報》網站3月31日報道,在指責OpenAI未能遵守用戶數據保護法規后,意大利負責監管數據的機構3月31日宣布將禁止在其境內使用ChatGPT[45]。這項限制措施發起前,OpenAI也發布了由用戶數據泄露問題引起的臨時中斷服務報告[46]。在資本逐利的浪潮中,OpenAI的商業屬性難以保證其是否將用戶隱私信息的安全性置于優先位置[47]。
2.4 ChatGPT的應用熱潮加劇新一輪的數字鴻溝
ChatGPT一方面確實降低了循證醫學知識的傳播門檻,讓社會公眾也有機會了解到無法企及的循證醫學知識。但另一方面由于ChatGPT的商業選擇涉及到某種形式的“付費墻”,又進一步加劇了新一輪的數字鴻溝。ChatGPT在研究預覽期間,可以免費使用[48]。然而,免費使用只是暫時的,該產品最終將被貨幣化[49]。2023年3月發布的ChatGPT-4已經采用了訂閱模式。在社會經濟較為優越的地區,機構或許能夠承擔得起獲取信息的費用,但對于低收入和中等收入國家的機構,這筆費用可能難以承受[50]。此外,ChatGPT生成的內容也必然包含算法偏見。當前“信息窮人”缺乏的并不僅僅是信息,更是缺乏應對算法偏見的算法素養和專業知識[51]。如果“信息窮人”過度依賴ChatGPT作為信息來源,那么他們會被困于算法編織的世界而逐漸失去主體性[51],進一步加劇“信息窮人”與“信息富人”之間的信息不平等。因此,在人工智能時代,能否在利用生成式人工智能提高生產力的同時又保持人的主體性?這個問題,成為了推動技術公平性和包容性的關鍵挑戰。
2.5 過度依賴ChatGPT可能會弱化人類思維
過度依賴生成式人工智能工具,很容易使用戶產生思維惰性,從而削弱他們的批判性和創造性思維能力。這種過度依賴對于循證醫學學科的發展是不利的。ChatGPT確實提高了信息檢索、管理和利用的效率,但這也可能導致一種對即時信息和快捷解答的過分依賴,從而削弱了醫療專業人員進行深度思考和獨立分析的能力。ChatGPT作為一種新興技術,其迅速普及和廣泛應用無疑是技術革命的一個縮影。技術的進步本應是推動社會前進的動力,但如果過度依賴,則可能變成制約個體思維發展和適應新環境的桎梏。對于醫學生而言,過度依賴ChatGPT,會將學習過程扁平化、碎片化,不利于進行系統學習和深入思考[52]。此外,由于人工智能系統在處理問題時往往采用固定的算法和邏輯,這可能會導致人們在接受其提供的信息和解決方案時形成一種“思維套路”,從而導致思維的同質化。
3 ChatGPT在循證醫學領域中的發展策略
3.1 人工智能的倫理規范:建立監管和質量控制框架
為了應對人工智能給循證醫學帶來的倫理挑戰,應當通過建立一個多元協調機制來促進ChatGPT在知識轉化中發揮的積極作用。例如,針對政府、醫療機構和人工智能公司這三個主體建立的監管框架綜合考慮了法律倫理、人文倫理、算法倫理和信息倫理[53]。首先,政府應制定相關政策,明確人工智能在醫療領域應用的法律責任邊界,制定法律來維護患者數據和隱私,負責審查和批準新的醫療技術和人工智能應用,確保它們符合規定的安全和性能標準。其次,醫療機構在采用人工智能技術時,需嚴格遵守醫療行業的標準和倫理規范,即使使用人工智能進行輔助診斷和治療,醫生對患者的個人關注、專業判斷和人文關懷仍然不可或缺。最后,人工智能公司應負起技術創新的責任,持續改進算法,并嚴格遵守隱私法律。這包括開發大規模泄漏檢測和即時響應分析系統,采取定制化的方法以防止數據泄露。同時,公司應提高推理響應的透明度,通過持續的驗證和評估減少偏差和錯誤,并實施技術的透明化管理。
3.2 人工智能的倫理觀:將“以患者為中心”融入科技
人工智能的發展和應用應當反映和服務于人類的思想和意志,而不是取而代之。在循證醫學領域,這一原則尤為重要。循證醫學建立的初衷就是呼吁對患者核心需求的滿足。把患者價值觀和所處境況放至與科學證據、臨床經驗同等地位,兼顧了醫學的科學性和社會性。這是以人為本,促進現代醫學發展趨于完整的體現[54]。這意味著在應用人工智能輔助醫療決策時,應充分考慮患者的個體化需求。倫理學家們指出,如果在醫療決策過程中,人工智能系統僅僅提供基于證據的選項,而不考慮或納入患者的個人偏好和價值觀,那么這個過程不能被認為是真正的以患者為中心[55]。因此,為了確保使用人工智能時從根本上實現醫患共同決策,患者的偏好必須納入設計中,這種設計方法被稱為“價值敏感設計”。其核心理念是在整個設計過程中,從概念化到應用,都要考慮和反映人類的價值觀和道德原則。然而,將患者個體價值觀納入算法設計仍需要進一步研究。
3.3 人工智能的可靠性:從源頭上遏制垃圾信息的傳播與擴散
考慮到醫學研究和技術的快速發展,缺乏高質量醫療信息可能會影響其在循證實踐中的可靠性。為了確保ChatGPT可以訪問高質量且具有代表性的醫學信息源,我們建議生成式聊天機器人使用的信息來源應僅限于經過同行評審已發布的數據,即經過科學驗證和專業審查的資料。從源頭上避免無效、低質量的醫學信息隨意散播,以至于為科研人員和臨床醫生提供最專業的醫學知識搜索和循證問答服務。同時,應建立完善的數據循證體系,附加數據證據鏈、數據來源詳情,實現對風險的有效管控和溯源。
3.4 人工智能的適用性:進行跨學科團隊合作驗證
一個由多學科專家組成的驗證過程仍然是強制性的,這包括醫學、數據科學、倫理學以及政策制定等不同領域的專家共同參與[56]。通過這種跨學科合作,可以確保這些大型語言模型在開發時不僅考慮到了醫療需求和面臨的挑戰,還考慮到了使用這些技術可能帶來的倫理、法律和社會影響。其次,建立一個反饋機制,允許醫療專業人員和研究者對ChatGPT的輸出結果提供評價和建議。這些反饋將被用于訓練和優化ChatGPT的算法,使其更好地適應循證醫學領域的特殊需求。
3.5 人工智能的公正性:確保ChatGPT平等服務所有人群
ChatGPT的開發和實施應當遵循一項核心原則:確保所有社會成員,不論其社會經濟地位或其他人口特征,都能平等地獲得其服務并從中受益[57]。為此,開發者必須特別關注系統的普及性和無障礙性,積極消除ChatGPT中的潛在偏見和刻板印象。此外,ChatGPT需在不同因素之間權衡取舍—在輔助臨床決策時,成本效益、不惜代價的療效、便利性、副作用最小還是醫療公正[58]?這需要一個平衡的視角,不僅要考慮技術的先進性和實用性,也要充分考慮到醫學倫理和社會責任。
3.6 醫學研究的透明度:制訂使用生成式人工智能工具的報告指南
建議世界衛生組織指南實施與知識轉化合作中心制訂在醫學領域使用ChatGPT等類似生成式人工智能對話工具的報告指南。當使用ChatGPT等類似生成式人工智能對話工具進行論文撰寫或醫學研究時,應遵循報告標準并提供有關該過程的詳細信息。Luo等[58]已表示計劃成立一個國際多學科專家組織,制訂ChatGPT在醫學研究中的應用指南,旨在提高ChatGPT等生成式人工智能在醫學研究領域中使用的透明度。
3.7 臨床決策的理性和科學性:保持獨立性和批判性思維
在循證醫學中,我們應強調人工智能工具的輔助性,而非替代性。ChatGPT嚴密的語言邏輯導致其生成的虛假信息具有很強的迷惑性。因此,在循證實踐中,醫護人員使用ChatGPT做出臨床決策之前,應當采用人工監督,并持批判態度去看待所獲得的研究成果、正確評估和應用證據,以避免對虛假信息的盲目信任[59]。醫護人員在利用人工智能技術獲取最新證據輔助決策時,必須保持獨立性和批判性思維,以確保決策過程的理性和科學性。
4 結語
ChatGPT引領了一種全新的知識檢索、歸類和呈現模式,將知識獲取、整合與傳播過程以繁化簡,成為新一代具有顛覆能力的智能媒介。ChatGPT帶來的改變已是大勢所趨,但它依然不會取代人類的醫療判斷和臨床經驗。ChatGPT的出現只是人工智能在醫療領域改革的起點,而非終點。循證醫學的發展必須把握機遇,積極應用ChatGPT等人工智能技術挖掘多維證據,對所有可用數據進行深度整合和融合,推動循證醫學學科發展。