人工智能驅動的科學研究 (AI for science,AI4S)技術在醫療領域展現出巨大的潛力和影響力,在計算醫學思想指導下重新定義醫學科學的研究范式。我們展望了AI4S在醫療健康領域引導范式改變的主要技術趨勢:知識驅動型AI4S通過大規模文獻挖掘和數據整合成為理解疾病機制和開發新藥的重要工具;數據驅動型AI4S則通過理解臨床和人類相關組學數據,揭示個體差異和疾病機制,進而建立患者數字化孿生(digital twins)模型,支持以患者為中心的思想指導下的藥物研發和個性化醫療。AI4S基于真實患者的數字孿生模型,開發模擬藥物真實機制的“電子藥物”(即藥物的數字孿生)。這種模型采用靈活策略,通過云端展開大規模虛擬臨床試驗評估藥物療效和安全性,隨后理性開展真實臨床試驗。這一方法大幅降低藥物臨床研發成本并顯著提高成功率。盡管AI4S技術面臨著諸多挑戰,包括數據規模、質量控制、模型可解釋性、從科學到工程的轉化過程以及監管方面的要求,但我們期待AI4S技術的應用改變藥物研發和臨床實踐的范式,為醫療領域帶來革命性的變革。這一變革不僅為醫學科學的發展帶來新的機遇和挑戰,更重要的是,為人類提供了必要但個性化的健康保障。
引用本文: 張春莉, 牛鋼. 人工智能驅動的科學研究(AI4S)在藥物研發與臨床實踐中的應用進展. 中國胸心血管外科臨床雜志, 2024, 31(10): 1392-1399. doi: 10.7507/1007-4848.202405020 復制
版權信息: ?四川大學華西醫院華西期刊社《中國胸心血管外科臨床雜志》版權所有,未經授權不得轉載、改編
在當今數字化時代,人工智能(artificial intelligence,AI)技術迅猛發展,尤其是生成式技術,如ChatGPT(chat generative pre-trained transformer),對人類生活的影響日益深遠。我們逐漸聚焦于開發服務于AI驅動的科學研究(AI for science,AI4S)模型。AI4S模型以數據驅動為特點,通過分析海量的科學依據,深入理解其內在規律和分布特征,從而自主生成新的、合理的、有價值的洞見,如藥物機制、分子結構、工藝路線、試驗方案等[1]。這種洞見的生成不僅包括新內容,還包括新的理解[2]。最重要的是,AI4S能夠將真實人類個體轉化為數字世界中的虛擬對應體,即數字孿生[3]。因此,AI4S在藥物研發與臨床實踐中的應用已經展現出巨大的潛力和影響力。我們正在見證知識驅動型AI4S模型、數據驅動型AI4S模型、電子藥物及虛擬臨床試驗等創新技術的嶄露頭角,這些技術正在重新定義醫學科學的面貌。本文將探討AI4S在藥物研發和臨床實踐中應用所取得的進步,并展望AI4S在數字化時代醫療中的發展趨勢。
1 什么是AI4S
AI4S 是指利用AI技術來輔助科學家進行數據分析、模式識別和預測,從而有效解決復雜科學問題并推動科學研究和發現。AI在多個領域發揮著重要作用,包括但不限于生物學、醫學、藥物研發、氣候科學、天體物理學、材料科學、認知科學、機器人技術和量子計算等[4]。通過機器學習、深度學習和自然語言處理等AI技術,科學家能夠加速研究進程、獲得新的見解并解決以往難以攻克的問題。因此,AI4S正逐漸成為現代科學研究中不可或缺的工具,與人類的專業知識和創造力相輔相成。
盡管AI4S在某些研究領域表現出色,但目前仍面臨一些局限性和挑戰。首先,AI4S缺乏人類科學家的創造力和直覺,而許多重大科學突破源于科學家的創新思維和跨學科洞察力。其次,AI4S在確定因果關系方面仍然面臨挑戰,盡管擅長發現相關性,但科學研究通常需要設計實驗來檢驗假設并確定因果機制,這方面AI4S仍有不足。再者,AI4S在掌握領域知識和理解復雜科學概念方面存在困難,盡管可以從大量文獻中學習,但要全面掌握一個領域的深度知識仍具有挑戰性。此外,科學研究通常涉及“與人相關的”倫理考量和價值判斷,AI4S目前不能真正與人共情,因此只能模仿人類做出類似判斷,難以在關乎人類群體和個體利益的決策上完全令人信服。最后,雖然AI4S可以在某些任務中提供幫助,但由于缺乏目標和動機,許多科學研究仍必需人類科學家的設計和監督。盡管存在這些局限性,AI4S在科學研究中的應用正在不斷發展。未來,AI4S可能會在分析大規模數據集、優化實驗參數和預測復雜系統的行為等任務上超越人類科學家。因此,與人類科學家的創造力、領域專長和批判性思維在科學研究中緊密合作,AI和人類科學家的協同工作可能是推動科學發現的最佳途徑。
過去10年, AI在科學發現中的應用日益增多,以增強和加速研究。AI可以幫助科學家生成假設、設計實驗、收集和解釋大型數據集,并獲得僅使用傳統科學方法可能無法獲得的見解。科研領域出現了一些突破性進展,其中包括:自監督學習[5]、幾何深度學習[6]和生成式AI方法[7]。自監督學習允許模型在大量未標記的數據上進行訓練[8],而幾何深度學習利用科學數據結構的知識來提高模型的準確性和效率[9]。此外,生成式AI方法通過分析多種數據模態(如圖像和序列)來創建設計,如小分子藥物和蛋白質[10]。這些方法在科研過程中為科學家提供了重要幫助。然而,盡管取得了這些進展,AI在科研工作中的應用仍然面臨一些核心問題。首先,AI工具的開發者和用戶必須明確何時需要改進這些方法。其次,數據質量差和管理不善的問題依然存在。這些挑戰跨越不同的科學學科,需要開發基礎算法方法,以便能夠為科學理解做出貢獻或自主獲取科學理解。這些問題是AI創新的關鍵重點領域。
AI4S涉及多種模型,包括語言模型、知識模型、視覺模型和序列模型等[11]。這些模型不僅可以基于其用途進行分類,還可以根據功能進行劃分。語言模型主要用于處理和生成自然語言,如GPT、自變換器的雙向編碼器表征量(bidirectional encoder representations from transformers,BERT)等[12-13]。知識模型用于捕捉和表示領域知識,例如知識圖譜和本體[14-15]。數據模型用于組織和結構化數據,如關系模型和圖模型[16-17]。視覺模型用于處理和分析圖像、視頻等視覺數據,如卷積神經網絡(convolutional neural network,CNN)[18]。序列模型用于處理和生成序列數據(如時間序列和基因序列),如循環神經網絡(recurrent neural network,RNN)和Transformer等[19-20]。同時,AI4S模型基于功能的分類還包括內容生成模型、仿真模型、評分模型、優化模型、因果推理模型[21]和解釋模型[22]等。這些模型在科學研究中發揮重要作用,為科學家提供了多種工具來探索、理解和解決復雜問題。此外,根據模型的訓練方式,還可以分為監督學習模型、無監督學習模型、半監督學習模型、自監督學習模型和遷移學習模型[23-24]。監督學習模型使用標記數據訓練[25],無監督學習模型使用未標記數據訓練,如聚類模型和降維模型[26]。半監督學習模型同時使用標記和未標記數據訓練,自監督學習模型利用數據結構信息進行訓練[27-28]。遷移學習模型則將在一個任務上訓練的模型應用于另一個相關任務[29]。這些模型種類并非相互獨立,而是可以相互結合和嵌套使用。例如,一個藥物發現的AI系統可能同時使用知識模型、生成模型、評分模型和優化模型。隨著AI技術的不斷發展,未來可能會出現更多新的模型種類和范式。
2 AI4S在醫學及藥物研發領域的挑戰
在藥物開發和醫療保健領域,AI4S正發揮越來越重要的作用,有望加速新藥研發并改善患者護理。AI4S在這些領域的具體應用包括:藥物發現、臨床試驗設計、精準醫療、藥物安全監測、伴隨診斷與新適應證開發、藥物合成和虛擬藥物篩選[30]。通過分析數據和優化各個環節,AI4S以大幅度縮短藥物研發周期、提高實驗效率、個性化治療方案、加強藥物安全性監測、協助醫療診斷、優化藥物合成路線以及篩選最有希望的候選化合物[31]。
目前亟需解決的問題不僅包括在算法和算力提升,更需要針對當前領域的復雜情況,解決諸如數據采集和生成、質量與版本控制與數據的共享機制等挑戰。此外,為了推動AI4S的發展,促進創新并保障人類利益還需要更多監管要求和倫理考量。現階段主要的問題還在科學方面。一方面科學研究結果迅速涌現;另一方面,新技術手段層出不窮,幫助我們打開了觀察生理和病理現象的全新維度。然而,大量知識和數據的涌現并未促進人類科學家突破“思維繭房”,提出解決特定疾病的全新理論體系和路線圖,也未能促進藥物研發的目標更加清晰、靶點及藥物與適應證之間關系更加明確。因此,也未能降本增效,以發動機方式源源不斷產生洞見并高效轉化于臨床。
這一問題的根源在于研究范式并未改變以人(作為研究者)為中心的探索和轉化方式,導致數據和知識堆積,而不能高效轉化為面向解決人類健康問題的新質生產力。因此,我們探討一種新的基于AI4S的人類健康研究范式。通過這些工具建立的AI4S系統,科學家可以與AI攜手合作,共同解決人類健康問題。
3 目前最需要什么AI4S
當前,最需要的AI4S不是單純的分子設計或者說從靶點到分子階段的應用,而是利用AI深入理解疾病本質,并提出根本性方案,這是AI4S在醫療領域最具變革性的應用之一,也將從根本上改變我們對疾病的認識和治療方式。疾病機制解析是其中至關重要的方面。通過整合和分析基因組學、蛋白質組學、代謝組學等多組學數據以及臨床數據和科學文獻,AI4S能夠全面揭示疾病的分子機制,幫助確定疾病的關鍵驅動因素和潛在的治療靶點。同時,AI4S還能深入探索疾病中相關基因、蛋白質、代謝和環境因素之間的復雜相互作用,從而分類疾病亞型,并為每種亞型設計個性化的治療策略。通過深入理解疾病機制,AI4S還有助于發現新的治療方法,如識別新的藥物靶點、優化組合治療方案,或設計基于特定分子機制的精準治療方法。AI4S還可用于疾病預防,通過分析個人的基因組、生活方式和環境因素,評估未來疾病的風險,并提出個性化的預防策略。
實現這些目標需要多學科協作,整合生物學、醫學、化學、物理學、計算機科學和數學等多個學科的知識和技能。盡管利用AI4S來理解疾病機制和開發根治性療法面臨諸多挑戰,如生物復雜性、數據質量和倫理考量等,但這無疑是一個非常有前景和影響力的研究方向,有潛力徹底改變我們對疾病的理解和治療方式,為患者帶來更有效、更精準、更個性化的醫療方案。
4 AI4S平臺的協作
為了利用AI4S掌握疾病機制并提出根治方案,不同AI4S平臺需要協同工作,包括知識驅動型AI4S模型、數據驅動型AI4S模型、真實患者的數字孿生及虛擬臨床試驗。這些平臺為我們提供多樣化的工具和方法,加速對疾病的理解和方案的開發。知識驅動AI4S模型從海量數據中挖掘關鍵信息,而數據驅動型AI4S模型提供更準確的預測和分析。真實患者的數字孿生和虛擬臨床試驗幫助理解疾病的發展過程和治療效果,指導臨床實踐和決策制定。因此,不同類型的AI4S平臺協作,能提供更全面深入的洞察,推動醫學進步。接下來,將詳細介紹這些平臺。
4.1 知識驅動型AI4S:理解疾病機制和開發新藥的重要工具
醫學一直在探索疾病本質,但所需信息量巨大,涉及眾多功能系統和復雜且漫長的因果鏈條。不同患者的致病因素和表型多樣,導致治療方法差異巨大。盡管科學家在各專病領域深耕多年,但面對惡性疾病仍常束手無策,主要原因是臨床端數據采集、分析、整合、理解、提出假說和驗證周期過長,常超過個人生命周期。此外,各環節的信息整合效率低下,科學家難以從全局理解疾病。同時,科學家可能對本領域同行的所有工作不完全了解,也未必充分掌握歷史上前輩的探索和相關領域積累的寶貴知識和經驗。例如,截至2024年4月,數據庫中已經超過10萬篇關于新冠肺炎(COVID-19)的科學文獻。然而,即便有GPT這樣的AI工具,如何建立全景式的認知地圖,整體回顧和理解應對新冠病毒的努力,仍是一項重要但未完成的任務。
知識驅動型AI4S為這一任務提供了全新的解決方案。通過挖掘文獻、多組學數據整合、醫學影像分析、電子病歷發掘、生理學建模、患者異質性分析,研究文檔分類和信息獲取和因果推斷等手段,AI4S能夠獲取知識和規律,并做出判斷,深入理解疾病的本質。在理解疾病的過程中,知識驅動型AI4S可以扮演關鍵角色,甚至與人類專家互換角色。舉例來說,對于老藥新用治療狂犬病患者的問題,假設當前患者被犬類咬傷感染狂犬病毒,未及時接種疫苗而發病,AI4S如何自動化解決這個問題?我們提出基于TWIRLS方法[32]的狂犬病認知模型(“超腦”),通過自動化老藥新用評分流程(圖1)來應對此類情況。首先,AI4S通過挖掘除疫苗以外的所有狂犬病相關文獻,提取知識顆粒(即特定研究方向的結構化多維信息復合體)。然后,AI4S利用這些知識顆粒訓練神經元,使其能夠感知特定內容,構建超腦,對內容的感知轉化為解決問題的認知。超腦通過閱讀狂犬病的臨床病例進行進一步訓練,形成世界上最深入理解狂犬病的認知AI模型。接著,利用模型閱讀所有已上市藥物的說明書和相關文獻,并為每個藥物評分。評分越高,越適用于當前臨床場景,患者越可能從中獲益。這種模型不僅為藥物研發提供重要參考,還能搭建結構化的疾病知識庫,為醫學專家提供新可能性。

以狂犬病老藥新用為例,展示了一種使用多模型聯用的AI流程。它可以幫助找到潛在適用的“老藥”、理解排名靠前藥物的藥物機制、建立結構化的疾病知識庫。這一方法提高了醫生的工作效率,節約了專家的時間,使他們能更深入地挖掘臨床端更深層次的患者需求,引導AI為人類提供更好的服務。
在傳統醫學難題的研究中,知識驅動型AI4S發揮關鍵作用。利用深度學習和數據挖掘技術,AI4S模型能夠快速從龐大的研究文獻中提取關鍵信息,發現新的治療方法和藥物靶點,從而加速科學研究進程。這種高效的信息篩選和分析能力為醫學科研工作者節省了大量時間和精力。例如,在癌癥研究領域,知識驅動AI4S不僅可以幫助科學家們更好地理解癌癥的發病機制和治療方法,還為癌癥的早期診斷和治療提供重要支持[33]。通過分析大量的癌癥研究文獻和臨床數據,AI4S模型能夠快速準確地識別癌癥的潛在治療靶點和預測患者的治療反應。
綜上所述,知識驅動型AI4S在醫學領域不僅支持藥物研發和臨床實踐,隨著技術進步和數據積累,AI4S還將推動醫學科學的進步和發展,應用前景十分廣闊。
4.2 數據驅動型AI4S:從真實患者到數字孿生
在數字化醫療領域,建立真實世界里的患者和健康人的數字孿生是關鍵任務,數據驅動型AI4S在其中發揮重要作用。數字孿生為藥物研發和臨床醫學的個性化醫療和精準預防提供了支持。通過采集大量真實世界人類數據,AI4S能精確定位個體,構建針對特定疾病的數字孿生模型。這些模型不僅助力藥物研發,包括精準用藥、人群差異化、生產質量控制、藥物重定位、靶點發現、藥物組合、虛擬臨床試驗、分子發現和定量藥理[34]等,還推動臨床醫學的發展,如個性化醫療、精準預防、高效早診、手術規劃、治療方案、多學科決策、遠程醫療、健康管理和虛擬試藥[35]等。
數字孿生的建立基于一系列核心理念。首先,真實世界的人類數據包含個體差異信息,AI4S利用這些信息在數億人群中精確地定位特定個體。其次,AI4S通過深度學習和機器學習等先進技術,提取多維特征,保持差異信息并排除噪聲。第三,基于多維特征,AI4S為每個個體構建準確可靠的數字孿生模型。第四,建立包含大規模真實人群的數字孿生“元宇宙”作為全新的健康基礎設施,滿足不同臨床或保健需求,實現多功能應用,從臨床診療到新藥研發,為健康管理提供更多可能。
疾病的發生和發展是一個綜合且復雜的過程,受到基因突變、環境因素、生活方式等多種因素的影響。人類疾病數據通常是“小數據”,尤其對于罕見病。即便是癌癥與自身免疫性疾病,由于其病理復雜和疾病機制的異質性,每個亞型數據也相對有限。然而,AI4S作為生成式模型,需要大量數據來建立有效的數字孿生模型,其建立過程依賴于統計分布和變量間的條件概率關系。在數據不足的情況下,盲目建立和使用大模型對解決真實臨床問題的作用非常有限。為了解決這些問題,需要回歸第一性原理,從最有價值的數據出發,建立適用于小樣本的AI4S疾病模型。DNA數據是最基礎的數據,其他數據包括轉錄組、表觀遺傳學、單細胞數據以及生活方式和環境因素等都是在此基礎上層層疊加和相互作用的。目前,DNA數據是最穩定和標準化的工業界數據,也是臨床實踐中最穩定且可以大量獲得的數據。因此,基于人類基因組DNA序列信息,讀取每個人更多的機制性定量信息,構建更接近真實個體的數字孿生。
4.3 電子藥物:模擬真實藥物機制的藥物數字孿生
在數字化時代,電子藥物的開發已經成為醫學領域的一項重要任務。電子藥物的開發是在患者和疾病的數字孿生基礎上,利用AI4S模型建立藥物療效的評分模型,進行虛擬臨床試驗,探索藥物的適用人群、新適應證、潛在耐藥原因以及聯合用藥方案的理性設計。建立有效的藥物數字孿生,即“電子藥物”,有多種關鍵策略。
第一種策略是基于靶點和既往同類藥物的已有知識,利用知識驅動型AI4S模型建立電子藥物。這包括建立知識庫、構建藥物真實作用機制(mechanism of action,MOA)模型,提取生物標記物、藥物敏感或耐藥的機制等信息,并將這些信息轉化為數字標簽。這些標簽在患者的數字孿生數據庫中通過非監督方式進行標注,這一過程相當于虛擬臨床試驗,最終標注的統計分布結果即為虛擬臨床試驗的結果。第二種策略是基于靶點的分子生物學和細胞學數據建立功能性和數字化標簽,然后按照第一種策略中的標注和統計方法進行模擬。第三種策略是通過不同疾病特征人群間接建立藥物模型。例如CDK4/6抑制劑在雌激素受體(hormone receptor,HR)陽性、人類表皮生長因子受體2(human epidermal growth factor receptor2,HEGFR-2)陰性乳腺癌患者治療中獲得成功[36],而在三陰性乳腺癌患者中效果不佳[37]。這種差異可以通過特定組學數據反映出來,并轉換為評分,作為判斷CDK4/6抑制劑的電子藥物使用標準。在適應人群特征相對明確的條件下,再開展嚴格的臨床試驗,以開發新的適應證。
第二個臨床案例涉及肺腺癌不同分子的病理型研究,采用AI4S模型基于組學數據建立程序性細胞死亡受體1/程序性細胞死亡受體-配體1(PD-1/PD-L1)單抗類藥物的電子藥物。此電子藥物模型在上海市胸科醫院9例肺癌免疫藥物一線治療中進行了兩輪回顧性預測。在第一輪預測中,僅采用腫瘤基因組數據,結果顯示其中2例患者預測錯誤(2/9)。在第二輪預測中,增加了胚系基因組數據,所有患者的預測均正確(9/9)。這表明結合胚系基因組和腫瘤基因組,可更準確理解和預測腫瘤功能和藥物反應。之前的三陰性乳腺癌研究[38]發現,胚系基因組編碼了免疫系統先天的抑制狀態。因此,即使這類患者的腫瘤并未產生免疫抑制,T細胞也難以浸潤腫瘤組織,導致免疫藥物無效[38]。這一發現進一步說明,結合胚系基因組和腫瘤基因組的分析可以全面理解腫瘤的免疫學特性。更重要的是,利用上述方法建立的電子藥物模型,不僅可以預測PD-1/PD-L1單抗的療效,還揭示了PD-1/PD-L1在泛癌種中出現耐藥現象的基本規律。對這一規律的理解,有助于識別導致原發耐藥的信號通路,為新藥研發提供重要的線索和指導,從而推動抗腫瘤藥物的創新和發展。
醫藥科學家可以在虛擬環境中模擬藥物作用機制、藥效評估和安全性評價,從而提前發現潛在的副作用和不良反應。這不僅節省時間和成本,還最大限度地減少了動物實驗和臨床試驗的需要,提供了更可持續和人性化的藥物研發方案。基于電子藥物模型的個體化治療方案已經成功應用于腫瘤、心血管疾病和神經系統疾病等[39-41]。這些方案根據患者的基因型、病理生理特征和臨床表現,精準地指導藥物選擇和用量,提高治療效果,降低不良反應的發生率,為患者帶來更好的治療體驗和生活質量。
4.4 虛擬臨床試驗:利用電子藥物和真實患者的數字孿生模擬真實臨床試驗
在數字化時代,藥物研發的關鍵部分已經轉向虛擬臨床試驗[42]。這些試驗通過將“電子小人”置于數字化的藥物環境中,在云端進行大規模虛擬臨床試驗,以評估藥物療效和安全性。
在虛擬臨床試驗中,每個“虛擬患者”被賦予各種生理參數、基因型、病理特征等信息,這些信息與真實患者相對應。然后,針對不同的藥物或治療方案,模擬“虛擬患者”接受藥物治療的過程,觀察藥物的療效、副作用以及潛在的耐藥機制等。這種方法可以在不同條件下模擬臨床試驗結果,加速藥物研發過程,減少實際臨床試驗的成本和時間,大幅降低藥物臨床研發成本并顯著提高成功率。
目前,一些研究者已嘗試針對腫瘤治療進行回顧性和前瞻性的虛擬臨床試驗,特別是應用定量系統藥理學(quantitative systems pharmacology,QSP)模型在多種癌癥中,例如三陰性乳腺癌[43]、非霍奇淋巴瘤[44]、非小細胞肺癌[45]、黑色素瘤[46]、結直腸癌[47]、肝細胞癌[48]等。 研究[47]發現,特定免疫細胞浸潤等患者特征可以作為藥物響應的潛在生物標記物,希望未來能夠幫助真實藥物臨床實踐進行患者分層。另外,有研究團隊利用多組學機器學習預測器進行虛擬臨床試驗,預測乳腺癌患者對化療的響應[49] 。在對168例乳腺癌患者的數據中,發現腫瘤突變、拷貝數變化、腫瘤增殖、免疫浸潤和T細胞功能失調等患者特征與治療后的疾病殘留程度相關[49]。基于這些特征訓練的機器學習模型在75例患者的驗證集中成功預測了患者對治療的完全響應[49]。
虛擬臨床試驗的實現依賴于AI4S模型對于人類生理、疾病機制和藥物作用機制的精確模擬。通過理性開展真實臨床試驗并不斷積累和更新數據,AI4S模型能夠不斷提升其預測準確性,為藥物研發提供更可靠的支持。因此,虛擬臨床試驗將現實藥物的研發過程數字化,并借助AI4S模型,實現更快速、更有效的藥物開發和臨床應用,為醫學帶來突破性進展。
5 結論
數字化醫療已經成為醫學領域的重要趨勢。知識驅動型AI4S、數據驅動型AI4S、電子藥物和虛擬臨床試驗在藥物研發和臨床實踐中發揮著關鍵作用,為醫學科學的發展帶來了新的機遇和挑戰。結合上述AI4S工具,我們總結了整體范式(圖2),具體描述并展望未來醫學及藥物研發領域的工作模式。

知識驅動型AI4S通過大規模挖掘文獻和整合數據理解疾病的本質,為藥物研發提供重要參考。數據驅動型AI4S利用臨床多組學和大數據技術建立患者和疾病的數字孿生,推動以患者為中心的藥物研發和個性化醫療的發展。電子藥物為藥物研發帶來新的機遇,虛擬臨床試驗數字化評估藥物療效和安全性,并在真實臨床試驗中得到驗證,提高藥物研發和臨床實踐效率和成功率,有助于攻克各種疾病。隨著AI4S技術進步和醫學數據的持續積累,數字化醫療繼續完善,將為人類健康事業帶來更大的進步和益處。
利益沖突:無。
作者貢獻:牛鋼和張春莉撰寫和修改初稿;牛鋼審核和修改文章。
致謝 本文作者感謝上海市胸科醫院陸舜教授提供9例肺癌病例數據,感謝北京圖靈-達爾文實驗室劉雨晗在本文中的協助。
在當今數字化時代,人工智能(artificial intelligence,AI)技術迅猛發展,尤其是生成式技術,如ChatGPT(chat generative pre-trained transformer),對人類生活的影響日益深遠。我們逐漸聚焦于開發服務于AI驅動的科學研究(AI for science,AI4S)模型。AI4S模型以數據驅動為特點,通過分析海量的科學依據,深入理解其內在規律和分布特征,從而自主生成新的、合理的、有價值的洞見,如藥物機制、分子結構、工藝路線、試驗方案等[1]。這種洞見的生成不僅包括新內容,還包括新的理解[2]。最重要的是,AI4S能夠將真實人類個體轉化為數字世界中的虛擬對應體,即數字孿生[3]。因此,AI4S在藥物研發與臨床實踐中的應用已經展現出巨大的潛力和影響力。我們正在見證知識驅動型AI4S模型、數據驅動型AI4S模型、電子藥物及虛擬臨床試驗等創新技術的嶄露頭角,這些技術正在重新定義醫學科學的面貌。本文將探討AI4S在藥物研發和臨床實踐中應用所取得的進步,并展望AI4S在數字化時代醫療中的發展趨勢。
1 什么是AI4S
AI4S 是指利用AI技術來輔助科學家進行數據分析、模式識別和預測,從而有效解決復雜科學問題并推動科學研究和發現。AI在多個領域發揮著重要作用,包括但不限于生物學、醫學、藥物研發、氣候科學、天體物理學、材料科學、認知科學、機器人技術和量子計算等[4]。通過機器學習、深度學習和自然語言處理等AI技術,科學家能夠加速研究進程、獲得新的見解并解決以往難以攻克的問題。因此,AI4S正逐漸成為現代科學研究中不可或缺的工具,與人類的專業知識和創造力相輔相成。
盡管AI4S在某些研究領域表現出色,但目前仍面臨一些局限性和挑戰。首先,AI4S缺乏人類科學家的創造力和直覺,而許多重大科學突破源于科學家的創新思維和跨學科洞察力。其次,AI4S在確定因果關系方面仍然面臨挑戰,盡管擅長發現相關性,但科學研究通常需要設計實驗來檢驗假設并確定因果機制,這方面AI4S仍有不足。再者,AI4S在掌握領域知識和理解復雜科學概念方面存在困難,盡管可以從大量文獻中學習,但要全面掌握一個領域的深度知識仍具有挑戰性。此外,科學研究通常涉及“與人相關的”倫理考量和價值判斷,AI4S目前不能真正與人共情,因此只能模仿人類做出類似判斷,難以在關乎人類群體和個體利益的決策上完全令人信服。最后,雖然AI4S可以在某些任務中提供幫助,但由于缺乏目標和動機,許多科學研究仍必需人類科學家的設計和監督。盡管存在這些局限性,AI4S在科學研究中的應用正在不斷發展。未來,AI4S可能會在分析大規模數據集、優化實驗參數和預測復雜系統的行為等任務上超越人類科學家。因此,與人類科學家的創造力、領域專長和批判性思維在科學研究中緊密合作,AI和人類科學家的協同工作可能是推動科學發現的最佳途徑。
過去10年, AI在科學發現中的應用日益增多,以增強和加速研究。AI可以幫助科學家生成假設、設計實驗、收集和解釋大型數據集,并獲得僅使用傳統科學方法可能無法獲得的見解。科研領域出現了一些突破性進展,其中包括:自監督學習[5]、幾何深度學習[6]和生成式AI方法[7]。自監督學習允許模型在大量未標記的數據上進行訓練[8],而幾何深度學習利用科學數據結構的知識來提高模型的準確性和效率[9]。此外,生成式AI方法通過分析多種數據模態(如圖像和序列)來創建設計,如小分子藥物和蛋白質[10]。這些方法在科研過程中為科學家提供了重要幫助。然而,盡管取得了這些進展,AI在科研工作中的應用仍然面臨一些核心問題。首先,AI工具的開發者和用戶必須明確何時需要改進這些方法。其次,數據質量差和管理不善的問題依然存在。這些挑戰跨越不同的科學學科,需要開發基礎算法方法,以便能夠為科學理解做出貢獻或自主獲取科學理解。這些問題是AI創新的關鍵重點領域。
AI4S涉及多種模型,包括語言模型、知識模型、視覺模型和序列模型等[11]。這些模型不僅可以基于其用途進行分類,還可以根據功能進行劃分。語言模型主要用于處理和生成自然語言,如GPT、自變換器的雙向編碼器表征量(bidirectional encoder representations from transformers,BERT)等[12-13]。知識模型用于捕捉和表示領域知識,例如知識圖譜和本體[14-15]。數據模型用于組織和結構化數據,如關系模型和圖模型[16-17]。視覺模型用于處理和分析圖像、視頻等視覺數據,如卷積神經網絡(convolutional neural network,CNN)[18]。序列模型用于處理和生成序列數據(如時間序列和基因序列),如循環神經網絡(recurrent neural network,RNN)和Transformer等[19-20]。同時,AI4S模型基于功能的分類還包括內容生成模型、仿真模型、評分模型、優化模型、因果推理模型[21]和解釋模型[22]等。這些模型在科學研究中發揮重要作用,為科學家提供了多種工具來探索、理解和解決復雜問題。此外,根據模型的訓練方式,還可以分為監督學習模型、無監督學習模型、半監督學習模型、自監督學習模型和遷移學習模型[23-24]。監督學習模型使用標記數據訓練[25],無監督學習模型使用未標記數據訓練,如聚類模型和降維模型[26]。半監督學習模型同時使用標記和未標記數據訓練,自監督學習模型利用數據結構信息進行訓練[27-28]。遷移學習模型則將在一個任務上訓練的模型應用于另一個相關任務[29]。這些模型種類并非相互獨立,而是可以相互結合和嵌套使用。例如,一個藥物發現的AI系統可能同時使用知識模型、生成模型、評分模型和優化模型。隨著AI技術的不斷發展,未來可能會出現更多新的模型種類和范式。
2 AI4S在醫學及藥物研發領域的挑戰
在藥物開發和醫療保健領域,AI4S正發揮越來越重要的作用,有望加速新藥研發并改善患者護理。AI4S在這些領域的具體應用包括:藥物發現、臨床試驗設計、精準醫療、藥物安全監測、伴隨診斷與新適應證開發、藥物合成和虛擬藥物篩選[30]。通過分析數據和優化各個環節,AI4S以大幅度縮短藥物研發周期、提高實驗效率、個性化治療方案、加強藥物安全性監測、協助醫療診斷、優化藥物合成路線以及篩選最有希望的候選化合物[31]。
目前亟需解決的問題不僅包括在算法和算力提升,更需要針對當前領域的復雜情況,解決諸如數據采集和生成、質量與版本控制與數據的共享機制等挑戰。此外,為了推動AI4S的發展,促進創新并保障人類利益還需要更多監管要求和倫理考量。現階段主要的問題還在科學方面。一方面科學研究結果迅速涌現;另一方面,新技術手段層出不窮,幫助我們打開了觀察生理和病理現象的全新維度。然而,大量知識和數據的涌現并未促進人類科學家突破“思維繭房”,提出解決特定疾病的全新理論體系和路線圖,也未能促進藥物研發的目標更加清晰、靶點及藥物與適應證之間關系更加明確。因此,也未能降本增效,以發動機方式源源不斷產生洞見并高效轉化于臨床。
這一問題的根源在于研究范式并未改變以人(作為研究者)為中心的探索和轉化方式,導致數據和知識堆積,而不能高效轉化為面向解決人類健康問題的新質生產力。因此,我們探討一種新的基于AI4S的人類健康研究范式。通過這些工具建立的AI4S系統,科學家可以與AI攜手合作,共同解決人類健康問題。
3 目前最需要什么AI4S
當前,最需要的AI4S不是單純的分子設計或者說從靶點到分子階段的應用,而是利用AI深入理解疾病本質,并提出根本性方案,這是AI4S在醫療領域最具變革性的應用之一,也將從根本上改變我們對疾病的認識和治療方式。疾病機制解析是其中至關重要的方面。通過整合和分析基因組學、蛋白質組學、代謝組學等多組學數據以及臨床數據和科學文獻,AI4S能夠全面揭示疾病的分子機制,幫助確定疾病的關鍵驅動因素和潛在的治療靶點。同時,AI4S還能深入探索疾病中相關基因、蛋白質、代謝和環境因素之間的復雜相互作用,從而分類疾病亞型,并為每種亞型設計個性化的治療策略。通過深入理解疾病機制,AI4S還有助于發現新的治療方法,如識別新的藥物靶點、優化組合治療方案,或設計基于特定分子機制的精準治療方法。AI4S還可用于疾病預防,通過分析個人的基因組、生活方式和環境因素,評估未來疾病的風險,并提出個性化的預防策略。
實現這些目標需要多學科協作,整合生物學、醫學、化學、物理學、計算機科學和數學等多個學科的知識和技能。盡管利用AI4S來理解疾病機制和開發根治性療法面臨諸多挑戰,如生物復雜性、數據質量和倫理考量等,但這無疑是一個非常有前景和影響力的研究方向,有潛力徹底改變我們對疾病的理解和治療方式,為患者帶來更有效、更精準、更個性化的醫療方案。
4 AI4S平臺的協作
為了利用AI4S掌握疾病機制并提出根治方案,不同AI4S平臺需要協同工作,包括知識驅動型AI4S模型、數據驅動型AI4S模型、真實患者的數字孿生及虛擬臨床試驗。這些平臺為我們提供多樣化的工具和方法,加速對疾病的理解和方案的開發。知識驅動AI4S模型從海量數據中挖掘關鍵信息,而數據驅動型AI4S模型提供更準確的預測和分析。真實患者的數字孿生和虛擬臨床試驗幫助理解疾病的發展過程和治療效果,指導臨床實踐和決策制定。因此,不同類型的AI4S平臺協作,能提供更全面深入的洞察,推動醫學進步。接下來,將詳細介紹這些平臺。
4.1 知識驅動型AI4S:理解疾病機制和開發新藥的重要工具
醫學一直在探索疾病本質,但所需信息量巨大,涉及眾多功能系統和復雜且漫長的因果鏈條。不同患者的致病因素和表型多樣,導致治療方法差異巨大。盡管科學家在各專病領域深耕多年,但面對惡性疾病仍常束手無策,主要原因是臨床端數據采集、分析、整合、理解、提出假說和驗證周期過長,常超過個人生命周期。此外,各環節的信息整合效率低下,科學家難以從全局理解疾病。同時,科學家可能對本領域同行的所有工作不完全了解,也未必充分掌握歷史上前輩的探索和相關領域積累的寶貴知識和經驗。例如,截至2024年4月,數據庫中已經超過10萬篇關于新冠肺炎(COVID-19)的科學文獻。然而,即便有GPT這樣的AI工具,如何建立全景式的認知地圖,整體回顧和理解應對新冠病毒的努力,仍是一項重要但未完成的任務。
知識驅動型AI4S為這一任務提供了全新的解決方案。通過挖掘文獻、多組學數據整合、醫學影像分析、電子病歷發掘、生理學建模、患者異質性分析,研究文檔分類和信息獲取和因果推斷等手段,AI4S能夠獲取知識和規律,并做出判斷,深入理解疾病的本質。在理解疾病的過程中,知識驅動型AI4S可以扮演關鍵角色,甚至與人類專家互換角色。舉例來說,對于老藥新用治療狂犬病患者的問題,假設當前患者被犬類咬傷感染狂犬病毒,未及時接種疫苗而發病,AI4S如何自動化解決這個問題?我們提出基于TWIRLS方法[32]的狂犬病認知模型(“超腦”),通過自動化老藥新用評分流程(圖1)來應對此類情況。首先,AI4S通過挖掘除疫苗以外的所有狂犬病相關文獻,提取知識顆粒(即特定研究方向的結構化多維信息復合體)。然后,AI4S利用這些知識顆粒訓練神經元,使其能夠感知特定內容,構建超腦,對內容的感知轉化為解決問題的認知。超腦通過閱讀狂犬病的臨床病例進行進一步訓練,形成世界上最深入理解狂犬病的認知AI模型。接著,利用模型閱讀所有已上市藥物的說明書和相關文獻,并為每個藥物評分。評分越高,越適用于當前臨床場景,患者越可能從中獲益。這種模型不僅為藥物研發提供重要參考,還能搭建結構化的疾病知識庫,為醫學專家提供新可能性。

以狂犬病老藥新用為例,展示了一種使用多模型聯用的AI流程。它可以幫助找到潛在適用的“老藥”、理解排名靠前藥物的藥物機制、建立結構化的疾病知識庫。這一方法提高了醫生的工作效率,節約了專家的時間,使他們能更深入地挖掘臨床端更深層次的患者需求,引導AI為人類提供更好的服務。
在傳統醫學難題的研究中,知識驅動型AI4S發揮關鍵作用。利用深度學習和數據挖掘技術,AI4S模型能夠快速從龐大的研究文獻中提取關鍵信息,發現新的治療方法和藥物靶點,從而加速科學研究進程。這種高效的信息篩選和分析能力為醫學科研工作者節省了大量時間和精力。例如,在癌癥研究領域,知識驅動AI4S不僅可以幫助科學家們更好地理解癌癥的發病機制和治療方法,還為癌癥的早期診斷和治療提供重要支持[33]。通過分析大量的癌癥研究文獻和臨床數據,AI4S模型能夠快速準確地識別癌癥的潛在治療靶點和預測患者的治療反應。
綜上所述,知識驅動型AI4S在醫學領域不僅支持藥物研發和臨床實踐,隨著技術進步和數據積累,AI4S還將推動醫學科學的進步和發展,應用前景十分廣闊。
4.2 數據驅動型AI4S:從真實患者到數字孿生
在數字化醫療領域,建立真實世界里的患者和健康人的數字孿生是關鍵任務,數據驅動型AI4S在其中發揮重要作用。數字孿生為藥物研發和臨床醫學的個性化醫療和精準預防提供了支持。通過采集大量真實世界人類數據,AI4S能精確定位個體,構建針對特定疾病的數字孿生模型。這些模型不僅助力藥物研發,包括精準用藥、人群差異化、生產質量控制、藥物重定位、靶點發現、藥物組合、虛擬臨床試驗、分子發現和定量藥理[34]等,還推動臨床醫學的發展,如個性化醫療、精準預防、高效早診、手術規劃、治療方案、多學科決策、遠程醫療、健康管理和虛擬試藥[35]等。
數字孿生的建立基于一系列核心理念。首先,真實世界的人類數據包含個體差異信息,AI4S利用這些信息在數億人群中精確地定位特定個體。其次,AI4S通過深度學習和機器學習等先進技術,提取多維特征,保持差異信息并排除噪聲。第三,基于多維特征,AI4S為每個個體構建準確可靠的數字孿生模型。第四,建立包含大規模真實人群的數字孿生“元宇宙”作為全新的健康基礎設施,滿足不同臨床或保健需求,實現多功能應用,從臨床診療到新藥研發,為健康管理提供更多可能。
疾病的發生和發展是一個綜合且復雜的過程,受到基因突變、環境因素、生活方式等多種因素的影響。人類疾病數據通常是“小數據”,尤其對于罕見病。即便是癌癥與自身免疫性疾病,由于其病理復雜和疾病機制的異質性,每個亞型數據也相對有限。然而,AI4S作為生成式模型,需要大量數據來建立有效的數字孿生模型,其建立過程依賴于統計分布和變量間的條件概率關系。在數據不足的情況下,盲目建立和使用大模型對解決真實臨床問題的作用非常有限。為了解決這些問題,需要回歸第一性原理,從最有價值的數據出發,建立適用于小樣本的AI4S疾病模型。DNA數據是最基礎的數據,其他數據包括轉錄組、表觀遺傳學、單細胞數據以及生活方式和環境因素等都是在此基礎上層層疊加和相互作用的。目前,DNA數據是最穩定和標準化的工業界數據,也是臨床實踐中最穩定且可以大量獲得的數據。因此,基于人類基因組DNA序列信息,讀取每個人更多的機制性定量信息,構建更接近真實個體的數字孿生。
4.3 電子藥物:模擬真實藥物機制的藥物數字孿生
在數字化時代,電子藥物的開發已經成為醫學領域的一項重要任務。電子藥物的開發是在患者和疾病的數字孿生基礎上,利用AI4S模型建立藥物療效的評分模型,進行虛擬臨床試驗,探索藥物的適用人群、新適應證、潛在耐藥原因以及聯合用藥方案的理性設計。建立有效的藥物數字孿生,即“電子藥物”,有多種關鍵策略。
第一種策略是基于靶點和既往同類藥物的已有知識,利用知識驅動型AI4S模型建立電子藥物。這包括建立知識庫、構建藥物真實作用機制(mechanism of action,MOA)模型,提取生物標記物、藥物敏感或耐藥的機制等信息,并將這些信息轉化為數字標簽。這些標簽在患者的數字孿生數據庫中通過非監督方式進行標注,這一過程相當于虛擬臨床試驗,最終標注的統計分布結果即為虛擬臨床試驗的結果。第二種策略是基于靶點的分子生物學和細胞學數據建立功能性和數字化標簽,然后按照第一種策略中的標注和統計方法進行模擬。第三種策略是通過不同疾病特征人群間接建立藥物模型。例如CDK4/6抑制劑在雌激素受體(hormone receptor,HR)陽性、人類表皮生長因子受體2(human epidermal growth factor receptor2,HEGFR-2)陰性乳腺癌患者治療中獲得成功[36],而在三陰性乳腺癌患者中效果不佳[37]。這種差異可以通過特定組學數據反映出來,并轉換為評分,作為判斷CDK4/6抑制劑的電子藥物使用標準。在適應人群特征相對明確的條件下,再開展嚴格的臨床試驗,以開發新的適應證。
第二個臨床案例涉及肺腺癌不同分子的病理型研究,采用AI4S模型基于組學數據建立程序性細胞死亡受體1/程序性細胞死亡受體-配體1(PD-1/PD-L1)單抗類藥物的電子藥物。此電子藥物模型在上海市胸科醫院9例肺癌免疫藥物一線治療中進行了兩輪回顧性預測。在第一輪預測中,僅采用腫瘤基因組數據,結果顯示其中2例患者預測錯誤(2/9)。在第二輪預測中,增加了胚系基因組數據,所有患者的預測均正確(9/9)。這表明結合胚系基因組和腫瘤基因組,可更準確理解和預測腫瘤功能和藥物反應。之前的三陰性乳腺癌研究[38]發現,胚系基因組編碼了免疫系統先天的抑制狀態。因此,即使這類患者的腫瘤并未產生免疫抑制,T細胞也難以浸潤腫瘤組織,導致免疫藥物無效[38]。這一發現進一步說明,結合胚系基因組和腫瘤基因組的分析可以全面理解腫瘤的免疫學特性。更重要的是,利用上述方法建立的電子藥物模型,不僅可以預測PD-1/PD-L1單抗的療效,還揭示了PD-1/PD-L1在泛癌種中出現耐藥現象的基本規律。對這一規律的理解,有助于識別導致原發耐藥的信號通路,為新藥研發提供重要的線索和指導,從而推動抗腫瘤藥物的創新和發展。
醫藥科學家可以在虛擬環境中模擬藥物作用機制、藥效評估和安全性評價,從而提前發現潛在的副作用和不良反應。這不僅節省時間和成本,還最大限度地減少了動物實驗和臨床試驗的需要,提供了更可持續和人性化的藥物研發方案。基于電子藥物模型的個體化治療方案已經成功應用于腫瘤、心血管疾病和神經系統疾病等[39-41]。這些方案根據患者的基因型、病理生理特征和臨床表現,精準地指導藥物選擇和用量,提高治療效果,降低不良反應的發生率,為患者帶來更好的治療體驗和生活質量。
4.4 虛擬臨床試驗:利用電子藥物和真實患者的數字孿生模擬真實臨床試驗
在數字化時代,藥物研發的關鍵部分已經轉向虛擬臨床試驗[42]。這些試驗通過將“電子小人”置于數字化的藥物環境中,在云端進行大規模虛擬臨床試驗,以評估藥物療效和安全性。
在虛擬臨床試驗中,每個“虛擬患者”被賦予各種生理參數、基因型、病理特征等信息,這些信息與真實患者相對應。然后,針對不同的藥物或治療方案,模擬“虛擬患者”接受藥物治療的過程,觀察藥物的療效、副作用以及潛在的耐藥機制等。這種方法可以在不同條件下模擬臨床試驗結果,加速藥物研發過程,減少實際臨床試驗的成本和時間,大幅降低藥物臨床研發成本并顯著提高成功率。
目前,一些研究者已嘗試針對腫瘤治療進行回顧性和前瞻性的虛擬臨床試驗,特別是應用定量系統藥理學(quantitative systems pharmacology,QSP)模型在多種癌癥中,例如三陰性乳腺癌[43]、非霍奇淋巴瘤[44]、非小細胞肺癌[45]、黑色素瘤[46]、結直腸癌[47]、肝細胞癌[48]等。 研究[47]發現,特定免疫細胞浸潤等患者特征可以作為藥物響應的潛在生物標記物,希望未來能夠幫助真實藥物臨床實踐進行患者分層。另外,有研究團隊利用多組學機器學習預測器進行虛擬臨床試驗,預測乳腺癌患者對化療的響應[49] 。在對168例乳腺癌患者的數據中,發現腫瘤突變、拷貝數變化、腫瘤增殖、免疫浸潤和T細胞功能失調等患者特征與治療后的疾病殘留程度相關[49]。基于這些特征訓練的機器學習模型在75例患者的驗證集中成功預測了患者對治療的完全響應[49]。
虛擬臨床試驗的實現依賴于AI4S模型對于人類生理、疾病機制和藥物作用機制的精確模擬。通過理性開展真實臨床試驗并不斷積累和更新數據,AI4S模型能夠不斷提升其預測準確性,為藥物研發提供更可靠的支持。因此,虛擬臨床試驗將現實藥物的研發過程數字化,并借助AI4S模型,實現更快速、更有效的藥物開發和臨床應用,為醫學帶來突破性進展。
5 結論
數字化醫療已經成為醫學領域的重要趨勢。知識驅動型AI4S、數據驅動型AI4S、電子藥物和虛擬臨床試驗在藥物研發和臨床實踐中發揮著關鍵作用,為醫學科學的發展帶來了新的機遇和挑戰。結合上述AI4S工具,我們總結了整體范式(圖2),具體描述并展望未來醫學及藥物研發領域的工作模式。

知識驅動型AI4S通過大規模挖掘文獻和整合數據理解疾病的本質,為藥物研發提供重要參考。數據驅動型AI4S利用臨床多組學和大數據技術建立患者和疾病的數字孿生,推動以患者為中心的藥物研發和個性化醫療的發展。電子藥物為藥物研發帶來新的機遇,虛擬臨床試驗數字化評估藥物療效和安全性,并在真實臨床試驗中得到驗證,提高藥物研發和臨床實踐效率和成功率,有助于攻克各種疾病。隨著AI4S技術進步和醫學數據的持續積累,數字化醫療繼續完善,將為人類健康事業帶來更大的進步和益處。
利益沖突:無。
作者貢獻:牛鋼和張春莉撰寫和修改初稿;牛鋼審核和修改文章。
致謝 本文作者感謝上海市胸科醫院陸舜教授提供9例肺癌病例數據,感謝北京圖靈-達爾文實驗室劉雨晗在本文中的協助。