自然語言處理(natural language processing,NLP)能夠“自覺主動”地獲取知識、理解、處理與表達,是計算機智能的集中體現,是促進醫學實踐與研究信息化的科技密鑰。本文梳理NLP的發展沿革及其研究基礎,重點介紹了目前NLP、大語言模型在生物醫學以及中醫藥領域的應用,包括醫學文本、中醫古籍的智能化閱讀與信息抽取、反饋,醫學知識圖譜和問答系統的構建等。NLP是發掘中醫藥寶庫的技術支撐,對進一步助力高效、高質量的中醫藥核心價值發展與中醫藥服務能力提升具有重要的實踐意義。
引用本文: 胡嘉元, 邱瑞瑾, 孫楊, 商洪才. 自然語言處理及其在醫學領域的應用. 中國循證醫學雜志, 2024, 24(10): 1205-1211. doi: 10.7507/1672-2531.202311178 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
自然語言處理(natural language processing,NLP)是通過計算機實現語言分析、研究人-機交互進行有效通信的理論與技術,計算機科學家Bill Manaris定義NLP是“研究人與計算機交流語言問題的科學,建立能夠表示語言能力和語言應用模型以滿足不同工作的實際需求”[1]。NLP融合了數學、語言學、計算機科學等多學科的理論與方法,是人工智能的重要研究方向。
在互聯網時代,高效、準確地識別與處理語言,是智能化進程的必需環節,有學者認為,NLP可以與物理學相媲美,在未來科學的發展中占據舉足輕重的地位[2]。在現代醫學發展日新月異的今天,NLP的應用將成為提高臨床診療效率、解決醫療資源分配與醫技共享的有力推手。
1 NLP的發展沿革
語言作為人類思維邏輯的載體,是交流的符號系統[3],是獲取知識并將其廣泛傳播的路徑。20世紀計算機科學快速發展,人們期待自動化的機器處理代替低效率的人工檢索與翻譯,NLP即在這一背景下應運而生。
1947年,Warren Weaver等提出“計算機語言自動翻譯”的理念引領了NLP的思想與技術發展,機器翻譯(machine translation)是NLP最早的研究領域[4]。計算機科學之父A.M.Turing最早認識到計算機的智能性,提出理解英文是檢驗其學習能力的最好方法。同期,John McCarthy等提出了“人工智能(artificial intelligence,AI)”的概念,開啟了智慧化科學研究的新篇章。基于規則邏輯的AI研究是當時的主旋律。
基于統計學的NLP研究亦逐漸崛起。50年代后期,貝葉斯方法被應用于解決最優字符的識別。1970年代語義網絡在AI中的應用為建立知識圖譜(knowledge graph,KG)奠定了基礎。
20世紀末,語言處理的概率模型令學界再次傾向基于統計的經驗主義[2],對基于規則的理性主義的質疑包括方法的機械性[5]、實踐的有限性等。1992年機器翻譯國際會議的主題“機器翻譯的經驗主義和理性主義方法”是這一時期NLP學術爭鳴的集中體現。
邁入21世紀,理性主義規則算法與經驗主義統計分析的相互滲透與融合引領了NLP發展趨勢。大規模真實文本成為NLP研究理想的知識源已是不爭事實,大數據推動NLP迎來了新的機遇與挑戰。
2 NLP的研究與應用
2.1 NLP的關鍵基礎與技術
NLP與數學、邏輯學及概率論密不可分,研究基礎包括大量的數學及統計模型,貝葉斯決策理論、支持向量機等理論與方法是NLP的“工具包”。
語料庫和語言知識庫是NLP的數據基礎。語料庫是大規模真實文本存儲、標注、統計的數據庫,建立代表性和平衡性良好的語料庫是NLP的核心目標之一[6]。規模超7億漢字的北京大學語言學研究中心語料庫是語言學研究的重要資源[7]。語言知識庫是涵蓋詞匯、句法及語義等的大型知識庫;普林斯頓大學的WordNet是最具影響力的英文知識庫。北京大學的綜合語言知識庫[8]是規模最大的中文庫,全面的漢語語言知識為中文信息處理的研究與應用提供了強大的支持[9,10]。
處理與分析文本、語音是NLP的關鍵技術,包括形態學、語法學、語義學和語用學4個層次[11]。形態學又稱“詞法”,包括自動分詞、命名實體識別(named entity recognition,NER)、詞性標注等。NER是醫學信息化和智能醫療領域的基本技術[12]。語義分析的關鍵在于明確文本的意向,計算機模擬人腦理解語言的思維邏輯仍是當前NLP研究的重點和難點。
詞法、句法、語義及篇章從語言構成的層次形成了NLP的基礎性技術集合,是NLP應用系統建立的基石。
2.2 NLP的應用系統
2.2.1 機器翻譯
機器翻譯是計算機實現不同語言自動翻譯的系統,是NLP最早的應用領域,亦是當今經濟全球化及人類命運共同體構建趨勢下的前沿研究。以基于深度學習(deep learning,DL)的神經網絡機器翻譯(neural network machinetranslation,NNMT)[13,14]應用最廣泛。Google與有道神經網絡翻譯是國際領先的中外互譯工具[15,16]。
2.2.2 文本分類與情感分析
文本分類是在預定義體系下對文本進行類別關聯的系統,由文本預處理、文本表示和分類器分類構成。基于DL的文本自動分類具有較高的準確率[17,18]。
情感分析是應用計算機對包含情感色彩及主觀評價性文本進行自動抽取和分析的系統[19],應用機器學習對標注樣本進行訓練,卷積神經網絡(convolutional neural network,CNN)和長短期記憶是常用的DL模型[20]。
2.2.3 信息檢索與問答系統
信息檢索最早應用于文獻查詢與索引,目前以高效、準確獲取互聯網信息為主。如應用貝葉斯精準醫療概率框架支持關于基因及藥物等的信息檢索[21]。
問答系統以接受提問、大量異構數據庫自動檢索和輸出準確答案為特點[22]。其在醫學領域應用廣泛,如何提高醫療信息質量及檢索精確度是研究重點[23]。
2.2.4 自動文摘與信息抽取
自動文摘是計算機進行文本理解、分析概括并自動生成摘要的系統。研究重點在于通過提高學習性能及表達多樣性以實現信息的高效概述[24,25]。
信息抽取是從自然語言文本中自動抽取特定范圍的有效信息并存儲,構成實用性數據庫的應用技術。基于統計機器學習的信息抽取是近年來的研究熱點[26,27]。
NLP作為發展迅速的交叉學科,其技術與應用系統不是孤立的,方法與應用相互滲透、相輔相成。在邏輯規則與大型知識庫的支持下,NLP正朝著與更多專業學科深度結合的方向發展,在醫學、傳媒等領域具有廣闊的應用前景。
3 NLP在醫學領域的應用
醫學領域是NLP應用最早、最重要的專業領域之一。自1972年第一個輔助診斷的醫學專家系統AAPHelp發布以來,智能化醫學研究一直走在NLP發展的領先行列。
3.1 基于醫學文本的信息抽取及應用
3.1.1 以電子病歷為數據源
電子病歷是包含最多醫療信息的文本,應用NLP對電子病歷進行智能分析,能夠快速、有效地獲取所需數據。在醫學文本語言特征規則引入的基礎上,結合NER、DL、語義關聯抽取等技術智能分析病歷,識別、標注特定臨床信息,為臨床實踐和科研提供參考[28-31]。
3.1.2 以醫學數據庫為數據源
例如從學術期刊的出版動態判斷新冠疫情對全球醫學研究的影響,設計NLP程序分析出版物的文章類型及作者數量,結果顯示新冠疫情可能導致非COVID-19研究產量下降18%[32]。
有學者應用文本挖掘、信息抽取技術整合Wikipedia和PubMed資源,建立了臨床癥狀對應疾病診斷的綜合數據庫DISNET,能夠自動、定期從數據庫檢索并抽取癥狀、體征等信息[33]。
應用NLP推動智能化Meta分析,設計基于互感器雙向編碼器表示(bidirectional encoder representation based on transformer,BERT)的NER系統,從已發表文獻摘要中提取臨床試驗數據并統計分析,有望實現最新臨床證據的自動更新[34]。
應用潛在語義分析、自動文摘技術統計2007—2017年學術期刊發表的腎臟病學研究,揭示我國腎臟病學的研究主題,以動物模型開展的基礎研究排名第一[35]。
3.1.3 以醫學檢查文本為數據源
應用NLP對醫學檢查文本,尤其影像學檢查報告進行自動分析能夠有效替代耗時耗力的人工查閱。
基于專家術語集和生物醫學系統命名法-臨床術語本體映射的兩種NLP文本分析系統對擬進行MRI檢查的患者進行分析,提高了識別具有高風險可植入設備患者的一致性、敏感性及準確性[36]。
有橫斷面研究結果顯示,應用NLP系統在放射學報告中識別住院患者靜脈血栓栓塞的精確度在一定程度上高于ICD-10代碼[37]。
構建NLP自動程序提取兒科尸檢的MRI報告,智能評估其檢查方案和診斷,提高審查效率,能夠簡化對同類影像數據的審閱工作[38]。
3.1.4 以自由醫學文本和網絡信息為數據源
自由醫學文本,包括醫師敘事記錄和患者信息表等,是獲取有價值的臨床信息、完善真實世界證據的重要來源。實例應用顯示,NLP抽取科室近3年非正式臨床記錄,分析得出哮喘、鼻炎、蕁麻疹是3種最常見的合并癥,2 057名患者中有991名至少患有其中一種合并癥[39]。基于多標簽文本分類的DL算法能夠實現對轉診三級醫院預約申請表的智能審查,包括資格確認與會診分科等,極大地減輕了臨床工作量[40]。對臨床創傷患者的記錄進行自動判別,NLP系統決策是否應用臨床最佳實踐指南的姑息治療與臨床醫師判斷基本一致[41]。以囊性纖維化病為例,建立基于NER與ScispaCy模型的NLP系統,自動抽取患者生成健康數據(如醫學日記)以形成病情報告與用藥評估,是院外隨訪與監測健康事件的重要途徑[42]。應用NLP信息檢索與分類監測社交媒體上的個人酒精消耗數據,能夠為酒精控制政策的評估與實施提供參考[43]。
3.2 構建醫學知識圖譜(medical knowledge graph,MKG)
MKG能夠可視化呈現專業的醫學資源和結構。應用NLP智能語義分析、信息分類完成“疾病-癥狀-特征”醫學診斷KG以構建輔助診斷工具[44]。以中文分詞、NER等方法實現對婦產科醫學教材的信息抽取,建立結構化的婦產醫學KG,為智能醫療服務奠定基礎[45]。
臨床藥學方面,NLP能夠自動構建以藥品說明書為基礎的臨床用藥KG,以提高合理用藥的智能度和準確度[46]。
構建MKG是臨床決策支持系統(clinical decision support systems,CDSS)的基礎。例如應用NLP構建慢性腎病KG及智能問診路徑,輔助慢性腎病的基層臨床診療[47]。
3.3 醫學健康問答系統
醫學問答系統使得人們通過互聯網及手機Apps便捷地了解更多醫學健康知識。對非結構化問題的理解、分析及解答是NLP的研究重點。
有研究結合概念分析和TF-IDF模型語義權重分析,自動將問題分配給相應領域的專家以獲得解答。應用樸素貝葉斯分類、詞向量等技術設計醫學智能問答Apps對問題制定分類規則,有效提高答案的準確率[48]。基于專業醫學知識庫,以傳統機器學習和DL結合的方法來理解、處理提問并反饋答案更有益于解答真實環境下的各種問題[49]。
3.4 生物醫學信息語料庫的構建
法國學者基于PubMed建立了以專家手動注釋的藥物基因組學語料庫(PGxCorpus),填補了這一領域的空白[50]。有研究依據臨床護理分級和專業護理記錄建立護理關注實體和術語集作為NLP的初級語料庫,用以識別和預測不同患者的臨床病情[51]。
3.5 其他應用
基于機器學習NLP輔助錄入和質控病案首頁ICD編碼,智能核查推進病案首頁規范化、助力高效的病歷書寫[52]。
應用NLP及圖像識別等AI技術智能分析醫學文本、數據和影像,開發CDSS以預測主動脈夾層病例,經小范圍急診醫師群體的評估認為,提高證據質量與兼容性是促進CDSS臨床應用的重點[53]。
結合NLP詞嵌入和數據向量化、深度自編碼器和無監督聚類技術構建兒童膿毒癥亞型識別模型,評估不同臨床特征患者群,輔助臨床決策以期降低兒童膿毒癥死亡率[54]。
一項創新性研究應用深度神經網絡對DNA序列進行識別、分類,獲得了較高的交叉驗證精度,是NLP應用于生物信息學研究的有益探索[55]。
常規而言,新藥研發在完成體外研究前不能開展臨床試驗,而以生物醫學KG為基礎,應用NLP機器學習模型開展生物實體預測,分析病因、藥物等因果關系,可以助力新藥臨床研發[56]。
4 NLP在中醫藥領域的應用
中醫藥學是我國獨有的優勢科技資源,應用NLP能夠高效地挖掘、整合、分析與學習博大精深的中醫藥知識、共享中醫藥信息,是推動中醫藥現代化、促進傳承與創新發展的有力武器。
2002年中國中醫科學院建立了基于中醫藥學科及語言特點的中醫藥學語言系統(traditional Chinese medicine language system,TCMLS),廣泛應用于中醫藥文本挖掘和資源檢索[57,58];并以TCMLS為基礎構建KG,設計了提供診療建議的問答系統[59]。
應用BERT模型對中醫電子病歷與臨床記錄完成自動疾病分類和信息提取,可視化處理信息權重、標注臨床文本的特征性表達,為進一步的知識分析建立基礎[60]。中藥研究平臺LTM-TCM應用BioNLP程序對超3 000萬篇文章的中藥資源相互作用進行精準校正,包括癥狀、藥材、成分及靶標等,提高了數據檢索的關聯性[61]。
中醫癥狀是臨床基礎信息,但癥狀描述或字面表達存在重疊、多義及異詞同義等問題。在挖掘分析中醫癥狀文本特征基礎上,應用NER、術語構詞模式等技術實現了對癥狀術語的自動抽取與注釋[62];聯合學習模型能夠對中醫臨床記錄中多重癥狀文本進行實體關系抽取,有效解決大量混合或重疊癥狀的問題[63];應用NLP算法構建中醫癥狀歸一化模型,以雙向長短時記憶(Bi-LSTM)神經網絡、BERT等生成文本序列有助于統一、規范化臨床記錄的癥狀表達[64]。
醫工結合領域的學者設計基于DL與主動學習算法的中醫術語識別系統,結合了預訓練語言模型(language models,LM)及遷移學習策略的BERT-BiLSTM-CRF模型對中醫古籍文本的術語識別顯示出優越的性能,主動學習機制的應用顯著降低了人工標注語料的成本,是中醫術語識別NER系統的成功實例[65]。
應用Neo4j圖數據庫構建了基于《傷寒論》桂枝湯類方的KG,實現對桂枝湯類方的證、方、藥的可視化分析及檢索[66]。湖南中醫藥大學研究團隊構建了以Bi-LSTM神經網絡與CNN技術結合過采樣SMOTE法的S-TextBLCNN模型,通過DL分析《中國藥典》的中藥功效與《醫方集解》19個方劑功效類別的對應關系,提高了方劑功效分類的準確性,有助于進一步探索方劑配伍的內在規律[67]。
中醫藥領域的NLP應用研究起步較晚,目前的案例多處于研究探索階段,不容忽視的是,NLP對于中醫藥文本的智能分析、中醫藥信息挖掘以及建立中醫知識網絡體系具有重要的實踐意義。
醫學領域的NLP應用蓬勃發展,智能醫療、健康大數據、醫學信息及醫學科研等與NLP相結合的研究模式正在成為行業主流。NLP/AI與醫學融合發展是21世紀的醫學革命,谷歌DeepMind Health、騰訊覓影、阿里ET醫療大腦等的開發顯示互聯網科技巨頭均全線布局新興醫學產業。應用NLP是直線提升醫學實踐效率、推動醫學研究創新發展的科技密鑰。
5 大語言模型(large language models,LLM)的涌現
LLM指的是經過海量信息和參數訓練的具有強大計算能力的深度NLP模型,能夠高速、智能化生成人類語言文本和問答對話。從1980年代CNN雛形誕生,到2017年Transformer架構提出[68],至2022年Chat GPT問世,LLM正在以全新、超能的姿態通過幾近真實的語言交互與360°場景生成能力征服每一位數據用戶,引領行業變革。
LLM的建立和運行是各環節NLP技術的高階集成。首先是原始文本的數據清洗,形成了有效的訓練集、驗證集和測試集構建學習基礎。其次是語言數學化,應用Embedding等將字/詞轉化為攜帶信息的數字向量,是計算機理解語言的根本。Transformer和注意力機制突破了機器生成文本無限接近自然語言的壁壘,是語言AI的分水嶺。微調和強化學習極大地提升了LM適應力和自反饋性能,是不斷開拓應用場景的保障。
LLM在醫療服務與醫學研究應用中的巨大潛力和價值是毋庸置疑的。包括且不限于輔助臨床診斷及誤診信息偵察[69],醫學問答及患者教育[70],藥理技術和新藥研發[71],基因組學與生物標志物預測[72],藥物不良反應報告及預警評估[73],物質藥效及毒性鑒別和測試等[74]。
LLM驅動中醫藥領域的智能診療和研究,建立了一定規模的中醫大模型,百度健康旗下的“岐黃問道·大模型”、ShenNong-TCM中文大模型、仲景中醫LLM及Huang-Di模型倉庫等已在臨床診療、知識體系構建、健康問答、古籍深度開發等方面掀起了數字化革命[75]。
醫藥行業的LLM發展在提升醫療服務、減輕醫療負擔、公共衛生及促進醫學創新方面均具有廣闊的空間和機遇,同時為個性化醫療定制、醫療機構改革和醫藥企業高速發展開辟新的商業賽道。OpenAI’s GPT-4、Anthropic’s Claude 3 and Google’s Bard……LLM更新迭代地涌現,是其解決大規模復雜任務潛力的“涌現”,亦是相應倫理風險的“涌現”;首先,醫療數據安全和隱私保護是系統開發最初即應高度關注的問題,開源數據的透明度審查由中立的第三方承擔;另一方面,醫學知識的準確性、可靠性與專業深度需要進一步提高[76],臨床引用程度值得商榷;LLM輸出的可解釋性同樣難以獲得專業人士的信任,尤其是因果關系的判斷方面[73]。大風浪中駛向遠方,希冀醫學大數據與LLM相結合為全人類健康保駕護航。
6 討論
“語言是思想的直接體現”,人類社會幾乎所有的知識都蘊藏在語言之中,語言帶給我們真實世界的客觀資訊與幾乎所有學科的專業信息,智能、高效抽取和處理語言信息的迫切需求使得NLP應運而生。
“很難想象一個沒有語言能力的AI體能走多遠”[77],擁有和人一樣的學習能力,獲取知識、理解、處理與表達,是NLP樸素的運行與研究過程。經過近80年的發展,NLP、LLM愈加走向智能化。在信息爆炸的新形勢下,數據流分析使得NLP的文本理解及語言生成能力與日俱增[78]。“NLP+”已然成為了行業排頭兵,與各專業領域的深度結合正潛移默化地引發研究與發展的變革。
NLP在健康、新聞和生物醫學領域應用潛力巨大[79]。醫學領域NLP在生物醫學數據分析、健康管理、新藥及器械研發、輔助診療及臨床決策支持、生物信息學、精準醫學等方面百花齊放,為提高臨床醫療效率、緩解醫療資源緊張、降低醫療經濟負擔、推動生物醫學研究給予了巨大的技術支持。今后,NLP的應用將會助力于解決更多實際的醫學問題,在具體疾病領域,如惡性腫瘤、精神類疾病、引發國際公共衛生事件的重大傳染病等的臨床及科研中發揮積極作用。
“中國醫藥學是一個偉大的寶庫,應當努力發掘,加以提高”,國務院關于促進中醫藥傳承創新發展的意見明確指出,中醫藥的信息化和創新科研是傳承發展的重要環節,對典籍、名錄等的挖掘、研究與分享是傳承中醫藥精華的有效途徑,而這正是NLP最具優勢的技術領域。構建全面覆蓋醫療與健康服務、中藥產業結構升級、人才培養與建設、醫藥管理、臨床與基礎科研創新的中醫藥知識與信息網絡是NLP應用于中醫藥學發展的核心價值與未來趨勢。
中醫藥與NLP的融合發展必將全面、高效地促進中醫藥臨床與科研水平的提升,推動中醫藥現代化與國際化進程,不斷為中醫藥守護人類健康事業做出更大貢獻。
自然語言處理(natural language processing,NLP)是通過計算機實現語言分析、研究人-機交互進行有效通信的理論與技術,計算機科學家Bill Manaris定義NLP是“研究人與計算機交流語言問題的科學,建立能夠表示語言能力和語言應用模型以滿足不同工作的實際需求”[1]。NLP融合了數學、語言學、計算機科學等多學科的理論與方法,是人工智能的重要研究方向。
在互聯網時代,高效、準確地識別與處理語言,是智能化進程的必需環節,有學者認為,NLP可以與物理學相媲美,在未來科學的發展中占據舉足輕重的地位[2]。在現代醫學發展日新月異的今天,NLP的應用將成為提高臨床診療效率、解決醫療資源分配與醫技共享的有力推手。
1 NLP的發展沿革
語言作為人類思維邏輯的載體,是交流的符號系統[3],是獲取知識并將其廣泛傳播的路徑。20世紀計算機科學快速發展,人們期待自動化的機器處理代替低效率的人工檢索與翻譯,NLP即在這一背景下應運而生。
1947年,Warren Weaver等提出“計算機語言自動翻譯”的理念引領了NLP的思想與技術發展,機器翻譯(machine translation)是NLP最早的研究領域[4]。計算機科學之父A.M.Turing最早認識到計算機的智能性,提出理解英文是檢驗其學習能力的最好方法。同期,John McCarthy等提出了“人工智能(artificial intelligence,AI)”的概念,開啟了智慧化科學研究的新篇章。基于規則邏輯的AI研究是當時的主旋律。
基于統計學的NLP研究亦逐漸崛起。50年代后期,貝葉斯方法被應用于解決最優字符的識別。1970年代語義網絡在AI中的應用為建立知識圖譜(knowledge graph,KG)奠定了基礎。
20世紀末,語言處理的概率模型令學界再次傾向基于統計的經驗主義[2],對基于規則的理性主義的質疑包括方法的機械性[5]、實踐的有限性等。1992年機器翻譯國際會議的主題“機器翻譯的經驗主義和理性主義方法”是這一時期NLP學術爭鳴的集中體現。
邁入21世紀,理性主義規則算法與經驗主義統計分析的相互滲透與融合引領了NLP發展趨勢。大規模真實文本成為NLP研究理想的知識源已是不爭事實,大數據推動NLP迎來了新的機遇與挑戰。
2 NLP的研究與應用
2.1 NLP的關鍵基礎與技術
NLP與數學、邏輯學及概率論密不可分,研究基礎包括大量的數學及統計模型,貝葉斯決策理論、支持向量機等理論與方法是NLP的“工具包”。
語料庫和語言知識庫是NLP的數據基礎。語料庫是大規模真實文本存儲、標注、統計的數據庫,建立代表性和平衡性良好的語料庫是NLP的核心目標之一[6]。規模超7億漢字的北京大學語言學研究中心語料庫是語言學研究的重要資源[7]。語言知識庫是涵蓋詞匯、句法及語義等的大型知識庫;普林斯頓大學的WordNet是最具影響力的英文知識庫。北京大學的綜合語言知識庫[8]是規模最大的中文庫,全面的漢語語言知識為中文信息處理的研究與應用提供了強大的支持[9,10]。
處理與分析文本、語音是NLP的關鍵技術,包括形態學、語法學、語義學和語用學4個層次[11]。形態學又稱“詞法”,包括自動分詞、命名實體識別(named entity recognition,NER)、詞性標注等。NER是醫學信息化和智能醫療領域的基本技術[12]。語義分析的關鍵在于明確文本的意向,計算機模擬人腦理解語言的思維邏輯仍是當前NLP研究的重點和難點。
詞法、句法、語義及篇章從語言構成的層次形成了NLP的基礎性技術集合,是NLP應用系統建立的基石。
2.2 NLP的應用系統
2.2.1 機器翻譯
機器翻譯是計算機實現不同語言自動翻譯的系統,是NLP最早的應用領域,亦是當今經濟全球化及人類命運共同體構建趨勢下的前沿研究。以基于深度學習(deep learning,DL)的神經網絡機器翻譯(neural network machinetranslation,NNMT)[13,14]應用最廣泛。Google與有道神經網絡翻譯是國際領先的中外互譯工具[15,16]。
2.2.2 文本分類與情感分析
文本分類是在預定義體系下對文本進行類別關聯的系統,由文本預處理、文本表示和分類器分類構成。基于DL的文本自動分類具有較高的準確率[17,18]。
情感分析是應用計算機對包含情感色彩及主觀評價性文本進行自動抽取和分析的系統[19],應用機器學習對標注樣本進行訓練,卷積神經網絡(convolutional neural network,CNN)和長短期記憶是常用的DL模型[20]。
2.2.3 信息檢索與問答系統
信息檢索最早應用于文獻查詢與索引,目前以高效、準確獲取互聯網信息為主。如應用貝葉斯精準醫療概率框架支持關于基因及藥物等的信息檢索[21]。
問答系統以接受提問、大量異構數據庫自動檢索和輸出準確答案為特點[22]。其在醫學領域應用廣泛,如何提高醫療信息質量及檢索精確度是研究重點[23]。
2.2.4 自動文摘與信息抽取
自動文摘是計算機進行文本理解、分析概括并自動生成摘要的系統。研究重點在于通過提高學習性能及表達多樣性以實現信息的高效概述[24,25]。
信息抽取是從自然語言文本中自動抽取特定范圍的有效信息并存儲,構成實用性數據庫的應用技術。基于統計機器學習的信息抽取是近年來的研究熱點[26,27]。
NLP作為發展迅速的交叉學科,其技術與應用系統不是孤立的,方法與應用相互滲透、相輔相成。在邏輯規則與大型知識庫的支持下,NLP正朝著與更多專業學科深度結合的方向發展,在醫學、傳媒等領域具有廣闊的應用前景。
3 NLP在醫學領域的應用
醫學領域是NLP應用最早、最重要的專業領域之一。自1972年第一個輔助診斷的醫學專家系統AAPHelp發布以來,智能化醫學研究一直走在NLP發展的領先行列。
3.1 基于醫學文本的信息抽取及應用
3.1.1 以電子病歷為數據源
電子病歷是包含最多醫療信息的文本,應用NLP對電子病歷進行智能分析,能夠快速、有效地獲取所需數據。在醫學文本語言特征規則引入的基礎上,結合NER、DL、語義關聯抽取等技術智能分析病歷,識別、標注特定臨床信息,為臨床實踐和科研提供參考[28-31]。
3.1.2 以醫學數據庫為數據源
例如從學術期刊的出版動態判斷新冠疫情對全球醫學研究的影響,設計NLP程序分析出版物的文章類型及作者數量,結果顯示新冠疫情可能導致非COVID-19研究產量下降18%[32]。
有學者應用文本挖掘、信息抽取技術整合Wikipedia和PubMed資源,建立了臨床癥狀對應疾病診斷的綜合數據庫DISNET,能夠自動、定期從數據庫檢索并抽取癥狀、體征等信息[33]。
應用NLP推動智能化Meta分析,設計基于互感器雙向編碼器表示(bidirectional encoder representation based on transformer,BERT)的NER系統,從已發表文獻摘要中提取臨床試驗數據并統計分析,有望實現最新臨床證據的自動更新[34]。
應用潛在語義分析、自動文摘技術統計2007—2017年學術期刊發表的腎臟病學研究,揭示我國腎臟病學的研究主題,以動物模型開展的基礎研究排名第一[35]。
3.1.3 以醫學檢查文本為數據源
應用NLP對醫學檢查文本,尤其影像學檢查報告進行自動分析能夠有效替代耗時耗力的人工查閱。
基于專家術語集和生物醫學系統命名法-臨床術語本體映射的兩種NLP文本分析系統對擬進行MRI檢查的患者進行分析,提高了識別具有高風險可植入設備患者的一致性、敏感性及準確性[36]。
有橫斷面研究結果顯示,應用NLP系統在放射學報告中識別住院患者靜脈血栓栓塞的精確度在一定程度上高于ICD-10代碼[37]。
構建NLP自動程序提取兒科尸檢的MRI報告,智能評估其檢查方案和診斷,提高審查效率,能夠簡化對同類影像數據的審閱工作[38]。
3.1.4 以自由醫學文本和網絡信息為數據源
自由醫學文本,包括醫師敘事記錄和患者信息表等,是獲取有價值的臨床信息、完善真實世界證據的重要來源。實例應用顯示,NLP抽取科室近3年非正式臨床記錄,分析得出哮喘、鼻炎、蕁麻疹是3種最常見的合并癥,2 057名患者中有991名至少患有其中一種合并癥[39]。基于多標簽文本分類的DL算法能夠實現對轉診三級醫院預約申請表的智能審查,包括資格確認與會診分科等,極大地減輕了臨床工作量[40]。對臨床創傷患者的記錄進行自動判別,NLP系統決策是否應用臨床最佳實踐指南的姑息治療與臨床醫師判斷基本一致[41]。以囊性纖維化病為例,建立基于NER與ScispaCy模型的NLP系統,自動抽取患者生成健康數據(如醫學日記)以形成病情報告與用藥評估,是院外隨訪與監測健康事件的重要途徑[42]。應用NLP信息檢索與分類監測社交媒體上的個人酒精消耗數據,能夠為酒精控制政策的評估與實施提供參考[43]。
3.2 構建醫學知識圖譜(medical knowledge graph,MKG)
MKG能夠可視化呈現專業的醫學資源和結構。應用NLP智能語義分析、信息分類完成“疾病-癥狀-特征”醫學診斷KG以構建輔助診斷工具[44]。以中文分詞、NER等方法實現對婦產科醫學教材的信息抽取,建立結構化的婦產醫學KG,為智能醫療服務奠定基礎[45]。
臨床藥學方面,NLP能夠自動構建以藥品說明書為基礎的臨床用藥KG,以提高合理用藥的智能度和準確度[46]。
構建MKG是臨床決策支持系統(clinical decision support systems,CDSS)的基礎。例如應用NLP構建慢性腎病KG及智能問診路徑,輔助慢性腎病的基層臨床診療[47]。
3.3 醫學健康問答系統
醫學問答系統使得人們通過互聯網及手機Apps便捷地了解更多醫學健康知識。對非結構化問題的理解、分析及解答是NLP的研究重點。
有研究結合概念分析和TF-IDF模型語義權重分析,自動將問題分配給相應領域的專家以獲得解答。應用樸素貝葉斯分類、詞向量等技術設計醫學智能問答Apps對問題制定分類規則,有效提高答案的準確率[48]。基于專業醫學知識庫,以傳統機器學習和DL結合的方法來理解、處理提問并反饋答案更有益于解答真實環境下的各種問題[49]。
3.4 生物醫學信息語料庫的構建
法國學者基于PubMed建立了以專家手動注釋的藥物基因組學語料庫(PGxCorpus),填補了這一領域的空白[50]。有研究依據臨床護理分級和專業護理記錄建立護理關注實體和術語集作為NLP的初級語料庫,用以識別和預測不同患者的臨床病情[51]。
3.5 其他應用
基于機器學習NLP輔助錄入和質控病案首頁ICD編碼,智能核查推進病案首頁規范化、助力高效的病歷書寫[52]。
應用NLP及圖像識別等AI技術智能分析醫學文本、數據和影像,開發CDSS以預測主動脈夾層病例,經小范圍急診醫師群體的評估認為,提高證據質量與兼容性是促進CDSS臨床應用的重點[53]。
結合NLP詞嵌入和數據向量化、深度自編碼器和無監督聚類技術構建兒童膿毒癥亞型識別模型,評估不同臨床特征患者群,輔助臨床決策以期降低兒童膿毒癥死亡率[54]。
一項創新性研究應用深度神經網絡對DNA序列進行識別、分類,獲得了較高的交叉驗證精度,是NLP應用于生物信息學研究的有益探索[55]。
常規而言,新藥研發在完成體外研究前不能開展臨床試驗,而以生物醫學KG為基礎,應用NLP機器學習模型開展生物實體預測,分析病因、藥物等因果關系,可以助力新藥臨床研發[56]。
4 NLP在中醫藥領域的應用
中醫藥學是我國獨有的優勢科技資源,應用NLP能夠高效地挖掘、整合、分析與學習博大精深的中醫藥知識、共享中醫藥信息,是推動中醫藥現代化、促進傳承與創新發展的有力武器。
2002年中國中醫科學院建立了基于中醫藥學科及語言特點的中醫藥學語言系統(traditional Chinese medicine language system,TCMLS),廣泛應用于中醫藥文本挖掘和資源檢索[57,58];并以TCMLS為基礎構建KG,設計了提供診療建議的問答系統[59]。
應用BERT模型對中醫電子病歷與臨床記錄完成自動疾病分類和信息提取,可視化處理信息權重、標注臨床文本的特征性表達,為進一步的知識分析建立基礎[60]。中藥研究平臺LTM-TCM應用BioNLP程序對超3 000萬篇文章的中藥資源相互作用進行精準校正,包括癥狀、藥材、成分及靶標等,提高了數據檢索的關聯性[61]。
中醫癥狀是臨床基礎信息,但癥狀描述或字面表達存在重疊、多義及異詞同義等問題。在挖掘分析中醫癥狀文本特征基礎上,應用NER、術語構詞模式等技術實現了對癥狀術語的自動抽取與注釋[62];聯合學習模型能夠對中醫臨床記錄中多重癥狀文本進行實體關系抽取,有效解決大量混合或重疊癥狀的問題[63];應用NLP算法構建中醫癥狀歸一化模型,以雙向長短時記憶(Bi-LSTM)神經網絡、BERT等生成文本序列有助于統一、規范化臨床記錄的癥狀表達[64]。
醫工結合領域的學者設計基于DL與主動學習算法的中醫術語識別系統,結合了預訓練語言模型(language models,LM)及遷移學習策略的BERT-BiLSTM-CRF模型對中醫古籍文本的術語識別顯示出優越的性能,主動學習機制的應用顯著降低了人工標注語料的成本,是中醫術語識別NER系統的成功實例[65]。
應用Neo4j圖數據庫構建了基于《傷寒論》桂枝湯類方的KG,實現對桂枝湯類方的證、方、藥的可視化分析及檢索[66]。湖南中醫藥大學研究團隊構建了以Bi-LSTM神經網絡與CNN技術結合過采樣SMOTE法的S-TextBLCNN模型,通過DL分析《中國藥典》的中藥功效與《醫方集解》19個方劑功效類別的對應關系,提高了方劑功效分類的準確性,有助于進一步探索方劑配伍的內在規律[67]。
中醫藥領域的NLP應用研究起步較晚,目前的案例多處于研究探索階段,不容忽視的是,NLP對于中醫藥文本的智能分析、中醫藥信息挖掘以及建立中醫知識網絡體系具有重要的實踐意義。
醫學領域的NLP應用蓬勃發展,智能醫療、健康大數據、醫學信息及醫學科研等與NLP相結合的研究模式正在成為行業主流。NLP/AI與醫學融合發展是21世紀的醫學革命,谷歌DeepMind Health、騰訊覓影、阿里ET醫療大腦等的開發顯示互聯網科技巨頭均全線布局新興醫學產業。應用NLP是直線提升醫學實踐效率、推動醫學研究創新發展的科技密鑰。
5 大語言模型(large language models,LLM)的涌現
LLM指的是經過海量信息和參數訓練的具有強大計算能力的深度NLP模型,能夠高速、智能化生成人類語言文本和問答對話。從1980年代CNN雛形誕生,到2017年Transformer架構提出[68],至2022年Chat GPT問世,LLM正在以全新、超能的姿態通過幾近真實的語言交互與360°場景生成能力征服每一位數據用戶,引領行業變革。
LLM的建立和運行是各環節NLP技術的高階集成。首先是原始文本的數據清洗,形成了有效的訓練集、驗證集和測試集構建學習基礎。其次是語言數學化,應用Embedding等將字/詞轉化為攜帶信息的數字向量,是計算機理解語言的根本。Transformer和注意力機制突破了機器生成文本無限接近自然語言的壁壘,是語言AI的分水嶺。微調和強化學習極大地提升了LM適應力和自反饋性能,是不斷開拓應用場景的保障。
LLM在醫療服務與醫學研究應用中的巨大潛力和價值是毋庸置疑的。包括且不限于輔助臨床診斷及誤診信息偵察[69],醫學問答及患者教育[70],藥理技術和新藥研發[71],基因組學與生物標志物預測[72],藥物不良反應報告及預警評估[73],物質藥效及毒性鑒別和測試等[74]。
LLM驅動中醫藥領域的智能診療和研究,建立了一定規模的中醫大模型,百度健康旗下的“岐黃問道·大模型”、ShenNong-TCM中文大模型、仲景中醫LLM及Huang-Di模型倉庫等已在臨床診療、知識體系構建、健康問答、古籍深度開發等方面掀起了數字化革命[75]。
醫藥行業的LLM發展在提升醫療服務、減輕醫療負擔、公共衛生及促進醫學創新方面均具有廣闊的空間和機遇,同時為個性化醫療定制、醫療機構改革和醫藥企業高速發展開辟新的商業賽道。OpenAI’s GPT-4、Anthropic’s Claude 3 and Google’s Bard……LLM更新迭代地涌現,是其解決大規模復雜任務潛力的“涌現”,亦是相應倫理風險的“涌現”;首先,醫療數據安全和隱私保護是系統開發最初即應高度關注的問題,開源數據的透明度審查由中立的第三方承擔;另一方面,醫學知識的準確性、可靠性與專業深度需要進一步提高[76],臨床引用程度值得商榷;LLM輸出的可解釋性同樣難以獲得專業人士的信任,尤其是因果關系的判斷方面[73]。大風浪中駛向遠方,希冀醫學大數據與LLM相結合為全人類健康保駕護航。
6 討論
“語言是思想的直接體現”,人類社會幾乎所有的知識都蘊藏在語言之中,語言帶給我們真實世界的客觀資訊與幾乎所有學科的專業信息,智能、高效抽取和處理語言信息的迫切需求使得NLP應運而生。
“很難想象一個沒有語言能力的AI體能走多遠”[77],擁有和人一樣的學習能力,獲取知識、理解、處理與表達,是NLP樸素的運行與研究過程。經過近80年的發展,NLP、LLM愈加走向智能化。在信息爆炸的新形勢下,數據流分析使得NLP的文本理解及語言生成能力與日俱增[78]。“NLP+”已然成為了行業排頭兵,與各專業領域的深度結合正潛移默化地引發研究與發展的變革。
NLP在健康、新聞和生物醫學領域應用潛力巨大[79]。醫學領域NLP在生物醫學數據分析、健康管理、新藥及器械研發、輔助診療及臨床決策支持、生物信息學、精準醫學等方面百花齊放,為提高臨床醫療效率、緩解醫療資源緊張、降低醫療經濟負擔、推動生物醫學研究給予了巨大的技術支持。今后,NLP的應用將會助力于解決更多實際的醫學問題,在具體疾病領域,如惡性腫瘤、精神類疾病、引發國際公共衛生事件的重大傳染病等的臨床及科研中發揮積極作用。
“中國醫藥學是一個偉大的寶庫,應當努力發掘,加以提高”,國務院關于促進中醫藥傳承創新發展的意見明確指出,中醫藥的信息化和創新科研是傳承發展的重要環節,對典籍、名錄等的挖掘、研究與分享是傳承中醫藥精華的有效途徑,而這正是NLP最具優勢的技術領域。構建全面覆蓋醫療與健康服務、中藥產業結構升級、人才培養與建設、醫藥管理、臨床與基礎科研創新的中醫藥知識與信息網絡是NLP應用于中醫藥學發展的核心價值與未來趨勢。
中醫藥與NLP的融合發展必將全面、高效地促進中醫藥臨床與科研水平的提升,推動中醫藥現代化與國際化進程,不斷為中醫藥守護人類健康事業做出更大貢獻。