引用本文: 楊麗冰, 郭超, 姜會珍, 馬璉, 李單青. 人工智能輔助肺癌數據庫構建. 中國胸心血管外科臨床雜志, 2025, 32(2): 167-174. doi: 10.7507/1007-4848.202411061 復制
版權信息: ?四川大學華西醫院華西期刊社《中國胸心血管外科臨床雜志》版權所有,未經授權不得轉載、改編
肺癌是全球范圍內最常見的惡性腫瘤之一,發病率和死亡率均位列各類癌癥之首。根據世界衛生組織的統計,2020年全球新增肺癌病例220萬,死亡人數約180萬[1]。在中國,肺癌的發病率和死亡率也同樣居于癌癥的首位。在如此龐大的人口基數下,如何進一步優化治療策略、提高患者預后、加強全程管理,仍然是臨床和研究領域的重大挑戰。
對于確診肺癌患者的術后管理和長期預后評估,需要依賴大量的臨床數據,肺癌單病種數據庫的建設也應運而生。在全球范圍內,多個國家和機構已經建立了專門的肺癌數據庫,為研究和臨床實踐提供了豐富的數據資源。其中,美國國家癌癥研究所開發的SEER (Surveillance,Epidemiology, and End Results)數據庫是最具代表性的癌癥數據庫之一[2]。SEER數據庫涵蓋了自1973年以來的癌癥患者數據,收集了關于患者人口學信息、腫瘤分期、治療方式和預后等信息,數據來源廣泛且具有高可信度,為全球肺癌的研究提供了重要依據。在中國,近年來也逐步建立了一些大型的癌癥數據庫。例如,國家癌癥中心數據庫作為國家癌癥中心的重要組成部分,匯集了來自全國各地的癌癥登記數據等,旨在為癌癥研究、政策制定和公共衛生實踐提供數據支持。其中的肺癌相關數據,也為肺癌的臨床研究、治療優化和個性化醫療提供了強有力的支持[3]。
但在實際建設過程中,傳統的人工錄入和數據管理方式存在較大局限性。首先,手工錄入的過程中容易出現數據缺失或錯誤,特別是在復雜的多中心研究中,不同醫院的數據標準往往不一致,數據庫之間的互操作性較差,導致數據整合困難,限制了數據的共享與深度挖掘。此外,人工錄入方式費時費力,無法適應現代醫學數據的爆炸式增長,尤其是檢查報告、病理報告等非結構化數據的處理難度更大。這些問題嚴重制約了臨床研究的效率,也影響了臨床決策的質量。
為了克服這些挑戰,建立一個標準化、自動化、結構化的肺癌專病數據庫至關重要。通過整合電子病歷、醫囑信息、檢驗結果、影像資料、病理資料、基因測序資料和隨訪數據,數據庫可以提供全方位的患者信息,不僅為臨床醫生提供決策支持,還為科研工作者提供高質量的數據平臺,加速臨床和科研工作的進展。然而,電子病歷系統中數據中包含大量非結構化文本,如手術記錄、病理報告、影像報告等。這些數據盡管信息豐富,但由于格式不統一,難以直接用于分析和研究。人工智能為這一問題提供了有效的解決方案,特別是自然語言處理(natural language processing,NLP)技術,是一種使計算機能夠理解和處理人類自然語言的技術,已被廣泛應用于各個領域[4]。在肺癌數據庫建設中,NLP能夠自動識別和提取病歷、手術記錄、病理報告中的關鍵臨床信息,并將其轉化為結構化數據[5]。人工智能技術還可在數據治理、數據分析、數據深度挖掘中發揮巨大潛力。
鑒于上述背景,本研究依托北京協和醫院胸外科廣大的臨床數據,建立了基于人工智能的肺癌數據庫。我們將系統探討該數據庫的建設過程及其在臨床研究中的應用潛力。此外,本文還將討論數據庫建設中面臨的挑戰以及人工智能技術在數據庫應用中的前景,展望未來人工智能在肺癌領域的發展方向。
1 資料與方法
1.1 數據集設計
本研究首先設計了標準化的肺癌專病庫數據集,涵蓋了患者從術前評估到住院到術后隨訪的全流程信息。根據數據集所設定的變量內容,明確每個變量的來源及其對應字段,確保數據提取來源的準確性。例如,設定患者的人口學信息來源于病案首頁,手術名稱、術者來源于手術記錄,腫瘤性質來源于病理報告等。
1.2 數據采集與預處理
我院信息中心將HIS系統、電子病歷系統、LIS系統、PACS系統、病理系統、手術麻醉系統、電生理系統、輸血系統、內鏡系統等全院多個數據平臺的原始數據統一匯總至臨床數據中心(clinical data repository,CDR)。肺癌專病庫通過數據庫同步技術和ETL(extract-transform-load)等技術,從CDR中按照所設定的映射路徑,抽取相關數據,并隨著數據的增加,定期自動更新(圖1)。

在數據采集完成后,首先對所有采集到的數據進行標準化處理,以確保來自不同系統的數據字段在數據庫中的命名和格式一致。例如,實驗室檢查數據中的“白細胞計數”和“WBC”被統一為相同的字段。此外,系統通過自動化清洗算法對異常值、不合理記錄或重復數據進行識別并修正。系統還執行邏輯一致性檢查。如果發現問題,系統會自動標記,并在必要時進行人工復查和修正(圖2)。

1.3 自然語言處理技術的應用
在本研究中NLP技術是處理非結構化臨床文本數據的核心工具,旨在將病歷文書、病理報告、影像報告等自由文本轉化為結構化數據。整個處理過程分為幾個關鍵步驟,以確保數據的完整性、準確性和一致性。
1.3.1 分詞技術
首先,NLP系統通過分詞技術對輸入的文本進行初步處理。由于中文文本中存在大量未登錄詞,尤其是醫學術語和縮寫,這對電子病歷分詞提出了挑戰。為解決這個問題,系統分為兩個步驟進行分詞處理。第一步,使用開放領域詞典,結合最大似然原則對電子病歷進行初步切分。詞的出現概率通過期望最大化(expection maximization,EM)算法從大規模未標注語料中學習得出,以提高詞語識別的準確性。第二步,系統利用字串的邊界熵、長度等信息,通過有序聚類算法對初步切分結果進行調整,以便準確識別未登錄詞。在醫學文本中,不同醫生可能使用不同的術語來描述相同的病灶或病理特征,例如“胸膜轉移”可能會在不同報告中被表述為“胸膜侵犯”或“胸膜浸潤”。通過有序聚類算法,系統能夠將這些不同表述歸類為相同的臨床概念,確保數據一致性。“浸潤”和“侵犯”這樣的同義表達會被系統統一映射到相同的字段,從而避免數據分析中出現不一致或重復的現象。系統根據不同場景采用了多種分詞技術。最短路徑分詞用于通用的快速文本處理;N-最短路徑分詞適用于需要較高準確度的場景。為提高分詞的靈活性,系統還支持自定義詞典,允許根據具體的醫學數據進行人為干預,確保特定領域的專業術語能得到準確識別和處理。
在整個過程中,系統還結合了隱馬爾可夫模型(HMM)和條件隨機場(CRF)分詞技術。這些技術通過分析上下文信息和詞語的頻率,能夠更好地處理復雜的上下文依賴關系,特別是在處理多義詞和具有模糊邊界的詞語時表現尤為突出。例如,在影像報告中,“病灶邊界”與“病灶形態”之間存在復雜關聯,CRF模型能夠通過上下文分析準確分離這些信息,并標注到相應的字段中。HMM和CRF的結合使用確保了系統能夠處理復雜的語言結構。HMM用于初步標注序列數據,而CRF則在處理長距離依賴時更加有效。通過結合這兩種技術,系統能夠在識別醫學術語時兼顧語境,從而提高整體準確性。
1.3.2 實體命名和語義解析
在分詞處理完成后,系統對每個分詞后的短語進行實體命名和詞性標注。對于“左肺結節”這樣的描述,系統能夠識別出“左肺”為解剖部位,“結節”為病理實體,并標注其為關鍵醫學信息。這一步為后續的結構化數據存儲和語義分析奠定了基礎。在實體命名過程中,臨床醫師參與了規則的制定和校正,確保命名規則的準確性和實用性。這種人工校正極大地提高了系統的準確性,特別是在涉及新術語或罕見病例時,NLP系統能夠通過臨床醫師的規則及時調整和適應。隨著臨床實踐的發展,系統中的規則庫也能根據最新的醫學文獻和實際使用情況進行動態更新,保證規則的時效性和科學性。
1.3.3 短語提取與語義消歧
為了處理文本中存在的復雜語義關系,特別是在否定詞、反向詞和條件表達的情況下,系統引入了語義分析模型。這一過程依賴于規則庫中的條件和否定表達,同時系統通過深度學習模型(如BERT)進一步增強其對復雜語義的處理能力。例如,對于類似“無明確腫瘤”這樣的表達,系統不僅要識別“無”作為否定詞,還需通過上下文解析來確認是否存在反向表達,確保提取的信息不會出現語義上的誤差。為此,系統通過規則庫識別否定詞和反向表達,并結合上下文進行判斷。此外,條件表達在臨床文本中也十分常見。例如,病歷中可能存在類似“如果病灶增大,則考慮手術”的描述,這類語句中包含了條件表達。系統通過上下文分析和條件推理,能夠識別出這些條件語句并避免將潛在條件誤解為實際的臨床決策。
1.3.4 數據量處理與系統優化
由于系統通過數據接口獲取海量的電子病歷數據,處理效率和性能優化至關重要。為應對大規模數據的挑戰,系統采用了并行計算和分布式處理技術。系統通過多線程和緩存機制優化處理性能,確保在處理大規模文本數據時仍然保持高效的處理速度。數據的預處理、分詞和實體提取均通過分布式架構實現,確保系統能夠擴展以處理日益增長的數據量,避免性能瓶頸。
1.3.5 數據庫架構
在數據庫架構設計方面,研究采用了分布式架構以應對大規模異構數據的處理需求。MongoDB作為主要數據庫,提供了文檔型的靈活存儲結構,支持大規模數據的并行處理和快速查詢。每例患者的病歷數據以json格式存儲在MongoDB中,確保了數據查詢的高效性和靈活性。Elasticsearch搜索引擎則支持實時數據查詢,通過分布式存儲和索引技術保證了系統的高可用性和擴展性。
1.3.6 數據庫質量控制
在數據質量控制方面,系統建立了嚴格的質量控制體系。首先,系統自動對關鍵變量進行完整性檢查,標記缺失或異常值,并通過人工或自動化方式進行補全和修正。邏輯一致性檢查確保患者的診斷、治療和隨訪數據在不同記錄中的合理性和一致性。系統通過自動異常值監控,實時標記并修正潛在數據問題。此外,系統具備數據溯源功能,科研人員可以直接回溯到原始病歷記錄,驗證數據的準確性。在數據存儲和傳輸過程中,所有患者信息進行了匿名化處理,確保隱私保護,同時通過加密技術保障數據的安全。
2 結果
2.1 數據集概況
北京協和醫院人工智能肺癌專病數據庫的設計重點是系統化采集接受肺部手術的患者住院期間的詳細臨床數據,并整合術前和術后門診信息,構建患者全程管理的數據鏈條。數據集設計是數據庫建設的基礎。數據集包括了患者的基本信息(如年齡、性別、吸煙史)、診斷信息、病史信息(如癥狀、吸煙史)、影像學檢查(如CT、PET-CT影像特征)、常規檢驗檢查(如血常規、腫瘤標志物)、手術操作信息(如手術路徑、切除范圍)、圍術期情況(如術后并發癥)、醫囑信息、病理結果(如腫瘤類型、分期)以及預后隨訪信息(如復發、轉移情況)。這些數據變量的精細化設計見表1,能夠支持從疾病特征分析到治療方式效果評估和預后因素分析的多層次研究需求。

2.2 數據庫概況
自2012年7月我院啟用電子病歷系統以來,截至2024年9月29日,數據庫共納入18 811例患者,包含19 267例住院病例和438 714例門診病例。然而,由于早期數據存儲方式的限制,2012—2015年間的患者信息存在一定程度的缺失,2016年及以后的數據最為完整。在就診人次的年度分布上,數據顯示患者數量自2015年起呈波動增長趨勢,特別是在2019年和2023年達到了高峰(圖3a)。

圖3b展示了數據庫中的患者列表頁面,該頁面提供了所有納入患者的基本信息,包括年齡、性別、出生日期、診斷信息、入院和出院時間、手術方式等。通過此頁面,臨床研究人員可以快速瀏覽患者的基本信息和診療情況,支持用戶對住院患者核心信息的瀏覽。每條數據記錄都可進一步展開,顯示更詳細的住院期間治療過程、病理結果及術后隨訪情況,為研究人員提供了全面的患者管理和信息獲取功能。
圖3c展示的是數據庫的變量列表頁面,列出了數據庫中可供查詢和分析的各類變量。研究人員可以通過多層次的篩選條件對患者數據進行精細化篩選,涵蓋基礎信息、診斷、病史情況、影像學檢查、化驗結果、病理報告、手術信息等多個維度。這一功能提升了數據檢索效率,為復雜數據的深度挖掘和分析奠定了基礎。
2.3 臨床研究的應用:非小細胞肺癌的預后及影響因素挖掘
為展示北京協和醫院人工智能肺癌專病數據庫在臨床研究中的優勢,本文以非小細胞肺癌患者的預后及其影響因素分析為研究實例,說明數據庫在數據挖掘方面的應用能力(圖4)。本研究實例展現了數據庫的高效性和智能化流程,使得研究人員能夠快速獲得臨床研究所需數據,顯著降低了研究耗時。例如,應用數據庫進行此次研究的數據篩選、分析總耗時約5 h,而傳統數據錄入和整理方式可能需耗時數月。

步驟一:研究設計。數據庫支持靈活的研究設計流程,研究人員可以根據研究需求,快速設定特定的分析目標和策略。在本次研究中,我們的研究目標是分析非小細胞肺癌患者的長期預后及其影響因素。通過數據庫中的查詢和篩選功能,研究者能夠在設計階段便捷地構建出適合特定人群和變量的分析方案。
步驟二:確定研究群體。在數據庫的支持下,研究人員可以精確篩選符合研究標準的患者群體。在本次研究中,我們通過數據庫的多層次篩選功能,篩選出所有病理確診為非小細胞肺癌且具備完整隨訪數據的患者,確保數據的完整性。這一篩選過程僅需幾分鐘,大大縮短了傳統方式下需要人工核查和錄入數據的時間,提升了研究效率。我們篩選2016年1月1日—2023年12月31日住院及隨訪信息完整的患者9 383例。
步驟三:選擇研究變量。數據庫提供了多維度、細粒度的變量列表,研究人員可以根據需要自由選擇所需的變量進行分析。本次研究選擇了包括年齡、性別、腫瘤分期、腫瘤大小、合并癥、手術情況等在內的多個關鍵變量,為深入分析預后影響因素提供了豐富的數據支持。相比傳統數據收集模式,數據庫支持即時選擇并提取變量,不需手動整理,為研究提供了極大的便利性和靈活性。
步驟四:描述性統計分析。在研究群體和變量選定后,數據庫支持自動生成描述性統計分析,快速展示研究對象的基本特征。在本研究中,生存曲線顯示了不同臨床分期患者的生存差異,早期分期患者的生存率顯著高于晚期患者,符合臨床預期。數據庫的描述性統計功能不僅幫助研究者快速獲得總體數據特征,還為進一步深入分析奠定了基礎。
步驟五:數據挖掘和多因素分析。利用多變量分析工具,研究者能夠對非小細胞肺癌患者的預后影響因素進行全面挖掘。通過Cox回歸模型等分析方法,本研究得出年齡、腫瘤分期、合并癥情況等對患者生存率的顯著影響。例如,數據顯示晚期患者的生存風險顯著高于早期患者,且患有呼吸系統合并癥的患者預后較差。
本研究實例充分展示了數據庫在臨床研究中的高效性、靈活性和數據整合優勢。通過數據庫的多維數據篩選、精細變量選擇和自動化統計分析功能,研究人員能夠在短時間內完成復雜的數據分析流程,為大數據挖掘、回顧性研究提供了重要支持。與傳統的手動數據錄入相比,數據庫的使用顯著縮短了研究時間,極大地提升了數據獲取和處理效率,表明其在臨床研究中的應用潛力和重要價值。
3 討論
本研究構建的基于人工智能的肺癌數據庫在數據整合、標準化、結構化和多維分析方面展現了顯著優勢,為肺癌的臨床研究提供了強大的數據基礎。通過NLP技術和機器學習模型[5- 6],數據庫實現了對多源、異質性醫學數據的高效處理,使得復雜的臨床信息能夠被結構化為可分析的數據形式,為大規模真實世界數據研究奠定可靠的數據支撐。
首先,數據庫在多源數據整合和質量控制方面表現出色。醫療數據來源復雜,包含電子病歷、影像數據、病理報告等,且記錄方式、術語和格式各異。通過數據治理和自動化數據清洗技術,數據庫實現了多源數據的高效整合,確保了數據的完整性和一致性。
其次,數據庫的建設極大提高了數據處理和分析的效率。傳統的臨床數據錄入方式不僅費時費力,還容易產生錯誤。而通過NLP技術自動化處理病歷、影像報告和病理報告等非結構化文本數據,數據庫能夠快速、準確地提取關鍵信息。例如,NLP能夠從影像報告中提取腫瘤的大小、形狀和位置等特征,并將其結構化存儲。這種自動化處理極大地減少了人工錄入的工作量,使得研究人員能夠在短時間內完成數據篩選和分析。本次研究實例表明,應用數據庫進行非小細胞肺癌預后分析僅需約5 h,而傳統的手動數據錄入和整理可能需要耗時數月,這顯著提升了研究效率。
基于上述優點,數據庫在數據挖掘和多因素分析方面表現出顯著優勢[7]。在本文研究實例中,應用數據庫快速納入大量患者的大量變量,通過自動化分析工具,我們能夠快速識別出影響非小細胞肺癌患者生存率的主要因素,如年齡、腫瘤分期和合并癥等。數據庫的實時查詢和篩選功能使得研究人員可以根據特定研究需求,迅速調整分析變量和研究人群,極大地增強了數據庫在臨床研究中的靈活性。傳統臨床數據分析受制于數據整理和分析周期較長,而本研究的數據庫能夠通過自動化數據提取和分析,迅速生成多維度的研究結果,從而更高效地挖掘數據價值。
在科室管理方面,人工智能數據庫也具備一定的應用價值。數據庫提供了關于手術方式、術后并發癥、住院時間等核心指標的實時數據支持。管理者可以基于這些數據評估不同手術路徑的效果,了解并發癥發生率和住院時間等運營關鍵指標。這種實時、可視化的數據訪問特性幫助管理者在優化手術流程、合理配置資源和提升患者護理質量方面做出科學決策,使得科室管理更加高效。
此外,人工智能數據庫在多中心聯合研究中的潛力也不容忽視[8]。數據庫通過標準化的數據架構支持跨機構的數據共享,使不同醫療機構能夠在統一框架下共享數據,從而形成更大規模的樣本量,增加研究的廣泛適用性。這種多中心的合作不僅提升了數據庫在不同患者群體中的適用性,還為肺癌臨床研究提供了多樣化的病例數據支持。更大樣本量和多樣化的患者群體可以提高人工智能模型的泛化能力,使研究結果更具普適性,為大范圍的肺癌研究提供科學依據。
盡管人工智能數據庫在數據整合和臨床應用中展現了顯著優勢,當前的技術仍存在一些挑戰。首先,數據質量和準確性問題依然存在。雖然NLP和自動化清洗技術在一定程度上提高了數據標準化,但不同醫生的記錄方式和用詞習慣仍可能導致信息提取的偏差,這種偏差在個體病例分析中可能帶來影響[9]。其次,人工智能模型的“黑箱”特性限制了其臨床解釋性,醫生難以理解深度學習模型的決策邏輯,影響其對人工智能結果的信任。因此,未來的發展方向之一是提升模型的可解釋性,使醫生能夠清楚地理解人工智能決策依據,以便在臨床中更廣泛地應用。在數據隱私保護方面,跨機構數據共享的安全性問題也是一項重要挑戰。盡管研究中對數據采取了嚴格的匿名化和加密措施,但在多中心數據共享中,數據隱私和安全問題仍需進一步優化[10]。未來可以探索隱私保護技術以確保數據不離開本地即可實現聯合建模,在保障數據隱私的前提下支持多中心合作。
展望未來,隨著大語言模型技術(如ChatGPT等)的發展[11],人工智能數據庫的處理能力和精確度將不斷提升。大規模預訓練語言模型將提高NLP在復雜醫學文本處理中的精確度,使數據庫在識別和理解醫學描述方面更為全面。結合多模態數據,如影像數據、基因組等[12-13],未來數據庫將能夠實現更全面的患者信息整合,為大規模真實世界研究提供更精準的數據支持。
綜上所述,本研究構建的人工智能肺癌數據庫在數據整合、標準化和深度挖掘方面表現出顯著優勢,為臨床研究提供了重要的數據支持。盡管當前存在模型解釋性和隱私保護等挑戰,但隨著AI技術的發展和多中心數據共享的推進,數據庫的應用前景廣闊,有望在肺癌研究和臨床實踐中發揮更大作用。
利益聲明:無。
作者貢獻:楊麗冰、郭超參與起草、 撰寫、 修改論文;楊麗冰、郭超、姜會珍參與資料分析、設計及修改論文;馬璉、李單青參與選題、設計和修改論文。
致謝 在本研究的完成過程中,我們得到了許多同事和專家的指導與支持,特此致以誠摯的感謝。首先,感謝北京協和醫院胸外科的全體同仁,他們在數據庫建設、數據采集和研究設計方面提供了寶貴的資源和技術支持,為研究的順利開展奠定了堅實基礎。感謝北京協和醫院信息中心的工作人員,他們在數據庫的技術實現和數據治理上給予了大量幫助,確保了數據庫的完整性、一致性和可靠性,為本研究的高效進行提供了保障。特別感謝北京嘉和海森健康科技有限公司的工作人員提供的技術支持。
肺癌是全球范圍內最常見的惡性腫瘤之一,發病率和死亡率均位列各類癌癥之首。根據世界衛生組織的統計,2020年全球新增肺癌病例220萬,死亡人數約180萬[1]。在中國,肺癌的發病率和死亡率也同樣居于癌癥的首位。在如此龐大的人口基數下,如何進一步優化治療策略、提高患者預后、加強全程管理,仍然是臨床和研究領域的重大挑戰。
對于確診肺癌患者的術后管理和長期預后評估,需要依賴大量的臨床數據,肺癌單病種數據庫的建設也應運而生。在全球范圍內,多個國家和機構已經建立了專門的肺癌數據庫,為研究和臨床實踐提供了豐富的數據資源。其中,美國國家癌癥研究所開發的SEER (Surveillance,Epidemiology, and End Results)數據庫是最具代表性的癌癥數據庫之一[2]。SEER數據庫涵蓋了自1973年以來的癌癥患者數據,收集了關于患者人口學信息、腫瘤分期、治療方式和預后等信息,數據來源廣泛且具有高可信度,為全球肺癌的研究提供了重要依據。在中國,近年來也逐步建立了一些大型的癌癥數據庫。例如,國家癌癥中心數據庫作為國家癌癥中心的重要組成部分,匯集了來自全國各地的癌癥登記數據等,旨在為癌癥研究、政策制定和公共衛生實踐提供數據支持。其中的肺癌相關數據,也為肺癌的臨床研究、治療優化和個性化醫療提供了強有力的支持[3]。
但在實際建設過程中,傳統的人工錄入和數據管理方式存在較大局限性。首先,手工錄入的過程中容易出現數據缺失或錯誤,特別是在復雜的多中心研究中,不同醫院的數據標準往往不一致,數據庫之間的互操作性較差,導致數據整合困難,限制了數據的共享與深度挖掘。此外,人工錄入方式費時費力,無法適應現代醫學數據的爆炸式增長,尤其是檢查報告、病理報告等非結構化數據的處理難度更大。這些問題嚴重制約了臨床研究的效率,也影響了臨床決策的質量。
為了克服這些挑戰,建立一個標準化、自動化、結構化的肺癌專病數據庫至關重要。通過整合電子病歷、醫囑信息、檢驗結果、影像資料、病理資料、基因測序資料和隨訪數據,數據庫可以提供全方位的患者信息,不僅為臨床醫生提供決策支持,還為科研工作者提供高質量的數據平臺,加速臨床和科研工作的進展。然而,電子病歷系統中數據中包含大量非結構化文本,如手術記錄、病理報告、影像報告等。這些數據盡管信息豐富,但由于格式不統一,難以直接用于分析和研究。人工智能為這一問題提供了有效的解決方案,特別是自然語言處理(natural language processing,NLP)技術,是一種使計算機能夠理解和處理人類自然語言的技術,已被廣泛應用于各個領域[4]。在肺癌數據庫建設中,NLP能夠自動識別和提取病歷、手術記錄、病理報告中的關鍵臨床信息,并將其轉化為結構化數據[5]。人工智能技術還可在數據治理、數據分析、數據深度挖掘中發揮巨大潛力。
鑒于上述背景,本研究依托北京協和醫院胸外科廣大的臨床數據,建立了基于人工智能的肺癌數據庫。我們將系統探討該數據庫的建設過程及其在臨床研究中的應用潛力。此外,本文還將討論數據庫建設中面臨的挑戰以及人工智能技術在數據庫應用中的前景,展望未來人工智能在肺癌領域的發展方向。
1 資料與方法
1.1 數據集設計
本研究首先設計了標準化的肺癌專病庫數據集,涵蓋了患者從術前評估到住院到術后隨訪的全流程信息。根據數據集所設定的變量內容,明確每個變量的來源及其對應字段,確保數據提取來源的準確性。例如,設定患者的人口學信息來源于病案首頁,手術名稱、術者來源于手術記錄,腫瘤性質來源于病理報告等。
1.2 數據采集與預處理
我院信息中心將HIS系統、電子病歷系統、LIS系統、PACS系統、病理系統、手術麻醉系統、電生理系統、輸血系統、內鏡系統等全院多個數據平臺的原始數據統一匯總至臨床數據中心(clinical data repository,CDR)。肺癌專病庫通過數據庫同步技術和ETL(extract-transform-load)等技術,從CDR中按照所設定的映射路徑,抽取相關數據,并隨著數據的增加,定期自動更新(圖1)。

在數據采集完成后,首先對所有采集到的數據進行標準化處理,以確保來自不同系統的數據字段在數據庫中的命名和格式一致。例如,實驗室檢查數據中的“白細胞計數”和“WBC”被統一為相同的字段。此外,系統通過自動化清洗算法對異常值、不合理記錄或重復數據進行識別并修正。系統還執行邏輯一致性檢查。如果發現問題,系統會自動標記,并在必要時進行人工復查和修正(圖2)。

1.3 自然語言處理技術的應用
在本研究中NLP技術是處理非結構化臨床文本數據的核心工具,旨在將病歷文書、病理報告、影像報告等自由文本轉化為結構化數據。整個處理過程分為幾個關鍵步驟,以確保數據的完整性、準確性和一致性。
1.3.1 分詞技術
首先,NLP系統通過分詞技術對輸入的文本進行初步處理。由于中文文本中存在大量未登錄詞,尤其是醫學術語和縮寫,這對電子病歷分詞提出了挑戰。為解決這個問題,系統分為兩個步驟進行分詞處理。第一步,使用開放領域詞典,結合最大似然原則對電子病歷進行初步切分。詞的出現概率通過期望最大化(expection maximization,EM)算法從大規模未標注語料中學習得出,以提高詞語識別的準確性。第二步,系統利用字串的邊界熵、長度等信息,通過有序聚類算法對初步切分結果進行調整,以便準確識別未登錄詞。在醫學文本中,不同醫生可能使用不同的術語來描述相同的病灶或病理特征,例如“胸膜轉移”可能會在不同報告中被表述為“胸膜侵犯”或“胸膜浸潤”。通過有序聚類算法,系統能夠將這些不同表述歸類為相同的臨床概念,確保數據一致性。“浸潤”和“侵犯”這樣的同義表達會被系統統一映射到相同的字段,從而避免數據分析中出現不一致或重復的現象。系統根據不同場景采用了多種分詞技術。最短路徑分詞用于通用的快速文本處理;N-最短路徑分詞適用于需要較高準確度的場景。為提高分詞的靈活性,系統還支持自定義詞典,允許根據具體的醫學數據進行人為干預,確保特定領域的專業術語能得到準確識別和處理。
在整個過程中,系統還結合了隱馬爾可夫模型(HMM)和條件隨機場(CRF)分詞技術。這些技術通過分析上下文信息和詞語的頻率,能夠更好地處理復雜的上下文依賴關系,特別是在處理多義詞和具有模糊邊界的詞語時表現尤為突出。例如,在影像報告中,“病灶邊界”與“病灶形態”之間存在復雜關聯,CRF模型能夠通過上下文分析準確分離這些信息,并標注到相應的字段中。HMM和CRF的結合使用確保了系統能夠處理復雜的語言結構。HMM用于初步標注序列數據,而CRF則在處理長距離依賴時更加有效。通過結合這兩種技術,系統能夠在識別醫學術語時兼顧語境,從而提高整體準確性。
1.3.2 實體命名和語義解析
在分詞處理完成后,系統對每個分詞后的短語進行實體命名和詞性標注。對于“左肺結節”這樣的描述,系統能夠識別出“左肺”為解剖部位,“結節”為病理實體,并標注其為關鍵醫學信息。這一步為后續的結構化數據存儲和語義分析奠定了基礎。在實體命名過程中,臨床醫師參與了規則的制定和校正,確保命名規則的準確性和實用性。這種人工校正極大地提高了系統的準確性,特別是在涉及新術語或罕見病例時,NLP系統能夠通過臨床醫師的規則及時調整和適應。隨著臨床實踐的發展,系統中的規則庫也能根據最新的醫學文獻和實際使用情況進行動態更新,保證規則的時效性和科學性。
1.3.3 短語提取與語義消歧
為了處理文本中存在的復雜語義關系,特別是在否定詞、反向詞和條件表達的情況下,系統引入了語義分析模型。這一過程依賴于規則庫中的條件和否定表達,同時系統通過深度學習模型(如BERT)進一步增強其對復雜語義的處理能力。例如,對于類似“無明確腫瘤”這樣的表達,系統不僅要識別“無”作為否定詞,還需通過上下文解析來確認是否存在反向表達,確保提取的信息不會出現語義上的誤差。為此,系統通過規則庫識別否定詞和反向表達,并結合上下文進行判斷。此外,條件表達在臨床文本中也十分常見。例如,病歷中可能存在類似“如果病灶增大,則考慮手術”的描述,這類語句中包含了條件表達。系統通過上下文分析和條件推理,能夠識別出這些條件語句并避免將潛在條件誤解為實際的臨床決策。
1.3.4 數據量處理與系統優化
由于系統通過數據接口獲取海量的電子病歷數據,處理效率和性能優化至關重要。為應對大規模數據的挑戰,系統采用了并行計算和分布式處理技術。系統通過多線程和緩存機制優化處理性能,確保在處理大規模文本數據時仍然保持高效的處理速度。數據的預處理、分詞和實體提取均通過分布式架構實現,確保系統能夠擴展以處理日益增長的數據量,避免性能瓶頸。
1.3.5 數據庫架構
在數據庫架構設計方面,研究采用了分布式架構以應對大規模異構數據的處理需求。MongoDB作為主要數據庫,提供了文檔型的靈活存儲結構,支持大規模數據的并行處理和快速查詢。每例患者的病歷數據以json格式存儲在MongoDB中,確保了數據查詢的高效性和靈活性。Elasticsearch搜索引擎則支持實時數據查詢,通過分布式存儲和索引技術保證了系統的高可用性和擴展性。
1.3.6 數據庫質量控制
在數據質量控制方面,系統建立了嚴格的質量控制體系。首先,系統自動對關鍵變量進行完整性檢查,標記缺失或異常值,并通過人工或自動化方式進行補全和修正。邏輯一致性檢查確保患者的診斷、治療和隨訪數據在不同記錄中的合理性和一致性。系統通過自動異常值監控,實時標記并修正潛在數據問題。此外,系統具備數據溯源功能,科研人員可以直接回溯到原始病歷記錄,驗證數據的準確性。在數據存儲和傳輸過程中,所有患者信息進行了匿名化處理,確保隱私保護,同時通過加密技術保障數據的安全。
2 結果
2.1 數據集概況
北京協和醫院人工智能肺癌專病數據庫的設計重點是系統化采集接受肺部手術的患者住院期間的詳細臨床數據,并整合術前和術后門診信息,構建患者全程管理的數據鏈條。數據集設計是數據庫建設的基礎。數據集包括了患者的基本信息(如年齡、性別、吸煙史)、診斷信息、病史信息(如癥狀、吸煙史)、影像學檢查(如CT、PET-CT影像特征)、常規檢驗檢查(如血常規、腫瘤標志物)、手術操作信息(如手術路徑、切除范圍)、圍術期情況(如術后并發癥)、醫囑信息、病理結果(如腫瘤類型、分期)以及預后隨訪信息(如復發、轉移情況)。這些數據變量的精細化設計見表1,能夠支持從疾病特征分析到治療方式效果評估和預后因素分析的多層次研究需求。

2.2 數據庫概況
自2012年7月我院啟用電子病歷系統以來,截至2024年9月29日,數據庫共納入18 811例患者,包含19 267例住院病例和438 714例門診病例。然而,由于早期數據存儲方式的限制,2012—2015年間的患者信息存在一定程度的缺失,2016年及以后的數據最為完整。在就診人次的年度分布上,數據顯示患者數量自2015年起呈波動增長趨勢,特別是在2019年和2023年達到了高峰(圖3a)。

圖3b展示了數據庫中的患者列表頁面,該頁面提供了所有納入患者的基本信息,包括年齡、性別、出生日期、診斷信息、入院和出院時間、手術方式等。通過此頁面,臨床研究人員可以快速瀏覽患者的基本信息和診療情況,支持用戶對住院患者核心信息的瀏覽。每條數據記錄都可進一步展開,顯示更詳細的住院期間治療過程、病理結果及術后隨訪情況,為研究人員提供了全面的患者管理和信息獲取功能。
圖3c展示的是數據庫的變量列表頁面,列出了數據庫中可供查詢和分析的各類變量。研究人員可以通過多層次的篩選條件對患者數據進行精細化篩選,涵蓋基礎信息、診斷、病史情況、影像學檢查、化驗結果、病理報告、手術信息等多個維度。這一功能提升了數據檢索效率,為復雜數據的深度挖掘和分析奠定了基礎。
2.3 臨床研究的應用:非小細胞肺癌的預后及影響因素挖掘
為展示北京協和醫院人工智能肺癌專病數據庫在臨床研究中的優勢,本文以非小細胞肺癌患者的預后及其影響因素分析為研究實例,說明數據庫在數據挖掘方面的應用能力(圖4)。本研究實例展現了數據庫的高效性和智能化流程,使得研究人員能夠快速獲得臨床研究所需數據,顯著降低了研究耗時。例如,應用數據庫進行此次研究的數據篩選、分析總耗時約5 h,而傳統數據錄入和整理方式可能需耗時數月。

步驟一:研究設計。數據庫支持靈活的研究設計流程,研究人員可以根據研究需求,快速設定特定的分析目標和策略。在本次研究中,我們的研究目標是分析非小細胞肺癌患者的長期預后及其影響因素。通過數據庫中的查詢和篩選功能,研究者能夠在設計階段便捷地構建出適合特定人群和變量的分析方案。
步驟二:確定研究群體。在數據庫的支持下,研究人員可以精確篩選符合研究標準的患者群體。在本次研究中,我們通過數據庫的多層次篩選功能,篩選出所有病理確診為非小細胞肺癌且具備完整隨訪數據的患者,確保數據的完整性。這一篩選過程僅需幾分鐘,大大縮短了傳統方式下需要人工核查和錄入數據的時間,提升了研究效率。我們篩選2016年1月1日—2023年12月31日住院及隨訪信息完整的患者9 383例。
步驟三:選擇研究變量。數據庫提供了多維度、細粒度的變量列表,研究人員可以根據需要自由選擇所需的變量進行分析。本次研究選擇了包括年齡、性別、腫瘤分期、腫瘤大小、合并癥、手術情況等在內的多個關鍵變量,為深入分析預后影響因素提供了豐富的數據支持。相比傳統數據收集模式,數據庫支持即時選擇并提取變量,不需手動整理,為研究提供了極大的便利性和靈活性。
步驟四:描述性統計分析。在研究群體和變量選定后,數據庫支持自動生成描述性統計分析,快速展示研究對象的基本特征。在本研究中,生存曲線顯示了不同臨床分期患者的生存差異,早期分期患者的生存率顯著高于晚期患者,符合臨床預期。數據庫的描述性統計功能不僅幫助研究者快速獲得總體數據特征,還為進一步深入分析奠定了基礎。
步驟五:數據挖掘和多因素分析。利用多變量分析工具,研究者能夠對非小細胞肺癌患者的預后影響因素進行全面挖掘。通過Cox回歸模型等分析方法,本研究得出年齡、腫瘤分期、合并癥情況等對患者生存率的顯著影響。例如,數據顯示晚期患者的生存風險顯著高于早期患者,且患有呼吸系統合并癥的患者預后較差。
本研究實例充分展示了數據庫在臨床研究中的高效性、靈活性和數據整合優勢。通過數據庫的多維數據篩選、精細變量選擇和自動化統計分析功能,研究人員能夠在短時間內完成復雜的數據分析流程,為大數據挖掘、回顧性研究提供了重要支持。與傳統的手動數據錄入相比,數據庫的使用顯著縮短了研究時間,極大地提升了數據獲取和處理效率,表明其在臨床研究中的應用潛力和重要價值。
3 討論
本研究構建的基于人工智能的肺癌數據庫在數據整合、標準化、結構化和多維分析方面展現了顯著優勢,為肺癌的臨床研究提供了強大的數據基礎。通過NLP技術和機器學習模型[5- 6],數據庫實現了對多源、異質性醫學數據的高效處理,使得復雜的臨床信息能夠被結構化為可分析的數據形式,為大規模真實世界數據研究奠定可靠的數據支撐。
首先,數據庫在多源數據整合和質量控制方面表現出色。醫療數據來源復雜,包含電子病歷、影像數據、病理報告等,且記錄方式、術語和格式各異。通過數據治理和自動化數據清洗技術,數據庫實現了多源數據的高效整合,確保了數據的完整性和一致性。
其次,數據庫的建設極大提高了數據處理和分析的效率。傳統的臨床數據錄入方式不僅費時費力,還容易產生錯誤。而通過NLP技術自動化處理病歷、影像報告和病理報告等非結構化文本數據,數據庫能夠快速、準確地提取關鍵信息。例如,NLP能夠從影像報告中提取腫瘤的大小、形狀和位置等特征,并將其結構化存儲。這種自動化處理極大地減少了人工錄入的工作量,使得研究人員能夠在短時間內完成數據篩選和分析。本次研究實例表明,應用數據庫進行非小細胞肺癌預后分析僅需約5 h,而傳統的手動數據錄入和整理可能需要耗時數月,這顯著提升了研究效率。
基于上述優點,數據庫在數據挖掘和多因素分析方面表現出顯著優勢[7]。在本文研究實例中,應用數據庫快速納入大量患者的大量變量,通過自動化分析工具,我們能夠快速識別出影響非小細胞肺癌患者生存率的主要因素,如年齡、腫瘤分期和合并癥等。數據庫的實時查詢和篩選功能使得研究人員可以根據特定研究需求,迅速調整分析變量和研究人群,極大地增強了數據庫在臨床研究中的靈活性。傳統臨床數據分析受制于數據整理和分析周期較長,而本研究的數據庫能夠通過自動化數據提取和分析,迅速生成多維度的研究結果,從而更高效地挖掘數據價值。
在科室管理方面,人工智能數據庫也具備一定的應用價值。數據庫提供了關于手術方式、術后并發癥、住院時間等核心指標的實時數據支持。管理者可以基于這些數據評估不同手術路徑的效果,了解并發癥發生率和住院時間等運營關鍵指標。這種實時、可視化的數據訪問特性幫助管理者在優化手術流程、合理配置資源和提升患者護理質量方面做出科學決策,使得科室管理更加高效。
此外,人工智能數據庫在多中心聯合研究中的潛力也不容忽視[8]。數據庫通過標準化的數據架構支持跨機構的數據共享,使不同醫療機構能夠在統一框架下共享數據,從而形成更大規模的樣本量,增加研究的廣泛適用性。這種多中心的合作不僅提升了數據庫在不同患者群體中的適用性,還為肺癌臨床研究提供了多樣化的病例數據支持。更大樣本量和多樣化的患者群體可以提高人工智能模型的泛化能力,使研究結果更具普適性,為大范圍的肺癌研究提供科學依據。
盡管人工智能數據庫在數據整合和臨床應用中展現了顯著優勢,當前的技術仍存在一些挑戰。首先,數據質量和準確性問題依然存在。雖然NLP和自動化清洗技術在一定程度上提高了數據標準化,但不同醫生的記錄方式和用詞習慣仍可能導致信息提取的偏差,這種偏差在個體病例分析中可能帶來影響[9]。其次,人工智能模型的“黑箱”特性限制了其臨床解釋性,醫生難以理解深度學習模型的決策邏輯,影響其對人工智能結果的信任。因此,未來的發展方向之一是提升模型的可解釋性,使醫生能夠清楚地理解人工智能決策依據,以便在臨床中更廣泛地應用。在數據隱私保護方面,跨機構數據共享的安全性問題也是一項重要挑戰。盡管研究中對數據采取了嚴格的匿名化和加密措施,但在多中心數據共享中,數據隱私和安全問題仍需進一步優化[10]。未來可以探索隱私保護技術以確保數據不離開本地即可實現聯合建模,在保障數據隱私的前提下支持多中心合作。
展望未來,隨著大語言模型技術(如ChatGPT等)的發展[11],人工智能數據庫的處理能力和精確度將不斷提升。大規模預訓練語言模型將提高NLP在復雜醫學文本處理中的精確度,使數據庫在識別和理解醫學描述方面更為全面。結合多模態數據,如影像數據、基因組等[12-13],未來數據庫將能夠實現更全面的患者信息整合,為大規模真實世界研究提供更精準的數據支持。
綜上所述,本研究構建的人工智能肺癌數據庫在數據整合、標準化和深度挖掘方面表現出顯著優勢,為臨床研究提供了重要的數據支持。盡管當前存在模型解釋性和隱私保護等挑戰,但隨著AI技術的發展和多中心數據共享的推進,數據庫的應用前景廣闊,有望在肺癌研究和臨床實踐中發揮更大作用。
利益聲明:無。
作者貢獻:楊麗冰、郭超參與起草、 撰寫、 修改論文;楊麗冰、郭超、姜會珍參與資料分析、設計及修改論文;馬璉、李單青參與選題、設計和修改論文。
致謝 在本研究的完成過程中,我們得到了許多同事和專家的指導與支持,特此致以誠摯的感謝。首先,感謝北京協和醫院胸外科的全體同仁,他們在數據庫建設、數據采集和研究設計方面提供了寶貴的資源和技術支持,為研究的順利開展奠定了堅實基礎。感謝北京協和醫院信息中心的工作人員,他們在數據庫的技術實現和數據治理上給予了大量幫助,確保了數據庫的完整性、一致性和可靠性,為本研究的高效進行提供了保障。特別感謝北京嘉和海森健康科技有限公司的工作人員提供的技術支持。