目前基于深度學習的多模態學習發展迅速,在圖文轉換、圖文生成等人工智能生成內容領域得到廣泛應用。電子病歷是醫務人員在醫療活動過程中使用信息系統生成的數字、圖表和文本等數字化信息。基于深度學習的電子病歷多模態融合能輔助醫護人員綜合分析診療過程中產生的醫學多模態數據,從而對患者進行精準診斷和及時干預。本文首先介紹了基于深度學習的多模態數據融合方法以及發展趨勢;其次,對結構化電子病歷數據與影像、文本等其他模態醫學數據的融合進行了對比歸納,重點介紹了研究涉及的臨床應用場景、樣本量、融合方法等;通過分析,總結了針對不同模態醫學數據融合的深度學習方法:一是根據數據模態選擇合適的預訓練模型進行特征表征后融合,二是基于注意力機制進行融合;最后,討論了醫學多模態融合中的難點及發展方向,包括建模方法、模型評估應用等。通過本文綜述,期望為建立能綜合利用各類模態醫學數據的算法模型提供參考信息。
引用本文: 范勇, 張政波, 王晶. 基于深度學習的電子病歷多模態數據融合研究進展. 生物醫學工程學雜志, 2024, 41(5): 1062-1071. doi: 10.7507/1001-5515.202310011 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
0 引言
現代醫學實踐很大程度上依賴于醫護人員對多個來源數據和信息的綜合利用。如圖1所示,醫護人員利用的數據,包括結構化和非結構化兩類。其中,結構化電子健康記錄(electronic health record,EHR)數據有人口統計學、生理參數、生化指標、用藥、操作、診斷等,非結構化數據有X光片、電子計算機斷層掃描(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)等影像數據和醫學文本、時序生理信號以及基因組學等其他數據,這些數據在診斷治療中都起到重要的作用。過去,電子病歷、影像和生理信號等醫學數據的分析利用,例如電子病歷二次分析、醫學圖像分析、生理信號處理等,分別屬于不同的研究領域;而經驗豐富的臨床醫生憑借專業知識儲備能綜合分析多種類型的醫學數據以輔助臨床診療。但是醫護人員處理大量復雜數據的精力有限,面對日益快速增長的各類海量醫學數據,如何充分利用各類數據幫助醫護人員及時察覺并應對患者病情成為亟需解決的問題。為了能全面綜合利用各類醫學數據輔助醫護人員決策,基于數據驅動的醫學研究重點正從單模態轉向多模態數據融合分析利用。

多模態融合屬于多模態學習內容之一,多模態學習的目的是建立能夠處理和關聯多種模態信息的模型,主要包括:多模態表示學習,模態間映射、對齊、融合以及協同學習,其中多模態融合是聯合使用兩種或多種模態的數據進行預測分析[1]。多模態融合的優點在于:① 來自不同模態的數據具有不同的預測能力,利用多模態數據間的互補性提高模型性能;② 不僅能利用多模態數據各自的信息,還能捕捉多模態數據間的交互信息,適合于復雜系統建模;③ 降低單一模態中低質量和錯誤數據對構建模型的影響,利用多模態信息來減少異常、缺失數據的影響,做出更可靠、更魯棒的預測。
多模態融合方法過去通常以支持向量機(support vector machines,SVM)、隨機森林(random forest,RF)等傳統的機器學習算法為主,隨著計算能力的提升和數據集的增長,深度學習相較于傳統機器學習方法的優勢愈發明顯,被廣泛應用于處理和理解復雜數據,在圖像分類、語音識別和自然語言處理等領域都引發了革命性的進展。深度學習能最大程度地表征原始數據,而不需要人工設計特征,在可利用數據越來越多的情況下,能捕獲到人工尚未發現的特征。過去,深度學習的應用通常只涉及到單一模態的數據輸入,但現實世界中的許多問題都涉及到多個模態的數據,因此深度學習的研究和應用正逐步擴展到多模態數據的領域。基于深度學習的多模態融合技術已經成為人工智能(artificial intelligence,AI)領域重要發展方向之一,逐漸替代了多模態融合領域中的傳統機器學習技術,已在人工智能領域的科研和工業界引起廣泛關注并取得顯著進展,例如用于視聽語音識別[2]、多模態情感識別[3]和多模態文檔目標檢測[4]等。
近年來,深度學習技術廣泛應用于醫療領域,包括醫學影像[5]、電子病歷和生理信號[6]數據分析等領域,但相關研究大多是利用單模態的醫學數據,而隨著多模態深度學習技術在人工智能領域的發展,基于深度學習的多模態醫學數據融合學習逐漸成為醫學人工智能研究領域的一個重要發展趨勢。目前,在醫學影像和電子病歷融合[7]、結構化電子病歷和醫學文本[8]等方向已開展的一些研究表明,基于深度學習的多模態醫學數據融合學習通常優于僅使用單模態醫學數據進行的預測,多模態融合在醫學人工智能研究領域具有巨大潛力。本文通過歸納近年來醫療領域基于深度學習多模態融合的發展現狀,總結多模態融合各類方法原理、特點和發展趨勢,并對比不同多模態融合方法應用于醫療領域的優勢和局限,期望從臨床應用場景、數據類型、樣本量、模型架構、模型性能等方面來比較分析各類醫學多模態融合研究,以探討醫學多模態融合目前的挑戰及未來發展方向。
1 多模態數據融合方法
目前,基于深度學習的多模態融合方法通常分為三大類:分別是早期融合(特征融合)、后期融合(決策融合)和混合融合[9],如圖2所示。早期融合,是將各種模態特征直接拼接后輸入到某種深度學習模型中進行訓練,較為直觀簡單,且能學習跨模態特征之間的關系;其缺點是在醫學數據模態差異性較大的情況下,多模態數據需要進行大量的數據預處理、特征提取,才能得到一致的特征表示,比如醫學文本和影像。后期融合,是將各模態數據分別基于不同深度學習方法建模后,將各自決策結果通過統計或者機器學習的方法聚合進行預測。該類方法的優點在于能夠針對不同模態數據分別訓練適應不同模態特性的模型,但缺點是最終的模型較難獲得關于臨床特征層面的信息,且選擇合適的決策結果聚合方法比較費時費力。混合融合,是將不同模態的原始輸入通過多層神經網絡轉化為不同的表征,將不同模態不同層的表征連接成為隱藏層輸入到神經網絡中用于預測,其優點在于能比較靈活地選擇不同網絡深度用于不同模態數據表征,如有的模態能直接用淺層特征,有的模態則需要深層特征;但缺點是網絡結構調整與選擇卻成為難點。在多模態融合中,多模態特征連接或聚合的方法通常包括:直接拼接、逐元素操作、池化操作和門控機制。直接拼接,是將各模態提取的特征向量進行堆疊或并列拼接,形成高維度的統一向量;逐元素操作,是對兩個或多個模態特征在對應位置上的數值進行聚合,如相乘或點積等運算;池化操作,是指包括在多模態特征上取最大值的最大池化和取平均值的平均池化等操作;而門控機制,是通過門控結構來控制不同模態的信息流。

傳統的深度學習模型,如全連接網絡、卷積神經網絡(convolutional neural networks,CNN)以及循環神經網絡,已經被廣泛應用于醫學影像診斷、生理信號分析等領域。近年來,深度學習中變換器(Transformer)模型在自然語言處理以及計算機視覺領域表現出色,逐漸取代了傳統深度學習模型[10-11],其多頭自注意力機制不僅能學習輸入數據與標簽之間的關系,而且能學習數據自身的關系。針對多模態數據融合問題,基于Transformer的基礎結構結合上述三種方法發展新模型成為一種重要的解決思路。該思路既可以采取特征融合的方法將多模態特征連接后共同輸入到Transformer模型中,也能采取決策融合方法并基于Transformer結構,分別構建單模態數據模型后進行決策聚合。
目前,深度學習模型的建立從過去直接在大規模數據集中訓練和驗證的方式,逐漸向預訓練—微調的范式轉移[12-13]。如圖3所示,訓練深度學習模型時首先在海量外部數據中進行無監督訓練或其他任務訓練,形成預訓練模型,然后在領域相關數據中進行網絡參數和結構的微調,最后在任務數據中評估微調后模型的性能。基于預訓練微調兩階段建模方法在自然語言處理通用領域發展迅速,目前也逐漸應用到醫學文本以及多模態醫學數據的分析中。總的來說,當前基于深度學習的醫學多模態融合的重要趨勢之一是使用Transformer模型基礎結構結合三種融合方法并采用預訓練—微調兩階段的訓練方法建立模型。

2 電子病歷多模態融合在診療中的應用研究
不同模態醫學數據融合,其重點包括:電子病歷與醫學影像、醫學文本、生理信號數據融合以及兩種以上的模態數據融合。本文將從采用的模型、建模方法、融合類型等方面進行介紹,從中總結對主要醫學數據模態(結構化表格、圖像、文本、時間序列)融合的思路方法。如表1所示,列出了醫學多模態融合典型案例,并由此展現了通過多模態數據融合來提高疾病診斷的準確度,以及提升藥物推薦、死亡風險評估、再入院預測等臨床決策能力。

2.1 電子病歷與醫學影像數據融合
患者就診檢查后會產生大量病理組織切片、超聲、內鏡、胸片等影像數據,便于醫生進行病情診斷;而醫學影像研究雖然通過與計算機視覺領域人工智能技術的交叉融合在圖像識別、病變檢出和良惡性判斷等方面取得一定進展[14],但是在放射科、病理科和皮膚科等各類影像資料判讀解釋中缺少對患者基本信息、生化檢查結果等臨床數據的利用,容易造成診斷效果降低,加入臨床數據能讓醫生在合適的臨床背景下做出最佳判斷,因此電子病歷與醫學影像數據融合學習成為醫學多模態融合中最受關注的研究方向之一。例如,Qiu等[15]開發和建立深度學習融合模型旨在從不同癡呆病因和不同認知功能水平的多個隊列中準確區分正常認知、輕度認知障礙、阿爾茲海默癥和非阿爾茨海默型癡呆人群。該研究使用了2個中心5 488名受試者的MRI影像數據和人口統計學、病史、功能評估和神經心理學測試結果等電子病歷數據,首先基于MRI數據構建CNN模型得到多個任務的決策分數,然后將這些分數作為特征與電子病歷特征連接后輸入類別型特征梯度提升樹(categorical boosting,CatBoost)[16]中建立融合模型,該過程屬于混合融合。研究發現,融合模型效果在多個隊列各類任務中明顯好于僅使用影像數據模型,雖然非影像數據模型效果接近融合模型的性能,但是納入影像數據對從臨床角度驗證建模結果至關重要。Barros等[17]利用乳房X光檢查影像數據和電子病歷數據開發人工智能模型,用于識別乳腺病變亞型。該研究使用了來自英國和美國9 234例女性患者的26 569張乳腺X光圖像進行僅圖像模型的預訓練,然后在美國和以色列兩個中心的4 568例數據基礎上進行訓練和驗證,其中影像數據用于預訓練多分類CNN模型的微調進行乳腺病變分類,電子病歷數據則使用極端梯度提升樹(XGboost)[18]模型訓練進行乳腺病變分類,并從中選擇貢獻度高的特征,例如年齡、乳腺密度、癥狀等,最后從CNN模型中抽取圖像特征與選取的臨床數據特征連接后輸入極端梯度提升樹模型中構建融合模型,該過程屬于經過模型表征后的深度特征融合。在區分各類乳腺病變亞型時,融合模型的效果比僅用臨床數據或僅用影像數據要好。在新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)快速診斷中,Mei等[19]提出將胸部CT結果與臨床癥狀、暴露史和實驗室檢查結合利用的多模態融合算法,先利用肺結核異常篩選預訓練模型從患者CT影像中挑選異常影像數據,然后利用CNN模型提取異常影像中預測COVID-19陽性的特征,將這些影像特征與臨床數據特征連接后,輸入到全連接網絡中進行COVID-19快速診斷,該過程屬于混合融合。研究結果顯示,在該研究中使用融合模型的效果要優于僅使用影像或僅使用電子病歷數據模型。Khader等[20]開發了一種能融合使用胸片和臨床數據的深度學習模型,并將其用于診斷重癥監護室(intensive care unit,ICU)的25種病理狀態。其中,胸片通過視覺Transformer主干網絡提取圖像特征,臨床數據使用注意力機制來提取特征,最后使用Transformer編碼器融合胸片和臨床數據的深度特征用于預測病理狀態。結果表明,在ICU環境下融合影像和非影像臨床數據相較于僅使用單一類型數據,診斷準確性方面表現更好。
醫學影像與結構化電子病歷融合中,如圖4所示,對于影像數據采取直接利用CNN、視覺Transformer或使用預訓練后的CNN、視覺Transformer的方式,在特定數據和任務中對模型微調后提取醫學影像深度表征;而電子病歷數據可以直接作為特征使用,也可以使用集成樹模型或注意力機制篩選特征后用于融合;兩者的特征融合方法采用集成樹機器學習模型或Transformer編碼器完成輸出。

2.2 電子病歷與醫學文本數據融合
盡管結構化輸入形式的醫療信息系統在過去十幾年中激增,但醫護人員對患者診療活動的詳細記錄包括日常病程記錄、護理記錄、搶救記錄、影像檢查報告等仍是非結構化的醫學文本。醫學文本能夠更加細粒度描述患者就診、醫療過程中的表現和癥狀等信息,與結構化的電子病歷聯合分析能提高對患者疾病嚴重程度預測、再入院預測等的準確程度。
Silva等[21]基于ICU中臨床醫學文本、診斷代碼和用藥信息等結構化編碼進行患者再入院和診斷預測,其中醫學文本信息中出院記錄使用一種雙向變換器(bidirectional encoder representations from transformers,BERT)模型,即臨床BERT(clinical BERT,ClinicalBERT)[22]模型進行表征,診斷和操作等編碼則使用自對齊預訓練BERT(self aligning pretrained BERT,SapBERT)模型[23]進行表征后輸入全連接層,該過程屬于經過模型表征后的特征融合,研究結果顯示多模態融合方法的性能優于單模態方法,但輸入特征過多時,多模態融合可能會適得其反,導致模型性能下降。Liu等[24]提出一種醫學多模態預訓練語言模型用于藥物推薦、30 d再入院預測等,其研究中的結構化醫學編碼使用基于Transformer結構的圖注意力神經網絡(graph attention networks,GAT)進行表征,出院記錄使用ClinicalBERT進行預訓練后在特定任務上微調形成醫學文本單模態模型,然后構建一種跨模態注意力模塊用于對各模態間關系進行建模,在該模塊中設計了文本到編碼和編碼到編碼的兩種預訓練任務,研究表明經過預訓練的模型在各類預測任務中比傳統機器學習方法、沒有預訓練的神經網絡和單模態模型表現更好。Lyu等[25]提出一種多模態Transformer模型融合醫學文本與結構化電子病歷數據用于院內死亡預測,其中醫學文本數據用微調后的BERT模型進行表征,臨床變量使用線性層進行表征,醫學文本和臨床變量表征連接后通過多模態編碼器再次表征后輸入Transformer結構中預測,研究結果表明該方法在急危重癥院內死亡預測中比僅使用單模態數據表現要好。
醫學文本與結構化電子病歷融合中,如圖5所示,醫學文本通常使用BERT及其衍生模型進行表征,而結構化電子病歷數據多為藥物編碼、診斷編碼等醫學編碼數據,沒有使用患者的生命體征以及實驗室檢查結果等信息;該結構化電子病歷通常使用基于Transformer結構的神經網絡模型或圖結構網絡進行特征表征。最終,兩者的信息融合使用全連接網絡或者基于注意力機制的方法。

2.3 電子病歷與生理信號數據融合
對于長時間連續監測的生理信號,如心電、血壓、呼吸、脈搏、體溫等,臨床上往往使用實時監測或其聚合統計后的指標,對其中趨勢等高階信息利用較少,沒有充分挖掘和利用其中的信息。長程連續時序生理信號能捕捉到異常危險信號,也能記錄生理參數變化發展情況,其中包含的信息能補充危重癥患者病程劇烈變化期間無法獲取的關鍵臨床數據,從而反映患者身體情況發生改變的過程。將時序生理信號結合結構化電子病歷數據進行融合預測性分析,對患者預后、惡化事件等進行早期預測,有助于輔助臨床決策和進行預防性干預。因此,需要注意區分生理參數時間序列和生理信號,而通常情況下生理參數時間序列指從原始生理信號中提取的重要特征序列,例如從心電原始信號中提取出心率時間序列。由于醫學多模態融合中直接使用生理信號的研究較少,本節內容介紹的部分研究采用的是生理參數時間序列。
Xu等[26]提出具有引導多通道注意力機制的模型,并整合了連續監測數據和離散臨床數據,用于ICU中生理失代償以及住院時長的預測研究。該研究中CNN模型用于表征多種生理參數時間序列以及原始心電信號數據,在臨床數據的引導下將這些表征輸入長短時記憶網絡(long short term memory,LSTM)用于建模預測。該模型側重于多種生理參數時間序列以及原始心電信號數據的使用,其中臨床數據起到一種引導作用即提示模型該重點關注的生理信號區域。Feng等[27]提出雙核記憶網絡整合臨床數據和波形數據來預測ICU患者預后,該方法中在固定窗口內對常見的中等密度臨床變量采用了傳統取最大、最小、平均值的統計聚合方式,因而丟失了可能存在的高階信息以及特征時間信息。由此可見,早期這些方法研究了特征信息與結局變量之間的關系,而沒有考慮特征本身內在的關系。Kim等[28]使用患者入ICU后24 h內的實驗室檢查結果、液體出入量等結構化電子病歷和心率、血壓和呼吸等時序生理參數,預測心臟驟停患者是否死亡及其神經系統結局。該研究中首先利用140 200名非心臟驟停患者心率、血壓、呼吸、血氧等時序生理參數數據進行CNN模型預訓練,然后在目標生理參數數據進一步微調得到預測結局的概率,而結構化電子病歷數據使用全連接網絡得到預測結局的概率,將兩個結局概率輸入到全連接網絡得到最終預測結果,結果表明多模態數據模型優于單模態模型。該領域多模態融合分析中,生理信號的使用通常依賴于傳統信號處理技術進行特征提取,逐漸出現了基于深度學習的生理信號自監督訓練以及使用預訓練范式表征生理信號的研究[29-30]。多數研究直接從生理參數序列入手,如圖6所示,時序生理參數使用CNN、LSTM等模型提取特征,結構化信息則可直接使用,或以全連接網絡表征后使用,兩者通過全連接網絡或集成樹模型進行融合。相較于時序生理參數數據,從原始生理信號中獲取關鍵重要信息難度更大,需要更多的預處理工作以及復雜特征表征方法,但是在其大量數據中可能隱藏了生理參數序列中忽略的信息。

2.4 多模態醫學數據融合
在結構化電子病歷分別與各類非結構化數據(包括影像、文本和生理信號等)的多模態融合過程中,理想的實施策略是在融合學習時,納入特定醫療場景下所有相關模態的數據,以實現更加全面準確的診斷和治療。本文主要介紹多類別(超過兩類)醫學數據融合學習的進展。例如,Soenksen等[31]提出醫療領域的綜合多模態人工智能框架,能夠適應多種醫學數據輸入,包括表格、影像、時間序列和文本等,每種模態數據都通過獨立的嵌入算法進行表征。表格數據使用簡單的轉化或分類編碼,時序數據通過提取統計指標進行表征,文本數據使用預訓練的Transformer模型進行表征,圖像數據使用預訓練的CNN進行表征,所有的嵌入表征連接在一起形成融合表征輸入到極端梯度提升樹模型。該框架模型經過訓練,在胸部病理診斷、住院時長和48 h死亡風險預測任務中,性能相較于單模態模型平均提升了9%~28%。Golovanevsky等[32]提出一種基于影像、基因和臨床數據的多模態阿爾茲海默癥診斷框架,基因和臨床數據輸入到3層全連接網絡后接入多頭自注意力層,影像數據輸入到3層的CNN后接入多頭自注意力層,將三者的隱含層兩兩輸入到跨模態注意力層進行模態間相互關系的學習,最后將3個跨模態表征連接后輸入到全連接層,用于診斷輕度認知障礙、阿爾茲海默癥和健康人群。該項研究結果表明,該框架模型的表現優于現有針對阿爾茲海默癥多模態學習診斷的方法[33]。
當前,超過兩類數據類型的多模態融合思路如圖7所示,主要有:① 左側,展示了各模態數據進行特征深度表征后融合,即使用適合各類數據的深度學習模型或其他嵌入算法來進行數據深度表征學習后,將這些經過表征學習后的深度特征連接起來輸入到下游機器學習模型或全連接網絡中進行融合;② 為更好地捕捉多種模態間的相互作用關系,右側展示了另一種常見思路:基于注意力機制的信息融合,在多模態數據間使用自注意力機制和跨模態注意力機制模塊,將經過跨模態作用的隱含特征連接融合輸入到下游機器學習模型中。

3 挑戰和展望
醫學多模態數據融合分析是醫學人工智能的重要研究方向之一。通過研究結構化電子病歷與其他模態數據的融合方法,綜合利用多模態醫學數據,能從整體上更全面地理解患者病情從而及時采取正確的治療措施。同質化的醫學數據,如:① X光、CT、MRI等各類影像數據;② 心電、肌電、腦電、血壓波等各類生理信號數據;③ 基因組、轉錄組、蛋白質組、代謝組等多組學數據;這種同類別下不同數據融合學習也常被稱為多模態數據融合研究[34],但相比較而言異質化醫學數據的融合更具挑戰。本文重點關注異質化多模態醫學數據,歸納分析了醫學數據多模態融合領域相關文獻,結果表明基于深度學習的醫學多模態融合在疾病診斷和不良事件預測預警等臨床應用領域具有巨大潛力。目前,Transformer架構在多模態數據融合學習方法中的應用日益廣泛,然而該領域的發展仍面臨諸多挑戰,包括多模態醫學數據的建模、多模態融合算法的臨床應用以及跨學科合作等方面均需進一步展開深入研究。
3.1 多模態醫學數據建模
(1)多模態醫學數據預處理。由于不同模態的缺失模式程度、異常值情況等都不一樣,需要數據分析人員掌握多種模態數據的預處理方法。對于文本數據要進行分詞、詞嵌入等,對于圖像數據需要進行圖像剪裁、圖像增強等,對于生理信號數據需要進行信號濾波、異常值處理等,數據分析人員需要掌握更多知識與技能。
(2)多模態融合模型選擇。多模態融合模型種類繁多,選擇什么數據融合、在什么階段融合、如何融合是研究中的難點問題,大多數研究是基于原始數據的深度特征來進行融合分析,高效地表征學習各模態數據是關鍵難點之一。目前,通常采用Transformer模型及其衍生模型進行特征表征,是否有更加適合表征多模態數據的模型架構尚需進一步探索。此外,構建能夠自動選擇最優融合方法的模型已成為研究熱點。同時,識別僅采用單模態數據即可滿足臨床應用需求的情況也是構建模型時需要考慮的問題。此外,隨著大模型的不斷發展,如何利用大模型進行醫學多模態融合的研究備受關注。
(3)多模態數據時間尺度信息處理。多模態數據大多是異步的,不同時刻的信息可能存在因果和延遲關系,如何關聯以及判斷其對預后的影響的研究具有一定挑戰性,需要探索構建能反映不同模態數據在時間上的互補性和因果關系的模型。總的來說,多模態醫學數據建模過程中數據預處理復雜,模型構建方法尚需探索。
3.2 多模態融合算法臨床應用與評估
當前,多模態融合研究大多是基于回顧性數據進行模型訓練與驗證,醫學多模態融合算法模型最終落腳點是臨床應用,進行臨床應用前需要進行真實世界臨床試驗測試與驗證,從實驗設計、數據處理、建立模型、模型測試、可重復性和安全性等各個方面進行全流程評估[35-36],關于醫學多模態融合模型在我國臨床應用存在以下難點:
(1)多模態融合算法模型的可重復性欠佳,包括泛化性能、可信度等欠佳。目前,一些醫學人工智能研究是基于非公開數據集展開的,模型效果的可重復性有待驗證。同時,生物醫學領域缺少一些公認的基準任務以及基線模型,研究效果如何無法很好地比較。
(2)多模態融合算法模型的可解釋性以及公平性尚未建立具體標準,已成為醫學人工智能領域重點討論問題之一[37]。隨著模態增加,模型的復雜性增加,多模態模型更難以進行解釋,模型公平性也增加了不確定性,這會導致模型可解釋性降低,可能存在偏差。
(3)我國醫學人工智能算法臨床應用與評估,需要進一步建立、完善國家標準和指南,并應隨著人工智能技術發展不斷更新。
3.3 多學科交叉合作
在多模態醫學數據融合建模和應用過程中,由于涉及到更廣泛的醫學數據和更多醫學知識,工程人員與各類臨床人員的緊密合作至關重要,這就需要臨床人員參與到醫學人工智能算法開發的整個過程中,包括在實驗設計初期評估其合理性,在數據預處理中討論數據缺失和異常的原因及臨床含義,并評估插值和異常值處理方法是否合適等;在建模過程中,需要臨床人員利用臨床知識進行數據標注。此外,模型建立與驗證階段可能會出現一些反醫學常識的錯誤,需要臨床專家參與解讀和調試模型。目前,大多數研究注重多模態融合方法的研究應用,而臨床適用性、實用性和合理性等需要進一步與臨床人員合作探討。綜上,構建醫學多模態融合模型是一個復雜且不斷迭代的過程,模型的驗證與落地應用更是如此,需要數據科學家和各類醫學專家共同參與到醫學多模態融合人工智能研究與應用全過程,從而使得多模態融合模型能真正落地臨床應用,以便更好地服務醫生和患者。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:范勇負責文獻收集、整理和撰寫文章;王晶、張政波負責文章審校、對論文提出修改意見。
0 引言
現代醫學實踐很大程度上依賴于醫護人員對多個來源數據和信息的綜合利用。如圖1所示,醫護人員利用的數據,包括結構化和非結構化兩類。其中,結構化電子健康記錄(electronic health record,EHR)數據有人口統計學、生理參數、生化指標、用藥、操作、診斷等,非結構化數據有X光片、電子計算機斷層掃描(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)等影像數據和醫學文本、時序生理信號以及基因組學等其他數據,這些數據在診斷治療中都起到重要的作用。過去,電子病歷、影像和生理信號等醫學數據的分析利用,例如電子病歷二次分析、醫學圖像分析、生理信號處理等,分別屬于不同的研究領域;而經驗豐富的臨床醫生憑借專業知識儲備能綜合分析多種類型的醫學數據以輔助臨床診療。但是醫護人員處理大量復雜數據的精力有限,面對日益快速增長的各類海量醫學數據,如何充分利用各類數據幫助醫護人員及時察覺并應對患者病情成為亟需解決的問題。為了能全面綜合利用各類醫學數據輔助醫護人員決策,基于數據驅動的醫學研究重點正從單模態轉向多模態數據融合分析利用。

多模態融合屬于多模態學習內容之一,多模態學習的目的是建立能夠處理和關聯多種模態信息的模型,主要包括:多模態表示學習,模態間映射、對齊、融合以及協同學習,其中多模態融合是聯合使用兩種或多種模態的數據進行預測分析[1]。多模態融合的優點在于:① 來自不同模態的數據具有不同的預測能力,利用多模態數據間的互補性提高模型性能;② 不僅能利用多模態數據各自的信息,還能捕捉多模態數據間的交互信息,適合于復雜系統建模;③ 降低單一模態中低質量和錯誤數據對構建模型的影響,利用多模態信息來減少異常、缺失數據的影響,做出更可靠、更魯棒的預測。
多模態融合方法過去通常以支持向量機(support vector machines,SVM)、隨機森林(random forest,RF)等傳統的機器學習算法為主,隨著計算能力的提升和數據集的增長,深度學習相較于傳統機器學習方法的優勢愈發明顯,被廣泛應用于處理和理解復雜數據,在圖像分類、語音識別和自然語言處理等領域都引發了革命性的進展。深度學習能最大程度地表征原始數據,而不需要人工設計特征,在可利用數據越來越多的情況下,能捕獲到人工尚未發現的特征。過去,深度學習的應用通常只涉及到單一模態的數據輸入,但現實世界中的許多問題都涉及到多個模態的數據,因此深度學習的研究和應用正逐步擴展到多模態數據的領域。基于深度學習的多模態融合技術已經成為人工智能(artificial intelligence,AI)領域重要發展方向之一,逐漸替代了多模態融合領域中的傳統機器學習技術,已在人工智能領域的科研和工業界引起廣泛關注并取得顯著進展,例如用于視聽語音識別[2]、多模態情感識別[3]和多模態文檔目標檢測[4]等。
近年來,深度學習技術廣泛應用于醫療領域,包括醫學影像[5]、電子病歷和生理信號[6]數據分析等領域,但相關研究大多是利用單模態的醫學數據,而隨著多模態深度學習技術在人工智能領域的發展,基于深度學習的多模態醫學數據融合學習逐漸成為醫學人工智能研究領域的一個重要發展趨勢。目前,在醫學影像和電子病歷融合[7]、結構化電子病歷和醫學文本[8]等方向已開展的一些研究表明,基于深度學習的多模態醫學數據融合學習通常優于僅使用單模態醫學數據進行的預測,多模態融合在醫學人工智能研究領域具有巨大潛力。本文通過歸納近年來醫療領域基于深度學習多模態融合的發展現狀,總結多模態融合各類方法原理、特點和發展趨勢,并對比不同多模態融合方法應用于醫療領域的優勢和局限,期望從臨床應用場景、數據類型、樣本量、模型架構、模型性能等方面來比較分析各類醫學多模態融合研究,以探討醫學多模態融合目前的挑戰及未來發展方向。
1 多模態數據融合方法
目前,基于深度學習的多模態融合方法通常分為三大類:分別是早期融合(特征融合)、后期融合(決策融合)和混合融合[9],如圖2所示。早期融合,是將各種模態特征直接拼接后輸入到某種深度學習模型中進行訓練,較為直觀簡單,且能學習跨模態特征之間的關系;其缺點是在醫學數據模態差異性較大的情況下,多模態數據需要進行大量的數據預處理、特征提取,才能得到一致的特征表示,比如醫學文本和影像。后期融合,是將各模態數據分別基于不同深度學習方法建模后,將各自決策結果通過統計或者機器學習的方法聚合進行預測。該類方法的優點在于能夠針對不同模態數據分別訓練適應不同模態特性的模型,但缺點是最終的模型較難獲得關于臨床特征層面的信息,且選擇合適的決策結果聚合方法比較費時費力。混合融合,是將不同模態的原始輸入通過多層神經網絡轉化為不同的表征,將不同模態不同層的表征連接成為隱藏層輸入到神經網絡中用于預測,其優點在于能比較靈活地選擇不同網絡深度用于不同模態數據表征,如有的模態能直接用淺層特征,有的模態則需要深層特征;但缺點是網絡結構調整與選擇卻成為難點。在多模態融合中,多模態特征連接或聚合的方法通常包括:直接拼接、逐元素操作、池化操作和門控機制。直接拼接,是將各模態提取的特征向量進行堆疊或并列拼接,形成高維度的統一向量;逐元素操作,是對兩個或多個模態特征在對應位置上的數值進行聚合,如相乘或點積等運算;池化操作,是指包括在多模態特征上取最大值的最大池化和取平均值的平均池化等操作;而門控機制,是通過門控結構來控制不同模態的信息流。

傳統的深度學習模型,如全連接網絡、卷積神經網絡(convolutional neural networks,CNN)以及循環神經網絡,已經被廣泛應用于醫學影像診斷、生理信號分析等領域。近年來,深度學習中變換器(Transformer)模型在自然語言處理以及計算機視覺領域表現出色,逐漸取代了傳統深度學習模型[10-11],其多頭自注意力機制不僅能學習輸入數據與標簽之間的關系,而且能學習數據自身的關系。針對多模態數據融合問題,基于Transformer的基礎結構結合上述三種方法發展新模型成為一種重要的解決思路。該思路既可以采取特征融合的方法將多模態特征連接后共同輸入到Transformer模型中,也能采取決策融合方法并基于Transformer結構,分別構建單模態數據模型后進行決策聚合。
目前,深度學習模型的建立從過去直接在大規模數據集中訓練和驗證的方式,逐漸向預訓練—微調的范式轉移[12-13]。如圖3所示,訓練深度學習模型時首先在海量外部數據中進行無監督訓練或其他任務訓練,形成預訓練模型,然后在領域相關數據中進行網絡參數和結構的微調,最后在任務數據中評估微調后模型的性能。基于預訓練微調兩階段建模方法在自然語言處理通用領域發展迅速,目前也逐漸應用到醫學文本以及多模態醫學數據的分析中。總的來說,當前基于深度學習的醫學多模態融合的重要趨勢之一是使用Transformer模型基礎結構結合三種融合方法并采用預訓練—微調兩階段的訓練方法建立模型。

2 電子病歷多模態融合在診療中的應用研究
不同模態醫學數據融合,其重點包括:電子病歷與醫學影像、醫學文本、生理信號數據融合以及兩種以上的模態數據融合。本文將從采用的模型、建模方法、融合類型等方面進行介紹,從中總結對主要醫學數據模態(結構化表格、圖像、文本、時間序列)融合的思路方法。如表1所示,列出了醫學多模態融合典型案例,并由此展現了通過多模態數據融合來提高疾病診斷的準確度,以及提升藥物推薦、死亡風險評估、再入院預測等臨床決策能力。

2.1 電子病歷與醫學影像數據融合
患者就診檢查后會產生大量病理組織切片、超聲、內鏡、胸片等影像數據,便于醫生進行病情診斷;而醫學影像研究雖然通過與計算機視覺領域人工智能技術的交叉融合在圖像識別、病變檢出和良惡性判斷等方面取得一定進展[14],但是在放射科、病理科和皮膚科等各類影像資料判讀解釋中缺少對患者基本信息、生化檢查結果等臨床數據的利用,容易造成診斷效果降低,加入臨床數據能讓醫生在合適的臨床背景下做出最佳判斷,因此電子病歷與醫學影像數據融合學習成為醫學多模態融合中最受關注的研究方向之一。例如,Qiu等[15]開發和建立深度學習融合模型旨在從不同癡呆病因和不同認知功能水平的多個隊列中準確區分正常認知、輕度認知障礙、阿爾茲海默癥和非阿爾茨海默型癡呆人群。該研究使用了2個中心5 488名受試者的MRI影像數據和人口統計學、病史、功能評估和神經心理學測試結果等電子病歷數據,首先基于MRI數據構建CNN模型得到多個任務的決策分數,然后將這些分數作為特征與電子病歷特征連接后輸入類別型特征梯度提升樹(categorical boosting,CatBoost)[16]中建立融合模型,該過程屬于混合融合。研究發現,融合模型效果在多個隊列各類任務中明顯好于僅使用影像數據模型,雖然非影像數據模型效果接近融合模型的性能,但是納入影像數據對從臨床角度驗證建模結果至關重要。Barros等[17]利用乳房X光檢查影像數據和電子病歷數據開發人工智能模型,用于識別乳腺病變亞型。該研究使用了來自英國和美國9 234例女性患者的26 569張乳腺X光圖像進行僅圖像模型的預訓練,然后在美國和以色列兩個中心的4 568例數據基礎上進行訓練和驗證,其中影像數據用于預訓練多分類CNN模型的微調進行乳腺病變分類,電子病歷數據則使用極端梯度提升樹(XGboost)[18]模型訓練進行乳腺病變分類,并從中選擇貢獻度高的特征,例如年齡、乳腺密度、癥狀等,最后從CNN模型中抽取圖像特征與選取的臨床數據特征連接后輸入極端梯度提升樹模型中構建融合模型,該過程屬于經過模型表征后的深度特征融合。在區分各類乳腺病變亞型時,融合模型的效果比僅用臨床數據或僅用影像數據要好。在新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)快速診斷中,Mei等[19]提出將胸部CT結果與臨床癥狀、暴露史和實驗室檢查結合利用的多模態融合算法,先利用肺結核異常篩選預訓練模型從患者CT影像中挑選異常影像數據,然后利用CNN模型提取異常影像中預測COVID-19陽性的特征,將這些影像特征與臨床數據特征連接后,輸入到全連接網絡中進行COVID-19快速診斷,該過程屬于混合融合。研究結果顯示,在該研究中使用融合模型的效果要優于僅使用影像或僅使用電子病歷數據模型。Khader等[20]開發了一種能融合使用胸片和臨床數據的深度學習模型,并將其用于診斷重癥監護室(intensive care unit,ICU)的25種病理狀態。其中,胸片通過視覺Transformer主干網絡提取圖像特征,臨床數據使用注意力機制來提取特征,最后使用Transformer編碼器融合胸片和臨床數據的深度特征用于預測病理狀態。結果表明,在ICU環境下融合影像和非影像臨床數據相較于僅使用單一類型數據,診斷準確性方面表現更好。
醫學影像與結構化電子病歷融合中,如圖4所示,對于影像數據采取直接利用CNN、視覺Transformer或使用預訓練后的CNN、視覺Transformer的方式,在特定數據和任務中對模型微調后提取醫學影像深度表征;而電子病歷數據可以直接作為特征使用,也可以使用集成樹模型或注意力機制篩選特征后用于融合;兩者的特征融合方法采用集成樹機器學習模型或Transformer編碼器完成輸出。

2.2 電子病歷與醫學文本數據融合
盡管結構化輸入形式的醫療信息系統在過去十幾年中激增,但醫護人員對患者診療活動的詳細記錄包括日常病程記錄、護理記錄、搶救記錄、影像檢查報告等仍是非結構化的醫學文本。醫學文本能夠更加細粒度描述患者就診、醫療過程中的表現和癥狀等信息,與結構化的電子病歷聯合分析能提高對患者疾病嚴重程度預測、再入院預測等的準確程度。
Silva等[21]基于ICU中臨床醫學文本、診斷代碼和用藥信息等結構化編碼進行患者再入院和診斷預測,其中醫學文本信息中出院記錄使用一種雙向變換器(bidirectional encoder representations from transformers,BERT)模型,即臨床BERT(clinical BERT,ClinicalBERT)[22]模型進行表征,診斷和操作等編碼則使用自對齊預訓練BERT(self aligning pretrained BERT,SapBERT)模型[23]進行表征后輸入全連接層,該過程屬于經過模型表征后的特征融合,研究結果顯示多模態融合方法的性能優于單模態方法,但輸入特征過多時,多模態融合可能會適得其反,導致模型性能下降。Liu等[24]提出一種醫學多模態預訓練語言模型用于藥物推薦、30 d再入院預測等,其研究中的結構化醫學編碼使用基于Transformer結構的圖注意力神經網絡(graph attention networks,GAT)進行表征,出院記錄使用ClinicalBERT進行預訓練后在特定任務上微調形成醫學文本單模態模型,然后構建一種跨模態注意力模塊用于對各模態間關系進行建模,在該模塊中設計了文本到編碼和編碼到編碼的兩種預訓練任務,研究表明經過預訓練的模型在各類預測任務中比傳統機器學習方法、沒有預訓練的神經網絡和單模態模型表現更好。Lyu等[25]提出一種多模態Transformer模型融合醫學文本與結構化電子病歷數據用于院內死亡預測,其中醫學文本數據用微調后的BERT模型進行表征,臨床變量使用線性層進行表征,醫學文本和臨床變量表征連接后通過多模態編碼器再次表征后輸入Transformer結構中預測,研究結果表明該方法在急危重癥院內死亡預測中比僅使用單模態數據表現要好。
醫學文本與結構化電子病歷融合中,如圖5所示,醫學文本通常使用BERT及其衍生模型進行表征,而結構化電子病歷數據多為藥物編碼、診斷編碼等醫學編碼數據,沒有使用患者的生命體征以及實驗室檢查結果等信息;該結構化電子病歷通常使用基于Transformer結構的神經網絡模型或圖結構網絡進行特征表征。最終,兩者的信息融合使用全連接網絡或者基于注意力機制的方法。

2.3 電子病歷與生理信號數據融合
對于長時間連續監測的生理信號,如心電、血壓、呼吸、脈搏、體溫等,臨床上往往使用實時監測或其聚合統計后的指標,對其中趨勢等高階信息利用較少,沒有充分挖掘和利用其中的信息。長程連續時序生理信號能捕捉到異常危險信號,也能記錄生理參數變化發展情況,其中包含的信息能補充危重癥患者病程劇烈變化期間無法獲取的關鍵臨床數據,從而反映患者身體情況發生改變的過程。將時序生理信號結合結構化電子病歷數據進行融合預測性分析,對患者預后、惡化事件等進行早期預測,有助于輔助臨床決策和進行預防性干預。因此,需要注意區分生理參數時間序列和生理信號,而通常情況下生理參數時間序列指從原始生理信號中提取的重要特征序列,例如從心電原始信號中提取出心率時間序列。由于醫學多模態融合中直接使用生理信號的研究較少,本節內容介紹的部分研究采用的是生理參數時間序列。
Xu等[26]提出具有引導多通道注意力機制的模型,并整合了連續監測數據和離散臨床數據,用于ICU中生理失代償以及住院時長的預測研究。該研究中CNN模型用于表征多種生理參數時間序列以及原始心電信號數據,在臨床數據的引導下將這些表征輸入長短時記憶網絡(long short term memory,LSTM)用于建模預測。該模型側重于多種生理參數時間序列以及原始心電信號數據的使用,其中臨床數據起到一種引導作用即提示模型該重點關注的生理信號區域。Feng等[27]提出雙核記憶網絡整合臨床數據和波形數據來預測ICU患者預后,該方法中在固定窗口內對常見的中等密度臨床變量采用了傳統取最大、最小、平均值的統計聚合方式,因而丟失了可能存在的高階信息以及特征時間信息。由此可見,早期這些方法研究了特征信息與結局變量之間的關系,而沒有考慮特征本身內在的關系。Kim等[28]使用患者入ICU后24 h內的實驗室檢查結果、液體出入量等結構化電子病歷和心率、血壓和呼吸等時序生理參數,預測心臟驟停患者是否死亡及其神經系統結局。該研究中首先利用140 200名非心臟驟停患者心率、血壓、呼吸、血氧等時序生理參數數據進行CNN模型預訓練,然后在目標生理參數數據進一步微調得到預測結局的概率,而結構化電子病歷數據使用全連接網絡得到預測結局的概率,將兩個結局概率輸入到全連接網絡得到最終預測結果,結果表明多模態數據模型優于單模態模型。該領域多模態融合分析中,生理信號的使用通常依賴于傳統信號處理技術進行特征提取,逐漸出現了基于深度學習的生理信號自監督訓練以及使用預訓練范式表征生理信號的研究[29-30]。多數研究直接從生理參數序列入手,如圖6所示,時序生理參數使用CNN、LSTM等模型提取特征,結構化信息則可直接使用,或以全連接網絡表征后使用,兩者通過全連接網絡或集成樹模型進行融合。相較于時序生理參數數據,從原始生理信號中獲取關鍵重要信息難度更大,需要更多的預處理工作以及復雜特征表征方法,但是在其大量數據中可能隱藏了生理參數序列中忽略的信息。

2.4 多模態醫學數據融合
在結構化電子病歷分別與各類非結構化數據(包括影像、文本和生理信號等)的多模態融合過程中,理想的實施策略是在融合學習時,納入特定醫療場景下所有相關模態的數據,以實現更加全面準確的診斷和治療。本文主要介紹多類別(超過兩類)醫學數據融合學習的進展。例如,Soenksen等[31]提出醫療領域的綜合多模態人工智能框架,能夠適應多種醫學數據輸入,包括表格、影像、時間序列和文本等,每種模態數據都通過獨立的嵌入算法進行表征。表格數據使用簡單的轉化或分類編碼,時序數據通過提取統計指標進行表征,文本數據使用預訓練的Transformer模型進行表征,圖像數據使用預訓練的CNN進行表征,所有的嵌入表征連接在一起形成融合表征輸入到極端梯度提升樹模型。該框架模型經過訓練,在胸部病理診斷、住院時長和48 h死亡風險預測任務中,性能相較于單模態模型平均提升了9%~28%。Golovanevsky等[32]提出一種基于影像、基因和臨床數據的多模態阿爾茲海默癥診斷框架,基因和臨床數據輸入到3層全連接網絡后接入多頭自注意力層,影像數據輸入到3層的CNN后接入多頭自注意力層,將三者的隱含層兩兩輸入到跨模態注意力層進行模態間相互關系的學習,最后將3個跨模態表征連接后輸入到全連接層,用于診斷輕度認知障礙、阿爾茲海默癥和健康人群。該項研究結果表明,該框架模型的表現優于現有針對阿爾茲海默癥多模態學習診斷的方法[33]。
當前,超過兩類數據類型的多模態融合思路如圖7所示,主要有:① 左側,展示了各模態數據進行特征深度表征后融合,即使用適合各類數據的深度學習模型或其他嵌入算法來進行數據深度表征學習后,將這些經過表征學習后的深度特征連接起來輸入到下游機器學習模型或全連接網絡中進行融合;② 為更好地捕捉多種模態間的相互作用關系,右側展示了另一種常見思路:基于注意力機制的信息融合,在多模態數據間使用自注意力機制和跨模態注意力機制模塊,將經過跨模態作用的隱含特征連接融合輸入到下游機器學習模型中。

3 挑戰和展望
醫學多模態數據融合分析是醫學人工智能的重要研究方向之一。通過研究結構化電子病歷與其他模態數據的融合方法,綜合利用多模態醫學數據,能從整體上更全面地理解患者病情從而及時采取正確的治療措施。同質化的醫學數據,如:① X光、CT、MRI等各類影像數據;② 心電、肌電、腦電、血壓波等各類生理信號數據;③ 基因組、轉錄組、蛋白質組、代謝組等多組學數據;這種同類別下不同數據融合學習也常被稱為多模態數據融合研究[34],但相比較而言異質化醫學數據的融合更具挑戰。本文重點關注異質化多模態醫學數據,歸納分析了醫學數據多模態融合領域相關文獻,結果表明基于深度學習的醫學多模態融合在疾病診斷和不良事件預測預警等臨床應用領域具有巨大潛力。目前,Transformer架構在多模態數據融合學習方法中的應用日益廣泛,然而該領域的發展仍面臨諸多挑戰,包括多模態醫學數據的建模、多模態融合算法的臨床應用以及跨學科合作等方面均需進一步展開深入研究。
3.1 多模態醫學數據建模
(1)多模態醫學數據預處理。由于不同模態的缺失模式程度、異常值情況等都不一樣,需要數據分析人員掌握多種模態數據的預處理方法。對于文本數據要進行分詞、詞嵌入等,對于圖像數據需要進行圖像剪裁、圖像增強等,對于生理信號數據需要進行信號濾波、異常值處理等,數據分析人員需要掌握更多知識與技能。
(2)多模態融合模型選擇。多模態融合模型種類繁多,選擇什么數據融合、在什么階段融合、如何融合是研究中的難點問題,大多數研究是基于原始數據的深度特征來進行融合分析,高效地表征學習各模態數據是關鍵難點之一。目前,通常采用Transformer模型及其衍生模型進行特征表征,是否有更加適合表征多模態數據的模型架構尚需進一步探索。此外,構建能夠自動選擇最優融合方法的模型已成為研究熱點。同時,識別僅采用單模態數據即可滿足臨床應用需求的情況也是構建模型時需要考慮的問題。此外,隨著大模型的不斷發展,如何利用大模型進行醫學多模態融合的研究備受關注。
(3)多模態數據時間尺度信息處理。多模態數據大多是異步的,不同時刻的信息可能存在因果和延遲關系,如何關聯以及判斷其對預后的影響的研究具有一定挑戰性,需要探索構建能反映不同模態數據在時間上的互補性和因果關系的模型。總的來說,多模態醫學數據建模過程中數據預處理復雜,模型構建方法尚需探索。
3.2 多模態融合算法臨床應用與評估
當前,多模態融合研究大多是基于回顧性數據進行模型訓練與驗證,醫學多模態融合算法模型最終落腳點是臨床應用,進行臨床應用前需要進行真實世界臨床試驗測試與驗證,從實驗設計、數據處理、建立模型、模型測試、可重復性和安全性等各個方面進行全流程評估[35-36],關于醫學多模態融合模型在我國臨床應用存在以下難點:
(1)多模態融合算法模型的可重復性欠佳,包括泛化性能、可信度等欠佳。目前,一些醫學人工智能研究是基于非公開數據集展開的,模型效果的可重復性有待驗證。同時,生物醫學領域缺少一些公認的基準任務以及基線模型,研究效果如何無法很好地比較。
(2)多模態融合算法模型的可解釋性以及公平性尚未建立具體標準,已成為醫學人工智能領域重點討論問題之一[37]。隨著模態增加,模型的復雜性增加,多模態模型更難以進行解釋,模型公平性也增加了不確定性,這會導致模型可解釋性降低,可能存在偏差。
(3)我國醫學人工智能算法臨床應用與評估,需要進一步建立、完善國家標準和指南,并應隨著人工智能技術發展不斷更新。
3.3 多學科交叉合作
在多模態醫學數據融合建模和應用過程中,由于涉及到更廣泛的醫學數據和更多醫學知識,工程人員與各類臨床人員的緊密合作至關重要,這就需要臨床人員參與到醫學人工智能算法開發的整個過程中,包括在實驗設計初期評估其合理性,在數據預處理中討論數據缺失和異常的原因及臨床含義,并評估插值和異常值處理方法是否合適等;在建模過程中,需要臨床人員利用臨床知識進行數據標注。此外,模型建立與驗證階段可能會出現一些反醫學常識的錯誤,需要臨床專家參與解讀和調試模型。目前,大多數研究注重多模態融合方法的研究應用,而臨床適用性、實用性和合理性等需要進一步與臨床人員合作探討。綜上,構建醫學多模態融合模型是一個復雜且不斷迭代的過程,模型的驗證與落地應用更是如此,需要數據科學家和各類醫學專家共同參與到醫學多模態融合人工智能研究與應用全過程,從而使得多模態融合模型能真正落地臨床應用,以便更好地服務醫生和患者。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:范勇負責文獻收集、整理和撰寫文章;王晶、張政波負責文章審校、對論文提出修改意見。