• 重慶郵電大學 生命健康信息科學與工程學院(重慶 400065);
導出 下載 收藏 掃碼 引用

表征學習在視聽情感識別中是一個備受關注的研究方向,其關鍵在于構建兼具一致性和差異性的有效情態表征,但如何精準實現情態表征仍面臨諸多挑戰,因此本文提出一種基于多頭交叉注意力機制的跨模態視聽情感識別模型。該模型通過多頭交叉注意力架構實現融合特征和模態對齊,并采用分段訓練策略以應對模態缺失問題。此外,為了保留每個模態的獨立信息,本文設計了單模態輔助損失任務并使用了共享參數。最終,在多模態情緒數據集(CREMA-D)上,該模型的宏觀和微觀F1分數分別達到了84.5%和88.2%。研究結果表明,本文模型能有效地捕獲視聽模態內和模態間的特征表示,成功解決了單模態和多模態情緒識別框架的統一性問題,為視聽情感識別提供了一種全新的解決思路。

版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編