快速序列視覺呈現(RSVP)是一類心理學視覺刺激實驗范式,要求受試者辨別在同一空間位置上連續呈現的由數字、字母、單詞以及圖片等組成的刺激流中的目標刺激,可以在短時間內辨別海量信息。而基于RSVP范式的腦-機接口(BCI)不僅能夠廣泛用于輔助交互、信息判讀等場景,而且具有穩定、高效的優勢,已經成為人-機智能融合的常用技術之一。近年來,RSVP-BCI研究主要集中在腦控拼寫器、圖像識別以及意念游戲等方向,因此,本文著重梳理了這三個領域中RSVP-BCI的范式設計和系統性能優化,展望了其生活娛樂、臨床醫療、特種軍事等前沿方向的潛在應用,以期為RSVP-BCI相關的研究提供參考和新思路。
引用本文: 孫靜敏, 孟佳圓, 尤佳, 楊明明, 江京, 許敏鵬, 明東. 基于快速序列視覺呈現的腦-機接口應用范式研究進展. 生物醫學工程學雜志, 2023, 40(6): 1235-1241, 1248. doi: 10.7507/1001-5515.202305061 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
0 引言
腦-機接口(brain-computer interface,BCI)可以在不依賴外周神經或肌肉的條件下,實現人腦與外部設備之間的直接交互[1]。腦電圖(electroencephalography,EEG)是測量并采集大腦活動產生信號的常用手段[2-3],而基于EEG的事件相關電位(event related potential,ERP)是一種特殊的腦誘發電位,能夠根據人的認知行為反映大腦神經電生理變化,被廣泛應用于認知神經科學研究和應用[4]。
快速序列視覺呈現(rapid serial visual presentation,RSVP)是研究大腦認知過程的常見范式,具有精準、靈活、高效的優勢。RSVP范式將由數字、字母、單詞以及圖形等組成待檢測序列在同一固定位置依次且連續地快速呈現,可由EEG解碼視覺刺激的詳細信息[5]。如圖1所示,小概率目標刺激會誘發特定ERP成分,其中,P300通常發生在新奇刺激出現后300 ms左右,容易在極微弱的腦電信號中實現有效提取與分類[6],而非目標刺激誘發ERP主要是固定頻率的刺激閃爍誘發的穩態視覺誘發電位(steady state visual evoked potential,SSVEP)。通過確定P300成分出現的時間就可以推測出受試者在關注哪個刺激物,從而間接實現對目標刺激的識別,最終實現用戶與外界的信息交互。

RSVP-BCI系統主要包括編碼和解碼兩個環節。其中,編碼是將不同刺激信息轉換為用于誘發相應腦電信號刺激特征的過程,其重點在于通過范式設計的優化來增強源信號強度、縮短決策時間。編碼效果直接影響了視覺刺激下腦電信號的特征能否準確提取,是實現神經特征高效解碼的重要基礎,在RSVP-BCI研究與應用中意義重大。近年來,面向精度高、速度快的應用需求,研究者們從刺激種類、頻率、視角等方面展開RSVP-BCI編碼方式的擴展及優化研究,使BCI性能得到顯著提高。
鑒于此,本文將從編碼范式方面對近五年大量涌現的RSVP-BCI研究成果進行綜述,重點論述RSVP-BCI在腦控拼寫器、圖像識別與檢測、意念控制游戲等領域的范式創新,展望RSVP-BCI在生活娛樂、臨床醫療、特種軍事等領域的現實應用場景,以期促進RSVP-BCI技術的產業落地。
1 用于腦控拼寫器的RSVP優化范式
虛擬鍵盤是BCI最為經典的應用之一,基于P300的BCI系統往往利用矩陣行列范式(row-column paradigm,RCP),但該范式需要受試者頭部或眼睛朝向目標刺激運動,對患有嚴重動眼神經損傷用戶的實用性有限。針對這一問題,研究人員采用RSVP這一非矩陣結構范式,實驗中字符只在屏幕中心快速呈現(如圖2a所示),不需受試者移動視線,并且RSVP范式誘發的ERP產生的個體差異較小,更有利于跨受試者分類[7]。為提高RSVP-BCI系統準確率和信息傳輸速率(information transfer rate,ITR),研究人員從呈現方式、刺激形態、混合范式三個方面對實驗范式進行了優化。

a. 傳統RSVP-BCI拼寫系統;b. 不同刺激形態RSVP拼寫范式;c. 多重RSVP拼寫范式;d. 基于RSVP的混合拼寫范式
Figure2. RSVP paradigms for spellera. classical RSVP-BCI speller system; b. RSVP paradigm with different stimulus modality for speller; c. multiple RSVP paradigm for speller; d. hybrid paradigm based on RSVP for speller
1.1 呈現方式
傳統RSVP拼寫器實驗時間過長,容易耗盡用戶精力。研究者們提出多重RSVP范式,采用一次同時呈現多個字符的方法縮短了顯示所有字符的時間,進而提高了ITR。
如圖2c所示,以26個字符為例,經典RSVP范式即逐個隨機顯示所有字符,切換頻率設為5.33 Hz,拼寫一個字符需重復10輪,理論時間約48.78 s;雙重RSVP范式將字符隨機組合成13組,每組包含2個字符,組間切換頻率設為4 Hz,拼寫一個字符需重復5輪,理論時間約16.25 s;三重RSVP范式將字符隨機組合成9組,每組包含3個字符,組間切換頻率設為4 Hz,拼寫一個字符需重復5輪,理論時間約11.25 s[8]。多重范式中,每個字符的腦電特征是所有出現該字符的字符組對應腦電信號的平均值,由于每組字符的組合隨機且不重復,腦電信號平均后只有目標字符誘發特征最為明顯,從而通過特征分類確定目標字符。Lin等[9]設計的三重RSVP拼寫器在線平均ITR達到了20.26 bit/min,遠高于傳統單一RSVP拼寫器的5 bit/min。Mijani等[8]設計了單一、雙重和三重RSVP范式,獲得的分類準確率分別為78%、63%、64%,ITR分別為3.7、7.7、11.5 bit/min,可見同時呈現三個字符取得了最高的性能。Mijani等通過一系列實驗進一步得出結論,采用菱形結構的四重RSVP范式可實現更高的ITR,但字符識別精度顯著降低,因此,三重RSVP范式是性能最為均衡的選擇。
Mijani等[10]進一步提出基于RSVP的雙重移位及三重移位拼寫器范式,同樣認為雙重RSVP范式可以有效改善系統整體性能。如圖2c所示,右側字符串是左側字符串的延遲,要求受試者關注左邊字符,在看到目標字符后將視線向右移動;三重移位和雙重移位RSVP范式的實驗步驟類似,在屏幕下方添加了第三個字符。單一、雙重移位和三重移位RSVP范式字符檢測準確率分別為97%、97%、80%,ITR分別達到5.45、7.62、7.90 bit/min。綜合來看,雙重移位RSVP范式是平衡ITR和準確率最合適的方法。
1.2 刺激形態
研究表明,使用不同速率[11]、不同顏色、不同尺寸[12]、不同類型(如字詞、圖片、數字等)[11]的視覺刺激,都會影響神經響應特征及BCI性能表現,研究者們嘗試在RSVP中應用不同的刺激形態以提高BCI系統檢測的準確性(如圖2b所示)。
Ahani等[13]提出基于RSVP的IconMessenge系統,該系統使用語義框架將消息細分為主要語義角色(如參與者、動作、對象和修飾語),采用語義圖標、語言模型字詞作為腦控拼寫器輸入,更適用于患有身體損傷的目標人群。
然而,對于用其他類型的視覺刺激代替字符能否提升拼寫器系統識別準確率仍然存在爭議。Fernandez-Rodriguez等[14]在研究中未取得改善效果,并且表示RSVP范式中用圖片代替字符刺激可能會降低用戶的舒適度。Ron-Angevin等[15]認為Fernandez-Rodriguez等的研究中樣本量較小,也在RSVP范式下評估了白色字符、名人面孔、中性圖片三組不同刺激類型對系統性能的影響,認為校準和在線任務中使用名人面孔代表字符輸入均可顯著提高準確率及ITR。
除此之外,Won等[16]將運動刺激引入RSVP拼寫器中,誘發了具有更短P300潛伏期和更高P300振幅的神經響應,發現運動RSVP系統更穩定。固定方向運動RSVP中的字符在呈現時間內向預先確定的方向移動,受試者即使無法準確感知快速呈現的靜態刺激,也可以通過字符的形狀、顏色和方向來識別目標字符,從而提高對目標字符的感知能力。值得注意的是,RSVP-BCI的重要優勢在于完全獨立于視線,而這項研究并未使用定量的方法探討運動刺激對眼球運動和眼電的影響,仍需進一步驗證以得到準確的結論。
1.3 混合范式
單一范式BCI系統準確率及ITR相互制約,而混合BCI范式能通過復合特征的融合充分發揮各控制信號的優勢,相比于傳統單一系統模式能更好地完成特定的目標任務。
如圖2d所示,Jalilpour等[17]在RSVP范式基礎上引入閃爍刺激塊,通過逐步解碼刺激誘發的ERP與SSVEP信號構建了高效的混合拼寫范式。根據P300信號檢測可確定目標字符組,而受試者在移動視線搜索目標字符時,15 Hz視覺刺激塊會出現在相反的視野當中,相應的會在目標字符方向的腦區獲得較大的SSVEP能量,以此確定目標字符空間位置,不僅實現了高ITR,還提高了三重RSVP分類準確率。Gonzalez-Navarro等[18]在研究中發現將復合腦電信號和語言模型同時作為特征進行判別能改善RSVP拼寫器的性能。他們利用反饋相關電位(feedback related potentials,FRP)、ERP和語言模型(language model,LM)以貝葉斯融合的方式得到概率生成模型,使用最大后驗概率推理選擇用戶意圖,提高了打字速度。
1.4 小結
綜上,基于RSVP的字符拼寫范式不需移動視線進行搜索,能有效識別用戶指令,實現較好的對外交流功能。研究者們通過優化字符布局、刺激形態、信號控制方式實現了神經響應更強、實驗時間更短的RSVP拼寫器,同時有效平衡了準確率和ITR,進一步提升了用戶的舒適度,解決了神經受損患者腦控拼寫時易受疲勞與習慣化效應影響的問題[19],能應用于日常生活中的輔助表達與交流。另外,基于RSVP的腦控拼寫更適用于顯示空間受限的可穿戴移動設備上的文本呈現,用戶可通過固定顯示中心的字符序列與微型智能眼鏡、手表等進行交互。
2 用于圖像識別與檢測的RSVP優化范式
如圖3a所示,基于RSVP的目標圖像檢索結合了機器智能與人腦智能的優勢,借助于人腦在看到目標圖像時產生的ERP來完成目標圖像檢索,能夠對復雜目標圖像進行識別,同時保證較高的檢測速度。近年來,應用于圖像識別與檢測領域的RSVP范式創新體現在多試次目標檢測、多模態特征融合、多受試者協同決策三個方面,提高了RSVP-BCI的實用性。

a. 傳統RSVP-BCI系統;b. 多重RSVP范式;c. 快速序列多模態呈現(RSMP)范式;d. 雙受試者RSVP協同范式
Figure3. RSVP paradigm for image recognition and detectiona. classical RSVP-BCI system; b. multiple RSVP paradigm; c. rapid serial multimodal presentation (RSMP) paradigm; d. two-subject RSVP collaborative paradigm
2.1 多試次目標檢測
RSVP范式中,P300成分的潛伏期和振幅會隨目標概率、刺激語義等不同的實驗參數而變化,增加了單試次ERP分類的難度[20]。人們普遍認為多試次P300成分檢測方法比單試次檢測具有更好的魯棒性和穩定性,Cecotti在研究中驗證了這一說法,在他們設計的基于腦磁圖(magnetoencephalogram,MEG)的雙重RSVP范式中(如圖3b所示),兩個圖像序列同時呈現,其中一個圖像序列由另一個延遲一定時間得到,因此一張圖像可以出現兩次,采用融合兩個試次分類得分的決策提高了目標檢測精度[21]。
Lin等[22]進一步驗證了基于EEG的雙重RSVP范式的有效性,并提出了一種檢測精度更高的三重RSVP范式。如圖3b所示,三重RSVP范式中,屏幕右側圖像序列由左側圖像延遲一段時間得到,底部圖像序列由右側圖像延遲一段時間得到,要求受試者先看左側,觀察到目標后再看右側,接著看下方,最后將注意力移回左側。單一、雙重、三重RSVP范式的曲線下面積(area under the curve,AUC)分別為0.926、0.946、0.952,可見同一目標圖像反復出現次數越多,目標識別效果越好。
2.2 多模態特征融合
將觸覺、視覺或聽覺相結合的多模態刺激可以通過多種感官通路的集成增強大腦感覺運動皮層的激活特性[23],同時,EEG、MEG等多模態信息的融合可以獲得更豐富準確的大腦信息,從而提高解碼性能[24]。隨著RSVP研究的深入,多模態刺激及多模態信息的引入為構建高性能BCI提供了新思路,而不僅局限于傳統的單模態方式。
Onishi[25]提出了一種結合人工面部圖像和人工語音刺激的快速序列多模態呈現(rapid serial multimodal presentation,RSMP)BCI,開發了高魯棒性的、與視線無關的BCI系統。日語原音與面部圖像(如圖3c所示)以隨機順序呈現,其視聽刺激改善了RSMP-BCI的表現,準確率達72.7%,優于單個視覺刺激(67.3%)或聽覺刺激(51.8%)。Mao等[26-27]將眼動模態引入基于RSVP-BCI的圖像檢索任務,通過輕微的眼睛凝視運動和瞳孔大小變化揭示受試者認知過程的有用信息,使眼動模態特征和EEG模態特性更加互補,該多模態檢測方法的準確率同樣優于單模態方法。
2.3 多受試者協同決策
雖然多重RSVP目標檢測取得了更高的檢測性能,但實驗中同時顯示多張圖像會導致受試者更為疲勞,并且單受試者的可用信息限制了單試次EEG信號的預測精度。幾十年的研究表明,群體通常能比個人做出更好的決策(群體智慧)[28],因此,目標檢測可通過多個受試者的協作來完成,即協同BCI(collaborative BCI,cBCIs)[29],可以獲得比單個受試者更高更穩定的性能,該方法已應用于夜間巡邏、前哨基地監測等現實場景[30]。
Zhang等[31]探討了雙人交互場景下基于RSVP聯合目標檢測方法的可行性,與單人目標檢測相比,該方法至少提高了5%的F1分數(精確率與召回率的調和平均數)。如圖3d所示,實驗中同步采集了兩個受試者區分目標和非目標圖像的EEG信號,并在數據層和特征層分別融合了兩個受試者的數據和特征,其F1分數達到82.76%,由此可見基于群體神經活動整合的群體決策更有優勢,處于在時間壓力下做出關鍵決定的緊急情況時,基于RSVP的協同BCI系統有望通過群體智慧做出最有利決策。
2.4 小結
綜上,將人腦認知智能與機器計算智能進行有機結合可滿足圖像識別和檢測的高性能要求,上述研究在控制層面、特征層面、決策層面進行RSVP范式優化,啟發了我們如何在BCI框架下實現高效又精準的圖像識別和檢測。RSVP-BCI可進一步應用于各種不同條件下的快速視覺搜索任務,甚至還可將多模態協同BCI應用到RSVP范式中[32-33],幫助協作團隊在各種場景中做出更準確的決策。
生活方面,RSVP-BCI可以應用于身份認證、測謊等。RSVP任務中受試者觀察目標和非目標圖像的連續序列所導致的ERP潛伏期的強烈個體差異可用于身份驗證[34]。Wang等[35]基于RSVP范式提出隱藏信息測試框架,由于嫌疑人或目擊者會對與犯罪現場有關的圖片或物品做出反應,該欺騙檢測方法能夠擴展到不同的犯罪調查場景。
軍事方面,RSVP-BCI可用于海(船艦)陸(基地)空(導彈、巡邏機)天(衛星、空間站)中目標鎖定跟蹤、遙感監測等功能的實現。研究表明,利用RSVP進行圖片情報分析,正確率較傳統人工識別方式提高30%[36]。Zhang等[37]發現RSVP范式中不同視野刺激對EEG空間分布有顯著影響,驗證了目標空間方向精確定位的可能性。
醫療方面,通過RSVP-BCI進行醫學影像的檢測可實現藥物篩查與病灶判定。Hope等基于RSVP范式將腦電信號分析與計算機視覺結合,成功應用于乳腺癌篩查[4]。RSVP-BCI還可用于臨床疾病的早期診斷與康復。Zokaei等[38]發現帕金森病患者在RSVP實驗范式中存在時間定向缺陷,而服用多巴胺能藥物可以消除患者的這一缺陷。Shalbaf等[39]采用連續小波變換方法將腦電信號轉換為圖像,實現了對精神分裂癥患者的分類。Yi等[40]通過設計三種不同呈現率的RSVP任務實現了心理負荷的監測,探討了與時間壓力相關的多層次心理工作量的可分離性。因此,RSVP范式可進一步應用于認知、情感和精神分裂癥等臨床癥狀的研究。
3 用于意念控制游戲的RSVP優化范式
游戲型RSVP-BCI系統可為神經功能障礙患者提供較強的游戲樂趣,然而許多神經功能障礙患者由于神經通路阻斷,無法自由控制肢體完成傳統游戲的人機交互。將BCI與游戲結合,通過對腦電信號的識別,使用戶完成對游戲的直接控制,為殘障人士提供了新的康復治療途徑。
Nayak等[41]基于Unity游戲引擎平臺提出了一種結合RSVP和SSVEP的新型混合游戲BCI。如圖4所示,該范式基于一款三消游戲Jewel Quest呈現一個珠寶圖像矩陣,采用RSVP范式在不同位置的四個白色方塊以四種不同的閃爍率顯示八個不同珠寶的序列。實驗中首先從四個突出顯示的類別中通過SSVEP刺激識別用戶的目標關注位置,然后進入RSVP刺激階段,從刺激序列中通過ERP區分目標和非目標,如果受試者成功識別出目標,則獲得相應分數。在2021年其團隊延伸的研究中,受試者平均4.42 s即可完成搜索任務,實現了81.59%的離線準確率、78.10%的在線準確率以及4.63 bits/min的離線ITR、7.95 bits/min的在線ITR[42]。2022年,該團隊在模擬計算機游戲場景中通過基于模糊熵算法有效地測量了多目標RSVP刺激中的EEG復雜性[43],離線實驗最高準確率達87.41%,揭示了多目標場景中實時游戲型混合BCI系統的可行性。國內陳景霞等[44]同樣提出基于Jewel Quest的SSVEP與RSVP相結合的實驗范式,通過游戲任務的模式讓用戶尋找不同頻率呈現的隨機圖片序列,該組合范式既減少了用戶疲勞又實現了多目標檢測。結果顯示,在8分類實驗中取得了最優分類性能91.6%,驗證了誘發的EEG信號具有良好的多分類可分性。

綜上,RSVP-BCI具有豐富傳統游戲交互手段和增強BCI控制的特點,但該類型游戲只能從預定義的命令集進行選擇,無法進行連續控制,因此研究相對較少。未來,游戲型RSVP-BCI可以用于認知(注意力、記憶力)增強的相關訓練、人體狀態(警覺度、疲勞度)的評估等,還可作為一種神經治療工具幫助注意力缺陷多動癥兒童進行康復治療。另外,為了獲得較高的游戲型RSVP-BCI在線分類精度及ITR,仍需要優化游戲控制范式和策略,進一步研究面向多任務、復雜場景的多人協同/對抗游戲BCI。值得注意的是,有報道稱一種新型的VR-EEG結合耳機將電極嵌入枕部,可用于神經游戲的ERP檢測。因此,RSVP-BCI可能受益于頭戴式視覺顯示器,借助虛擬現實/增強現實技術進一步改善視覺效果,從而為用戶提供更好的交互體驗。
4 面臨挑戰與發展方向
盡管RSVP-BCI系統近年來在各個領域都取得了顯著進展,但仍然面臨著一些挑戰:① 系統性能亟待提高。如拼寫器方面,只有其準確率與ITR達到或超過其他傳統拼寫器的相應水平,才能充分發揮RSVP范式不依賴于視線移動的優勢,為患者提供更自然、友好的交流方式。② 建模時間有待縮短。耗時的建模過程是RSVP-BCI在線系統廣泛應用的阻礙之一,而將其無縫集成到實際場景中的關鍵在于誘發更穩定的內源性神經信號和開發更有效的零校準算法。③ 并行操控問題急需解決。復雜任務下,當前RSVP-BCI缺乏有效協同手、眼、腦等決策權重的方法,需要更智能的并行操控方案,使之不局限于單一模式的操作。
目前RSVP-BCI仍停留在實驗室研究階段,為滿足實際生活和工作的需要,有以下兩個發展方向:① 現實世界的應用。首先需要將RSVP-BCI與典型場景下的典型應用聯動,研發快消級別的產品實現商業落地,進而走進現實生產生活。如結合無人機技術進行可靠的靜態圖像檢測和動態視頻監控,或者結合智能機器人為患者提供全天陪伴和看護服務等。② 虛擬世界的應用。將RSVP-BCI與人工智能、虛擬現實相結合為其發展帶來了充滿希望的未來,這與提供更豐富、自由、沉浸式體驗的元宇宙的不斷演進趨勢相吻合,可創建更直觀的跨平臺人機交互新世界。
5 結語
綜上所述,RSVP-BCI是一種特殊類型的BCI系統,該系統將RSVP范式與基于P300信號的腦響應檢測結合起來,利用非侵入性腦電測量方式記錄信號,有利于受試者在信息流中快速、準確地選擇心中所想目標刺激,并通過解碼受試者的EEG信號實現對外部設備的信息交流與控制。本文介紹了RSVP-BCI技術及范式應用領域,梳理了RSVP-BCI近五年的研究進展。數年來,隨著研究的不斷深入,RSVP-BCI的蓬勃發展有效地推動了人機交互領域的發展,具有速度快、精度高、用戶友好等優勢。RSVP-BCI最常見的應用類型是監控應用、表達輔助應用、游戲娛樂應用和醫療應用,然而,將BCI應用于商業和實驗室之外的現實場景中,仍然面臨魯棒性、實時性等方面的挑戰。未來,隨著各個社會面智能化需求的增多,相信不斷進行范式創新的RSVP-BCI在輔助交互、商業游戲、監控安檢、醫療健康、特種軍事等領域會迸發更加強大的活力。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:尤佳完成了相關文獻搜集、分析工作,楊明明完成了文獻整理、文章圖像繪制,孫靜敏完成了文獻綜述及文章的撰寫,孟佳圓和許敏鵬制定了文章的寫作思路,明東完成了文章的審閱及校對,江京協助了稿件的修訂。
0 引言
腦-機接口(brain-computer interface,BCI)可以在不依賴外周神經或肌肉的條件下,實現人腦與外部設備之間的直接交互[1]。腦電圖(electroencephalography,EEG)是測量并采集大腦活動產生信號的常用手段[2-3],而基于EEG的事件相關電位(event related potential,ERP)是一種特殊的腦誘發電位,能夠根據人的認知行為反映大腦神經電生理變化,被廣泛應用于認知神經科學研究和應用[4]。
快速序列視覺呈現(rapid serial visual presentation,RSVP)是研究大腦認知過程的常見范式,具有精準、靈活、高效的優勢。RSVP范式將由數字、字母、單詞以及圖形等組成待檢測序列在同一固定位置依次且連續地快速呈現,可由EEG解碼視覺刺激的詳細信息[5]。如圖1所示,小概率目標刺激會誘發特定ERP成分,其中,P300通常發生在新奇刺激出現后300 ms左右,容易在極微弱的腦電信號中實現有效提取與分類[6],而非目標刺激誘發ERP主要是固定頻率的刺激閃爍誘發的穩態視覺誘發電位(steady state visual evoked potential,SSVEP)。通過確定P300成分出現的時間就可以推測出受試者在關注哪個刺激物,從而間接實現對目標刺激的識別,最終實現用戶與外界的信息交互。

RSVP-BCI系統主要包括編碼和解碼兩個環節。其中,編碼是將不同刺激信息轉換為用于誘發相應腦電信號刺激特征的過程,其重點在于通過范式設計的優化來增強源信號強度、縮短決策時間。編碼效果直接影響了視覺刺激下腦電信號的特征能否準確提取,是實現神經特征高效解碼的重要基礎,在RSVP-BCI研究與應用中意義重大。近年來,面向精度高、速度快的應用需求,研究者們從刺激種類、頻率、視角等方面展開RSVP-BCI編碼方式的擴展及優化研究,使BCI性能得到顯著提高。
鑒于此,本文將從編碼范式方面對近五年大量涌現的RSVP-BCI研究成果進行綜述,重點論述RSVP-BCI在腦控拼寫器、圖像識別與檢測、意念控制游戲等領域的范式創新,展望RSVP-BCI在生活娛樂、臨床醫療、特種軍事等領域的現實應用場景,以期促進RSVP-BCI技術的產業落地。
1 用于腦控拼寫器的RSVP優化范式
虛擬鍵盤是BCI最為經典的應用之一,基于P300的BCI系統往往利用矩陣行列范式(row-column paradigm,RCP),但該范式需要受試者頭部或眼睛朝向目標刺激運動,對患有嚴重動眼神經損傷用戶的實用性有限。針對這一問題,研究人員采用RSVP這一非矩陣結構范式,實驗中字符只在屏幕中心快速呈現(如圖2a所示),不需受試者移動視線,并且RSVP范式誘發的ERP產生的個體差異較小,更有利于跨受試者分類[7]。為提高RSVP-BCI系統準確率和信息傳輸速率(information transfer rate,ITR),研究人員從呈現方式、刺激形態、混合范式三個方面對實驗范式進行了優化。

a. 傳統RSVP-BCI拼寫系統;b. 不同刺激形態RSVP拼寫范式;c. 多重RSVP拼寫范式;d. 基于RSVP的混合拼寫范式
Figure2. RSVP paradigms for spellera. classical RSVP-BCI speller system; b. RSVP paradigm with different stimulus modality for speller; c. multiple RSVP paradigm for speller; d. hybrid paradigm based on RSVP for speller
1.1 呈現方式
傳統RSVP拼寫器實驗時間過長,容易耗盡用戶精力。研究者們提出多重RSVP范式,采用一次同時呈現多個字符的方法縮短了顯示所有字符的時間,進而提高了ITR。
如圖2c所示,以26個字符為例,經典RSVP范式即逐個隨機顯示所有字符,切換頻率設為5.33 Hz,拼寫一個字符需重復10輪,理論時間約48.78 s;雙重RSVP范式將字符隨機組合成13組,每組包含2個字符,組間切換頻率設為4 Hz,拼寫一個字符需重復5輪,理論時間約16.25 s;三重RSVP范式將字符隨機組合成9組,每組包含3個字符,組間切換頻率設為4 Hz,拼寫一個字符需重復5輪,理論時間約11.25 s[8]。多重范式中,每個字符的腦電特征是所有出現該字符的字符組對應腦電信號的平均值,由于每組字符的組合隨機且不重復,腦電信號平均后只有目標字符誘發特征最為明顯,從而通過特征分類確定目標字符。Lin等[9]設計的三重RSVP拼寫器在線平均ITR達到了20.26 bit/min,遠高于傳統單一RSVP拼寫器的5 bit/min。Mijani等[8]設計了單一、雙重和三重RSVP范式,獲得的分類準確率分別為78%、63%、64%,ITR分別為3.7、7.7、11.5 bit/min,可見同時呈現三個字符取得了最高的性能。Mijani等通過一系列實驗進一步得出結論,采用菱形結構的四重RSVP范式可實現更高的ITR,但字符識別精度顯著降低,因此,三重RSVP范式是性能最為均衡的選擇。
Mijani等[10]進一步提出基于RSVP的雙重移位及三重移位拼寫器范式,同樣認為雙重RSVP范式可以有效改善系統整體性能。如圖2c所示,右側字符串是左側字符串的延遲,要求受試者關注左邊字符,在看到目標字符后將視線向右移動;三重移位和雙重移位RSVP范式的實驗步驟類似,在屏幕下方添加了第三個字符。單一、雙重移位和三重移位RSVP范式字符檢測準確率分別為97%、97%、80%,ITR分別達到5.45、7.62、7.90 bit/min。綜合來看,雙重移位RSVP范式是平衡ITR和準確率最合適的方法。
1.2 刺激形態
研究表明,使用不同速率[11]、不同顏色、不同尺寸[12]、不同類型(如字詞、圖片、數字等)[11]的視覺刺激,都會影響神經響應特征及BCI性能表現,研究者們嘗試在RSVP中應用不同的刺激形態以提高BCI系統檢測的準確性(如圖2b所示)。
Ahani等[13]提出基于RSVP的IconMessenge系統,該系統使用語義框架將消息細分為主要語義角色(如參與者、動作、對象和修飾語),采用語義圖標、語言模型字詞作為腦控拼寫器輸入,更適用于患有身體損傷的目標人群。
然而,對于用其他類型的視覺刺激代替字符能否提升拼寫器系統識別準確率仍然存在爭議。Fernandez-Rodriguez等[14]在研究中未取得改善效果,并且表示RSVP范式中用圖片代替字符刺激可能會降低用戶的舒適度。Ron-Angevin等[15]認為Fernandez-Rodriguez等的研究中樣本量較小,也在RSVP范式下評估了白色字符、名人面孔、中性圖片三組不同刺激類型對系統性能的影響,認為校準和在線任務中使用名人面孔代表字符輸入均可顯著提高準確率及ITR。
除此之外,Won等[16]將運動刺激引入RSVP拼寫器中,誘發了具有更短P300潛伏期和更高P300振幅的神經響應,發現運動RSVP系統更穩定。固定方向運動RSVP中的字符在呈現時間內向預先確定的方向移動,受試者即使無法準確感知快速呈現的靜態刺激,也可以通過字符的形狀、顏色和方向來識別目標字符,從而提高對目標字符的感知能力。值得注意的是,RSVP-BCI的重要優勢在于完全獨立于視線,而這項研究并未使用定量的方法探討運動刺激對眼球運動和眼電的影響,仍需進一步驗證以得到準確的結論。
1.3 混合范式
單一范式BCI系統準確率及ITR相互制約,而混合BCI范式能通過復合特征的融合充分發揮各控制信號的優勢,相比于傳統單一系統模式能更好地完成特定的目標任務。
如圖2d所示,Jalilpour等[17]在RSVP范式基礎上引入閃爍刺激塊,通過逐步解碼刺激誘發的ERP與SSVEP信號構建了高效的混合拼寫范式。根據P300信號檢測可確定目標字符組,而受試者在移動視線搜索目標字符時,15 Hz視覺刺激塊會出現在相反的視野當中,相應的會在目標字符方向的腦區獲得較大的SSVEP能量,以此確定目標字符空間位置,不僅實現了高ITR,還提高了三重RSVP分類準確率。Gonzalez-Navarro等[18]在研究中發現將復合腦電信號和語言模型同時作為特征進行判別能改善RSVP拼寫器的性能。他們利用反饋相關電位(feedback related potentials,FRP)、ERP和語言模型(language model,LM)以貝葉斯融合的方式得到概率生成模型,使用最大后驗概率推理選擇用戶意圖,提高了打字速度。
1.4 小結
綜上,基于RSVP的字符拼寫范式不需移動視線進行搜索,能有效識別用戶指令,實現較好的對外交流功能。研究者們通過優化字符布局、刺激形態、信號控制方式實現了神經響應更強、實驗時間更短的RSVP拼寫器,同時有效平衡了準確率和ITR,進一步提升了用戶的舒適度,解決了神經受損患者腦控拼寫時易受疲勞與習慣化效應影響的問題[19],能應用于日常生活中的輔助表達與交流。另外,基于RSVP的腦控拼寫更適用于顯示空間受限的可穿戴移動設備上的文本呈現,用戶可通過固定顯示中心的字符序列與微型智能眼鏡、手表等進行交互。
2 用于圖像識別與檢測的RSVP優化范式
如圖3a所示,基于RSVP的目標圖像檢索結合了機器智能與人腦智能的優勢,借助于人腦在看到目標圖像時產生的ERP來完成目標圖像檢索,能夠對復雜目標圖像進行識別,同時保證較高的檢測速度。近年來,應用于圖像識別與檢測領域的RSVP范式創新體現在多試次目標檢測、多模態特征融合、多受試者協同決策三個方面,提高了RSVP-BCI的實用性。

a. 傳統RSVP-BCI系統;b. 多重RSVP范式;c. 快速序列多模態呈現(RSMP)范式;d. 雙受試者RSVP協同范式
Figure3. RSVP paradigm for image recognition and detectiona. classical RSVP-BCI system; b. multiple RSVP paradigm; c. rapid serial multimodal presentation (RSMP) paradigm; d. two-subject RSVP collaborative paradigm
2.1 多試次目標檢測
RSVP范式中,P300成分的潛伏期和振幅會隨目標概率、刺激語義等不同的實驗參數而變化,增加了單試次ERP分類的難度[20]。人們普遍認為多試次P300成分檢測方法比單試次檢測具有更好的魯棒性和穩定性,Cecotti在研究中驗證了這一說法,在他們設計的基于腦磁圖(magnetoencephalogram,MEG)的雙重RSVP范式中(如圖3b所示),兩個圖像序列同時呈現,其中一個圖像序列由另一個延遲一定時間得到,因此一張圖像可以出現兩次,采用融合兩個試次分類得分的決策提高了目標檢測精度[21]。
Lin等[22]進一步驗證了基于EEG的雙重RSVP范式的有效性,并提出了一種檢測精度更高的三重RSVP范式。如圖3b所示,三重RSVP范式中,屏幕右側圖像序列由左側圖像延遲一段時間得到,底部圖像序列由右側圖像延遲一段時間得到,要求受試者先看左側,觀察到目標后再看右側,接著看下方,最后將注意力移回左側。單一、雙重、三重RSVP范式的曲線下面積(area under the curve,AUC)分別為0.926、0.946、0.952,可見同一目標圖像反復出現次數越多,目標識別效果越好。
2.2 多模態特征融合
將觸覺、視覺或聽覺相結合的多模態刺激可以通過多種感官通路的集成增強大腦感覺運動皮層的激活特性[23],同時,EEG、MEG等多模態信息的融合可以獲得更豐富準確的大腦信息,從而提高解碼性能[24]。隨著RSVP研究的深入,多模態刺激及多模態信息的引入為構建高性能BCI提供了新思路,而不僅局限于傳統的單模態方式。
Onishi[25]提出了一種結合人工面部圖像和人工語音刺激的快速序列多模態呈現(rapid serial multimodal presentation,RSMP)BCI,開發了高魯棒性的、與視線無關的BCI系統。日語原音與面部圖像(如圖3c所示)以隨機順序呈現,其視聽刺激改善了RSMP-BCI的表現,準確率達72.7%,優于單個視覺刺激(67.3%)或聽覺刺激(51.8%)。Mao等[26-27]將眼動模態引入基于RSVP-BCI的圖像檢索任務,通過輕微的眼睛凝視運動和瞳孔大小變化揭示受試者認知過程的有用信息,使眼動模態特征和EEG模態特性更加互補,該多模態檢測方法的準確率同樣優于單模態方法。
2.3 多受試者協同決策
雖然多重RSVP目標檢測取得了更高的檢測性能,但實驗中同時顯示多張圖像會導致受試者更為疲勞,并且單受試者的可用信息限制了單試次EEG信號的預測精度。幾十年的研究表明,群體通常能比個人做出更好的決策(群體智慧)[28],因此,目標檢測可通過多個受試者的協作來完成,即協同BCI(collaborative BCI,cBCIs)[29],可以獲得比單個受試者更高更穩定的性能,該方法已應用于夜間巡邏、前哨基地監測等現實場景[30]。
Zhang等[31]探討了雙人交互場景下基于RSVP聯合目標檢測方法的可行性,與單人目標檢測相比,該方法至少提高了5%的F1分數(精確率與召回率的調和平均數)。如圖3d所示,實驗中同步采集了兩個受試者區分目標和非目標圖像的EEG信號,并在數據層和特征層分別融合了兩個受試者的數據和特征,其F1分數達到82.76%,由此可見基于群體神經活動整合的群體決策更有優勢,處于在時間壓力下做出關鍵決定的緊急情況時,基于RSVP的協同BCI系統有望通過群體智慧做出最有利決策。
2.4 小結
綜上,將人腦認知智能與機器計算智能進行有機結合可滿足圖像識別和檢測的高性能要求,上述研究在控制層面、特征層面、決策層面進行RSVP范式優化,啟發了我們如何在BCI框架下實現高效又精準的圖像識別和檢測。RSVP-BCI可進一步應用于各種不同條件下的快速視覺搜索任務,甚至還可將多模態協同BCI應用到RSVP范式中[32-33],幫助協作團隊在各種場景中做出更準確的決策。
生活方面,RSVP-BCI可以應用于身份認證、測謊等。RSVP任務中受試者觀察目標和非目標圖像的連續序列所導致的ERP潛伏期的強烈個體差異可用于身份驗證[34]。Wang等[35]基于RSVP范式提出隱藏信息測試框架,由于嫌疑人或目擊者會對與犯罪現場有關的圖片或物品做出反應,該欺騙檢測方法能夠擴展到不同的犯罪調查場景。
軍事方面,RSVP-BCI可用于海(船艦)陸(基地)空(導彈、巡邏機)天(衛星、空間站)中目標鎖定跟蹤、遙感監測等功能的實現。研究表明,利用RSVP進行圖片情報分析,正確率較傳統人工識別方式提高30%[36]。Zhang等[37]發現RSVP范式中不同視野刺激對EEG空間分布有顯著影響,驗證了目標空間方向精確定位的可能性。
醫療方面,通過RSVP-BCI進行醫學影像的檢測可實現藥物篩查與病灶判定。Hope等基于RSVP范式將腦電信號分析與計算機視覺結合,成功應用于乳腺癌篩查[4]。RSVP-BCI還可用于臨床疾病的早期診斷與康復。Zokaei等[38]發現帕金森病患者在RSVP實驗范式中存在時間定向缺陷,而服用多巴胺能藥物可以消除患者的這一缺陷。Shalbaf等[39]采用連續小波變換方法將腦電信號轉換為圖像,實現了對精神分裂癥患者的分類。Yi等[40]通過設計三種不同呈現率的RSVP任務實現了心理負荷的監測,探討了與時間壓力相關的多層次心理工作量的可分離性。因此,RSVP范式可進一步應用于認知、情感和精神分裂癥等臨床癥狀的研究。
3 用于意念控制游戲的RSVP優化范式
游戲型RSVP-BCI系統可為神經功能障礙患者提供較強的游戲樂趣,然而許多神經功能障礙患者由于神經通路阻斷,無法自由控制肢體完成傳統游戲的人機交互。將BCI與游戲結合,通過對腦電信號的識別,使用戶完成對游戲的直接控制,為殘障人士提供了新的康復治療途徑。
Nayak等[41]基于Unity游戲引擎平臺提出了一種結合RSVP和SSVEP的新型混合游戲BCI。如圖4所示,該范式基于一款三消游戲Jewel Quest呈現一個珠寶圖像矩陣,采用RSVP范式在不同位置的四個白色方塊以四種不同的閃爍率顯示八個不同珠寶的序列。實驗中首先從四個突出顯示的類別中通過SSVEP刺激識別用戶的目標關注位置,然后進入RSVP刺激階段,從刺激序列中通過ERP區分目標和非目標,如果受試者成功識別出目標,則獲得相應分數。在2021年其團隊延伸的研究中,受試者平均4.42 s即可完成搜索任務,實現了81.59%的離線準確率、78.10%的在線準確率以及4.63 bits/min的離線ITR、7.95 bits/min的在線ITR[42]。2022年,該團隊在模擬計算機游戲場景中通過基于模糊熵算法有效地測量了多目標RSVP刺激中的EEG復雜性[43],離線實驗最高準確率達87.41%,揭示了多目標場景中實時游戲型混合BCI系統的可行性。國內陳景霞等[44]同樣提出基于Jewel Quest的SSVEP與RSVP相結合的實驗范式,通過游戲任務的模式讓用戶尋找不同頻率呈現的隨機圖片序列,該組合范式既減少了用戶疲勞又實現了多目標檢測。結果顯示,在8分類實驗中取得了最優分類性能91.6%,驗證了誘發的EEG信號具有良好的多分類可分性。

綜上,RSVP-BCI具有豐富傳統游戲交互手段和增強BCI控制的特點,但該類型游戲只能從預定義的命令集進行選擇,無法進行連續控制,因此研究相對較少。未來,游戲型RSVP-BCI可以用于認知(注意力、記憶力)增強的相關訓練、人體狀態(警覺度、疲勞度)的評估等,還可作為一種神經治療工具幫助注意力缺陷多動癥兒童進行康復治療。另外,為了獲得較高的游戲型RSVP-BCI在線分類精度及ITR,仍需要優化游戲控制范式和策略,進一步研究面向多任務、復雜場景的多人協同/對抗游戲BCI。值得注意的是,有報道稱一種新型的VR-EEG結合耳機將電極嵌入枕部,可用于神經游戲的ERP檢測。因此,RSVP-BCI可能受益于頭戴式視覺顯示器,借助虛擬現實/增強現實技術進一步改善視覺效果,從而為用戶提供更好的交互體驗。
4 面臨挑戰與發展方向
盡管RSVP-BCI系統近年來在各個領域都取得了顯著進展,但仍然面臨著一些挑戰:① 系統性能亟待提高。如拼寫器方面,只有其準確率與ITR達到或超過其他傳統拼寫器的相應水平,才能充分發揮RSVP范式不依賴于視線移動的優勢,為患者提供更自然、友好的交流方式。② 建模時間有待縮短。耗時的建模過程是RSVP-BCI在線系統廣泛應用的阻礙之一,而將其無縫集成到實際場景中的關鍵在于誘發更穩定的內源性神經信號和開發更有效的零校準算法。③ 并行操控問題急需解決。復雜任務下,當前RSVP-BCI缺乏有效協同手、眼、腦等決策權重的方法,需要更智能的并行操控方案,使之不局限于單一模式的操作。
目前RSVP-BCI仍停留在實驗室研究階段,為滿足實際生活和工作的需要,有以下兩個發展方向:① 現實世界的應用。首先需要將RSVP-BCI與典型場景下的典型應用聯動,研發快消級別的產品實現商業落地,進而走進現實生產生活。如結合無人機技術進行可靠的靜態圖像檢測和動態視頻監控,或者結合智能機器人為患者提供全天陪伴和看護服務等。② 虛擬世界的應用。將RSVP-BCI與人工智能、虛擬現實相結合為其發展帶來了充滿希望的未來,這與提供更豐富、自由、沉浸式體驗的元宇宙的不斷演進趨勢相吻合,可創建更直觀的跨平臺人機交互新世界。
5 結語
綜上所述,RSVP-BCI是一種特殊類型的BCI系統,該系統將RSVP范式與基于P300信號的腦響應檢測結合起來,利用非侵入性腦電測量方式記錄信號,有利于受試者在信息流中快速、準確地選擇心中所想目標刺激,并通過解碼受試者的EEG信號實現對外部設備的信息交流與控制。本文介紹了RSVP-BCI技術及范式應用領域,梳理了RSVP-BCI近五年的研究進展。數年來,隨著研究的不斷深入,RSVP-BCI的蓬勃發展有效地推動了人機交互領域的發展,具有速度快、精度高、用戶友好等優勢。RSVP-BCI最常見的應用類型是監控應用、表達輔助應用、游戲娛樂應用和醫療應用,然而,將BCI應用于商業和實驗室之外的現實場景中,仍然面臨魯棒性、實時性等方面的挑戰。未來,隨著各個社會面智能化需求的增多,相信不斷進行范式創新的RSVP-BCI在輔助交互、商業游戲、監控安檢、醫療健康、特種軍事等領域會迸發更加強大的活力。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:尤佳完成了相關文獻搜集、分析工作,楊明明完成了文獻整理、文章圖像繪制,孫靜敏完成了文獻綜述及文章的撰寫,孟佳圓和許敏鵬制定了文章的寫作思路,明東完成了文章的審閱及校對,江京協助了稿件的修訂。