現代生活節奏加快,生活壓力逐漸增大,長期累積的心理疲勞對健康構成威脅。通過分析生理信號和參數,本文提出一種可以識別心理疲勞狀態的方法,從而有助于維護健康生活。本文所提方法是基于卷積神經網絡與長短時記憶網絡結合的心電信號心理疲勞狀態識別方法。首先,利用一維卷積神經網絡模型的卷積層提取局部特征,通過池化層提取關鍵信息,同時去除部分冗余數據。然后,將提取的特征作為長短時記憶網絡模型的輸入,以進一步進行心電特征的融合。最后,通過全連接層整合關鍵信息,成功實現了對心理疲勞狀態的準確識別。研究結果表明,相較于傳統的機器學習算法,本文提出的方法顯著提高了心理疲勞識別的準確性,識別的準確度達到了96.3%,可為心理疲勞的預警和評估提供可靠的基礎。
引用本文: 王慧, 張玭, 金豐護, 趙寶永, 曾勤波, 肖文棟. 基于卷積神經網絡和長短時記憶網絡的心理疲勞狀態識別方法. 生物醫學工程學雜志, 2024, 41(1): 34-40. doi: 10.7507/1001-5515.202306016 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
0 引言
疲勞是一種生理和心理上的不利狀態,通常由長時間的體力或認知活動引起,導致身體和大腦感到疲倦,可分為生理疲勞和心理疲勞兩類。生理疲勞,主要涉及身體方面的疲勞,包括肌肉疲勞、體力疲勞和運動耐力下降等。這種疲勞通常是由于長時間的體力活動或過度勞累引起的,可以通過休息來緩解并最終恢復。心理疲勞是指長時間的認知活動、情緒壓力或心理負荷過大所引起的心理狀態上的疲勞。它表現為注意力不集中、反應遲鈍、決策能力下降以及情緒不穩定等癥狀,對個體的認知能力、工作效率和生活質量有負面影響。近年來,許多研究致力于心理疲勞的識別和檢測。其中,利用生理參數進行心理疲勞狀態的識別成為研究的熱點之一。研究人員使用心電(electrocardiogram,ECG)和腦電(electroencephalogram,EEG)等生理信號來提取特征并進行分類,以判斷個體是否處于心理疲勞狀態。
基于ECG信號研究心理疲勞,研究人員主要關注心率和心率變異性(heart rate variability,HRV)。現已有研究通過誘發受試者的心理疲勞,測量ECG信號,從而進一步計算HRV信號,再通過提取時域(平均心率、平均RR間期)、頻域(低頻百分比、高頻百分比、低頻范數、高頻范數和低頻/高頻范數之比)、非線性域(樣本熵)等相關參數,結合機器學習模型,檢測心理疲勞的狀態[1-6]。HRV是指心跳間期的變化,可反映心臟自主神經系統的活動水平。研究發現,心理疲勞狀態下,心率增加,而HRV降低[6]。通過測量心率和HRV的變化,可以預測個體的心理疲勞程度。然而,HRV特征的提取需要復雜的算法,并對信號質量要求較高,且提取過程會受到噪聲和運動等因素的影響。此外,HRV特征的提取通常依賴于手工提取,也易受到主觀因素的影響,無法充分捕捉ECG信號中的潛在信息。相比之下,EEG信號可以提供有關認知狀態和注意力水平的信息,當用于心理疲勞的分類時具有一定的潛在應用價值。
基于EEG信號進行心理疲勞的檢測,通常研究者們是通過提取時域、頻域和非線性域等特征,并使用機器學習和深度學習等方法進行分類[7-11]。已有的研究表明,不同的特征組合和分類算法對心理疲勞的識別準確率有影響,其中深度學習方法在心理疲勞檢測方面表現更為準確可靠。然而,EEG信號在實際應用中存在一些局限,如會遭遇噪聲干擾、電極位置選擇不固定以及數據分析的復雜性等問題,限制了其在實際場景中的應用推廣。
除了ECG和EEG信號,還有一些研究采用其它生理信號來檢測心理疲勞,例如皮膚電信號、體表溫度等。Zhang等[12]提出了一種深度卷積自動編碼記憶網絡,用于實時檢測心理疲勞。該網絡模型利用智能手環收集生物特征數據,如皮膚電信號、心率、RR間隔和體表溫度,通過兩個子網絡(表征網絡和記憶網絡)協同優化來提取特征并生成訓練模型,該方法在真實環境數據集上的準確率達到82.9%。
綜上所述,利用生理信號進行心理疲勞的識別和檢測是一項具有重要意義的研究。通過分析ECG和EEG等生理信號,結合機器學習和深度學習等方法,可以實現對心理疲勞狀態的準確判斷,為改善個體的工作效能和生活質量提供有益的參考。當前,在心理疲勞的預測和監測方面,使用HRV和EEG信號來預測心理疲勞的方法備受關注。相比于直接從ECG信號中提取特征,采用HRV和EEG信號能夠提供更多的生理信息;但HRV和EEG信號的處理比直接從ECG信號中提取特征更加復雜,需要更多的預處理和處理步驟,且其預處理和處理的過程對信號的質量要求更高,任何不良干擾都可能影響分析和預測的準確性。雖然HRV和EEG信號能夠提供更多的生理信息,但HRV信號需要手工提取特征,所以它的精度和可靠性相對較低,而EEG信號的測量設備較為復雜,增加了處理成本和難度。因此,為了解決HRV和EEG信號應用局限性的問題,本文提出了基于一維卷積神經網絡(convolutional neural network,CNN)和長短時記憶網絡(long short term memory,LSTM)結合的深度挖掘ECG信號的特征方法,以期實現更為高效的心理疲勞狀態分類。
1 心理疲勞狀態識別方法
用于可穿戴壓力及影響檢測的多模態數據集(multimodal dataset for wearable stress and affect detection,WESAD)是由Schmidt等[13]創建,旨在用于使用可穿戴設備后的心理疲勞狀態和情緒檢測。該數據集的實驗設計包括多個階段,如靜息、娛樂和壓力誘發疲勞等。靜息和娛樂代表非疲勞的放松狀態,而壓力誘發的階段代表疲勞狀態。Schmidt等[13]通過測量15名參與者的多種生理信號,包括ECG信號、皮膚電信號、呼吸以及體溫等數據,并記錄參與者填寫的標準問卷,以進行心理疲勞和情緒的狀態識別。該數據集無需特殊授權即可供以科研為目的的研究者訪問和使用,相關學者可以利用這個數據集來分析和探索心理疲勞與生理信號之間的關系,從而增進對心理疲勞的理解。本文使用WESAD數據集中的ECG信號進行心理疲勞分類的研究,該信號是由胸戴式設備傳感器測量的,采樣頻率為700 Hz。
本文采用一維CNN算法對樣本數據進行特征選擇,然后采用LSTM算法對選擇的特征進行分類,再將兩者結合建立心理疲勞識別模型。整體流程包括對ECG信號的數據預處理(去噪和降采樣處理)、CNN網絡深度挖掘特征以及LSTM網絡融合特征和分類,最終達到準確識別和分類心理疲勞狀態的目的。
1.1 數據預處理
通過傳感器測量的ECG信號中存在肌電、工頻干擾以及基線漂移等噪聲。為了更清晰地識別非疲勞和疲勞狀態下的R波,以便進行后續特征提取,需要對ECG信號進行去噪與降采樣處理,以提高分類的準確性。
1.1.1 去噪和降采樣處理
肌電干擾,通常具有較寬的頻率范圍(5~2 000 Hz),頻譜特性類似白噪聲[14]。采用巴特沃斯低通濾波器可以有效地消除肌電干擾。工頻干擾,主要是由于電力系統中的電源磁場以及測量ECG信號的傳感器和人體形成的環路引起的[15],工頻干擾的最大幅值約為ECG信號最大幅值的50%。為了有效消除工頻干擾,使用陷波濾波器是一種常見的方法。基線漂移,是指ECG信號基線沿時間方向的緩慢變化,在各種噪聲中影響最大[16],如果無法有效地抑制基線漂移,將導致ECG信號失真,嚴重影響ECG信號的診斷和識別。為了解決這個問題,本文采用零相位濾波器來消除相位失真。
為減少數據冗余和計算負擔,同時需確保有足夠的信息用于心理疲勞分類,本研究將ECG信號的采樣頻率從700 Hz降低至33 Hz,有效地壓縮數據,減少了數據量,提高了數據處理效率,同時降低了后續信號處理和分析所需的計算量。
1.1.2 R波檢測
從整體ECG信號來看,R波在每種類型的ECG節拍中都是最明顯的,因此有利于R波定位。在去除噪聲干擾后,基于R波的斜率突變特性,可采用諸如差分法和小波變換法等處理方法來定位R波。考慮到時間和空間的復雜性和準確性,本文采用了一種改進的自適應滑動時間窗定位方法,具體的算法描述如下:
(1)使用濾波器消除噪聲并抑制P波和T波,以獲得純凈的ECG信號,使得波形模式單一并且R波更為明顯。
(2)利用R波具陡峭特性的原理,用“雙斜率”方法處理單個波形[17]。
(3)步驟(2)處理后,波形中可能包含雙峰,不利于準確檢測,因此使用低通濾波進行平滑處理。
(4)根據時間窗口的長度對信號進行劃分,初始窗口長度定義為經驗窗口長度,通常可以根據經驗取適當的值。本文選擇長度N = t × f(通常情況下t = 1.2 s,f = 33 Hz)。此外,經驗RR時間長度T1被設置為最小的RR時間值,然后在當前窗口長度內,檢測R波的位置,其中R波峰值是該窗口內信號的最大值,同時記錄其位置。
(5)當檢測到兩個以上的R波峰值時,計算兩個相鄰的RR間隔,并將RR間隔用作下一個窗口長度設置點的基礎。自適應窗口長度意味著窗口長度會隨RR間隔變化而變化。例如,如果RR間隔小于0.45,則將窗口長度設置為1.2倍的RR間隔;如果RR間隔大于0.5,則將其窗口長度設置為1.5倍的RR間隔。
(6)當檢測到三個或更多R波峰值時,設T2為前兩個相鄰RR間隔的差值,并重新設置閾值。如果T2超過閾值,則表明先前的R波位置不正確,需重置窗口長度,再次執行步驟(4)以重新定位R波。
由于峰值檢測算法的窗口長度自適應變化,當出現R波峰值位置誤差時,后續的R波峰值檢測不會受到影響,有效避免了峰值檢測的遺漏和錯誤檢測。根據該步驟,依次檢查ECG數據,直到所有的R峰被檢測出來。改進的自適應滑動窗R波波峰定位算法的流程,如圖1所示。該方法可以準確地定位R波,并根據R波的位置坐標對ECG信號進行切分,以便將切分后的ECG節拍輸入到CNN網絡中,從而獲取相關的特征信息。
 圖1
				圖1 改進的自適應滑動窗R波波峰定位算法
			
												
				Figure1.
				Improved adaptive sliding window R-wave peak location algorithm
						
				圖1
				圖1 改進的自適應滑動窗R波波峰定位算法
			
												
				Figure1.
				Improved adaptive sliding window R-wave peak location algorithm
			
								1.2 特征提取與分類
1.2.1 CNN模型
近年來,CNN算法快速發展,其最大的優點在于能夠自動進行特征提取、共享權重、局部連接卷積層,以及通過池化操作降低數據的維度。本文實驗結合CNN的優點以及ECG信號特點,提出了基于CNN模型提取特征的方法,如圖2所示,展示了本次實驗過程中使用的一維CNN模型。
 圖2
				CNN模型圖
			
												
				Figure2.
				CNN model diagram
						
				圖2
				CNN模型圖
			
												
				Figure2.
				CNN model diagram
			
								該CNN共有5層。第一和第三卷積層的卷積核大小分別設置為31 × 1和6 × 1,用于對輸入的ECG節拍提取局部信息。第二、四池化層均為最大池化層,用于從局部特征中提取關鍵信息并舍棄冗余特征。在卷積操作中,卷積核的移動步幅被設置為1,且在每次卷積后都經過帶泄露修正線性單元操作。池化層的步長分別設置為5和3。在基于CNN的ECG信號特征提取模型中,一系列卷積運算后,關鍵的局部信息被提取出來,然后將其映射到隱藏層的特征空間中。隨后,通過全連接層將這些信息映射到標記的空間中進行整合輸出。為了更新網絡參數并加快模型的收斂速度,將隨機梯度下降作為網絡模型的優化器[18],在網絡模型中權重會隨著梯度下降方向進行迭代更新。在訓練過程中,初始學習率設為0.01,批量大小設為16。
1.2.2 LSTM模型
LSTM是一種遞歸神經網絡的變體,專門設計用于處理序列數據。它具有三個關鍵的門機制,用于有效地捕獲、存儲和輸出關鍵的ECG信息[19]。其模型結構如圖3所示。
 圖3
				LSTM模型圖
			
												
				Figure3.
				LSTM model diagram
						
				圖3
				LSTM模型圖
			
												
				Figure3.
				LSTM model diagram
			
								圖3中,輸入門(input door)(以符號it表示)控制著有多少信息應該被存儲在當前候選狀態(current candidate status)(以符號 表示)中。它確保模型有效地吸收來自ECG信號特征的關鍵信息,以進行后續分析和分類。遺忘門(forget door)(以符號ft表示)控制著前一時刻的內部狀態(internal state of the previous moment)(以符號ct ? 1表示)中應該遺忘多少信息。對于輸入特征(input feature)(以符號xt表示),遺忘門的作用是決定在當前時間步驟應該丟棄哪些信息,以丟棄與當前任務無關的信息。輸出門(output door)(以符號ot表示)控制著從內部狀態(internal state)(以符號ct表示)輸出到外部狀態(external state)(以符號ht表示)的信息量,允許模型確定每次處理ECG信號特征時要輸出多少信息。輸入門、遺忘門、輸出門的計算如公式(1)~式(6)所示:
表示)中。它確保模型有效地吸收來自ECG信號特征的關鍵信息,以進行后續分析和分類。遺忘門(forget door)(以符號ft表示)控制著前一時刻的內部狀態(internal state of the previous moment)(以符號ct ? 1表示)中應該遺忘多少信息。對于輸入特征(input feature)(以符號xt表示),遺忘門的作用是決定在當前時間步驟應該丟棄哪些信息,以丟棄與當前任務無關的信息。輸出門(output door)(以符號ot表示)控制著從內部狀態(internal state)(以符號ct表示)輸出到外部狀態(external state)(以符號ht表示)的信息量,允許模型確定每次處理ECG信號特征時要輸出多少信息。輸入門、遺忘門、輸出門的計算如公式(1)~式(6)所示:
|  | 
|  | 
|  | 
|  | 
|  | 
|  | 
式中, 代表輸入特征,
 代表輸入特征, 代表當前時刻的記憶單元,
 代表當前時刻的記憶單元, 代表上一時刻的記憶單元,
 代表上一時刻的記憶單元, 代表候選狀態的記憶單元,
 代表候選狀態的記憶單元, 表示當前時刻的外部狀態,
 表示當前時刻的外部狀態, 表示上一時刻的外部狀態。
 表示上一時刻的外部狀態。 、
、 、
、 、
、 分別表示輸入門、遺忘門、輸出門和候選單元的輸入權值向量,而
 分別表示輸入門、遺忘門、輸出門和候選單元的輸入權值向量,而  、
、 、
、 、
、 分別表示各個門控單元的偏置項。
 分別表示各個門控單元的偏置項。 代表S型激活函數[20],
 代表S型激活函數[20], 代表雙曲正切函數。
 代表雙曲正切函數。
1.2.3 CNN-LSTM模型
CNN能夠有效提取ECG信號的特征值,而LSTM的門控機制可以對CNN提取的特征值進行長短期的存儲以實現特征融合。并且,LSTM模型中數據特征的“選擇性記憶”過程有助于減少特征之間的冗余。將融合后的特征輸入到分類器中,以實現對疲勞狀態和非疲勞狀態進行分類。本文通過多次重復的CNN卷積和池化操作,能夠有效提取增強的ECG特征信息,然后將這些特征傳遞給LSTM,作為該模型輸入層的載入數據。隨后,對多個層級進行處理,再將信息傳遞到全連接層以獲取最終的預測輸出[21]。CNN-LSTM模型的結構如圖4所示。
 圖4
				CNN-LSTM模型圖
			
												
				Figure4.
				CNN-LSTM model diagram
						
				圖4
				CNN-LSTM模型圖
			
												
				Figure4.
				CNN-LSTM model diagram
			
								2 結果
如圖5所示,濾波器能夠有效去除原始ECG波形圖中的噪聲,從而提高信號質量和可讀性,在信號處理中起著關鍵的作用,使得ECG波形圖變得更加清晰和準確。
 圖5
				去噪ECG波形圖
			
												
				Figure5.
				Denoising ECG waveform
						
				圖5
				去噪ECG波形圖
			
												
				Figure5.
				Denoising ECG waveform
			
								如圖6所示,展示了經過降采樣處理后的ECG波形圖。通過降采樣處理ECG波形圖,實現了數據的壓縮和計算復雜度的降低,同時去除了高頻噪聲,簡化了數據處理流程,提高了處理效率。
 圖6
				降采樣ECG波形圖
			
												
				Figure6.
				Downsampled ECG waveform
						
				圖6
				降采樣ECG波形圖
			
												
				Figure6.
				Downsampled ECG waveform
			
								本文實驗使用了改進的自適應滑動窗R波波峰定位算法,R波的定位效果圖如圖7所示,該算法的準確率達到了98.7%。以R波位置為中心,向左向右各截取250 ms的ECG節拍數據,如圖8所示。分割后的ECG數據分別使用樸素貝葉斯(naive Bayes,NB)分類器、支持向量機(support vector machine,SVM)、決策樹(decision tree,DT)等機器學習算法進行心理疲勞的分類,按照8∶2的比例分為訓練集與測試集,作為CNN-LSTM模型的輸入。如表1所示,CNN-LSTM算法識別的準確率明顯高于機器學習(NB,SVM,DT)和單一的深度學習CNN算法。
 圖7
				R波定位效果圖
			
												
				Figure7.
				R wave positioning effect
						
				圖7
				R波定位效果圖
			
												
				Figure7.
				R wave positioning effect
			
								 圖8
				ECG節拍示意圖
			
												
				Figure8.
				Schematic diagram of ECG beat
						
				圖8
				ECG節拍示意圖
			
												
				Figure8.
				Schematic diagram of ECG beat
			
								 表1
                不同算法的疲勞分類平均識別準確率
		 	
		 			 				Table1.
    			Average recognition accuracy of fatigue classification by different algorithms
			
						表1
                不同算法的疲勞分類平均識別準確率
		 	
		 			 				Table1.
    			Average recognition accuracy of fatigue classification by different algorithms
       		
       				3 討論
人體處于心理疲勞狀態時,會引起ECG、肌電等生理參數的變化。考慮到采集信號的便利性,本文選擇ECG信號作為研究的生理參數。本研究是一個二分類問題,因此使用經典的SVM算法等機器學習算法進行分類,然而,SVM等算法在分類前需要手工提取特征,這使得特征提取具有一定的局限性。考慮到CNN算法具有自動提取特征和圖像處理的優勢,而LSTM在有效捕捉、分析和長期存儲ECG信號中的時序信息方面的優點,本文提出了基于一維CNN算法與LSTM算法結合的心理疲勞狀態分類方法。
通過實驗的對比分析,本文采用CNN-LSTM算法訓練樣本,達到了降低個體差異的目的,同時也降低了分類器訓練階段的計算復雜度,減少了訓練時間,并提高了分類器的整體分類準確率。本文截取的每個ECG節拍為500 ms,未對不同長度的數據樣本進行進一步的識別研究,因此,下一步的工作將深入研究不同長度的ECG節拍對心理疲勞狀態的影響。
4 結論
本研究針對心理疲勞評估問題,采用ECG信號,提出了基于一維CNN-LSTM模型的心理疲勞狀態識別方法。實驗結果表明,CNN-LSTM算法對心理疲勞狀態的識別分類準確率達到了96%以上,相較于機器學習和單一CNN等相關算法,提高了識別的準確率。CNN-LSTM算法能夠有效地識別心理疲勞,為心理疲勞狀態的干預與心理健康等提供了可能性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:王慧主要負責實驗流程、算法程序設計、數據分析以及論文編寫;張玭、金豐護和趙寶永主要負責協調溝通以及提供實驗指導;曾勤波和肖文棟主要負責提供數據分析指導和論文審閱修訂。
0 引言
疲勞是一種生理和心理上的不利狀態,通常由長時間的體力或認知活動引起,導致身體和大腦感到疲倦,可分為生理疲勞和心理疲勞兩類。生理疲勞,主要涉及身體方面的疲勞,包括肌肉疲勞、體力疲勞和運動耐力下降等。這種疲勞通常是由于長時間的體力活動或過度勞累引起的,可以通過休息來緩解并最終恢復。心理疲勞是指長時間的認知活動、情緒壓力或心理負荷過大所引起的心理狀態上的疲勞。它表現為注意力不集中、反應遲鈍、決策能力下降以及情緒不穩定等癥狀,對個體的認知能力、工作效率和生活質量有負面影響。近年來,許多研究致力于心理疲勞的識別和檢測。其中,利用生理參數進行心理疲勞狀態的識別成為研究的熱點之一。研究人員使用心電(electrocardiogram,ECG)和腦電(electroencephalogram,EEG)等生理信號來提取特征并進行分類,以判斷個體是否處于心理疲勞狀態。
基于ECG信號研究心理疲勞,研究人員主要關注心率和心率變異性(heart rate variability,HRV)。現已有研究通過誘發受試者的心理疲勞,測量ECG信號,從而進一步計算HRV信號,再通過提取時域(平均心率、平均RR間期)、頻域(低頻百分比、高頻百分比、低頻范數、高頻范數和低頻/高頻范數之比)、非線性域(樣本熵)等相關參數,結合機器學習模型,檢測心理疲勞的狀態[1-6]。HRV是指心跳間期的變化,可反映心臟自主神經系統的活動水平。研究發現,心理疲勞狀態下,心率增加,而HRV降低[6]。通過測量心率和HRV的變化,可以預測個體的心理疲勞程度。然而,HRV特征的提取需要復雜的算法,并對信號質量要求較高,且提取過程會受到噪聲和運動等因素的影響。此外,HRV特征的提取通常依賴于手工提取,也易受到主觀因素的影響,無法充分捕捉ECG信號中的潛在信息。相比之下,EEG信號可以提供有關認知狀態和注意力水平的信息,當用于心理疲勞的分類時具有一定的潛在應用價值。
基于EEG信號進行心理疲勞的檢測,通常研究者們是通過提取時域、頻域和非線性域等特征,并使用機器學習和深度學習等方法進行分類[7-11]。已有的研究表明,不同的特征組合和分類算法對心理疲勞的識別準確率有影響,其中深度學習方法在心理疲勞檢測方面表現更為準確可靠。然而,EEG信號在實際應用中存在一些局限,如會遭遇噪聲干擾、電極位置選擇不固定以及數據分析的復雜性等問題,限制了其在實際場景中的應用推廣。
除了ECG和EEG信號,還有一些研究采用其它生理信號來檢測心理疲勞,例如皮膚電信號、體表溫度等。Zhang等[12]提出了一種深度卷積自動編碼記憶網絡,用于實時檢測心理疲勞。該網絡模型利用智能手環收集生物特征數據,如皮膚電信號、心率、RR間隔和體表溫度,通過兩個子網絡(表征網絡和記憶網絡)協同優化來提取特征并生成訓練模型,該方法在真實環境數據集上的準確率達到82.9%。
綜上所述,利用生理信號進行心理疲勞的識別和檢測是一項具有重要意義的研究。通過分析ECG和EEG等生理信號,結合機器學習和深度學習等方法,可以實現對心理疲勞狀態的準確判斷,為改善個體的工作效能和生活質量提供有益的參考。當前,在心理疲勞的預測和監測方面,使用HRV和EEG信號來預測心理疲勞的方法備受關注。相比于直接從ECG信號中提取特征,采用HRV和EEG信號能夠提供更多的生理信息;但HRV和EEG信號的處理比直接從ECG信號中提取特征更加復雜,需要更多的預處理和處理步驟,且其預處理和處理的過程對信號的質量要求更高,任何不良干擾都可能影響分析和預測的準確性。雖然HRV和EEG信號能夠提供更多的生理信息,但HRV信號需要手工提取特征,所以它的精度和可靠性相對較低,而EEG信號的測量設備較為復雜,增加了處理成本和難度。因此,為了解決HRV和EEG信號應用局限性的問題,本文提出了基于一維卷積神經網絡(convolutional neural network,CNN)和長短時記憶網絡(long short term memory,LSTM)結合的深度挖掘ECG信號的特征方法,以期實現更為高效的心理疲勞狀態分類。
1 心理疲勞狀態識別方法
用于可穿戴壓力及影響檢測的多模態數據集(multimodal dataset for wearable stress and affect detection,WESAD)是由Schmidt等[13]創建,旨在用于使用可穿戴設備后的心理疲勞狀態和情緒檢測。該數據集的實驗設計包括多個階段,如靜息、娛樂和壓力誘發疲勞等。靜息和娛樂代表非疲勞的放松狀態,而壓力誘發的階段代表疲勞狀態。Schmidt等[13]通過測量15名參與者的多種生理信號,包括ECG信號、皮膚電信號、呼吸以及體溫等數據,并記錄參與者填寫的標準問卷,以進行心理疲勞和情緒的狀態識別。該數據集無需特殊授權即可供以科研為目的的研究者訪問和使用,相關學者可以利用這個數據集來分析和探索心理疲勞與生理信號之間的關系,從而增進對心理疲勞的理解。本文使用WESAD數據集中的ECG信號進行心理疲勞分類的研究,該信號是由胸戴式設備傳感器測量的,采樣頻率為700 Hz。
本文采用一維CNN算法對樣本數據進行特征選擇,然后采用LSTM算法對選擇的特征進行分類,再將兩者結合建立心理疲勞識別模型。整體流程包括對ECG信號的數據預處理(去噪和降采樣處理)、CNN網絡深度挖掘特征以及LSTM網絡融合特征和分類,最終達到準確識別和分類心理疲勞狀態的目的。
1.1 數據預處理
通過傳感器測量的ECG信號中存在肌電、工頻干擾以及基線漂移等噪聲。為了更清晰地識別非疲勞和疲勞狀態下的R波,以便進行后續特征提取,需要對ECG信號進行去噪與降采樣處理,以提高分類的準確性。
1.1.1 去噪和降采樣處理
肌電干擾,通常具有較寬的頻率范圍(5~2 000 Hz),頻譜特性類似白噪聲[14]。采用巴特沃斯低通濾波器可以有效地消除肌電干擾。工頻干擾,主要是由于電力系統中的電源磁場以及測量ECG信號的傳感器和人體形成的環路引起的[15],工頻干擾的最大幅值約為ECG信號最大幅值的50%。為了有效消除工頻干擾,使用陷波濾波器是一種常見的方法。基線漂移,是指ECG信號基線沿時間方向的緩慢變化,在各種噪聲中影響最大[16],如果無法有效地抑制基線漂移,將導致ECG信號失真,嚴重影響ECG信號的診斷和識別。為了解決這個問題,本文采用零相位濾波器來消除相位失真。
為減少數據冗余和計算負擔,同時需確保有足夠的信息用于心理疲勞分類,本研究將ECG信號的采樣頻率從700 Hz降低至33 Hz,有效地壓縮數據,減少了數據量,提高了數據處理效率,同時降低了后續信號處理和分析所需的計算量。
1.1.2 R波檢測
從整體ECG信號來看,R波在每種類型的ECG節拍中都是最明顯的,因此有利于R波定位。在去除噪聲干擾后,基于R波的斜率突變特性,可采用諸如差分法和小波變換法等處理方法來定位R波。考慮到時間和空間的復雜性和準確性,本文采用了一種改進的自適應滑動時間窗定位方法,具體的算法描述如下:
(1)使用濾波器消除噪聲并抑制P波和T波,以獲得純凈的ECG信號,使得波形模式單一并且R波更為明顯。
(2)利用R波具陡峭特性的原理,用“雙斜率”方法處理單個波形[17]。
(3)步驟(2)處理后,波形中可能包含雙峰,不利于準確檢測,因此使用低通濾波進行平滑處理。
(4)根據時間窗口的長度對信號進行劃分,初始窗口長度定義為經驗窗口長度,通常可以根據經驗取適當的值。本文選擇長度N = t × f(通常情況下t = 1.2 s,f = 33 Hz)。此外,經驗RR時間長度T1被設置為最小的RR時間值,然后在當前窗口長度內,檢測R波的位置,其中R波峰值是該窗口內信號的最大值,同時記錄其位置。
(5)當檢測到兩個以上的R波峰值時,計算兩個相鄰的RR間隔,并將RR間隔用作下一個窗口長度設置點的基礎。自適應窗口長度意味著窗口長度會隨RR間隔變化而變化。例如,如果RR間隔小于0.45,則將窗口長度設置為1.2倍的RR間隔;如果RR間隔大于0.5,則將其窗口長度設置為1.5倍的RR間隔。
(6)當檢測到三個或更多R波峰值時,設T2為前兩個相鄰RR間隔的差值,并重新設置閾值。如果T2超過閾值,則表明先前的R波位置不正確,需重置窗口長度,再次執行步驟(4)以重新定位R波。
由于峰值檢測算法的窗口長度自適應變化,當出現R波峰值位置誤差時,后續的R波峰值檢測不會受到影響,有效避免了峰值檢測的遺漏和錯誤檢測。根據該步驟,依次檢查ECG數據,直到所有的R峰被檢測出來。改進的自適應滑動窗R波波峰定位算法的流程,如圖1所示。該方法可以準確地定位R波,并根據R波的位置坐標對ECG信號進行切分,以便將切分后的ECG節拍輸入到CNN網絡中,從而獲取相關的特征信息。
 圖1
				圖1 改進的自適應滑動窗R波波峰定位算法
			
												
				Figure1.
				Improved adaptive sliding window R-wave peak location algorithm
						
				圖1
				圖1 改進的自適應滑動窗R波波峰定位算法
			
												
				Figure1.
				Improved adaptive sliding window R-wave peak location algorithm
			
								1.2 特征提取與分類
1.2.1 CNN模型
近年來,CNN算法快速發展,其最大的優點在于能夠自動進行特征提取、共享權重、局部連接卷積層,以及通過池化操作降低數據的維度。本文實驗結合CNN的優點以及ECG信號特點,提出了基于CNN模型提取特征的方法,如圖2所示,展示了本次實驗過程中使用的一維CNN模型。
 圖2
				CNN模型圖
			
												
				Figure2.
				CNN model diagram
						
				圖2
				CNN模型圖
			
												
				Figure2.
				CNN model diagram
			
								該CNN共有5層。第一和第三卷積層的卷積核大小分別設置為31 × 1和6 × 1,用于對輸入的ECG節拍提取局部信息。第二、四池化層均為最大池化層,用于從局部特征中提取關鍵信息并舍棄冗余特征。在卷積操作中,卷積核的移動步幅被設置為1,且在每次卷積后都經過帶泄露修正線性單元操作。池化層的步長分別設置為5和3。在基于CNN的ECG信號特征提取模型中,一系列卷積運算后,關鍵的局部信息被提取出來,然后將其映射到隱藏層的特征空間中。隨后,通過全連接層將這些信息映射到標記的空間中進行整合輸出。為了更新網絡參數并加快模型的收斂速度,將隨機梯度下降作為網絡模型的優化器[18],在網絡模型中權重會隨著梯度下降方向進行迭代更新。在訓練過程中,初始學習率設為0.01,批量大小設為16。
1.2.2 LSTM模型
LSTM是一種遞歸神經網絡的變體,專門設計用于處理序列數據。它具有三個關鍵的門機制,用于有效地捕獲、存儲和輸出關鍵的ECG信息[19]。其模型結構如圖3所示。
 圖3
				LSTM模型圖
			
												
				Figure3.
				LSTM model diagram
						
				圖3
				LSTM模型圖
			
												
				Figure3.
				LSTM model diagram
			
								圖3中,輸入門(input door)(以符號it表示)控制著有多少信息應該被存儲在當前候選狀態(current candidate status)(以符號 表示)中。它確保模型有效地吸收來自ECG信號特征的關鍵信息,以進行后續分析和分類。遺忘門(forget door)(以符號ft表示)控制著前一時刻的內部狀態(internal state of the previous moment)(以符號ct ? 1表示)中應該遺忘多少信息。對于輸入特征(input feature)(以符號xt表示),遺忘門的作用是決定在當前時間步驟應該丟棄哪些信息,以丟棄與當前任務無關的信息。輸出門(output door)(以符號ot表示)控制著從內部狀態(internal state)(以符號ct表示)輸出到外部狀態(external state)(以符號ht表示)的信息量,允許模型確定每次處理ECG信號特征時要輸出多少信息。輸入門、遺忘門、輸出門的計算如公式(1)~式(6)所示:
表示)中。它確保模型有效地吸收來自ECG信號特征的關鍵信息,以進行后續分析和分類。遺忘門(forget door)(以符號ft表示)控制著前一時刻的內部狀態(internal state of the previous moment)(以符號ct ? 1表示)中應該遺忘多少信息。對于輸入特征(input feature)(以符號xt表示),遺忘門的作用是決定在當前時間步驟應該丟棄哪些信息,以丟棄與當前任務無關的信息。輸出門(output door)(以符號ot表示)控制著從內部狀態(internal state)(以符號ct表示)輸出到外部狀態(external state)(以符號ht表示)的信息量,允許模型確定每次處理ECG信號特征時要輸出多少信息。輸入門、遺忘門、輸出門的計算如公式(1)~式(6)所示:
|  | 
|  | 
|  | 
|  | 
|  | 
|  | 
式中, 代表輸入特征,
 代表輸入特征, 代表當前時刻的記憶單元,
 代表當前時刻的記憶單元, 代表上一時刻的記憶單元,
 代表上一時刻的記憶單元, 代表候選狀態的記憶單元,
 代表候選狀態的記憶單元, 表示當前時刻的外部狀態,
 表示當前時刻的外部狀態, 表示上一時刻的外部狀態。
 表示上一時刻的外部狀態。 、
、 、
、 、
、 分別表示輸入門、遺忘門、輸出門和候選單元的輸入權值向量,而
 分別表示輸入門、遺忘門、輸出門和候選單元的輸入權值向量,而  、
、 、
、 、
、 分別表示各個門控單元的偏置項。
 分別表示各個門控單元的偏置項。 代表S型激活函數[20],
 代表S型激活函數[20], 代表雙曲正切函數。
 代表雙曲正切函數。
1.2.3 CNN-LSTM模型
CNN能夠有效提取ECG信號的特征值,而LSTM的門控機制可以對CNN提取的特征值進行長短期的存儲以實現特征融合。并且,LSTM模型中數據特征的“選擇性記憶”過程有助于減少特征之間的冗余。將融合后的特征輸入到分類器中,以實現對疲勞狀態和非疲勞狀態進行分類。本文通過多次重復的CNN卷積和池化操作,能夠有效提取增強的ECG特征信息,然后將這些特征傳遞給LSTM,作為該模型輸入層的載入數據。隨后,對多個層級進行處理,再將信息傳遞到全連接層以獲取最終的預測輸出[21]。CNN-LSTM模型的結構如圖4所示。
 圖4
				CNN-LSTM模型圖
			
												
				Figure4.
				CNN-LSTM model diagram
						
				圖4
				CNN-LSTM模型圖
			
												
				Figure4.
				CNN-LSTM model diagram
			
								2 結果
如圖5所示,濾波器能夠有效去除原始ECG波形圖中的噪聲,從而提高信號質量和可讀性,在信號處理中起著關鍵的作用,使得ECG波形圖變得更加清晰和準確。
 圖5
				去噪ECG波形圖
			
												
				Figure5.
				Denoising ECG waveform
						
				圖5
				去噪ECG波形圖
			
												
				Figure5.
				Denoising ECG waveform
			
								如圖6所示,展示了經過降采樣處理后的ECG波形圖。通過降采樣處理ECG波形圖,實現了數據的壓縮和計算復雜度的降低,同時去除了高頻噪聲,簡化了數據處理流程,提高了處理效率。
 圖6
				降采樣ECG波形圖
			
												
				Figure6.
				Downsampled ECG waveform
						
				圖6
				降采樣ECG波形圖
			
												
				Figure6.
				Downsampled ECG waveform
			
								本文實驗使用了改進的自適應滑動窗R波波峰定位算法,R波的定位效果圖如圖7所示,該算法的準確率達到了98.7%。以R波位置為中心,向左向右各截取250 ms的ECG節拍數據,如圖8所示。分割后的ECG數據分別使用樸素貝葉斯(naive Bayes,NB)分類器、支持向量機(support vector machine,SVM)、決策樹(decision tree,DT)等機器學習算法進行心理疲勞的分類,按照8∶2的比例分為訓練集與測試集,作為CNN-LSTM模型的輸入。如表1所示,CNN-LSTM算法識別的準確率明顯高于機器學習(NB,SVM,DT)和單一的深度學習CNN算法。
 圖7
				R波定位效果圖
			
												
				Figure7.
				R wave positioning effect
						
				圖7
				R波定位效果圖
			
												
				Figure7.
				R wave positioning effect
			
								 圖8
				ECG節拍示意圖
			
												
				Figure8.
				Schematic diagram of ECG beat
						
				圖8
				ECG節拍示意圖
			
												
				Figure8.
				Schematic diagram of ECG beat
			
								 表1
                不同算法的疲勞分類平均識別準確率
		 	
		 			 				Table1.
    			Average recognition accuracy of fatigue classification by different algorithms
			
						表1
                不同算法的疲勞分類平均識別準確率
		 	
		 			 				Table1.
    			Average recognition accuracy of fatigue classification by different algorithms
       		
       				3 討論
人體處于心理疲勞狀態時,會引起ECG、肌電等生理參數的變化。考慮到采集信號的便利性,本文選擇ECG信號作為研究的生理參數。本研究是一個二分類問題,因此使用經典的SVM算法等機器學習算法進行分類,然而,SVM等算法在分類前需要手工提取特征,這使得特征提取具有一定的局限性。考慮到CNN算法具有自動提取特征和圖像處理的優勢,而LSTM在有效捕捉、分析和長期存儲ECG信號中的時序信息方面的優點,本文提出了基于一維CNN算法與LSTM算法結合的心理疲勞狀態分類方法。
通過實驗的對比分析,本文采用CNN-LSTM算法訓練樣本,達到了降低個體差異的目的,同時也降低了分類器訓練階段的計算復雜度,減少了訓練時間,并提高了分類器的整體分類準確率。本文截取的每個ECG節拍為500 ms,未對不同長度的數據樣本進行進一步的識別研究,因此,下一步的工作將深入研究不同長度的ECG節拍對心理疲勞狀態的影響。
4 結論
本研究針對心理疲勞評估問題,采用ECG信號,提出了基于一維CNN-LSTM模型的心理疲勞狀態識別方法。實驗結果表明,CNN-LSTM算法對心理疲勞狀態的識別分類準確率達到了96%以上,相較于機器學習和單一CNN等相關算法,提高了識別的準確率。CNN-LSTM算法能夠有效地識別心理疲勞,為心理疲勞狀態的干預與心理健康等提供了可能性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:王慧主要負責實驗流程、算法程序設計、數據分析以及論文編寫;張玭、金豐護和趙寶永主要負責協調溝通以及提供實驗指導;曾勤波和肖文棟主要負責提供數據分析指導和論文審閱修訂。
 
        

 
                 
				 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	