為實現脈搏信號形態和周期的量化分析,本研究提出一種脈搏信號時空解析建模及量化分析方法。首先,根據脈搏信號的形成機理,將脈搏周期和基線引入脈搏解析模型,得到時空解析模型表達式及 12 個參數,用于脈搏波的量化描述。然后,提出了基于實際脈搏信號的模型參數估計流程,給出參數估計的優化方法、約束條件和邊界條件。將所提出的時空解析建模方法用于國際標準生理信號開源數據庫(PhysioNet)幻想曲(Fantasia)子庫中的健康人脈搏波,從解析模型中可以得到一些年齡和性別因素引起的人體心臟搏動節律和血流動力學變化。以提取的模型參數為輸入,采用隨機森林、概率神經網絡等機器學習方法對脈搏波按照年齡和性別進行分類,結果表明隨機森林法分類效果最好,Kappa 系數達到 98% 以上。本研究提出的時空解析建模方法可有效地對脈搏信號進行量化分析,為脈搏信號相關的應用研究提供了理論基礎和技術框架。
引用本文: 丑永新, 張愛華, 劉繼承, 林家駿, 黃旭峰. 基于時空解析建模的脈搏信號量化分析方法研究. 生物醫學工程學雜志, 2020, 37(1): 61-70, 79. doi: 10.7507/1001-5515.201904024 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
引言
人體心臟周而復始地收縮與舒張推動血液在體內進行循環,當大量血液進入動脈將使動脈壓力變大而使管徑擴張,即所謂的脈搏;從血管表面獲取的脈搏信號中含有人體血流動力學[1]、心臟搏動節律[2]、自主神經系統[3] 等方面的生理或者病理信息,可用于人體心血管系統健康狀態的評估與監測。人體血管網絡分布廣泛,使得脈搏信號易于測量,無需醫護人員對測量過程進行專業指導,因此已成為智能手表、手環、戒指、耳塞等可穿戴設備進行遠程健康監護的研究熱點[4-5]。然而,日常生活條件下人體狀態多變,導致所采集脈搏信號的形態和周期動態變化范圍大。如何量化描述這些變化,對于脈搏信號在遠程健康監護中的應用十分重要。
心臟搏動使血液以波的形式沿動脈傳播,傳播過程中血液受到血管分叉、管壁阻力等因素的影響產生回波,這個過程都反映在脈搏信號中。有學者根據脈搏波的這種形成過程,提出采用若干基函數的組合來定量描述脈搏波形態變化(即解析建模法)[6],得到具有生理或者病理意義的量化參數。目前,有關脈搏信號解析模型的研究主要集中于模型結構的確定及模型應用價值的探索。在模型結構確定方面,主要為基函數類型和模型表達式研究。基函數主要為:高斯、對數正態分布、瑞利、伽馬、雙指數、余弦等[7-9]。而有關模型表達式的研究主要集中于基函數組合形式與數量的探索[10],例如 Liu 等[11] 研究表明,相比于 3 個雙指數函數或 3 個對數正態分布函數構成的模型,3 個正向高斯波構成模型的準確性最高。在應用價值方面,有學者從脈搏解析模型參數中得到增強指數、硬化指數、總外周阻力指數和血管張力等有關血管衰老和硬化的指標,以及心臟收縮時間、射血速度、射血分數、左心室射血時間等心臟功能相關的指標[12]。也有學者將解析建模用于脈搏信號重構[13]、干擾段檢測[14]、脈搏信號壓縮等領域[15]。
脈搏周期序列中含有大量有關脈動節律(簡稱:脈律)的信息[5],現有的解析建模方法一般采取對脈搏波周期進行歸一化處理,得到的模型不能反映脈律變化。同時,這些方法忽略了脈搏波基線的研究價值。因此,本研究將脈搏周期和基線引入脈搏信號解析模型,提出一種脈搏時空解析建模方法,用于量化描述脈搏波形態和周期的動態變化。將所提出的建模方法用于分析健康人數據,探討年齡和性別因素對心臟搏動節律和血流動力學的影響,并基于隨機森林等機器學習方法對健康人脈搏波按照年齡和性別進行分類,最終期望本文研究成果能為脈搏信號的量化分析提供新的思路和途徑。
1 脈搏時空解析建模
1.1 時空解析建模原理
心臟每收縮和舒張一次就形成一個心動周期,對應脈搏信號中的一個脈搏波,如圖 1 紅色曲線所示。其中,第 i 個脈搏波記為 yi(n),i∈[1,M],n∈[1,PPI(i)]且為正整數,M 為脈搏信號中脈搏波的個數,PPI(i)為第 i 個脈搏波的周期,可定義為:PPI(i)= PW(i)? PW(i ? 1),PW(i ? 1)和 PW(i)為第 i 個脈搏波的起點和終點位置。脈率[PR(i)]可定義為:PR(i)= 60 × fs/PPI(i),fs 為信號采樣頻率,脈搏波周期和脈率可用于心臟搏動節律的評估。若記脈搏信號為 S(j),則 S(j) =  ,表示脈搏信號由 M 個脈搏波根據周期序列
,表示脈搏信號由 M 個脈搏波根據周期序列  在時間域前后連接而成,式中 j∈[1,L],且為正整數,L 為脈搏信號采樣點數量。
 在時間域前后連接而成,式中 j∈[1,L],且為正整數,L 為脈搏信號采樣點數量。
 圖1
				脈搏信號時空特征組成示意圖
			
												
				Figure1.
				The characteristics and construction of a pulse signal in the time-space domain
						
				圖1
				脈搏信號時空特征組成示意圖
			
												
				Figure1.
				The characteristics and construction of a pulse signal in the time-space domain
			
								如圖 1 所示,每個心動周期起點和終點對應的信號幅值都會發生微弱的變化,對這些幅值進行插值,得到圖中綠色曲線,稱為基線,記為 B(j)。研究表明,基線含有人體自主神經系統相關信息,將其引入脈搏解析模型,以脈搏周期為單位建立時空解析模型,則該模型也可以反映脈搏周期和基線的變化。因此,第 i 個脈搏波時空解析模型表達式如式(1)所示:
|  | 
式中, 為第 i 個脈搏波的模型估計值。f(n,θi)為波形的解析表達式,B(n,ψi)為基線的解析表達式,分別用于定量描述脈搏波形和基線的變化。每個脈搏波的周期 PPI(i)含有脈律的變化信息。f(·)表示一個或若干個基函數的組合,θi 和 ψi 為第 i 個脈搏波模型的參數矢量。
 為第 i 個脈搏波的模型估計值。f(n,θi)為波形的解析表達式,B(n,ψi)為基線的解析表達式,分別用于定量描述脈搏波形和基線的變化。每個脈搏波的周期 PPI(i)含有脈律的變化信息。f(·)表示一個或若干個基函數的組合,θi 和 ψi 為第 i 個脈搏波模型的參數矢量。
對于波形解析表達式的確定,主要為基函數類型和數量的確定。對于基函數類型,已有研究表明高斯函數最能反映心臟搏動節律的特征[16]。而對于基函數數量,理論上僅通過增加基函數的數量就能以任意小的誤差逼近實際脈搏波 yi(n),然而對脈搏波進行解析建模的主要目的是通過基函數來描述心臟搏動節律及血流動力學變化,過多的基函數將導致數據過擬合,從而產生人體正常生理上無法解釋的結果。已有研究表明,3 個高斯函數解析模型的擬合誤差較小[8],同時具有明確的生理意義,各高斯函數分別對應脈搏信號的主波、潮波和重搏波。因此,本研究采用 3 個高斯函數疊加描述脈搏波形變化。
對于模型基線表達式的確定,一個心動周期內,脈搏的基線變化緩慢,可近似用線段表示,即可對其使用一次函數進行定量描述。因此,式(1)對應模型的具體表達式如式(2)所示:
|  | 
式中, 為第 i 個脈搏波模型中的第 l 個基函數,
 為第 i 個脈搏波模型中的第 l 個基函數, 、
、 和
 和  分別對應實際脈搏波的主波、潮波和重搏波。
 分別對應實際脈搏波的主波、潮波和重搏波。 、
、 和
 和  表示第 l 個高斯波的高度、位置和寬度。kin + bi 為基線表達式,ki 為斜率,bi 為常數,模型如圖 2 所示。
 表示第 l 個高斯波的高度、位置和寬度。kin + bi 為基線表達式,ki 為斜率,bi 為常數,模型如圖 2 所示。
 圖2
				脈搏波時空解析模型示意圖
			
												
				Figure2.
				Schematic diagram of the space-time analysis model for a   pulse wave
						
				圖2
				脈搏波時空解析模型示意圖
			
												
				Figure2.
				Schematic diagram of the space-time analysis model for a   pulse wave
			
								因此,對于每個脈搏波,可由以下模型參數進行量化描述,如式(3)所示:
|  | 
ψi = [ki bi], 。而對整個脈搏信號,每個脈搏波模型參數可組成如式(4)所示向量:
。而對整個脈搏信號,每個脈搏波模型參數可組成如式(4)所示向量:
|  | 
1.2 時空解析模型參數估計流程
脈搏時空解析模型的參數估計流程如圖 3 所示,其中濾波、干擾段檢測主要作用為抑制脈搏信號中的噪聲和干擾,并去除其中的干擾段;周期分割的作用為將脈搏信號以心動周期為單位劃分為一系列脈搏波,并得到周期序列 PPI;歸一化為幅度歸一化,用于消除不同脈搏信號幅值范圍差異對模型參數估計的影響;基線表達式參數計算和波形解析表達式參數估計用于得到模型參數 ψ 和 θ。
 圖3
				脈搏波時空解析模型參數估計流程
			
												
				Figure3.
				The parameters computing process of pulse waveform model
						
				圖3
				脈搏波時空解析模型參數估計流程
			
												
				Figure3.
				The parameters computing process of pulse waveform model
			
								1.2.1 濾波
如圖 3 所示,實際采集的脈搏信號中含有許多噪聲和干擾,主要為基線漂移(1 Hz 以下)、工頻干擾(50 Hz 及其整數倍頻率諧波)、肌電干擾(0~2 000 Hz)和隨機噪聲(頻率范圍廣泛),這些噪聲和干擾段對信號進一步處理的結果影響很大。根據噪聲和干擾的頻率分布特征,本研究采用 2 階整系數低通濾波器(截止頻率為 62.5 Hz)抑制信號中的肌電干擾和隨機噪聲,設計 2 階整系數陷波器(陷波頻率為 0、50 Hz 及其整數倍頻率點)抑制基線漂移和工頻干擾[17]。
1.2.2 干擾段檢測
人體體動等原因易使脈搏傳感器在人體滑動或者滑落,從而在脈搏信號中產生干擾段,如圖 3 所示,這些干擾段丟失了脈搏信號部分或者全部的特征,因此需要將其識別并剔除。脈搏信號中的干擾段主要為脈沖干擾(產生于模擬信號幅值范圍超出模數轉換器的轉換電壓范圍、傳感器放置或者滑落的過程)、信號丟失段(產生于傳感器滑落導致的信號丟失)以及運動偽跡(產生于人體體動引起的傳感器在體表滑動)。對于這些干擾段,本研究采用干擾段分類檢測法對其進行識別并去除[18]。
1.2.3 周期分割
以心動周期起點為依據對脈搏波進行分割,關鍵在于心動周期起點的準確檢測。主波是脈搏信號中最明顯也最容易檢測的特征[19],因此常見脈搏信號分割方法多以主波為分割點。如圖 3 所示,心動周期的起點為兩個主波之間的最小值,基于這個特點,本研究采用自適應幅度閾值法檢測脈搏信號主波[20],然后以相鄰主波間的最小值為分割點對脈搏信號進行分割。對相鄰分割點取一階差分就可得到反映脈律變化的脈搏周期序列 PPI。
1.2.4 歸一化
在計算模型參數之前,對脈搏波以心動周期為單位進行幅度歸一化,如式(5)所示:
|  | 
式中,zi(n)為第 i 個脈搏波的第 n 個采樣點歸一化結果,mean({yi(n)})表示第 i 個脈搏波的平均值,std({yi(n)})表示第 i 個脈搏波的標準差。
1.2.5 基線表達式參數計算
對于歸一化后的第 i 個脈搏波,其基線所在一次函數的斜率和縱截距計算方法如式(6)、(7)所示:
|  | 
|  | 
1.2.6 脈搏波形解析表達式參數估計
式(2)中,組成波形解析表達式的高斯函數必須滿足狄利克雷(Dirichlet)及諾伊曼(Neumann)邊界條件[21],如式(8)、(9)所示:
|  | 
|  | 
顯然,實際脈搏波不滿足這個條件。但從歸一化后的脈搏波中減去基線,得到的波形可近似滿足這個條件。若記減去基線的脈搏波為 xi(n),則如式(10)所示:
|  | 
基于 xi(n)可實現式(2)中的 f(n,θi)參數求解,參數求解可化為非線性約束優化問題。對去基線后的第 i 個脈搏波 xi(n),擬合誤差可以量化為殘差平方和,如式(11)所示:
|  | 
因此,可以定義如下的優化問題,如式(12)所示:
|  | 
式中,F{f(n,θi),θi}及 lb ≤ θi ≤ ub 分別是參數服從的約束和邊界條件。選擇合適的優化求解方法,即可得到參數估計值。
本研究采用非線性最小二乘法求解式(12),選用的優化算法、約束條件和邊界條件如表 1 所示。
 表1
                非線性最小二乘擬合的初始化參數
		 	
		 			 				Table1.
    			The initial value of parameters for nonlinear least squares fitting
			
						表1
                非線性最小二乘擬合的初始化參數
		 	
		 			 				Table1.
    			The initial value of parameters for nonlinear least squares fitting
       		
       				2 實驗數據
文中實驗數據來自于由哈佛醫學院(Harvard Medical School,HMS)、波士頓大學(Boston University,BU)、貝斯以色列醫院(Beth Israel Hospital,BIH)和麻省理工學院(Massachusetts Institute of Technology,MIT)共同創建的國際標準生理信號開源數據庫(PhysioNet)的幻想曲子庫(Fantasia)(網址為:https://www.physionet.org/physiobank/database/fantasia/)[22],該數據庫為全球提供大量可免費公開訪問的生理信號數據。受試者為 40 名經過嚴格篩選的健康人,包括年輕人組(21~34 歲)20 名、老年人組(68~85 歲)20 名,每組男女人數相同。數據采集過程中,所有的受試者處于平躺休息狀態,竇性心律,并觀看電影幻想曲(Fantasia)(迪士尼 1940 年拍攝),保持清醒。與此同時,同步采集受試者的心電、呼吸和脈搏信號(非侵入血壓信號),信號采樣頻率為 250 Hz,采樣長度為 120 min。該數據庫提供的部分受試者信息如表 2 所示。
 表2
                Fantasia 數據庫受試者信息
		 	
		 			 				Table2.
    			The information of the subjects in Fantasia database
			
						表2
                Fantasia 數據庫受試者信息
		 	
		 			 				Table2.
    			The information of the subjects in Fantasia database
       		
       				本文實驗設備配置采用未來人類筆記本(T5,蘇州工業園區博派科技公司,中國);而實驗采用算法開發與數據分析軟件 MATLAB 2016a(MathWorks Inc. 美國)。
3 結果分析
3.1 模型參數估計結果與分析
對數據庫中脈搏信號進行周期分割后得到脈搏波數量如下:年輕人組 41 170 個,老年人組 38 140 個;女性為 36 355 個,男性為 42 955 個。對這些脈搏波基于時空解析模型進行擬合,得到模型參數的統計結果如表 3 所示。同時,分別對年輕人組和老年人組模型參數及男性和女性模型參數做雙樣本柯爾莫哥洛夫-斯摩洛夫(Kolmogorov-Smirnov,K-S)檢驗(簡稱:ks 檢驗),結果如表 3 所示,可以看出所提取參數在年輕人組和老年人組之間的差異具有統計學意義(h = 1,P < 0.05),即隨著年齡的不斷增加,模型的各參數間的差異均具有統計學意義。其中,B1、C1、A2、A3、C3、B、PPI 隨著年齡的增加而變大,A1、B2、C2、B3、K 隨著年齡的增加而變小。同樣,男性和女性的模型參數之間的差異也具有統計學意義(h = 1,P < 0.05)。
 表3
                模型參數估計值及其 ks 檢驗結果(
			
						表3
                模型參數估計值及其 ks 檢驗結果( )
		 	
		 			 				Table3.
    			The values of model parameters and the results of ks-test (
)
		 	
		 			 				Table3.
    			The values of model parameters and the results of ks-test ( )
)
       		
       				將如表 3 所示參數的均值代入如式(2)所示的模型,得到年輕人組和老年人組的平均時空解析模型如圖 4 所示。通過波形對比,可得到結論如下:
 圖4
				年輕人組和老年人組脈搏波時空解析模型對比
			
												
				Figure4.
				Comparison of waveform models between the young and the old subjects
						
				圖4
				年輕人組和老年人組脈搏波時空解析模型對比
			
												
				Figure4.
				Comparison of waveform models between the young and the old subjects
			
								(1)隨著年齡的增加,心率逐漸變慢。如表 3 所示,PPI 均值由 0.928 s 增加到 1.024 s,即心率均值由 64.655 次/min 降為 58.594 次/min,對應圖 4 中信號周期變寬。
(2)隨著年齡增加,心臟的收縮能力變弱。如表 3 所示,主波幅值 A1 均值由 3.105 降到 2.241,對應圖 4 中綠色高斯波的幅度變小。主波是心臟收縮產生的,波峰越高代表心臟收縮能力越強。
(3)隨著年齡增加,血管的彈性降低。如表 3 所示,B2 均值由 0.348 降到 0.258,B3 均值由 0.644 降到 0.450,對應圖 4 中,藍色和黑色高斯波位置靠前。由脈搏波的生理意義可知,這兩個波是由血管收縮引起血液回流產生的,B2 和 B3 離 B1 越近代表血液回流速度越快,進而間接反映血管形變越小,即硬化程度增加、彈性降低。同時,A2 和 A3 隨著年齡增加與 A1 的差值變小,證明血管的形變量減少,進一步證明血管的彈性降低。
(4)年輕人和老年人的基線存在差異。如表 3 所示,雖然基線斜率 K 的均值接近 0,但是仍存在差異。年輕人模型基線的斜率和縱截距均大于老年人,說明年輕人的心率變異性大于老年人。
對于男性和女性的脈搏波,得到平均時空解析模型如圖 5 所示。通過波形對比,得到如下結論:
 圖5
				女性組和男性組脈搏波時空解析模型對比
			
												
				Figure5.
				Comparison of the waveform models between female and male cohorts
						
				圖5
				女性組和男性組脈搏波時空解析模型對比
			
												
				Figure5.
				Comparison of the waveform models between female and male cohorts
			
								(1)女性的心率低于男性。如表 3 所示,女性和男性模型的 PPI 均值分別為 1.074 s 和 0.889 s,對應的心率均值為 55.866 次/ min 和 67.492 次/ min,對應圖 5 中女性模型周期變寬。
(2)女性的心臟收縮能力略強于男性。如表 3 所示,女性模型主波幅值 A1 均值 2.736,略大于男性的均值 2.650。
(3)男性和女性的血管彈性差別不大。如表 3 所示,女性模型 B2 均值大于男性,但是 B3 均值又小于男性。同時,女性 A1 和 A2 的差值大于男性,但 A1 和 A3 的差值又小于男性。
(4)男性和女性模型的基線存在一定差異。如表 3 所示,男性的基線斜率均值大于女性,縱截距的均值又小于女性。
通過以上分析可以看出,基于時空解析模型對脈搏信號進行量化分析,可以得到一些有關心臟搏動節律和血流動力學變化的信息。
3.2 脈搏時空解析模型的應用
采用反饋神經網絡(back-propagation neural network,BPNN)、概率神經網絡(probabilistic neural network,PNN)、決策樹(decision tree,DT)和隨機森林(random forest,RF)算法對脈搏波按照年齡和性別進行分類。按年齡分類,年輕人組脈搏波標記為 0,老年人組脈搏波標記為 1;按性別分類,將女性脈搏波標記為 0,男性脈搏波標記為 1。對于每種分類,共 79 310 個脈搏波,每個脈搏波的時空解析模型參數有 12 個,這些參數共構成 79 310 × 12 維的特征矢量。每次訓練隨機選擇 71 310 個樣本作為訓練集,剩下 8 000 個樣本作為測試集,采用交叉驗證方式訓練分類器。
對于分類算法,基于 MATLAB 軟件自帶神經網絡工具箱實現 BPNN 和 PNN 的訓練,基于統計工具箱訓練 DT 分類器,基于 RF 算法開源工具箱(randomforest-matlab)訓練 RF 分類器。BPNN 訓練函數的隱含層節點設置為 8,最大訓練次數為 3 000,學習率為 0.001,訓練精度為 0.1。PNN 訓練函數中徑向基函數的擴展速度為 0.02。RF 訓練函數中 DT 的個數為 50 個。其它的訓練初值依照默認值設置。
為了評價分類器性能,分別定義特異性(specificity,Sp)(以符號 Sp 表示)、敏感性(sensitivity,Se)(以符號 Se 表示)、準確性(accuracy,Ac)(以符號 Ac 表示)和 Kappa 系數(kappa coefficient,KC)(以符號 KC 表示)[23] 的計算方法如式(13)~(18)所示:
|  | 
|  | 
|  | 
|  | 
|  | 
|  | 
式(13)~(15)中,真陽性(true positive,TP)(以符號 TP 表示),表示該脈搏波屬于年輕人組(女性)而被分類為年輕人組(女性);假陽性(false positive,FP)(以符號 FP 表示),表示該脈搏波屬于老年人組(男性)而被分類為年輕人組(女性);假陰性(false negative,FN)(以符號 FN 表示),表示該脈搏波屬于年輕人組(女性)而被分類為老年人組(男性);真陰性(true negative,TN)(以符號 TN 表示),表示該脈搏波屬于老年人組(男性)而被分類為老年人組(男性);括號里面為男性和女性對應的情況。由于特異性、敏感性和準確性只能體現分類器的部分性能,在此基礎上,本研究采用 Kappa 系數來評價分類結果的平均準確性。式(17)中,qtt 為分類結果混淆矩陣的對角元素,qt+ 為 t 行元素的和,q + t 為 t 列元素的和,r 為混淆矩陣的行數或者列數。KC∈[? 1,1],Kappa 系數取值越接近 1,分類整體效果越好。為了降低輸入樣本對分類結果的影響,隨機改變訓練集和測試集樣本組成 100 次,得到以上指標的統計值對分類結果的評價。
3.2.1 基于脈搏時空解析模型的年輕人組和老年人組分類
年輕人組和老年人組脈搏波的分類結果如表 4 所示。可以得到所有方法的 Kappa 系數在 95% 以上,RF 的分類效果最高,其 Kappa 系數高達 99.521% ± 0.094%,DT、PNN 的分類效果依次遞減,BPNN 的分類效果最差,也達到了 95.968% ± 0.381%。而對于分類時間,DT 的耗時最少,RF 次之,BPNN 耗時最多。這些結果表明,基于脈搏時空解析模型提取的特征可有效地描述脈搏波特征受年齡因素影響而發生的變化。
 表4
                年輕人組和老年人組脈搏波的分類結果
		 	
		 			 				Table4.
    			The classification results of pulse waves between the young and old groups
			
						表4
                年輕人組和老年人組脈搏波的分類結果
		 	
		 			 				Table4.
    			The classification results of pulse waves between the young and old groups
       		
       				3.2.2 基于脈搏時空解析模型的女性和男性分類
男性和女性脈搏波的分類結果如表 5 所示,總體而言,RF 的平均分類效果最好,Kappa 系數達到了 98.247% ± 0.242%,DT 次之,PNN 的平均分類效果最差,Kappa 系數僅為 88.289% ± 0.477%。BPNN 的分類效果比 PNN 稍好,但波動較大,這是由 BPNN 局部尋優的缺陷所導致。四種分類方法的耗時仍然是 DT 最少,次之為 RF,耗時最長為且波動最大的為 BPNN。這些結果表明脈搏時空解析模型可有效地描述性別引起脈搏波的變化。
 表5
                男性和女性的分類結果
		 	
		 			 				Table5.
    			The classification results between the female and male subjects
			
						表5
                男性和女性的分類結果
		 	
		 			 				Table5.
    			The classification results between the female and male subjects
       		
       				3.2.3 不同模型參數組合對分類結果的影響
對于模型參數的應用價值,本研究基于機器學習方法對脈搏波按照年齡和性別進行分類,達到了很好的平均分類效果(RF 兩種分類的 KC > 95%)。然而,過多的特征必然降低分類方法的效率,因此,本研究將不同特征組合形成不同的輸入矢量,探索不同輸入矢量對 RF 分類結果的影響。如表 6 所示,因為可從每個脈搏波模型中獲取 12 個參數,則共有(12 × 13)/2 = 78 種組合。表 6 中,“*”表示該行的參數被選中,‘?’表示未被選中。例如:組合 1 由 A1 組成,組合 2 由 A1 和 B1 組成,組合 12 由所有參數組成,組合 13 由 B1 組成,組合 78 由 PPI 組成,以此類推。
 表6
                不同輸入特性組合形式
		 	
		 			 				Table6.
    			Different combinations of the model parameters
			
						表6
                不同輸入特性組合形式
		 	
		 			 				Table6.
    			Different combinations of the model parameters
       		
       				不同特征組合對年輕人組和老年人組分類結果的影響如圖 6 所示,實心點表示 KC > 95% 的組合及其對應耗時。對于分類訓練的耗時而言,特征數量與分類耗時呈正比。對于 RF 分類結果的平均準確性,含有所有特征的組合 12 的 Kappa 系數最大,達到 99.543% ± 0.093%。組合 4~12,16~23,27~33,37~42,47~50,56~57 及 62~32 的 Kappa 系數均大于 95%。其中,組合 4、16、27、37 僅含有 4 個特征,對應的 Kappa 系數分別為:95.626% ± 0.326%,96.971% ± 0.194%,95.652% ± 0.274% 及 95.847% ± 0.279%,組合 16 的分類效果最好,組合 16 由 B1、C1、A2 和 B2 組成。組合 5、17、28、38、47 和 62 由 5 個特征組成,對應 Kappa 系數分別為:98.454% ± 0.126%、98.504% ± 0.134%、97.493% ± 0.199%、96.895% ± 0.169%、96.527% ± 0.252% 及 95.047% ± 0.279%,其中,組合 17 的分類效果最好,由 B1、C1、A2、B2 和 C2 組成。而擁有 4 個特征的組合 16,其 Kappa 系數比擁有 5 個特征的組合 38、47 和 62 高,因此,組合 16 的特征用于年輕人組和老年人組分類的性價比較高。
 圖6
				不同特征組合下年輕人組和老年人組的分類結果
			
												
				Figure6.
				The classification results for the young and old groups under different parameters combinations
						
				圖6
				不同特征組合下年輕人組和老年人組的分類結果
			
												
				Figure6.
				The classification results for the young and old groups under different parameters combinations
			
								對于不同特征組合對女性和男性分類結果的影響,結果如圖 7 所示,Kappa 系數大于 95% 的組合及其對應的耗時用實心點表示。RF 分類準確性最高的仍然為含有所有特征的組合 12,達到 98.167% ± 0.164%。組合 29 含有特征最少,僅由 5 個特征 C1、A2、B2、C2 和 A3 組成,其 Kappa 系數為 96.039% ± 0.308%。含有 6 個特征的組合為:6、18 和 30,其對應的 Kappa 系數分別為 95.608% ± 0.324%、95.982% ± 0.304% 和 97.432% ± 0.291%,這三種組合中,組合 30 的平均準確率最高,其特征組合為 C1、A2、B2、C2、A3 和 B3。相比而言,含有 5 個特征的組合 29,其平均分類準確率比含有 6 個特征的組合 6 和 18 高。因此,組合 29 擁有的特征可有效地用于女性和男性的識別。
 圖7
				不同特征組合下女性和男性的分類結果
			
												
				Figure7.
				The classification results for the female and male subjects under different parameters combinations
						
				圖7
				不同特征組合下女性和男性的分類結果
			
												
				Figure7.
				The classification results for the female and male subjects under different parameters combinations
			
								4 討論
本文旨在研究脈搏信號形態和周期的量化分析方法,建立時空解析模型對脈搏波進行量化描述,并對模型參數的生理學意義進行分析。對于脈搏信號的形態,根據脈搏波的形成機理,采用高斯函數建模進行量化描述。心臟收縮在近端主動脈中產生初始波,如圖 2 所示,心臟收縮使脈搏波產生快速的上升段,本研究采用高斯函數 f 1 描述心臟收縮過程,并產生 A1、B1 和 C1 三個量化參數。心臟的舒張及血液在血管中的反射使得在脈搏波的下降段形成反射波,不同個體反射波數量不同,比較公認的為潮波和重搏波兩個反射波,因此本研究采用兩個高斯函數 f 2、f 3 描述這兩個反射波,并產生 A2、B2、C2、A3、B3 和 C3 共 6 個量化參數。而對于心臟搏動節律及一些心血管系統長時變化的信息,采用脈搏周期序列 PPI 及基線的參數 K 和 B 進行量化描述。
將所提出的時空解析模型用于健康人脈搏波分析,結果表明模型參數可以有效地定量描述脈搏波隨著年齡增長的變化,以及性別因素引起脈搏波形的變化,并從這些參數中得到一些有關心臟搏動節律和血流動力學變化信息。這些成果為脈搏時空解析模型在如動脈硬化、冠心病、心律失常等心血管疾病病因診斷方面的應用奠定了理論基礎。
同時,采用 BPNN、PNN、DT 和 RF 依據模型參數組成的特征矢量對脈搏波按照年齡和性別進行分類,取得了較好的分類效果,其中 RF 兩種分類的 Kappa 系數均在 98% 以上。進一步,本研究探究了不同特征組合對分類準確性的影響。對脈搏時空解析模型的 12 個特征進行組合,然后以這些特征組合為輸入,采用 RF 對脈搏波按照年齡和性別進行分類。如圖 6 和圖 7 所示,可知對于按照年齡分類,僅需要 B1、C1、A2 和 B2 四個特征就可以達到較高的準確率;對于按照性別分類,僅需 C1、A2、B2、C2 和 A3 五個特征也可以達到較好的分類效果。這些成果為脈搏時空解析模型在如動脈硬化、心律失常等心血管疾病的智能檢測與遠程預警等方面的應用奠定了理論框架。
5 結論
根據脈搏波的形成機理及波形特征,本文提出一種脈搏時空解析建模方法,對脈搏波形態和周期的變化進行量化分析。相比已有方法,時空解析模型融入脈搏周期和基線的變化信息,更能全面地描述脈搏波的時空變化。本文將所提出的建模方法用于分析國際標準生理信號開源數據庫(PhysioNet)幻想曲子庫(Fantasia)中的健康人脈搏波,得到可以量化描述年齡及性別因素引起脈搏波變化的模型參數,并以這些參數為輸入,基于機器學習方法實現了年輕人組和老年人組、男性和女性脈搏波的準確分類。基于本研究成果,期望可為脈搏信號的量化分析及其應用提供新的理論基礎和技術方案。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
人體心臟周而復始地收縮與舒張推動血液在體內進行循環,當大量血液進入動脈將使動脈壓力變大而使管徑擴張,即所謂的脈搏;從血管表面獲取的脈搏信號中含有人體血流動力學[1]、心臟搏動節律[2]、自主神經系統[3] 等方面的生理或者病理信息,可用于人體心血管系統健康狀態的評估與監測。人體血管網絡分布廣泛,使得脈搏信號易于測量,無需醫護人員對測量過程進行專業指導,因此已成為智能手表、手環、戒指、耳塞等可穿戴設備進行遠程健康監護的研究熱點[4-5]。然而,日常生活條件下人體狀態多變,導致所采集脈搏信號的形態和周期動態變化范圍大。如何量化描述這些變化,對于脈搏信號在遠程健康監護中的應用十分重要。
心臟搏動使血液以波的形式沿動脈傳播,傳播過程中血液受到血管分叉、管壁阻力等因素的影響產生回波,這個過程都反映在脈搏信號中。有學者根據脈搏波的這種形成過程,提出采用若干基函數的組合來定量描述脈搏波形態變化(即解析建模法)[6],得到具有生理或者病理意義的量化參數。目前,有關脈搏信號解析模型的研究主要集中于模型結構的確定及模型應用價值的探索。在模型結構確定方面,主要為基函數類型和模型表達式研究。基函數主要為:高斯、對數正態分布、瑞利、伽馬、雙指數、余弦等[7-9]。而有關模型表達式的研究主要集中于基函數組合形式與數量的探索[10],例如 Liu 等[11] 研究表明,相比于 3 個雙指數函數或 3 個對數正態分布函數構成的模型,3 個正向高斯波構成模型的準確性最高。在應用價值方面,有學者從脈搏解析模型參數中得到增強指數、硬化指數、總外周阻力指數和血管張力等有關血管衰老和硬化的指標,以及心臟收縮時間、射血速度、射血分數、左心室射血時間等心臟功能相關的指標[12]。也有學者將解析建模用于脈搏信號重構[13]、干擾段檢測[14]、脈搏信號壓縮等領域[15]。
脈搏周期序列中含有大量有關脈動節律(簡稱:脈律)的信息[5],現有的解析建模方法一般采取對脈搏波周期進行歸一化處理,得到的模型不能反映脈律變化。同時,這些方法忽略了脈搏波基線的研究價值。因此,本研究將脈搏周期和基線引入脈搏信號解析模型,提出一種脈搏時空解析建模方法,用于量化描述脈搏波形態和周期的動態變化。將所提出的建模方法用于分析健康人數據,探討年齡和性別因素對心臟搏動節律和血流動力學的影響,并基于隨機森林等機器學習方法對健康人脈搏波按照年齡和性別進行分類,最終期望本文研究成果能為脈搏信號的量化分析提供新的思路和途徑。
1 脈搏時空解析建模
1.1 時空解析建模原理
心臟每收縮和舒張一次就形成一個心動周期,對應脈搏信號中的一個脈搏波,如圖 1 紅色曲線所示。其中,第 i 個脈搏波記為 yi(n),i∈[1,M],n∈[1,PPI(i)]且為正整數,M 為脈搏信號中脈搏波的個數,PPI(i)為第 i 個脈搏波的周期,可定義為:PPI(i)= PW(i)? PW(i ? 1),PW(i ? 1)和 PW(i)為第 i 個脈搏波的起點和終點位置。脈率[PR(i)]可定義為:PR(i)= 60 × fs/PPI(i),fs 為信號采樣頻率,脈搏波周期和脈率可用于心臟搏動節律的評估。若記脈搏信號為 S(j),則 S(j) =  ,表示脈搏信號由 M 個脈搏波根據周期序列
,表示脈搏信號由 M 個脈搏波根據周期序列  在時間域前后連接而成,式中 j∈[1,L],且為正整數,L 為脈搏信號采樣點數量。
 在時間域前后連接而成,式中 j∈[1,L],且為正整數,L 為脈搏信號采樣點數量。
 圖1
				脈搏信號時空特征組成示意圖
			
												
				Figure1.
				The characteristics and construction of a pulse signal in the time-space domain
						
				圖1
				脈搏信號時空特征組成示意圖
			
												
				Figure1.
				The characteristics and construction of a pulse signal in the time-space domain
			
								如圖 1 所示,每個心動周期起點和終點對應的信號幅值都會發生微弱的變化,對這些幅值進行插值,得到圖中綠色曲線,稱為基線,記為 B(j)。研究表明,基線含有人體自主神經系統相關信息,將其引入脈搏解析模型,以脈搏周期為單位建立時空解析模型,則該模型也可以反映脈搏周期和基線的變化。因此,第 i 個脈搏波時空解析模型表達式如式(1)所示:
|  | 
式中, 為第 i 個脈搏波的模型估計值。f(n,θi)為波形的解析表達式,B(n,ψi)為基線的解析表達式,分別用于定量描述脈搏波形和基線的變化。每個脈搏波的周期 PPI(i)含有脈律的變化信息。f(·)表示一個或若干個基函數的組合,θi 和 ψi 為第 i 個脈搏波模型的參數矢量。
 為第 i 個脈搏波的模型估計值。f(n,θi)為波形的解析表達式,B(n,ψi)為基線的解析表達式,分別用于定量描述脈搏波形和基線的變化。每個脈搏波的周期 PPI(i)含有脈律的變化信息。f(·)表示一個或若干個基函數的組合,θi 和 ψi 為第 i 個脈搏波模型的參數矢量。
對于波形解析表達式的確定,主要為基函數類型和數量的確定。對于基函數類型,已有研究表明高斯函數最能反映心臟搏動節律的特征[16]。而對于基函數數量,理論上僅通過增加基函數的數量就能以任意小的誤差逼近實際脈搏波 yi(n),然而對脈搏波進行解析建模的主要目的是通過基函數來描述心臟搏動節律及血流動力學變化,過多的基函數將導致數據過擬合,從而產生人體正常生理上無法解釋的結果。已有研究表明,3 個高斯函數解析模型的擬合誤差較小[8],同時具有明確的生理意義,各高斯函數分別對應脈搏信號的主波、潮波和重搏波。因此,本研究采用 3 個高斯函數疊加描述脈搏波形變化。
對于模型基線表達式的確定,一個心動周期內,脈搏的基線變化緩慢,可近似用線段表示,即可對其使用一次函數進行定量描述。因此,式(1)對應模型的具體表達式如式(2)所示:
|  | 
式中, 為第 i 個脈搏波模型中的第 l 個基函數,
 為第 i 個脈搏波模型中的第 l 個基函數, 、
、 和
 和  分別對應實際脈搏波的主波、潮波和重搏波。
 分別對應實際脈搏波的主波、潮波和重搏波。 、
、 和
 和  表示第 l 個高斯波的高度、位置和寬度。kin + bi 為基線表達式,ki 為斜率,bi 為常數,模型如圖 2 所示。
 表示第 l 個高斯波的高度、位置和寬度。kin + bi 為基線表達式,ki 為斜率,bi 為常數,模型如圖 2 所示。
 圖2
				脈搏波時空解析模型示意圖
			
												
				Figure2.
				Schematic diagram of the space-time analysis model for a   pulse wave
						
				圖2
				脈搏波時空解析模型示意圖
			
												
				Figure2.
				Schematic diagram of the space-time analysis model for a   pulse wave
			
								因此,對于每個脈搏波,可由以下模型參數進行量化描述,如式(3)所示:
|  | 
ψi = [ki bi], 。而對整個脈搏信號,每個脈搏波模型參數可組成如式(4)所示向量:
。而對整個脈搏信號,每個脈搏波模型參數可組成如式(4)所示向量:
|  | 
1.2 時空解析模型參數估計流程
脈搏時空解析模型的參數估計流程如圖 3 所示,其中濾波、干擾段檢測主要作用為抑制脈搏信號中的噪聲和干擾,并去除其中的干擾段;周期分割的作用為將脈搏信號以心動周期為單位劃分為一系列脈搏波,并得到周期序列 PPI;歸一化為幅度歸一化,用于消除不同脈搏信號幅值范圍差異對模型參數估計的影響;基線表達式參數計算和波形解析表達式參數估計用于得到模型參數 ψ 和 θ。
 圖3
				脈搏波時空解析模型參數估計流程
			
												
				Figure3.
				The parameters computing process of pulse waveform model
						
				圖3
				脈搏波時空解析模型參數估計流程
			
												
				Figure3.
				The parameters computing process of pulse waveform model
			
								1.2.1 濾波
如圖 3 所示,實際采集的脈搏信號中含有許多噪聲和干擾,主要為基線漂移(1 Hz 以下)、工頻干擾(50 Hz 及其整數倍頻率諧波)、肌電干擾(0~2 000 Hz)和隨機噪聲(頻率范圍廣泛),這些噪聲和干擾段對信號進一步處理的結果影響很大。根據噪聲和干擾的頻率分布特征,本研究采用 2 階整系數低通濾波器(截止頻率為 62.5 Hz)抑制信號中的肌電干擾和隨機噪聲,設計 2 階整系數陷波器(陷波頻率為 0、50 Hz 及其整數倍頻率點)抑制基線漂移和工頻干擾[17]。
1.2.2 干擾段檢測
人體體動等原因易使脈搏傳感器在人體滑動或者滑落,從而在脈搏信號中產生干擾段,如圖 3 所示,這些干擾段丟失了脈搏信號部分或者全部的特征,因此需要將其識別并剔除。脈搏信號中的干擾段主要為脈沖干擾(產生于模擬信號幅值范圍超出模數轉換器的轉換電壓范圍、傳感器放置或者滑落的過程)、信號丟失段(產生于傳感器滑落導致的信號丟失)以及運動偽跡(產生于人體體動引起的傳感器在體表滑動)。對于這些干擾段,本研究采用干擾段分類檢測法對其進行識別并去除[18]。
1.2.3 周期分割
以心動周期起點為依據對脈搏波進行分割,關鍵在于心動周期起點的準確檢測。主波是脈搏信號中最明顯也最容易檢測的特征[19],因此常見脈搏信號分割方法多以主波為分割點。如圖 3 所示,心動周期的起點為兩個主波之間的最小值,基于這個特點,本研究采用自適應幅度閾值法檢測脈搏信號主波[20],然后以相鄰主波間的最小值為分割點對脈搏信號進行分割。對相鄰分割點取一階差分就可得到反映脈律變化的脈搏周期序列 PPI。
1.2.4 歸一化
在計算模型參數之前,對脈搏波以心動周期為單位進行幅度歸一化,如式(5)所示:
|  | 
式中,zi(n)為第 i 個脈搏波的第 n 個采樣點歸一化結果,mean({yi(n)})表示第 i 個脈搏波的平均值,std({yi(n)})表示第 i 個脈搏波的標準差。
1.2.5 基線表達式參數計算
對于歸一化后的第 i 個脈搏波,其基線所在一次函數的斜率和縱截距計算方法如式(6)、(7)所示:
|  | 
|  | 
1.2.6 脈搏波形解析表達式參數估計
式(2)中,組成波形解析表達式的高斯函數必須滿足狄利克雷(Dirichlet)及諾伊曼(Neumann)邊界條件[21],如式(8)、(9)所示:
|  | 
|  | 
顯然,實際脈搏波不滿足這個條件。但從歸一化后的脈搏波中減去基線,得到的波形可近似滿足這個條件。若記減去基線的脈搏波為 xi(n),則如式(10)所示:
|  | 
基于 xi(n)可實現式(2)中的 f(n,θi)參數求解,參數求解可化為非線性約束優化問題。對去基線后的第 i 個脈搏波 xi(n),擬合誤差可以量化為殘差平方和,如式(11)所示:
|  | 
因此,可以定義如下的優化問題,如式(12)所示:
|  | 
式中,F{f(n,θi),θi}及 lb ≤ θi ≤ ub 分別是參數服從的約束和邊界條件。選擇合適的優化求解方法,即可得到參數估計值。
本研究采用非線性最小二乘法求解式(12),選用的優化算法、約束條件和邊界條件如表 1 所示。
 表1
                非線性最小二乘擬合的初始化參數
		 	
		 			 				Table1.
    			The initial value of parameters for nonlinear least squares fitting
			
						表1
                非線性最小二乘擬合的初始化參數
		 	
		 			 				Table1.
    			The initial value of parameters for nonlinear least squares fitting
       		
       				2 實驗數據
文中實驗數據來自于由哈佛醫學院(Harvard Medical School,HMS)、波士頓大學(Boston University,BU)、貝斯以色列醫院(Beth Israel Hospital,BIH)和麻省理工學院(Massachusetts Institute of Technology,MIT)共同創建的國際標準生理信號開源數據庫(PhysioNet)的幻想曲子庫(Fantasia)(網址為:https://www.physionet.org/physiobank/database/fantasia/)[22],該數據庫為全球提供大量可免費公開訪問的生理信號數據。受試者為 40 名經過嚴格篩選的健康人,包括年輕人組(21~34 歲)20 名、老年人組(68~85 歲)20 名,每組男女人數相同。數據采集過程中,所有的受試者處于平躺休息狀態,竇性心律,并觀看電影幻想曲(Fantasia)(迪士尼 1940 年拍攝),保持清醒。與此同時,同步采集受試者的心電、呼吸和脈搏信號(非侵入血壓信號),信號采樣頻率為 250 Hz,采樣長度為 120 min。該數據庫提供的部分受試者信息如表 2 所示。
 表2
                Fantasia 數據庫受試者信息
		 	
		 			 				Table2.
    			The information of the subjects in Fantasia database
			
						表2
                Fantasia 數據庫受試者信息
		 	
		 			 				Table2.
    			The information of the subjects in Fantasia database
       		
       				本文實驗設備配置采用未來人類筆記本(T5,蘇州工業園區博派科技公司,中國);而實驗采用算法開發與數據分析軟件 MATLAB 2016a(MathWorks Inc. 美國)。
3 結果分析
3.1 模型參數估計結果與分析
對數據庫中脈搏信號進行周期分割后得到脈搏波數量如下:年輕人組 41 170 個,老年人組 38 140 個;女性為 36 355 個,男性為 42 955 個。對這些脈搏波基于時空解析模型進行擬合,得到模型參數的統計結果如表 3 所示。同時,分別對年輕人組和老年人組模型參數及男性和女性模型參數做雙樣本柯爾莫哥洛夫-斯摩洛夫(Kolmogorov-Smirnov,K-S)檢驗(簡稱:ks 檢驗),結果如表 3 所示,可以看出所提取參數在年輕人組和老年人組之間的差異具有統計學意義(h = 1,P < 0.05),即隨著年齡的不斷增加,模型的各參數間的差異均具有統計學意義。其中,B1、C1、A2、A3、C3、B、PPI 隨著年齡的增加而變大,A1、B2、C2、B3、K 隨著年齡的增加而變小。同樣,男性和女性的模型參數之間的差異也具有統計學意義(h = 1,P < 0.05)。
 表3
                模型參數估計值及其 ks 檢驗結果(
			
						表3
                模型參數估計值及其 ks 檢驗結果( )
		 	
		 			 				Table3.
    			The values of model parameters and the results of ks-test (
)
		 	
		 			 				Table3.
    			The values of model parameters and the results of ks-test ( )
)
       		
       				將如表 3 所示參數的均值代入如式(2)所示的模型,得到年輕人組和老年人組的平均時空解析模型如圖 4 所示。通過波形對比,可得到結論如下:
 圖4
				年輕人組和老年人組脈搏波時空解析模型對比
			
												
				Figure4.
				Comparison of waveform models between the young and the old subjects
						
				圖4
				年輕人組和老年人組脈搏波時空解析模型對比
			
												
				Figure4.
				Comparison of waveform models between the young and the old subjects
			
								(1)隨著年齡的增加,心率逐漸變慢。如表 3 所示,PPI 均值由 0.928 s 增加到 1.024 s,即心率均值由 64.655 次/min 降為 58.594 次/min,對應圖 4 中信號周期變寬。
(2)隨著年齡增加,心臟的收縮能力變弱。如表 3 所示,主波幅值 A1 均值由 3.105 降到 2.241,對應圖 4 中綠色高斯波的幅度變小。主波是心臟收縮產生的,波峰越高代表心臟收縮能力越強。
(3)隨著年齡增加,血管的彈性降低。如表 3 所示,B2 均值由 0.348 降到 0.258,B3 均值由 0.644 降到 0.450,對應圖 4 中,藍色和黑色高斯波位置靠前。由脈搏波的生理意義可知,這兩個波是由血管收縮引起血液回流產生的,B2 和 B3 離 B1 越近代表血液回流速度越快,進而間接反映血管形變越小,即硬化程度增加、彈性降低。同時,A2 和 A3 隨著年齡增加與 A1 的差值變小,證明血管的形變量減少,進一步證明血管的彈性降低。
(4)年輕人和老年人的基線存在差異。如表 3 所示,雖然基線斜率 K 的均值接近 0,但是仍存在差異。年輕人模型基線的斜率和縱截距均大于老年人,說明年輕人的心率變異性大于老年人。
對于男性和女性的脈搏波,得到平均時空解析模型如圖 5 所示。通過波形對比,得到如下結論:
 圖5
				女性組和男性組脈搏波時空解析模型對比
			
												
				Figure5.
				Comparison of the waveform models between female and male cohorts
						
				圖5
				女性組和男性組脈搏波時空解析模型對比
			
												
				Figure5.
				Comparison of the waveform models between female and male cohorts
			
								(1)女性的心率低于男性。如表 3 所示,女性和男性模型的 PPI 均值分別為 1.074 s 和 0.889 s,對應的心率均值為 55.866 次/ min 和 67.492 次/ min,對應圖 5 中女性模型周期變寬。
(2)女性的心臟收縮能力略強于男性。如表 3 所示,女性模型主波幅值 A1 均值 2.736,略大于男性的均值 2.650。
(3)男性和女性的血管彈性差別不大。如表 3 所示,女性模型 B2 均值大于男性,但是 B3 均值又小于男性。同時,女性 A1 和 A2 的差值大于男性,但 A1 和 A3 的差值又小于男性。
(4)男性和女性模型的基線存在一定差異。如表 3 所示,男性的基線斜率均值大于女性,縱截距的均值又小于女性。
通過以上分析可以看出,基于時空解析模型對脈搏信號進行量化分析,可以得到一些有關心臟搏動節律和血流動力學變化的信息。
3.2 脈搏時空解析模型的應用
采用反饋神經網絡(back-propagation neural network,BPNN)、概率神經網絡(probabilistic neural network,PNN)、決策樹(decision tree,DT)和隨機森林(random forest,RF)算法對脈搏波按照年齡和性別進行分類。按年齡分類,年輕人組脈搏波標記為 0,老年人組脈搏波標記為 1;按性別分類,將女性脈搏波標記為 0,男性脈搏波標記為 1。對于每種分類,共 79 310 個脈搏波,每個脈搏波的時空解析模型參數有 12 個,這些參數共構成 79 310 × 12 維的特征矢量。每次訓練隨機選擇 71 310 個樣本作為訓練集,剩下 8 000 個樣本作為測試集,采用交叉驗證方式訓練分類器。
對于分類算法,基于 MATLAB 軟件自帶神經網絡工具箱實現 BPNN 和 PNN 的訓練,基于統計工具箱訓練 DT 分類器,基于 RF 算法開源工具箱(randomforest-matlab)訓練 RF 分類器。BPNN 訓練函數的隱含層節點設置為 8,最大訓練次數為 3 000,學習率為 0.001,訓練精度為 0.1。PNN 訓練函數中徑向基函數的擴展速度為 0.02。RF 訓練函數中 DT 的個數為 50 個。其它的訓練初值依照默認值設置。
為了評價分類器性能,分別定義特異性(specificity,Sp)(以符號 Sp 表示)、敏感性(sensitivity,Se)(以符號 Se 表示)、準確性(accuracy,Ac)(以符號 Ac 表示)和 Kappa 系數(kappa coefficient,KC)(以符號 KC 表示)[23] 的計算方法如式(13)~(18)所示:
|  | 
|  | 
|  | 
|  | 
|  | 
|  | 
式(13)~(15)中,真陽性(true positive,TP)(以符號 TP 表示),表示該脈搏波屬于年輕人組(女性)而被分類為年輕人組(女性);假陽性(false positive,FP)(以符號 FP 表示),表示該脈搏波屬于老年人組(男性)而被分類為年輕人組(女性);假陰性(false negative,FN)(以符號 FN 表示),表示該脈搏波屬于年輕人組(女性)而被分類為老年人組(男性);真陰性(true negative,TN)(以符號 TN 表示),表示該脈搏波屬于老年人組(男性)而被分類為老年人組(男性);括號里面為男性和女性對應的情況。由于特異性、敏感性和準確性只能體現分類器的部分性能,在此基礎上,本研究采用 Kappa 系數來評價分類結果的平均準確性。式(17)中,qtt 為分類結果混淆矩陣的對角元素,qt+ 為 t 行元素的和,q + t 為 t 列元素的和,r 為混淆矩陣的行數或者列數。KC∈[? 1,1],Kappa 系數取值越接近 1,分類整體效果越好。為了降低輸入樣本對分類結果的影響,隨機改變訓練集和測試集樣本組成 100 次,得到以上指標的統計值對分類結果的評價。
3.2.1 基于脈搏時空解析模型的年輕人組和老年人組分類
年輕人組和老年人組脈搏波的分類結果如表 4 所示。可以得到所有方法的 Kappa 系數在 95% 以上,RF 的分類效果最高,其 Kappa 系數高達 99.521% ± 0.094%,DT、PNN 的分類效果依次遞減,BPNN 的分類效果最差,也達到了 95.968% ± 0.381%。而對于分類時間,DT 的耗時最少,RF 次之,BPNN 耗時最多。這些結果表明,基于脈搏時空解析模型提取的特征可有效地描述脈搏波特征受年齡因素影響而發生的變化。
 表4
                年輕人組和老年人組脈搏波的分類結果
		 	
		 			 				Table4.
    			The classification results of pulse waves between the young and old groups
			
						表4
                年輕人組和老年人組脈搏波的分類結果
		 	
		 			 				Table4.
    			The classification results of pulse waves between the young and old groups
       		
       				3.2.2 基于脈搏時空解析模型的女性和男性分類
男性和女性脈搏波的分類結果如表 5 所示,總體而言,RF 的平均分類效果最好,Kappa 系數達到了 98.247% ± 0.242%,DT 次之,PNN 的平均分類效果最差,Kappa 系數僅為 88.289% ± 0.477%。BPNN 的分類效果比 PNN 稍好,但波動較大,這是由 BPNN 局部尋優的缺陷所導致。四種分類方法的耗時仍然是 DT 最少,次之為 RF,耗時最長為且波動最大的為 BPNN。這些結果表明脈搏時空解析模型可有效地描述性別引起脈搏波的變化。
 表5
                男性和女性的分類結果
		 	
		 			 				Table5.
    			The classification results between the female and male subjects
			
						表5
                男性和女性的分類結果
		 	
		 			 				Table5.
    			The classification results between the female and male subjects
       		
       				3.2.3 不同模型參數組合對分類結果的影響
對于模型參數的應用價值,本研究基于機器學習方法對脈搏波按照年齡和性別進行分類,達到了很好的平均分類效果(RF 兩種分類的 KC > 95%)。然而,過多的特征必然降低分類方法的效率,因此,本研究將不同特征組合形成不同的輸入矢量,探索不同輸入矢量對 RF 分類結果的影響。如表 6 所示,因為可從每個脈搏波模型中獲取 12 個參數,則共有(12 × 13)/2 = 78 種組合。表 6 中,“*”表示該行的參數被選中,‘?’表示未被選中。例如:組合 1 由 A1 組成,組合 2 由 A1 和 B1 組成,組合 12 由所有參數組成,組合 13 由 B1 組成,組合 78 由 PPI 組成,以此類推。
 表6
                不同輸入特性組合形式
		 	
		 			 				Table6.
    			Different combinations of the model parameters
			
						表6
                不同輸入特性組合形式
		 	
		 			 				Table6.
    			Different combinations of the model parameters
       		
       				不同特征組合對年輕人組和老年人組分類結果的影響如圖 6 所示,實心點表示 KC > 95% 的組合及其對應耗時。對于分類訓練的耗時而言,特征數量與分類耗時呈正比。對于 RF 分類結果的平均準確性,含有所有特征的組合 12 的 Kappa 系數最大,達到 99.543% ± 0.093%。組合 4~12,16~23,27~33,37~42,47~50,56~57 及 62~32 的 Kappa 系數均大于 95%。其中,組合 4、16、27、37 僅含有 4 個特征,對應的 Kappa 系數分別為:95.626% ± 0.326%,96.971% ± 0.194%,95.652% ± 0.274% 及 95.847% ± 0.279%,組合 16 的分類效果最好,組合 16 由 B1、C1、A2 和 B2 組成。組合 5、17、28、38、47 和 62 由 5 個特征組成,對應 Kappa 系數分別為:98.454% ± 0.126%、98.504% ± 0.134%、97.493% ± 0.199%、96.895% ± 0.169%、96.527% ± 0.252% 及 95.047% ± 0.279%,其中,組合 17 的分類效果最好,由 B1、C1、A2、B2 和 C2 組成。而擁有 4 個特征的組合 16,其 Kappa 系數比擁有 5 個特征的組合 38、47 和 62 高,因此,組合 16 的特征用于年輕人組和老年人組分類的性價比較高。
 圖6
				不同特征組合下年輕人組和老年人組的分類結果
			
												
				Figure6.
				The classification results for the young and old groups under different parameters combinations
						
				圖6
				不同特征組合下年輕人組和老年人組的分類結果
			
												
				Figure6.
				The classification results for the young and old groups under different parameters combinations
			
								對于不同特征組合對女性和男性分類結果的影響,結果如圖 7 所示,Kappa 系數大于 95% 的組合及其對應的耗時用實心點表示。RF 分類準確性最高的仍然為含有所有特征的組合 12,達到 98.167% ± 0.164%。組合 29 含有特征最少,僅由 5 個特征 C1、A2、B2、C2 和 A3 組成,其 Kappa 系數為 96.039% ± 0.308%。含有 6 個特征的組合為:6、18 和 30,其對應的 Kappa 系數分別為 95.608% ± 0.324%、95.982% ± 0.304% 和 97.432% ± 0.291%,這三種組合中,組合 30 的平均準確率最高,其特征組合為 C1、A2、B2、C2、A3 和 B3。相比而言,含有 5 個特征的組合 29,其平均分類準確率比含有 6 個特征的組合 6 和 18 高。因此,組合 29 擁有的特征可有效地用于女性和男性的識別。
 圖7
				不同特征組合下女性和男性的分類結果
			
												
				Figure7.
				The classification results for the female and male subjects under different parameters combinations
						
				圖7
				不同特征組合下女性和男性的分類結果
			
												
				Figure7.
				The classification results for the female and male subjects under different parameters combinations
			
								4 討論
本文旨在研究脈搏信號形態和周期的量化分析方法,建立時空解析模型對脈搏波進行量化描述,并對模型參數的生理學意義進行分析。對于脈搏信號的形態,根據脈搏波的形成機理,采用高斯函數建模進行量化描述。心臟收縮在近端主動脈中產生初始波,如圖 2 所示,心臟收縮使脈搏波產生快速的上升段,本研究采用高斯函數 f 1 描述心臟收縮過程,并產生 A1、B1 和 C1 三個量化參數。心臟的舒張及血液在血管中的反射使得在脈搏波的下降段形成反射波,不同個體反射波數量不同,比較公認的為潮波和重搏波兩個反射波,因此本研究采用兩個高斯函數 f 2、f 3 描述這兩個反射波,并產生 A2、B2、C2、A3、B3 和 C3 共 6 個量化參數。而對于心臟搏動節律及一些心血管系統長時變化的信息,采用脈搏周期序列 PPI 及基線的參數 K 和 B 進行量化描述。
將所提出的時空解析模型用于健康人脈搏波分析,結果表明模型參數可以有效地定量描述脈搏波隨著年齡增長的變化,以及性別因素引起脈搏波形的變化,并從這些參數中得到一些有關心臟搏動節律和血流動力學變化信息。這些成果為脈搏時空解析模型在如動脈硬化、冠心病、心律失常等心血管疾病病因診斷方面的應用奠定了理論基礎。
同時,采用 BPNN、PNN、DT 和 RF 依據模型參數組成的特征矢量對脈搏波按照年齡和性別進行分類,取得了較好的分類效果,其中 RF 兩種分類的 Kappa 系數均在 98% 以上。進一步,本研究探究了不同特征組合對分類準確性的影響。對脈搏時空解析模型的 12 個特征進行組合,然后以這些特征組合為輸入,采用 RF 對脈搏波按照年齡和性別進行分類。如圖 6 和圖 7 所示,可知對于按照年齡分類,僅需要 B1、C1、A2 和 B2 四個特征就可以達到較高的準確率;對于按照性別分類,僅需 C1、A2、B2、C2 和 A3 五個特征也可以達到較好的分類效果。這些成果為脈搏時空解析模型在如動脈硬化、心律失常等心血管疾病的智能檢測與遠程預警等方面的應用奠定了理論框架。
5 結論
根據脈搏波的形成機理及波形特征,本文提出一種脈搏時空解析建模方法,對脈搏波形態和周期的變化進行量化分析。相比已有方法,時空解析模型融入脈搏周期和基線的變化信息,更能全面地描述脈搏波的時空變化。本文將所提出的建模方法用于分析國際標準生理信號開源數據庫(PhysioNet)幻想曲子庫(Fantasia)中的健康人脈搏波,得到可以量化描述年齡及性別因素引起脈搏波變化的模型參數,并以這些參數為輸入,基于機器學習方法實現了年輕人組和老年人組、男性和女性脈搏波的準確分類。基于本研究成果,期望可為脈搏信號的量化分析及其應用提供新的理論基礎和技術方案。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
 
        

 
                 
				 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
                                                                    
                                                                        
                                                                        
                                                                        

 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	







































































































 
																   	
                                                                    
                                                                    
																	