多元時間序列問題廣泛存在于社會生產和生活中, 異常檢測已經在金融、水文、氣象、地震、視頻監控醫療以及其他領域給人們提供了很多有價值的信息。為了快速高效地發現時間序列中的異常, 使之以直觀的方式呈現在人們面前, 本文以滑動窗口為基礎, 用協方差矩陣作為時間序列的描述子, 將黎曼流形與統計過程控制圖相結合, 來實現多元時間序列的異常檢測及其可視化。以MA模擬數據流和MIT-BIH的心電失常數據作為實驗對象, 對異常檢測方法進行了驗證, 結果表明該方法是合理有效的。
引用本文: 徐永紅, 侯曉穎, 李書亭, 崔潔. 基于黎曼流形的多元時間序列異常檢測. 生物醫學工程學雜志, 2015, 32(3): 542-547. doi: 10.7507/1001-5515.20150099 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
引言
多元時間序列是復雜的數據類型,它的特點是隨時間不斷變化、海量、維數高、噪聲干擾、結構復雜等。異常檢測旨在檢測出不符合期望行為的數據[1]。到目前為止,異常檢測已經在很多領域中得到應用,在金融方面,主要用于信用卡欺詐、經濟數據變動等;在網絡方面,用于流量的監控;在醫療方面,用于心電圖、腦電圖等的實時診斷。這些領域對安全的要求比較高,目的是快速檢測出異常的存在,來防止災難或錯誤的發生。
現階段,國內外的研究者提出了一些多元時間序列異常檢測的方法。在國外,Richard提出了一種基于相空間的時間序列異常檢測算法[2];Papadimitriou等[3]采用了基于主成分分析(principal component analysis, PCA)的異常模式檢測方法;Breunig等[4]提出了基于密度的異常檢測(local outlier fact, LOF)算法,克服了由于子集的密度不同混合在一起造成的錯誤。在國內,王欣[5]提出了兩階段的多元時間序列異常檢測算法,第一階段是對數據進行聚類,第二階段是在聚類的基礎上采用循環嵌套算法,進行異常檢測;李權等[6]通過建立多變量時間序列數據相似度矩陣,對相似度矩陣進行轉換,并采用隨機游走模型計算數據點之間的連接系數來檢測數據點上的異常;郝井華等[7]提出了一種基于局部線性映射的數據方法,該方法將各高維數據點通過其相鄰點的線性重構映射至低維空間,來實現高維時間序列的異常檢測。
本文是以滑動窗口為基礎,將協方差矩陣作為時間序列的描述子,用黎曼距離作為相似性度量,以統計過程控制(statistical process control, SPC)圖作為評價,來檢測多元時間序列的異常,并以協方差矩陣分布的可視化來檢測異常。
1 相關定義
定義1——協方差矩陣分布的可視化:將協方差矩陣分解為尺度參數和相關系數,并用二維或三維圖形來表示時間序列的多維結構。可視化主要利用協方差矩陣的先驗分布,包括威沙特分布、逆威沙特分布、高斯分布、采樣分布等[8-10]。
定義2——黎曼流形:黎曼流形M是一個局部歐式的拓撲空間,是有著連續黎曼度量的微分流形,流形M上的每個點都存在一個小鄰域,與歐式空間上的一個小鄰域微分同胚。黎曼度量:空間上無限鄰近兩點(x1, x2, …, xn)與(x1+d1, …,xn+dn)之間的距離,用微分弧長度平方所確定的正定二次型的度量(亦即是由函數構成的正定對稱矩陣)[11-14]。
定義3——滑動窗口:給定一個長度為n的時間序列W和一個用戶自定義長度為T的子序列X,則滑動窗口的長度為T,所有通過滑動窗口在時間序列W上截取到的所有子序列集合構成Z[15]。
定義4——統計過程控制:應用統計分析技術對生產過程進行實時監控,科學地區分出生產過程中產品質量的隨機波動與異常波動,從而對生產過程的異常趨勢提出預警,以便生產管理人員及時采取措施,消除異常,恢復過程的穩定,從而達到提高和控制質量的目的[16-18]。
2 多元時間序列的異常檢測與可視化
2.1 標準化時間序列
非標準化的時序比較在數據挖掘領域是沒有任何意義的,所以在進行任何處理之前,首先要對數據進行標準化,使其成為均值為0、標準差為1的時間序列。標準化后的時序既考慮了原觀測數據在時間序列上的依存性,又考慮到隨機波動的干擾,更重要的是其在有效保持原序列中信息量的同時,能大幅降低算法的計算復雜度。
| $ \text{ }X\text{=(}X\text{-}mean\text{(}x\text{))/}std\text{(}X\text{)} $ | 
2.2 分割滑動窗口,計算協方差矩陣
存在通道數為N的時間序列,若滑動窗口的長度為T,即將原始序列分割為若干個長度為T的子序列,那么該多元時間序列的每個子序列都形成了一個矩陣X i=,并且X i∈,每一個子序列的空間協方差矩陣都可以用樣本協方差矩陣估計:
| $ {\boldsymbol{{P}}_{i}}=\frac{1}{T\text{-}1}{\boldsymbol{{X}}_{i}}\boldsymbol{X}_{i}^{T} $ | 
協方差矩陣自身就有對稱、半正定的結構屬性,這種特殊結構屬于正定對稱矩陣的黎曼流形。因此,我們可以用黎曼幾何中提供的一系列運算對協方差矩陣進行操作。由于空間協方差矩陣包含了時間序列的空間信息,因此所有基于距離的算法都可以用黎曼距離來表示。
2.3 求出參考協方差矩陣,計算黎曼距離
用式(1)估計出所有滑動窗口的樣本協方差矩陣后,用自適應的方式估計參考矩陣
| $ {{{\boldsymbol{\bar{P}}}}_{t+1}}={{\left({{{\boldsymbol{\bar{P}}}}_{t}} \right)}^{1/2}}{{\left[{{\left({{{\boldsymbol{\bar{P}}}}_{t}} \right)}^{-1/2}}\boldsymbol{P}{{\left({{{\boldsymbol{\bar{P}}}}_{t}} \right)}^{-1/2}} \right]}^{1/a}}{{\left({{{\boldsymbol{\bar{P}}}}_{t}} \right)}^{1/2}}, $ | 
式中
每個協方差矩陣P i和參考協方差矩陣
| $ {{d}_{R}}\left({\boldsymbol{{P}}_{i}}, \boldsymbol{\bar{P}} \right)=\sqrt{\sum\limits_{n-1}^{N}{{{\log }^{2}}\left({{\lambda }_{n}} \right)}}, $ | 
式中λn為P-1/2
2.4 根據統計過程控制中的3σ原理,計算距離臨界值
統計過程控制圖是由三部分組成的:UCL為上控制線,取值為μ+3σ;CL為中心線,取值為μ;LCL為下控制線,取值為μ-3σ。
其中兩個重要的參數:μ為位置參數和平均值,表示分布的中心位置和期望值,反映整體的綜合能力;σ為尺度參數,表示分布的分散程度和標準偏差,反映實際值偏離期望值的程度,其值越大,表示數據越分散。
控制圖原理屬于小概率事件原理:點出界就判異。小概率事件實際上不發生,若發生即判異常,控制圖就是假設檢驗的圖上作業法。
根據3σ原理,我們可以用所有協方差矩陣到參考矩陣的黎曼距離的均值μ和標準差
| $ th=\mu+2.5\sigma $ | 
當dR>th時,則證明時間序列出現異常。
2.5 用模擬數據繪制協方差矩陣的分布圖和統計過程控制圖
(1)周期性時間序列
| $ {{X}_{1}}\left(t \right)=\sin \left(\frac{40\pi }{N}t \right)+{{n}_{1}}\left(t \right), $ | 
| $ {{X}_{2}}\left(t \right)=\sin \left(\frac{40\pi }{N}t \right)+{{n}_{2}}\left(t \right), $ | 
| $ {{X}_{3}}\left(t \right)=\sin \left(\frac{40\pi }{N}t \right)+{{n}_{3}}\left(t \right), $ | 
其中t=1…N,N=1 200,n1(t)是均值為0、標準差為0.1的高斯白噪聲,n2(t)是均值為0、標準差為0.2的高斯白噪聲,
 圖1
				周期性多元時間序列仿真圖
						
				圖1
				周期性多元時間序列仿真圖
			
									(a)周期性多元時間序列圖;(b)基于黎曼距離的過程控制圖
Figure1. Periodic multivariate time series simulation chart(a) periodic multivariate time series graph; (b) process control chart based on Riemannian distance
圖 1(b)中,折線部分為各個滑動窗口到中心的黎曼距離,星線部分為統計過程控制中設定的界限值。從圖 1(b)中可以明顯看出,第一個窗口到中心的黎曼距離超過了界限值,即我們認為存在異常。通過與圖 1(a)的比較,證明結論是正確的。
另外我們也可以用協方差矩陣的可視化來直觀地觀測異常值。如圖 2所示。
 圖2
				協方差矩陣分布的可視化
						
				圖2
				協方差矩陣分布的可視化
			
									(a) log(σ1)的直方圖;(b)σ11與σ12的散點圖
Figure2. Visualization of distributions of covariance matrices(a) histogram of log(σ1); (b) scatter diagram ofσ11 withσ12
圖 2(a)為方差對數的直方圖,反映了各個窗口方差的分布情況,從圖中可以看出有19個值在-0.4~-0.2之間,1個值在0.8~1之間,而這個唯一的值是屬于第一個窗口的。圖 2(b)為協方差的散點圖,反映各個協方差的聚集情況,從圖中可以看出有19個值橫縱坐標的范圍在0~1之間,1個值橫縱坐標范圍在6~7之間,這個值是第一個窗口。可以得出第一個窗口存在異常,通過與圖 1(a)的比較,證明結論是正確的。
(2)非周期性時間序列
三個時間序列分別為均值為0,標準差為0.1、0.2和0.3的高斯白噪聲,并添加了6個異常,每個異常的長度為10個采樣點。所以把窗口的寬度設定為w=10。仿真結果如圖 3所示。
 圖3
				非周期性多元時間序列仿真圖
						
				圖3
				非周期性多元時間序列仿真圖
			
									(a)非周期性多元時間序列圖;(b)基于黎曼距離的過程控制圖
Figure3. Non-periodic multivariate time series simulation diagram(a) non-periodic multivariate time series graph; (b) process control chart based on Riemannian distance
圖 3(b)中,折線部分為各個滑動窗口到中心的黎曼距離,星線部分為統計過程控制中設定的界限值。從圖 3(b)中可以明顯看出,橫坐標為10、30、50、70、90、110的值到中心的黎曼距離超過了界限值,即我們認為存在異常。通過與圖 3(a)的比較,證明結論是正確的。
另外我們也可以用協方差矩陣的可視化來直觀地觀測異常值。如圖 4所示。
 圖4
				協方差矩陣分布的可視化
						
				圖4
				協方差矩陣分布的可視化
			
									(a) log(σ1)的直方圖;(b)σ11與σ12的散點圖
Figure4. Visualization of distributions of covariance matrices(a) histogram of log(σ1); (b) scatter diagram ofσ11 withσ12
圖 4(a)為方差對數的直方圖,反映了各個窗口方差的分布情況,從圖中可以看出114個值在-3~-1.5之間,6個值在0.5~1之間,而這6個值是屬于第10、30、50、70、90、110個窗口的。圖 4(b)為協方差的散點圖,反映各個協方差的聚集情況,從圖中可以看出大部分值橫縱坐標的范圍在0附近,6個值橫縱坐標范圍在3.5~4.5之間,這6個值是第10、30、50、70、90、110個窗口的。可以得出這6個窗口存在異常,通過與圖 3(a)的比較,證明結論是正確的。
3 實驗結果與分析
本實驗的真實數據部分采用的是MIT-BIH的心率失常數據,使用的是其中一個導聯,然后用時間延遲法對單通道時間序列進行相空間重構。嵌入維數m=4, 延遲時間t=8。截取原始數據中的一段,如圖 5所示。
 圖5
				MIT-BIH心電圖
			
												
				Figure5.
				MIT-BIH electrocardiogram
						
				圖5
				MIT-BIH心電圖
			
												
				Figure5.
				MIT-BIH electrocardiogram
			
								圖 5顯示了10個周期的時間序列,可以明顯地看出,第10個周期的波形與其他周期波形存在很大不同,我們將之認為是異常。而完整的時間序列有100個周期,一共存在10個異常。圖 6為該時間序列的黎曼距離的過程控制圖。
 圖6
				基于黎曼距離的過程控制圖
			
												
				Figure6.
				Process control chart based on Riemannian distance
						
				圖6
				基于黎曼距離的過程控制圖
			
												
				Figure6.
				Process control chart based on Riemannian distance
			
								圖 6中折線部分為各個滑動窗口到中心的黎曼距離,星線部分為統計過程控制中設定的界限值。可以看出橫坐標為10、20、30、40、50、70、80、100的值到中心的黎曼距離大于設定的界限值,我們稱之為異常。通過與圖 5的比較發現一共有10個異常窗口,第60和第90個窗口沒有檢測出來,所以檢測率為80%。
表 1、2是本文方法與其他流形以及經典歐式距離的準確率比較。
 表1
                基于協方差矩陣的各流形距離的比較
		 	
		 			 				Table1.
    			Comparison of the results from by manifold distances based on covariance matrix
			
						表1
                基于協方差矩陣的各流形距離的比較
		 	
		 			 				Table1.
    			Comparison of the results from by manifold distances based on covariance matrix
       		
       				 表2
                基于協方差矩陣的黎曼與歐式距離的準確率比較
		 	
		 			 				Table2.
    			Comparison of accuracy rate by Riemannian and Euclid distances based on covariance matrix
			
						表2
                基于協方差矩陣的黎曼與歐式距離的準確率比較
		 	
		 			 				Table2.
    			Comparison of accuracy rate by Riemannian and Euclid distances based on covariance matrix
       		
       				4 結束語
本文以協方差矩陣為描述子,以滑動窗口為基礎,實現了多維時間序列的空間濾波,不同于傳統的歐式、馬氏等距離,本文采用了黎曼距離作為相似性度量,并結合工程中的統計過程控制圖和協方差矩陣分布的可視化,最終實現多元時間序列的異常檢測。通過對變形的Ma模擬數據流和MIT-BIH的心率失常數據進行實驗,發現本文采用的基于黎曼流形的方法,能夠有效地檢測出多元時間序列的異常存在,有較高的準確率,而統計過程控制圖和協方差矩陣的分布可視化使異常的顯示更直觀化。與其他流形距離的檢測結果比較,準確率均為80%,但基于黎曼流形的方法運行時間較短,即復雜度較低。而與經典的歐式距離比較,黎曼距離的檢測率有提高的趨勢。綜上說明本文的方法是合理有效的。
引言
多元時間序列是復雜的數據類型,它的特點是隨時間不斷變化、海量、維數高、噪聲干擾、結構復雜等。異常檢測旨在檢測出不符合期望行為的數據[1]。到目前為止,異常檢測已經在很多領域中得到應用,在金融方面,主要用于信用卡欺詐、經濟數據變動等;在網絡方面,用于流量的監控;在醫療方面,用于心電圖、腦電圖等的實時診斷。這些領域對安全的要求比較高,目的是快速檢測出異常的存在,來防止災難或錯誤的發生。
現階段,國內外的研究者提出了一些多元時間序列異常檢測的方法。在國外,Richard提出了一種基于相空間的時間序列異常檢測算法[2];Papadimitriou等[3]采用了基于主成分分析(principal component analysis, PCA)的異常模式檢測方法;Breunig等[4]提出了基于密度的異常檢測(local outlier fact, LOF)算法,克服了由于子集的密度不同混合在一起造成的錯誤。在國內,王欣[5]提出了兩階段的多元時間序列異常檢測算法,第一階段是對數據進行聚類,第二階段是在聚類的基礎上采用循環嵌套算法,進行異常檢測;李權等[6]通過建立多變量時間序列數據相似度矩陣,對相似度矩陣進行轉換,并采用隨機游走模型計算數據點之間的連接系數來檢測數據點上的異常;郝井華等[7]提出了一種基于局部線性映射的數據方法,該方法將各高維數據點通過其相鄰點的線性重構映射至低維空間,來實現高維時間序列的異常檢測。
本文是以滑動窗口為基礎,將協方差矩陣作為時間序列的描述子,用黎曼距離作為相似性度量,以統計過程控制(statistical process control, SPC)圖作為評價,來檢測多元時間序列的異常,并以協方差矩陣分布的可視化來檢測異常。
1 相關定義
定義1——協方差矩陣分布的可視化:將協方差矩陣分解為尺度參數和相關系數,并用二維或三維圖形來表示時間序列的多維結構。可視化主要利用協方差矩陣的先驗分布,包括威沙特分布、逆威沙特分布、高斯分布、采樣分布等[8-10]。
定義2——黎曼流形:黎曼流形M是一個局部歐式的拓撲空間,是有著連續黎曼度量的微分流形,流形M上的每個點都存在一個小鄰域,與歐式空間上的一個小鄰域微分同胚。黎曼度量:空間上無限鄰近兩點(x1, x2, …, xn)與(x1+d1, …,xn+dn)之間的距離,用微分弧長度平方所確定的正定二次型的度量(亦即是由函數構成的正定對稱矩陣)[11-14]。
定義3——滑動窗口:給定一個長度為n的時間序列W和一個用戶自定義長度為T的子序列X,則滑動窗口的長度為T,所有通過滑動窗口在時間序列W上截取到的所有子序列集合構成Z[15]。
定義4——統計過程控制:應用統計分析技術對生產過程進行實時監控,科學地區分出生產過程中產品質量的隨機波動與異常波動,從而對生產過程的異常趨勢提出預警,以便生產管理人員及時采取措施,消除異常,恢復過程的穩定,從而達到提高和控制質量的目的[16-18]。
2 多元時間序列的異常檢測與可視化
2.1 標準化時間序列
非標準化的時序比較在數據挖掘領域是沒有任何意義的,所以在進行任何處理之前,首先要對數據進行標準化,使其成為均值為0、標準差為1的時間序列。標準化后的時序既考慮了原觀測數據在時間序列上的依存性,又考慮到隨機波動的干擾,更重要的是其在有效保持原序列中信息量的同時,能大幅降低算法的計算復雜度。
| $ \text{ }X\text{=(}X\text{-}mean\text{(}x\text{))/}std\text{(}X\text{)} $ | 
2.2 分割滑動窗口,計算協方差矩陣
存在通道數為N的時間序列,若滑動窗口的長度為T,即將原始序列分割為若干個長度為T的子序列,那么該多元時間序列的每個子序列都形成了一個矩陣X i=,并且X i∈,每一個子序列的空間協方差矩陣都可以用樣本協方差矩陣估計:
| $ {\boldsymbol{{P}}_{i}}=\frac{1}{T\text{-}1}{\boldsymbol{{X}}_{i}}\boldsymbol{X}_{i}^{T} $ | 
協方差矩陣自身就有對稱、半正定的結構屬性,這種特殊結構屬于正定對稱矩陣的黎曼流形。因此,我們可以用黎曼幾何中提供的一系列運算對協方差矩陣進行操作。由于空間協方差矩陣包含了時間序列的空間信息,因此所有基于距離的算法都可以用黎曼距離來表示。
2.3 求出參考協方差矩陣,計算黎曼距離
用式(1)估計出所有滑動窗口的樣本協方差矩陣后,用自適應的方式估計參考矩陣
| $ {{{\boldsymbol{\bar{P}}}}_{t+1}}={{\left({{{\boldsymbol{\bar{P}}}}_{t}} \right)}^{1/2}}{{\left[{{\left({{{\boldsymbol{\bar{P}}}}_{t}} \right)}^{-1/2}}\boldsymbol{P}{{\left({{{\boldsymbol{\bar{P}}}}_{t}} \right)}^{-1/2}} \right]}^{1/a}}{{\left({{{\boldsymbol{\bar{P}}}}_{t}} \right)}^{1/2}}, $ | 
式中
每個協方差矩陣P i和參考協方差矩陣
| $ {{d}_{R}}\left({\boldsymbol{{P}}_{i}}, \boldsymbol{\bar{P}} \right)=\sqrt{\sum\limits_{n-1}^{N}{{{\log }^{2}}\left({{\lambda }_{n}} \right)}}, $ | 
式中λn為P-1/2
2.4 根據統計過程控制中的3σ原理,計算距離臨界值
統計過程控制圖是由三部分組成的:UCL為上控制線,取值為μ+3σ;CL為中心線,取值為μ;LCL為下控制線,取值為μ-3σ。
其中兩個重要的參數:μ為位置參數和平均值,表示分布的中心位置和期望值,反映整體的綜合能力;σ為尺度參數,表示分布的分散程度和標準偏差,反映實際值偏離期望值的程度,其值越大,表示數據越分散。
控制圖原理屬于小概率事件原理:點出界就判異。小概率事件實際上不發生,若發生即判異常,控制圖就是假設檢驗的圖上作業法。
根據3σ原理,我們可以用所有協方差矩陣到參考矩陣的黎曼距離的均值μ和標準差
| $ th=\mu+2.5\sigma $ | 
當dR>th時,則證明時間序列出現異常。
2.5 用模擬數據繪制協方差矩陣的分布圖和統計過程控制圖
(1)周期性時間序列
| $ {{X}_{1}}\left(t \right)=\sin \left(\frac{40\pi }{N}t \right)+{{n}_{1}}\left(t \right), $ | 
| $ {{X}_{2}}\left(t \right)=\sin \left(\frac{40\pi }{N}t \right)+{{n}_{2}}\left(t \right), $ | 
| $ {{X}_{3}}\left(t \right)=\sin \left(\frac{40\pi }{N}t \right)+{{n}_{3}}\left(t \right), $ | 
其中t=1…N,N=1 200,n1(t)是均值為0、標準差為0.1的高斯白噪聲,n2(t)是均值為0、標準差為0.2的高斯白噪聲,
 圖1
				周期性多元時間序列仿真圖
						
				圖1
				周期性多元時間序列仿真圖
			
									(a)周期性多元時間序列圖;(b)基于黎曼距離的過程控制圖
Figure1. Periodic multivariate time series simulation chart(a) periodic multivariate time series graph; (b) process control chart based on Riemannian distance
圖 1(b)中,折線部分為各個滑動窗口到中心的黎曼距離,星線部分為統計過程控制中設定的界限值。從圖 1(b)中可以明顯看出,第一個窗口到中心的黎曼距離超過了界限值,即我們認為存在異常。通過與圖 1(a)的比較,證明結論是正確的。
另外我們也可以用協方差矩陣的可視化來直觀地觀測異常值。如圖 2所示。
 圖2
				協方差矩陣分布的可視化
						
				圖2
				協方差矩陣分布的可視化
			
									(a) log(σ1)的直方圖;(b)σ11與σ12的散點圖
Figure2. Visualization of distributions of covariance matrices(a) histogram of log(σ1); (b) scatter diagram ofσ11 withσ12
圖 2(a)為方差對數的直方圖,反映了各個窗口方差的分布情況,從圖中可以看出有19個值在-0.4~-0.2之間,1個值在0.8~1之間,而這個唯一的值是屬于第一個窗口的。圖 2(b)為協方差的散點圖,反映各個協方差的聚集情況,從圖中可以看出有19個值橫縱坐標的范圍在0~1之間,1個值橫縱坐標范圍在6~7之間,這個值是第一個窗口。可以得出第一個窗口存在異常,通過與圖 1(a)的比較,證明結論是正確的。
(2)非周期性時間序列
三個時間序列分別為均值為0,標準差為0.1、0.2和0.3的高斯白噪聲,并添加了6個異常,每個異常的長度為10個采樣點。所以把窗口的寬度設定為w=10。仿真結果如圖 3所示。
 圖3
				非周期性多元時間序列仿真圖
						
				圖3
				非周期性多元時間序列仿真圖
			
									(a)非周期性多元時間序列圖;(b)基于黎曼距離的過程控制圖
Figure3. Non-periodic multivariate time series simulation diagram(a) non-periodic multivariate time series graph; (b) process control chart based on Riemannian distance
圖 3(b)中,折線部分為各個滑動窗口到中心的黎曼距離,星線部分為統計過程控制中設定的界限值。從圖 3(b)中可以明顯看出,橫坐標為10、30、50、70、90、110的值到中心的黎曼距離超過了界限值,即我們認為存在異常。通過與圖 3(a)的比較,證明結論是正確的。
另外我們也可以用協方差矩陣的可視化來直觀地觀測異常值。如圖 4所示。
 圖4
				協方差矩陣分布的可視化
						
				圖4
				協方差矩陣分布的可視化
			
									(a) log(σ1)的直方圖;(b)σ11與σ12的散點圖
Figure4. Visualization of distributions of covariance matrices(a) histogram of log(σ1); (b) scatter diagram ofσ11 withσ12
圖 4(a)為方差對數的直方圖,反映了各個窗口方差的分布情況,從圖中可以看出114個值在-3~-1.5之間,6個值在0.5~1之間,而這6個值是屬于第10、30、50、70、90、110個窗口的。圖 4(b)為協方差的散點圖,反映各個協方差的聚集情況,從圖中可以看出大部分值橫縱坐標的范圍在0附近,6個值橫縱坐標范圍在3.5~4.5之間,這6個值是第10、30、50、70、90、110個窗口的。可以得出這6個窗口存在異常,通過與圖 3(a)的比較,證明結論是正確的。
3 實驗結果與分析
本實驗的真實數據部分采用的是MIT-BIH的心率失常數據,使用的是其中一個導聯,然后用時間延遲法對單通道時間序列進行相空間重構。嵌入維數m=4, 延遲時間t=8。截取原始數據中的一段,如圖 5所示。
 圖5
				MIT-BIH心電圖
			
												
				Figure5.
				MIT-BIH electrocardiogram
						
				圖5
				MIT-BIH心電圖
			
												
				Figure5.
				MIT-BIH electrocardiogram
			
								圖 5顯示了10個周期的時間序列,可以明顯地看出,第10個周期的波形與其他周期波形存在很大不同,我們將之認為是異常。而完整的時間序列有100個周期,一共存在10個異常。圖 6為該時間序列的黎曼距離的過程控制圖。
 圖6
				基于黎曼距離的過程控制圖
			
												
				Figure6.
				Process control chart based on Riemannian distance
						
				圖6
				基于黎曼距離的過程控制圖
			
												
				Figure6.
				Process control chart based on Riemannian distance
			
								圖 6中折線部分為各個滑動窗口到中心的黎曼距離,星線部分為統計過程控制中設定的界限值。可以看出橫坐標為10、20、30、40、50、70、80、100的值到中心的黎曼距離大于設定的界限值,我們稱之為異常。通過與圖 5的比較發現一共有10個異常窗口,第60和第90個窗口沒有檢測出來,所以檢測率為80%。
表 1、2是本文方法與其他流形以及經典歐式距離的準確率比較。
 表1
                基于協方差矩陣的各流形距離的比較
		 	
		 			 				Table1.
    			Comparison of the results from by manifold distances based on covariance matrix
			
						表1
                基于協方差矩陣的各流形距離的比較
		 	
		 			 				Table1.
    			Comparison of the results from by manifold distances based on covariance matrix
       		
       				 表2
                基于協方差矩陣的黎曼與歐式距離的準確率比較
		 	
		 			 				Table2.
    			Comparison of accuracy rate by Riemannian and Euclid distances based on covariance matrix
			
						表2
                基于協方差矩陣的黎曼與歐式距離的準確率比較
		 	
		 			 				Table2.
    			Comparison of accuracy rate by Riemannian and Euclid distances based on covariance matrix
       		
       				4 結束語
本文以協方差矩陣為描述子,以滑動窗口為基礎,實現了多維時間序列的空間濾波,不同于傳統的歐式、馬氏等距離,本文采用了黎曼距離作為相似性度量,并結合工程中的統計過程控制圖和協方差矩陣分布的可視化,最終實現多元時間序列的異常檢測。通過對變形的Ma模擬數據流和MIT-BIH的心率失常數據進行實驗,發現本文采用的基于黎曼流形的方法,能夠有效地檢測出多元時間序列的異常存在,有較高的準確率,而統計過程控制圖和協方差矩陣的分布可視化使異常的顯示更直觀化。與其他流形距離的檢測結果比較,準確率均為80%,但基于黎曼流形的方法運行時間較短,即復雜度較低。而與經典的歐式距離比較,黎曼距離的檢測率有提高的趨勢。綜上說明本文的方法是合理有效的。
 
        

 
                 
				 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	