目前國內肢體殘疾者數量逐年攀升,人口老齡化趨勢明顯,為了提高他們的生活質量,本系統采用用戶的語音信號作為控制信息源,設計了一套基于語音識別技術的無障礙居家環境系統,包括中央控制平臺、語音識別模塊、執行終端節點等部分。通過將聲音識別控制技術、無線信息傳輸技術、嵌入式移動計算技術相結合,將居家環境中的燈具、電子鎖、報警器、電視機等電器設備通過無線網絡節點互聯為一個系統。經過系統測試在居家環境中語音控制的成功率在84%以上。
引用本文: 朱滬生, 喻洪流, 石萍, 方又方, 簡卓. 基于語音識別技術的無障礙居家環境系統研究. 生物醫學工程學雜志, 2015, 32(5): 1019-1025. doi: 10.7507/1001-5515.20150181 復制
版權信息: ?四川大學華西醫院華西期刊社《生物醫學工程學雜志》版權所有,未經授權不得轉載、改編
引言
據中國殘聯統計,至2010年末中國有殘疾人8 502萬,其中肢體殘疾為2 472萬,占殘疾人總數的29.07%[1]。此外據《中國老齡事業發展報告(2013)》,截至2012年底,我國老年人口數量達到1.94億,比2011年增加891萬,占總人口的14.3%。目前我國長期臥床、生活不能自理的人口約有2 700萬。
無障礙居家環境控制系統是一種供殘疾人使用的電子機械輔助裝置,它能使殘疾人對居家環境中的各種護理或電器設備進行控制,達到或接近正常人控制環境設備的能力。目前國外在這方面的研究已經取得了很大的進展,如1980年,新西蘭的Jones 等[2]為四肢癱瘓的患者設計了一個手持開關控制器和一個下巴開關控制器,可以緊急呼叫護士、控制燈具開關和電源插座等;2005年喬治亞州立大學計算機科學系設計了一種基于吹/吸氣控制的新型無障礙控制系統[3],利用空氣流動的方向和強度,實現吹氣控制電腦;美國伊利諾伊大學Beckman研究所[4]和日本中央大學的系統工程學系[5]在手勢識別實現無障礙控制方面做了相關研究;2009年美國俄克拉何馬州立大學設計的可穿戴式手勢識別系統[6],利用幾個基本的手勢來控制家電;2011年韓國Dongguk大學電氣工程學院設計的基于眼球運動的無障礙控制系統[7],通過物體識別和視線跟蹤的方法,實現重度殘疾人選擇和控制家電設備,該系統設計了一種可穿戴的眼鏡形狀的設備,使用外紅相機和照明設備來撲捉圖像。國內這方面的研究起步比較晚,比較有代表性的是2011年,北京航空航天大學設計了一種通過語音識別技術控制鼠標的各項操作完成無障礙控制的設備,幫助雙手不靈活的殘疾人、老年人方便使用計算機[8]。總結發現目前在無障礙居家環境控制方面的研究,主要集中在利用機械開關、頭操縱桿、吹/吸氣、嘴叼棒、眨眼、語音、觸摸以及一些生理電信號(肌電圖、眼電圖、腦電圖)作為輸入信號,控制家中的電器設備,例如喝水進食、開關電燈、打電話、看電視、開關門、拉窗簾、操作輪椅、緊急呼叫,操作計算機等[9]。其中只有將語音作為控制信號時,用戶無需佩戴任何設備,可以實現對居家設備的方便控制,對于肢體殘疾者和老年人來說,在心理上也是一個很大的安慰。基于語音識別技術的無障礙居家環境系統,可以幫助老年人和殘疾人不同程度地恢復生活自理能力,為他們提供一個方便的居家生活環境,對保證我國社會的穩定發展也具有重要現實意義。
本設計的創新點在于:①選用語音控制,實現特定人語音識別,增加了安全性,降低了誤識別的概率。②整套安裝方便,無需更改室內用電布局,家用電器無需特異性,降低了系統成本。③整套系統選用無線傳輸,保證系統普遍適用性。
1 總體設計
本課題將無障礙居家環境控制系統分為中央控制平臺和執行終端節點系統,兩個子系統之間通過無線網絡傳輸系統連接,通過無線的方式完成中央控制平臺和執行終端節點之間控制信號的傳輸,中央控制平臺把用戶的輸入命令轉化為控制命令通過無線網絡傳輸系統傳送給執行終端節點,從而控制相應的被控器件,在集成了語音識別模塊的中央控制平臺,用戶可以通過語音輸入和觸摸控制兩種輸入方式與系統進行交互。可以說出一個語音指令,比如“開電燈”,也可以在主控制器的顯示屏上按下相應的圖標,中央控制平臺將輸入信號轉化為控制命令,通過無線的方式傳送給底層執行終端節點系統,同時系統可以通過語音提示和視覺反饋獲取控制命令的執行情況、被控設備的實時狀態等信息。圖 1為系統整體結構設計框圖。
 圖1
				系統整體結構設計圖
			
												
				Figure1.
				Overall system architecture design diagram
						
				圖1
				系統整體結構設計圖
			
												
				Figure1.
				Overall system architecture design diagram
			
								1.1 中央控制平臺設計
本系統中央控制平臺是直接面向用戶的一個終端,對控制的要求很高。首先該系統屬于人機交互的多任務系統,任務的執行具有不確定性,無法預計終端用戶何時會產生何種控制需求。所以,要求系統對于各種突發的用戶操作請求能夠迅速響應,及時地向底層傳遞控制命令。其次人機交互的控制系統要將復雜的系統控制功能通過一種簡單的、易于被終端用戶接受的方式表達出來,不能給終端用戶增加使用上的負擔,使控制系統更易于被終端用戶接受。綜合考慮上述兩個嵌入式主控制系統的特點,其設計應基于具備多任務處理能力及高級圖形開發能力的嵌入式操作系統作為軟、硬件平臺進行設計,而考慮到最大限度地提高操作系統執行效率、降低功耗及縮小體積以提高便攜性,該系統適合選用高性能的高級精簡指令集機器(advanced RISC machine,ARM)內核微處理器作為主控端。Linux系統是開放源代碼的操作系統,具有低維護成本、少病毒的特點,更適合在嵌入式設備上開發和移植。為了使系統更加安全可靠,中央控制平臺選用Linux系統作為操作系統,操作系統的界面利用Qt4編寫,界面用于顯示日歷、時間、使用幫助等基本信息以及用電設備的狀態,同時可觸摸控制用電設備。中央控制平臺通過其中的通用同步/異步串行接收/發送器(universal synchronous/asynchronous receiver/transmitter,USART)或以太網(Ethernet)與個人計算機通信,進行調試開發;利用通用輸入、輸出(general purpose input output,GPIO)模塊和語音識別模塊通信,傳輸控制命令;使用SD卡實現系統快速燒寫。圖 2所示為系統中央控制平臺結構組成圖。
 圖2
				中央控制平臺結構組成圖
			
												
				Figure2.
				Central control platform structure and composition diagram
						
				圖2
				中央控制平臺結構組成圖
			
												
				Figure2.
				Central control platform structure and composition diagram
			
								1.2 執行終端節點系統設計
本系統的執行終端節點系統包括執行終端主控芯片、被控器件接口、無線傳輸模塊,如圖 3所示。三者集成在一個子系統中,能夠接收無線網絡節點系統向其發送的控制命令,也能向無線網絡節點系統發送設備狀態信息。其中被控器件分為三類。第一類是開關電源類設備。開關電源類設備的典型設備包括燈具、門鎖、報警器等。此類設備控制信號單一(基本上是開、關兩個控制信號),采用成熟的變壓系統將電壓轉換為本系統弱電控制范圍,利用系統電平信號直接控制該類設備的電源輸入,即研究設計合適功率的電源插座,插座內部設計有無線網絡模塊,能夠接受系統傳送的控制信號,操作設備的電源輸送,從而控制開關電源類設備的開啟與關閉。第二類是具備獨立控制器的設備,典型設備包括電視機、空調、DVD機、地暖設備等。此類設備控制信號多樣,較為復雜,但設備原廠商都提供了獨立的控制裝置,如電視機的紅外遙控器。針對具備獨立控制器的設備,本系統修改其現有控制器,使用系統自有的控制信號取代其原始控制信號,從而避免對設備本體進行改造。第三類是無獨立控制器的常用居家設備,典型設備包括窗簾、晾衣器、熱水器。此類設備同樣具有復雜控制信號,但往往都不配備獨立的控制器,其控制系統往往是和主機集成在一起的。針對此類設備,本系統改裝原有控制系統,將信號控制線引出,用外接控制板的方式,取代原有控制系統中的控制方式,從而實現對設備的控制。
 圖3
				執行終端節點系統結構設計
			
												
				Figure3.
				Terminal operation node system architecture design
						
				圖3
				執行終端節點系統結構設計
			
												
				Figure3.
				Terminal operation node system architecture design
			
								2 硬件設計
2.1 語音識別模塊設計
本系統語音識別模塊集成在中央控制平臺中,采用Sensory公司語音處理芯片RSC4128作為語音識別模塊的主控芯片。RSC4128是以8位單片機為核心的CMOS器件,內置128 kb的ROM,片內集成了RAM、A/D、D/A、前端放大器及功率放大器等元件[10-11],只需在外圍加上麥克風、揚聲器、存儲器件以及無線通信模塊即可組成一個完整語音識別模塊。語音識別模塊硬件原理框圖如圖 4所示,系統采用3.58 MHz和32.768 kHz兩種晶振處理時鐘周期,其中工作模式下由3.58 MHz晶振四倍倍頻到14.32 MHz進行語音識別處理,空閑模式由32.768 kHz晶振等待控制命令的語音信號。其中擴展的256 kb的Flash SST39F020用來存儲語音程序,128 kb的EPROM 24LC128用來存儲錄制的語音數據,采用PWM輸出驅動揚聲器音頻輸出。
 圖4
				語音識別模塊硬件原理框圖
			
												
				Figure4.
				Speech recognition module block diagram of hardware
						
				圖4
				語音識別模塊硬件原理框圖
			
												
				Figure4.
				Speech recognition module block diagram of hardware
			
								RSC4128語音芯片自帶動態時間規整(dynamic time warping,DTW)算法[12],該算法基于動態規劃(dynamic programming,DP)的思想,解決了發音長短不一的模板匹配問題,對于孤立詞具有很強的語音識別能力,語音信號由麥克風錄入,經過濾波后輸入到RSC4128,RSC4128內置放大器完成對語音信號的放大處理,RSC4128中的16位的A/D模塊以18 636 Hz的速率對信號進行模數轉換,經過算法處理存入RAM區的某個特定區域,語音信號與RAM區內各個模塊逐一比較,如與之前錄入的語音信號模塊匹配,則進行特征輸出。通過無線通信模塊發射控制命令到執行終端節點系統,并且接收反饋控制信號。
2.2 執行終端節點系統控制部分設計
執行終端節點系統的控制部分選用16 bit的單片機(micro control unit,MCU)作為主控芯片,除了驅動MCU必備的JTAG、晶振、復位、電源模塊電路,以及無線通信模塊電路,只需針對不同類別的被控器件添加不同的控制電路,具體控制方法參考1.2節執行終端節點系統設計。圖 5是執行終端節點系統的硬件原理框圖。其中時鐘周期由外接高頻8 M晶振提供,與無線通信模塊之間由串行外設接口(serial peripheral interface,SPI)協議進行數據傳輸。
 圖5
				執行終端節點系統硬件原理框圖
			
												
				Figure5.
				Terminal operation node system block diagram of hardware
						
				圖5
				執行終端節點系統硬件原理框圖
			
												
				Figure5.
				Terminal operation node system block diagram of hardware
			
								3 軟件設計
由于本系統涉及到的軟件設計較多,所以將語音識別模塊和執行終端節點系統設計中的第一類設備控制模塊的軟件設計作為重點描述。
3.1 語音識別模塊軟件設計
語音識別模塊部分包括語音訓練和語音識別兩個過程[13-14]。
(1) 語音訓練:使用者按下訓練按鍵之后,進入訓練模式,將各種控制命令如開電燈/電燈關,開風扇/風扇關等輸入到RSC4128。
(2) 語音識別:使用者說出控制命令后,語音識別模塊對輸入的語音信號進行匹配識別,并執行相應操作。 語音訓練和語音識別的軟件設計流程圖如圖 6所示。
 圖6
				語音訓練及識別流程圖
						
				圖6
				語音訓練及識別流程圖
			
									(a)語音訓練流程圖;(b)語音識別流程圖
Figure6. Speech training and recognition flowchart(a) speech training flowchart; (b) speech recognition flowchart
3.2 執行終端節點系統軟件設計
該系統的初始化過程中,先對各個與無線通信模塊相關的I/O口進行初始化,然后對無線通信模塊上電,寫入控制字,無線模塊一直處于等待接收狀態。本系統采用中斷,當無線模塊接收到數據,MCU的P2.2腳檢測到此中斷,同時判斷接收到的數據是否為有效數據,有效數據包括接收的地址、數據的碼型等,如果獲得的數據為有效的指令,則MCU的P1.1腳將觸發高、低電平來控制執行終端繼電器的通斷,從而實現對用電設備的通斷控制。執行終端節點系統軟件流程圖如圖 7所示。
 圖7
				執行終端節點系統主流程圖
			
									
									
				Figure7.
				Terminal operation node system flowchart
						
				圖7
				執行終端節點系統主流程圖
			
									
									
				Figure7.
				Terminal operation node system flowchart
			
									
					4 系統實驗測試
根據系統軟硬件設計,系統第一套樣機已經制作完畢,在此基礎上進行系統實驗測試。
影響本系統控制成功率的兩個重要因素是控制環境的嘈雜度和執行終端節點與中央控制平臺之間的直線距離。控制環境的嘈雜度決定了語音命令被識別的成功率;執行終端節點與中央控制平臺之間的直線距離決定了執行終端節點能否接收到中央控制平臺傳輸的控制命令。另外還有一些其他影響因素,如用戶語音訓練的效果、控制環境中高頻干擾和用戶語音控制時離中央控制平臺的距離等。用戶語音訓練的效果可以按照推薦的訓練方法改進:用戶在安靜環境下放慢語速,口齒清楚,語音命令不要太相似;控制環境中高頻干擾由高頻電器產生,但同時有較強輻射,很少在居家環境中使用;用戶可以根據離中央控制平臺的距離調節自己的聲音強度,從而實現成功控制。
因此本系統實驗主要為語音識別成功率實驗和通信距離測試實驗。實驗的前提條件:訓練效果良好、高頻干擾忽略不計、用戶語音控制時離中央控制平臺的距離適中以及語音命令用詞良好。
4.1 語音識別成功率實驗
由語音模塊的軟件設計可知,訓練時錄入的語音命令與控制時輸入的語音命令的相似度決定了語音命令識別的成敗,故語音識別成功率實驗應作為本系統的一個重要實驗[15]。
實驗過程:在安靜環境(20~30 dB)下,進行語音命令的訓練,單個命令訓練兩次,存儲。分別在安靜環境下(20~30 dB)、比較安靜環境(30~40 dB)、嘈雜環境(>50 dB)[16]進行語音命令控制,測試成功率,結果表 1所示,控制環境的選擇依據是模擬居家環境。
 表1
                語音識別成功率實驗結果
		 	
		 			 				Table1.
    			Test results of speech recognition success rate
			
						表1
                語音識別成功率實驗結果
		 	
		 			 				Table1.
    			Test results of speech recognition success rate
       		
       				實驗結果分析:安靜環境即無人說話時,控制成功率為96%,說明語音識別算法很成功;比較安靜環境即允許人正常交流時,控制成功率為84%,說明此系統適用于居家環境;嘈雜環境即多人談話環境下,控制率為60%,并且隨著分貝的增加,成功率逐漸下降,說明系統不適合在嘈雜環境使用。
此外,本實驗訓練時是在安靜環境(20~30 dB)下,并且錄入語音時語速較慢、口齒清楚,所以實驗效果較好。
4.2 通信距離測試實驗
本系統使用工作于2.4~2.5 GHz ISM頻段的單片射頻收發芯片nRF2401作為無線通信的主控芯片,芯片內置頻率合成器、功率放大器、晶體振蕩器和調制器等功能模塊[17]。根據通信理論,無線模塊采用的天線長度等同于波長,傳輸距離最遠,控制效果最好。現設通信頻率f,波長縮短率μ,天線長度l,則可得出天線長度的計算公式為
| $ l=\frac{300}{f}*\mu $ | 
其中f=2.4 GHz=2 400 MHz,μ=0.96,則理想天線長度l=300/2400*0.96=0.12 m=12 cm。實驗中使用的天線長度為11.5 cm。
實驗過程:①不穿墻實驗:同一房間,從1 m開始,每隔1 m進行測定,總距離達5 m,然后每隔0.5 m進行測定,總距離達8 m,每一位置語音控制50次,測試語音控制成功率;②穿墻實驗:相鄰房間,從1 m開始,每隔0.5 m進行測定,總距離達8 m,每一位置語音控制50次,測試語音控制成功率。實驗結果如圖 8所示。
 圖8
				通信距離測試實驗結果
			
												
				Figure8.
				Communication distance test results
						
				圖8
				通信距離測試實驗結果
			
												
				Figure8.
				Communication distance test results
			
								實驗結果分析:①不穿墻實驗:在8 m*8 m的房間內,語音控制的成功率在88%以上。②穿墻實驗:在相鄰房間,執行終端節點與中央控制平臺之間的直線距離從3 m開始,控制成功率開始下降,到6.5 m,成功率已下降至40%,到7.5 m,語音基本不能控制。
因此系統語音控制效果與通信距離成反比,由nRF2401組成的無線模塊穿墻效果不佳,系統適合在同一房間內使用。
5 結束語
肢體殘疾者和老年人雖然行動不便,但絕大多數無語言障礙,所以選擇語音控制這種方式可以滿足這類人群的使用需求,同時本設計又不限于此類人群,正常人也可以使用這套系統實現智能化家居。由于系統經過仔細研究設計,布線合理,麥克風模塊考慮了位置、連線等因素,并且在語音識別的過程做了詳細的算法,實現了特定人識別,并且經過測試在家居環境中,本套系統的識別率高達84%以上。另外,還可對本系統無線模塊做改進,提高穿墻性能,實現對不同房間電器的控制。
語音控制已經成為信息化社會必不可少的一種技術,筆者相信在不久的將來,語音控制將成為人機接口技術中的關鍵技術。
引言
據中國殘聯統計,至2010年末中國有殘疾人8 502萬,其中肢體殘疾為2 472萬,占殘疾人總數的29.07%[1]。此外據《中國老齡事業發展報告(2013)》,截至2012年底,我國老年人口數量達到1.94億,比2011年增加891萬,占總人口的14.3%。目前我國長期臥床、生活不能自理的人口約有2 700萬。
無障礙居家環境控制系統是一種供殘疾人使用的電子機械輔助裝置,它能使殘疾人對居家環境中的各種護理或電器設備進行控制,達到或接近正常人控制環境設備的能力。目前國外在這方面的研究已經取得了很大的進展,如1980年,新西蘭的Jones 等[2]為四肢癱瘓的患者設計了一個手持開關控制器和一個下巴開關控制器,可以緊急呼叫護士、控制燈具開關和電源插座等;2005年喬治亞州立大學計算機科學系設計了一種基于吹/吸氣控制的新型無障礙控制系統[3],利用空氣流動的方向和強度,實現吹氣控制電腦;美國伊利諾伊大學Beckman研究所[4]和日本中央大學的系統工程學系[5]在手勢識別實現無障礙控制方面做了相關研究;2009年美國俄克拉何馬州立大學設計的可穿戴式手勢識別系統[6],利用幾個基本的手勢來控制家電;2011年韓國Dongguk大學電氣工程學院設計的基于眼球運動的無障礙控制系統[7],通過物體識別和視線跟蹤的方法,實現重度殘疾人選擇和控制家電設備,該系統設計了一種可穿戴的眼鏡形狀的設備,使用外紅相機和照明設備來撲捉圖像。國內這方面的研究起步比較晚,比較有代表性的是2011年,北京航空航天大學設計了一種通過語音識別技術控制鼠標的各項操作完成無障礙控制的設備,幫助雙手不靈活的殘疾人、老年人方便使用計算機[8]。總結發現目前在無障礙居家環境控制方面的研究,主要集中在利用機械開關、頭操縱桿、吹/吸氣、嘴叼棒、眨眼、語音、觸摸以及一些生理電信號(肌電圖、眼電圖、腦電圖)作為輸入信號,控制家中的電器設備,例如喝水進食、開關電燈、打電話、看電視、開關門、拉窗簾、操作輪椅、緊急呼叫,操作計算機等[9]。其中只有將語音作為控制信號時,用戶無需佩戴任何設備,可以實現對居家設備的方便控制,對于肢體殘疾者和老年人來說,在心理上也是一個很大的安慰。基于語音識別技術的無障礙居家環境系統,可以幫助老年人和殘疾人不同程度地恢復生活自理能力,為他們提供一個方便的居家生活環境,對保證我國社會的穩定發展也具有重要現實意義。
本設計的創新點在于:①選用語音控制,實現特定人語音識別,增加了安全性,降低了誤識別的概率。②整套安裝方便,無需更改室內用電布局,家用電器無需特異性,降低了系統成本。③整套系統選用無線傳輸,保證系統普遍適用性。
1 總體設計
本課題將無障礙居家環境控制系統分為中央控制平臺和執行終端節點系統,兩個子系統之間通過無線網絡傳輸系統連接,通過無線的方式完成中央控制平臺和執行終端節點之間控制信號的傳輸,中央控制平臺把用戶的輸入命令轉化為控制命令通過無線網絡傳輸系統傳送給執行終端節點,從而控制相應的被控器件,在集成了語音識別模塊的中央控制平臺,用戶可以通過語音輸入和觸摸控制兩種輸入方式與系統進行交互。可以說出一個語音指令,比如“開電燈”,也可以在主控制器的顯示屏上按下相應的圖標,中央控制平臺將輸入信號轉化為控制命令,通過無線的方式傳送給底層執行終端節點系統,同時系統可以通過語音提示和視覺反饋獲取控制命令的執行情況、被控設備的實時狀態等信息。圖 1為系統整體結構設計框圖。
 圖1
				系統整體結構設計圖
			
												
				Figure1.
				Overall system architecture design diagram
						
				圖1
				系統整體結構設計圖
			
												
				Figure1.
				Overall system architecture design diagram
			
								1.1 中央控制平臺設計
本系統中央控制平臺是直接面向用戶的一個終端,對控制的要求很高。首先該系統屬于人機交互的多任務系統,任務的執行具有不確定性,無法預計終端用戶何時會產生何種控制需求。所以,要求系統對于各種突發的用戶操作請求能夠迅速響應,及時地向底層傳遞控制命令。其次人機交互的控制系統要將復雜的系統控制功能通過一種簡單的、易于被終端用戶接受的方式表達出來,不能給終端用戶增加使用上的負擔,使控制系統更易于被終端用戶接受。綜合考慮上述兩個嵌入式主控制系統的特點,其設計應基于具備多任務處理能力及高級圖形開發能力的嵌入式操作系統作為軟、硬件平臺進行設計,而考慮到最大限度地提高操作系統執行效率、降低功耗及縮小體積以提高便攜性,該系統適合選用高性能的高級精簡指令集機器(advanced RISC machine,ARM)內核微處理器作為主控端。Linux系統是開放源代碼的操作系統,具有低維護成本、少病毒的特點,更適合在嵌入式設備上開發和移植。為了使系統更加安全可靠,中央控制平臺選用Linux系統作為操作系統,操作系統的界面利用Qt4編寫,界面用于顯示日歷、時間、使用幫助等基本信息以及用電設備的狀態,同時可觸摸控制用電設備。中央控制平臺通過其中的通用同步/異步串行接收/發送器(universal synchronous/asynchronous receiver/transmitter,USART)或以太網(Ethernet)與個人計算機通信,進行調試開發;利用通用輸入、輸出(general purpose input output,GPIO)模塊和語音識別模塊通信,傳輸控制命令;使用SD卡實現系統快速燒寫。圖 2所示為系統中央控制平臺結構組成圖。
 圖2
				中央控制平臺結構組成圖
			
												
				Figure2.
				Central control platform structure and composition diagram
						
				圖2
				中央控制平臺結構組成圖
			
												
				Figure2.
				Central control platform structure and composition diagram
			
								1.2 執行終端節點系統設計
本系統的執行終端節點系統包括執行終端主控芯片、被控器件接口、無線傳輸模塊,如圖 3所示。三者集成在一個子系統中,能夠接收無線網絡節點系統向其發送的控制命令,也能向無線網絡節點系統發送設備狀態信息。其中被控器件分為三類。第一類是開關電源類設備。開關電源類設備的典型設備包括燈具、門鎖、報警器等。此類設備控制信號單一(基本上是開、關兩個控制信號),采用成熟的變壓系統將電壓轉換為本系統弱電控制范圍,利用系統電平信號直接控制該類設備的電源輸入,即研究設計合適功率的電源插座,插座內部設計有無線網絡模塊,能夠接受系統傳送的控制信號,操作設備的電源輸送,從而控制開關電源類設備的開啟與關閉。第二類是具備獨立控制器的設備,典型設備包括電視機、空調、DVD機、地暖設備等。此類設備控制信號多樣,較為復雜,但設備原廠商都提供了獨立的控制裝置,如電視機的紅外遙控器。針對具備獨立控制器的設備,本系統修改其現有控制器,使用系統自有的控制信號取代其原始控制信號,從而避免對設備本體進行改造。第三類是無獨立控制器的常用居家設備,典型設備包括窗簾、晾衣器、熱水器。此類設備同樣具有復雜控制信號,但往往都不配備獨立的控制器,其控制系統往往是和主機集成在一起的。針對此類設備,本系統改裝原有控制系統,將信號控制線引出,用外接控制板的方式,取代原有控制系統中的控制方式,從而實現對設備的控制。
 圖3
				執行終端節點系統結構設計
			
												
				Figure3.
				Terminal operation node system architecture design
						
				圖3
				執行終端節點系統結構設計
			
												
				Figure3.
				Terminal operation node system architecture design
			
								2 硬件設計
2.1 語音識別模塊設計
本系統語音識別模塊集成在中央控制平臺中,采用Sensory公司語音處理芯片RSC4128作為語音識別模塊的主控芯片。RSC4128是以8位單片機為核心的CMOS器件,內置128 kb的ROM,片內集成了RAM、A/D、D/A、前端放大器及功率放大器等元件[10-11],只需在外圍加上麥克風、揚聲器、存儲器件以及無線通信模塊即可組成一個完整語音識別模塊。語音識別模塊硬件原理框圖如圖 4所示,系統采用3.58 MHz和32.768 kHz兩種晶振處理時鐘周期,其中工作模式下由3.58 MHz晶振四倍倍頻到14.32 MHz進行語音識別處理,空閑模式由32.768 kHz晶振等待控制命令的語音信號。其中擴展的256 kb的Flash SST39F020用來存儲語音程序,128 kb的EPROM 24LC128用來存儲錄制的語音數據,采用PWM輸出驅動揚聲器音頻輸出。
 圖4
				語音識別模塊硬件原理框圖
			
												
				Figure4.
				Speech recognition module block diagram of hardware
						
				圖4
				語音識別模塊硬件原理框圖
			
												
				Figure4.
				Speech recognition module block diagram of hardware
			
								RSC4128語音芯片自帶動態時間規整(dynamic time warping,DTW)算法[12],該算法基于動態規劃(dynamic programming,DP)的思想,解決了發音長短不一的模板匹配問題,對于孤立詞具有很強的語音識別能力,語音信號由麥克風錄入,經過濾波后輸入到RSC4128,RSC4128內置放大器完成對語音信號的放大處理,RSC4128中的16位的A/D模塊以18 636 Hz的速率對信號進行模數轉換,經過算法處理存入RAM區的某個特定區域,語音信號與RAM區內各個模塊逐一比較,如與之前錄入的語音信號模塊匹配,則進行特征輸出。通過無線通信模塊發射控制命令到執行終端節點系統,并且接收反饋控制信號。
2.2 執行終端節點系統控制部分設計
執行終端節點系統的控制部分選用16 bit的單片機(micro control unit,MCU)作為主控芯片,除了驅動MCU必備的JTAG、晶振、復位、電源模塊電路,以及無線通信模塊電路,只需針對不同類別的被控器件添加不同的控制電路,具體控制方法參考1.2節執行終端節點系統設計。圖 5是執行終端節點系統的硬件原理框圖。其中時鐘周期由外接高頻8 M晶振提供,與無線通信模塊之間由串行外設接口(serial peripheral interface,SPI)協議進行數據傳輸。
 圖5
				執行終端節點系統硬件原理框圖
			
												
				Figure5.
				Terminal operation node system block diagram of hardware
						
				圖5
				執行終端節點系統硬件原理框圖
			
												
				Figure5.
				Terminal operation node system block diagram of hardware
			
								3 軟件設計
由于本系統涉及到的軟件設計較多,所以將語音識別模塊和執行終端節點系統設計中的第一類設備控制模塊的軟件設計作為重點描述。
3.1 語音識別模塊軟件設計
語音識別模塊部分包括語音訓練和語音識別兩個過程[13-14]。
(1) 語音訓練:使用者按下訓練按鍵之后,進入訓練模式,將各種控制命令如開電燈/電燈關,開風扇/風扇關等輸入到RSC4128。
(2) 語音識別:使用者說出控制命令后,語音識別模塊對輸入的語音信號進行匹配識別,并執行相應操作。 語音訓練和語音識別的軟件設計流程圖如圖 6所示。
 圖6
				語音訓練及識別流程圖
						
				圖6
				語音訓練及識別流程圖
			
									(a)語音訓練流程圖;(b)語音識別流程圖
Figure6. Speech training and recognition flowchart(a) speech training flowchart; (b) speech recognition flowchart
3.2 執行終端節點系統軟件設計
該系統的初始化過程中,先對各個與無線通信模塊相關的I/O口進行初始化,然后對無線通信模塊上電,寫入控制字,無線模塊一直處于等待接收狀態。本系統采用中斷,當無線模塊接收到數據,MCU的P2.2腳檢測到此中斷,同時判斷接收到的數據是否為有效數據,有效數據包括接收的地址、數據的碼型等,如果獲得的數據為有效的指令,則MCU的P1.1腳將觸發高、低電平來控制執行終端繼電器的通斷,從而實現對用電設備的通斷控制。執行終端節點系統軟件流程圖如圖 7所示。
 圖7
				執行終端節點系統主流程圖
			
									
									
				Figure7.
				Terminal operation node system flowchart
						
				圖7
				執行終端節點系統主流程圖
			
									
									
				Figure7.
				Terminal operation node system flowchart
			
									
					4 系統實驗測試
根據系統軟硬件設計,系統第一套樣機已經制作完畢,在此基礎上進行系統實驗測試。
影響本系統控制成功率的兩個重要因素是控制環境的嘈雜度和執行終端節點與中央控制平臺之間的直線距離。控制環境的嘈雜度決定了語音命令被識別的成功率;執行終端節點與中央控制平臺之間的直線距離決定了執行終端節點能否接收到中央控制平臺傳輸的控制命令。另外還有一些其他影響因素,如用戶語音訓練的效果、控制環境中高頻干擾和用戶語音控制時離中央控制平臺的距離等。用戶語音訓練的效果可以按照推薦的訓練方法改進:用戶在安靜環境下放慢語速,口齒清楚,語音命令不要太相似;控制環境中高頻干擾由高頻電器產生,但同時有較強輻射,很少在居家環境中使用;用戶可以根據離中央控制平臺的距離調節自己的聲音強度,從而實現成功控制。
因此本系統實驗主要為語音識別成功率實驗和通信距離測試實驗。實驗的前提條件:訓練效果良好、高頻干擾忽略不計、用戶語音控制時離中央控制平臺的距離適中以及語音命令用詞良好。
4.1 語音識別成功率實驗
由語音模塊的軟件設計可知,訓練時錄入的語音命令與控制時輸入的語音命令的相似度決定了語音命令識別的成敗,故語音識別成功率實驗應作為本系統的一個重要實驗[15]。
實驗過程:在安靜環境(20~30 dB)下,進行語音命令的訓練,單個命令訓練兩次,存儲。分別在安靜環境下(20~30 dB)、比較安靜環境(30~40 dB)、嘈雜環境(>50 dB)[16]進行語音命令控制,測試成功率,結果表 1所示,控制環境的選擇依據是模擬居家環境。
 表1
                語音識別成功率實驗結果
		 	
		 			 				Table1.
    			Test results of speech recognition success rate
			
						表1
                語音識別成功率實驗結果
		 	
		 			 				Table1.
    			Test results of speech recognition success rate
       		
       				實驗結果分析:安靜環境即無人說話時,控制成功率為96%,說明語音識別算法很成功;比較安靜環境即允許人正常交流時,控制成功率為84%,說明此系統適用于居家環境;嘈雜環境即多人談話環境下,控制率為60%,并且隨著分貝的增加,成功率逐漸下降,說明系統不適合在嘈雜環境使用。
此外,本實驗訓練時是在安靜環境(20~30 dB)下,并且錄入語音時語速較慢、口齒清楚,所以實驗效果較好。
4.2 通信距離測試實驗
本系統使用工作于2.4~2.5 GHz ISM頻段的單片射頻收發芯片nRF2401作為無線通信的主控芯片,芯片內置頻率合成器、功率放大器、晶體振蕩器和調制器等功能模塊[17]。根據通信理論,無線模塊采用的天線長度等同于波長,傳輸距離最遠,控制效果最好。現設通信頻率f,波長縮短率μ,天線長度l,則可得出天線長度的計算公式為
| $ l=\frac{300}{f}*\mu $ | 
其中f=2.4 GHz=2 400 MHz,μ=0.96,則理想天線長度l=300/2400*0.96=0.12 m=12 cm。實驗中使用的天線長度為11.5 cm。
實驗過程:①不穿墻實驗:同一房間,從1 m開始,每隔1 m進行測定,總距離達5 m,然后每隔0.5 m進行測定,總距離達8 m,每一位置語音控制50次,測試語音控制成功率;②穿墻實驗:相鄰房間,從1 m開始,每隔0.5 m進行測定,總距離達8 m,每一位置語音控制50次,測試語音控制成功率。實驗結果如圖 8所示。
 圖8
				通信距離測試實驗結果
			
												
				Figure8.
				Communication distance test results
						
				圖8
				通信距離測試實驗結果
			
												
				Figure8.
				Communication distance test results
			
								實驗結果分析:①不穿墻實驗:在8 m*8 m的房間內,語音控制的成功率在88%以上。②穿墻實驗:在相鄰房間,執行終端節點與中央控制平臺之間的直線距離從3 m開始,控制成功率開始下降,到6.5 m,成功率已下降至40%,到7.5 m,語音基本不能控制。
因此系統語音控制效果與通信距離成反比,由nRF2401組成的無線模塊穿墻效果不佳,系統適合在同一房間內使用。
5 結束語
肢體殘疾者和老年人雖然行動不便,但絕大多數無語言障礙,所以選擇語音控制這種方式可以滿足這類人群的使用需求,同時本設計又不限于此類人群,正常人也可以使用這套系統實現智能化家居。由于系統經過仔細研究設計,布線合理,麥克風模塊考慮了位置、連線等因素,并且在語音識別的過程做了詳細的算法,實現了特定人識別,并且經過測試在家居環境中,本套系統的識別率高達84%以上。另外,還可對本系統無線模塊做改進,提高穿墻性能,實現對不同房間電器的控制。
語音控制已經成為信息化社會必不可少的一種技術,筆者相信在不久的將來,語音控制將成為人機接口技術中的關鍵技術。
 
        

 
                 
				 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
																   	
                                                                    
                                                                    
																	 
                                                                    
                                                                        
                                                                        
                                                                        