基于低頻帶非均勻采樣策略提高電子耳蝸漢語識別魯棒性_《生物醫學工程學雜志》

作者：

倪賽華 ¹ , 孫文業 ¹ , 孫寶印 ¹ , 周強 ¹ , 王振明 ² , 顧濟華 ¹ ,  陶智 ¹

1. 蘇州大學物理科學與技術學院, 蘇州 215006;
2. 蘇州大學捷美生物醫學工程實驗室, 蘇州 215006;

關鍵詞：

精細結構過零點低頻帶漢語識別電子耳蝸

DOI：

10.7507/1001-5515.20140097

視頻：

導出 下載 收藏 掃碼 引用

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

提出一種基于低頻帶非均勻采樣的電子耳蝸編碼策略,即低頻帶精細結構(LFFS)過零刺激方案(簡稱LFFS方案),以提高電子耳蝸漢語聲調和語音識別魯棒性。根據頻帶選擇法則,在人耳基頻感知范圍內,采用精細結構過零刺激脈沖序列。聲學模擬結果表明:在安靜環境下,LFFS方案和連續交替采樣(CIS)方案語音識別率差別不大;在噪聲環境下,LFFS方案在漢語聲調、詞匯和句子方面要明顯優于CIS方案,同時采用改進指數分布模型得到較好的漢語識別因素分布圖。LFFS方案包含了更多的漢語聲調信息,所以能有效地提高電子耳蝸植入患者漢語識別魯棒性。

引用本文： 倪賽華, 孫文業, 孫寶印, 周強, 王振明, 顧濟華, 陶智. 基于低頻帶非均勻采樣策略提高電子耳蝸漢語識別魯棒性. 生物醫學工程學雜志, 2014, 31(3): 520-526. doi: 10.7507/1001-5515.20140097 復制

引言

電子耳蝸是目前惟一能恢復重度、急重度或全聾患者部分聽覺的醫學裝置^[1]，全球已經有超過十萬電子耳蝸使用者重新回到了聲音世界。現有的電子耳蝸編碼方案主要針對非聲調語言設計，在安靜環境下,患者幾乎可以進行正常的電話交流；但是在噪聲環境下，患者對聲調、基頻感知、音樂旋律以及說話者識別能力急劇下降^[2-5]。

目前研究者們對于時間精細結構也只是一個模糊的定位，更多的是將語音信號的瞬時相位一階導數，即頻率調制，定義為時間精細結構^[6]。也有研究者用語音信號的某些特殊時間點作為時間精細結構的表現形式，如過零點、峰值點等等^[7]。本文綜合研究者的觀點將時間精細結構定義為：語音合成模型中的微觀部分但對聲調語言識別起至關作用的頻率表現形式。

語音契合實驗^[8]表明，時間精細結構(fine structure,FS)和時間包絡信息對漢語語音識別起同等作用。在安靜環境下，對于非聲調語言，應用時間包絡信號足以取得很高的語音識別率，這就是目前連續交替采樣(continuous interleaved sampling,CIS)方案^[9]取得巨大成功的原因；但是對于聲調語言，尤其在背景噪聲下，時間精細結構在聲調識別、基頻感知、音樂旋律識別、說話者認證方面卻占取主要作用^{[8, 10-11]}。

漢語是有聲調的語言，而且四個聲調具有明確的詞匯意義，研究已經表明，時間精細結構對聲調識別起著決定作用，所以研究者們致力于更加精確的提取時間精細結構以及對之合理的編碼，使患者能夠使用這些信息。Smith等^[8]的語音契合實驗首先提出了時間精細結構的重要性; Rubinstein等^[12]通過“噪聲調制時間精細結構”，進一步說明時間精細結構對于聲調，旋律的重要性；Lan等^[13]基于人耳基頻感知和語音信號基音頻率一致性，采用基頻調制子帶脈沖序列方案來提高漢語聲調識別率；但是由于患者感知基頻范圍大致在0~1 000 Hz^[14]，在高頻帶所加的基頻偏量已經失效，反而降低了算法的時間效率^[15]；Nie等^[6]提出了基于幅頻調制編碼算法，采用正交調制模型提取緩慢變換的精細結構，并調制緩慢變換的包絡信號以提高漢語識別率；最近基于過零點方案在聲調語言以及語音識別上取得較大突破，Wang等^[16-17]采用子波過零點及其改進方案；Chen 等^{[7, 18]}利用語音信號的過零點時刻表現時間精細結構；過零點方案也用于泰語聲調研究^[19]。實驗結果表明，語音信號的過零點可以傳遞聲調信息，具有很好的抗噪性。但在中高頻部分，由于語音信號變化很快，所以，一方面語音信號的過零點檢測很困難，另一方面由于聲學模擬采用高速正弦波調制，這樣使得很多鄰近過零點處的正負脈沖相互抵消了，從而丟失很多中高頻信息。

基于以上研究基礎，本文提出了一種低頻帶精細結構(fine structure in low frequency,LFFS)過零刺激方案(簡稱LFFS方案),一方面將時間精細結構編碼到電子耳蝸語音處理算法中，另一方面利用語音信號的過零點時刻非均勻采樣脈沖刺激序列，進一步提高漢語電子耳蝸的識別率以及電子耳蝸編碼策略的抗噪性能。

1 基于低頻帶非均勻采樣聲學合成模型

1.1 多頻帶聲道共振模型

目前電子耳蝸主流波形編碼策略多采用如下聲學模型，即

$S\left( t \right)=\sum\limits_{i=1}^{N}{{{A}_{i}}\left( t \right)}cos(2\pi {{f}_{ci}}t+{{\theta }_{i}}),$

式中N為濾波通道數目，A_i(t)為通道的時間包絡，f_ci為第i通道濾波器的中心頻率，θ_i為第i通道語音的初始相位，S(t)為合成語音。

本文引入改進的波形編碼策略模型，也稱為多頻帶聲道共振模型^[20]，即

$S\left( t \right)=\sum\limits_{i=1}^{N}{{{A}_{i}}\left( t \right)}cos(2\pi {{f}_{ci}}t+2\pi \int\limits_{0}^{t}{{{g}_{i}}(\tau )d\tau +{{\theta }_{i}})}~,$

式中引入了頻率調制g_i(τ)，表征頻率調制對漢語聲調，語音識別以及魯棒性的重要性。

1.2 希爾伯特變換

希爾伯特變換可以將語音信號分解為緩慢變化的時間包絡信號調制高速變化的頻率信號^[21]。而解析信號可以從實信號中得到，即

$s\left( t \right)={{s}_{r}}\left( t \right)+i{{s}_{i}}\left( t \right),$

式中s_r(t)為實信號，s_i(t)為s_r(t)的希爾伯特變換，s(t)為解析信號，i=-1；由希爾伯特變換可得

${{s}_{i}}\left( t \right)=-\frac{1}{\pi }\int\limits_{-\infty }^{+\infty }{\frac{{{s}_{r}}(\tau )}{t-\tau }d\tau }$

定義解析信號的相位即為希爾伯特的相位φ(t)，相位導數為頻率調制g_i(t)，即：

$\varphi \left( t \right)=atan(\frac{{{s}_{i}}\left( t \right)}{{{s}_{r}}\left( t \right)})$

${{g}_{i}}\left( t \right)=\frac{1}{2\pi }~\frac{d(\varphi \left( t \right))}{dt}$

本文定義希爾伯特相位的余弦為精細結構，即：

$FS=cos(\varphi \left( t \right))$

1.3 基于低頻帶非均勻采樣刺激聲學合成模型

本文提出的聲學合成模型如圖 1所示。第一步：將預處理過的語音信號通過帶通濾波器組，帶通濾波器的頻帶劃分按照人耳基底膜模型^[22]，使之更加符合正常聽覺感知；第二步：采用整流低通提取每個濾波通道的時間包絡A_i；第三步：依據頻帶選擇原則，在低頻帶采用希爾伯特變換提取子帶語音信號時間精細結構；第四步：檢測低頻帶時間精細結構的過零點時刻t_i；第五步：用得到的脈沖序列調制緩慢變換的時間包絡，并將所有通道的語音相加得到合成語音，即

${{C}_{low}}\left( t \right)=\sum\limits_{i}{C}(t-{{t}_{i}}),$

${{C}_{high}}\left( t \right)=cos(2\pi {{f}_{ck}}t)~,$

$S\prime \left( t \right)=\sum\limits_{j=1}^{M}{{{A}_{j}}}Clow\left( t \right)+\sum\limits_{k=M+1}^{N}{{{A}_{k}}Chigh\left( t \right),}$

式中C_low(t)為低頻帶脈沖序列，C_high(t)為中高頻帶脈沖序列，f_ck為濾波器中心頻率。本文聲學合成模型中，低頻帶采用的脈沖序列為T=0.5 ms周期的正弦波列，中、高頻帶采用的脈沖序列頻率為該濾波通道中心頻率的正弦波列。低頻范圍定義為0~1 000 Hz，所以取值M=4。

圖1 基于低頻帶精細結構過零刺激聲學合成模型 Figure1. Acoustic synthesis model based on the zero-crossing time of fine structure of low frequency

圖選項

通道數目	中心頻率/Hz	頻率帶寬/Hz	濾波范圍/Hz
1	266	332	[100 432]
2	526	188	[432 620]
3	757	274	[620 894]
4	1089	390	[894 1284]
5	1566	564	[1284 1848]
6	2252	808	[1848 2656]
7	3241	1170	[2656 3826]
8	4664	1774	[3826 5500]

元音
a	o	e	i	u	ü	ai	ei	ao	ou	ia	ie
iao	iou	ua	uo	uai	uei	üe	an	en	ang	eng	ong
ian	in	iang	ing	ion	uan	uen	uang	ueng	üan	ün

聲調識別	元音識別	輔音識別
ba(1)吧	ba(3)把	ba(1)吧
ba(2)拔	ben(3)本	pa((1)趴
ba(3)把	bi(3)筆	ma(1)媽
ba(4)爸	biao(3)表	fa(1)發

1.	WILSON B S, FINLEY C C, LAWSON D T, et al. Design and evaluation of a continuous interleaved sampling (CIS) processing strategy for multichannel cochlear implants[J]. J Rehabil Res Dev, 1993, 30(1):110-116.
2.	WEI C G, CAO K, ZENG F G. Mandarin tone recognition in cochlear-implant subjects[J]. Hear Res, 2004, 197(1-2):87-95.
3.	CIOCCA V, FRANCIS A L, AISHA R, et al. The perception of Cantonese lexical tones by early-deafened cochlear implantees[J]. J Acoust Soc Am, 2002, 111(5 Pt 1):2250-2256.
4.	KONG Y Y, CRUZ R, JONES J A, et al. Music perception with temporal cues in acoustic and electric hearing[J]. Ear Hear, 2004, 25(2):173-185.
5.	VONGPHOE M, ZENG F G. Speaker recognition with temporal cues in acoustic and electric hearing[J]. J Acoust Soc Am, 2005, 118(2):1055-1061.
6.	NIE K B, STICKNEY G, ZENG F G. Encoding frequency modulation to improve cochlear implant performance in noise[J]. IEEE Trans Biomed Eng, 2005, 52(1):64-73.
7.	CHEN F, ZHANG Y T. Zerocrossing-based nonuniform sampling to deliver low-frequency fine structure cue for cochlear implant[J]. Digit Signal Process, 2011, 21(3):427-432.
8.	SMITH Z M, DELGUTTE B, OXENHAM A J. Chimaeric sounds reveal dichotomies in auditory perception[J]. Nature, 2002, 416(6876):87-90.
9.	LOIZOU P C. Introduction to cochlear implants[J]. IEEE Eng Med Biol Mag, 1999, 18(1):32-42.
10.	CHEN F, ZHANG Y T. A novel temporal fine structure-based speech synthesis model for cochlear implant[J]. Signal Process., 2008, 88(11):2693-2699.
11.	HENG J, CANTARERO G, ELHILALI M, et al. Impaired perception of temporal fine structure and musical timbre in cochlear implant users[J]. Hear Res, 2011, 280(1-2):192-200.
12.	RUBINSTEIN J T, TURNER C. A novel acoustic simulation of cochlear implant hearing:Effects of temporal fine structure[C]. Proceedings of First International IEEE EMBS Conference on Neural Engineering. Capri Island, Italy:2003:142-145.
13.	LAN N, NIE K B, GAO S K, et al. A novel speech-processing strategy incorporating tonal information for cochlear implants[J]. IEEE Trans Biomed Eng, 2004, 51(5):752-760.
14.	WILSON B S, SCHATZER R, LOPEZ-POVEDA E A, et al. Two new directions in speech processor design for cochlear implants[J]. Ear Hear, 2005, 26(4 Suppl):73S-81S.
15.	GUAN T, GONG Q, YE D T. A novel speech processing algorithm for cochlear implant based on selective fundamental frequency control[C]//KING I, WANG J, CHAN L W, et al. ICONIP'06 Proceedings of the 13 International Conference on Neural Information Processing-Part I. Heidelberg:Springer-Verlag Berlin Heidelberg, 2006, 4232:272-279.
16.	WANG W D, LIU H Y, YUAN H, et al. A new speech coding strategy for cochlear implant[J]. J Med Biol Eng, 2010, 30(5):335-342.
17.	LIU H Y, WANG W D, LIU G R, et al. An improved speech coding strategy for cochlear implants[C]//20103rd International Conference on Biomedical Engineering and Informatics (BMEI). Yantai, China:2010, 4:1416-1419.
18.	CHEN F, ZHANG Y T. Zerocrossing-based fine structure representation to convey Mandarin tonal information:a study on the noise effect[C]//30th Annual International IEEE EMBS Conference. Vancouver, British Columbia, Canada:2008:20-24.
19.	SAIMAI N, TANTIBUNDHIT C, ONSUWAN C, et al. Speech synthesis algorithm for Thai cochlear implants[C]//The proceedings of 9th International Conference Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON). Hua Hin, Thailand:2012:1-4.
20.	POTAMIANOS A, MARAGOS P. Speech analysis and synthesis using an AM-FM modulation model[J]. Speech Commun, 1999, 28(3):195-209.
21.	VAKMAN D. On the analytic signal, the Teager-Kaiser energy algorithm, and other methods for defining amplitude and frequency[J]. IEEE Trans Signal Process, 1996, 44(4):791-797.
22.	GREENWOOD D D. A cochlear frequency-position function for several species——29 years later[J]. J Acoust Soc Am, 1990, 87(6):2592-2605.
23.	BOOTHROYD A, NITTROUER S. Mathematical treatment of context effects in phoneme and word recognition[J]. J Acoust Soc Am, 1988, 84(1):101-114.
24.	FU Q J, ZENG F G, SHANNON R V, et al. Importance of tonal envelope cues in Chinese speech recognition[J]. J Acoust Soc Am, 1998, 104(1):505-510.
25.	ROSEN S. Temporal information in speech:acoustic, auditory and linguistic aspects[J]. Philos Trans R Soc Lond B Biol Sci, 1992, 336(1278):367-373.

輔音
b	p	m	f	d	t	n	l	g	k	h	j
q	x	zh	ch	sh	r	z	c	s	y	w

《生物醫學工程學雜志》

基于低頻帶非均勻采樣策略提高電子耳蝸漢語識別魯棒性

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

引言

1 基于低頻帶非均勻采樣聲學合成模型

1.1 多頻帶聲道共振模型

1.2 希爾伯特變換

1.3 基于低頻帶非均勻采樣刺激聲學合成模型

2 實驗流程設計

2.1 實驗一(漢語聲調識別)

2.2 實驗二 漢語元音、輔音識別

2.2.1 漢語元音識別

2.2.2 漢語輔音識別

2.3 實驗三(漢語詞匯、語句識別)

2.3.1 漢語詞匯識別

2.3.2 漢語語句識別

3 聽覺仿真實驗結果

3.1 漢語聲調識別

3.2 漢語元音和輔音識別

3.3 漢語詞匯和語句識別

3.4 改進的指數權重分布模型

4 結論

引言

1 基于低頻帶非均勻采樣聲學合成模型

1.1 多頻帶聲道共振模型

1.2 希爾伯特變換

1.3 基于低頻帶非均勻采樣刺激聲學合成模型

2 實驗流程設計

2.1 實驗一(漢語聲調識別)

2.2 實驗二 漢語元音、輔音識別

2.2.1 漢語元音識別

2.2.2 漢語輔音識別

2.3 實驗三(漢語詞匯、語句識別)

2.3.1 漢語詞匯識別

2.3.2 漢語語句識別

3 聽覺仿真實驗結果

3.1 漢語聲調識別

3.2 漢語元音和輔音識別

3.3 漢語詞匯和語句識別

3.4 改進的指數權重分布模型

4 結論

上一篇

下一篇

Format

Content

摘要全文圖表視頻參考文獻施引文獻補充材料

2.2 實驗二漢語元音、輔音識別

2.2 實驗二漢語元音、輔音識別