適用于智能家庭應用的語(yǔ)音識別系統

發(fā)布時(shí)間:2015-11-3 11:31    發(fā)布者:eechina
關(guān)鍵詞: 智能家庭 , 語(yǔ)音識別
作者: Vineet Ganju、Trausti Thormundsson,Conexant公司

開(kāi)發(fā)基于自然語(yǔ)言的語(yǔ)音識別系統面臨許多技術(shù)挑戰,包括使用精確的語(yǔ)音識別引擎將機器聽(tīng)到的內容翻譯成文字—以及一個(gè)綜合的自然語(yǔ)言處理器,它能判斷所說(shuō)內容的意思或意圖,然后返回一個(gè)有意義的響應或動(dòng)作。這些課題已經(jīng)被廣泛研究幾十年了,這里不作過(guò)多討論。本文主要討論在遠場(chǎng)語(yǔ)音接口系統中經(jīng)常被忽視但同樣很重要的技術(shù)性挑戰:在語(yǔ)音到達語(yǔ)音識別引擎之前的語(yǔ)音預處理。

即使是最現代的語(yǔ)音識別引擎要想運轉良好也有一個(gè)基本的要求—輸入到該引擎的必須是語(yǔ)音。雖然對遠場(chǎng)語(yǔ)音接口系統來(lái)說(shuō)這似乎是顯而易見(jiàn)的要求,但它卻是最具挑戰性的要求之一。這里的“遠場(chǎng)”指的是用戶(hù)話(huà)音距產(chǎn)品麥克風(fēng)的距離超過(guò)半米的系統。舉例來(lái)說(shuō),靠近用戶(hù)臉部的智能手機形成的是一種“近場(chǎng)”用例,但對著(zhù)一臂之長(cháng)的PC機或平板電腦講話(huà)或隔著(zhù)房間對電視機、立體聲系統、燈光開(kāi)關(guān)、自動(dòng)調溫器或智能家庭控制器講話(huà)都算作“遠場(chǎng)”用例。

近場(chǎng)和遠場(chǎng)用例之間存在著(zhù)許多重要的差別,這些差別產(chǎn)生了在近場(chǎng)系統中沒(méi)有但在遠場(chǎng)系統中十分艱巨的技術(shù)性挑戰。

1.大動(dòng)態(tài)范圍:在遠場(chǎng)系統中,用戶(hù)語(yǔ)音可能非常低,因為他/她與產(chǎn)品麥克風(fēng)有數米距離,但干擾可能非常大,比如在受語(yǔ)音控制的揚聲器系統中有音樂(lè )回放的場(chǎng)合。

2.低信噪比(SNR)、低直接路徑與混響路徑比(DRR)以及未知方向的語(yǔ)音和噪聲:遠場(chǎng)系統中的語(yǔ)音噪聲比要比近場(chǎng)系統中的小得多。隨著(zhù)用戶(hù)不斷遠離產(chǎn)品的麥克風(fēng),語(yǔ)音電平會(huì )越來(lái)越小,而背景噪聲電平保持不變。

同樣,從用戶(hù)嘴巴到麥克風(fēng)的間接路徑——從沿途的墻體和窗戶(hù)等表面的反射路徑與從用戶(hù)到麥克風(fēng)的直接路徑相比可能有很顯著(zhù)的功率(即低的DRR)。在使用傳統的語(yǔ)音處理技術(shù)和語(yǔ)音識別引擎時(shí)這種混響效應會(huì )造成很大的問(wèn)題。

最后,在遠場(chǎng)系統中,用戶(hù)語(yǔ)音相對于麥克風(fēng)的方向以及噪聲相對于麥克風(fēng)的方向都是未知的。在典型應用場(chǎng)合,噪聲甚至與用戶(hù)語(yǔ)音來(lái)自相同的方向。

3.全雙工話(huà)音交互:在許多遠場(chǎng)系統中,當用戶(hù)對著(zhù)產(chǎn)品講話(huà)時(shí),產(chǎn)品的揚聲器中可能正在播放音頻內容,如音樂(lè )、電影或話(huà)音提示。這時(shí)需要使用一個(gè)全雙工的回聲消除器,以便在聆聽(tīng)用戶(hù)語(yǔ)音的同時(shí)抵消掉產(chǎn)品的回放輸出聲。在回聲消除器并不完全了解回放內容的系統中情況就更加復雜了。

在這些情況下,實(shí)現一個(gè)依然能夠良好拾取語(yǔ)音的系統是一項極具挑戰性的任務(wù)。本文將介紹傳統方法為何無(wú)法在這些遠場(chǎng)條件下提供可接受性能的原因,然后提出了能以極具成本效益的方法提供卓越遠場(chǎng)性能的一種解決方案。

大動(dòng)態(tài)范圍

用于智能家庭設備的語(yǔ)音捕獲系統需要支持大信號動(dòng)態(tài)范圍,從輕聲細語(yǔ)到響亮的音頻內容回放。對于與用戶(hù)距離大概在0.5米至3米范圍內的設備來(lái)說(shuō),設備麥克風(fēng)處的語(yǔ)音電平范圍大概在75dB至44dB SPL。對于體積不大的音頻回放設備來(lái)說(shuō),回放內容在設備麥克風(fēng)處的SPL電平可能接近95dB。這種典型和極具挑戰性的用例對設備中的麥克風(fēng)和模數轉換器(ADC)的選型有很大的影響。

對于遠場(chǎng)應用來(lái)說(shuō),選擇具有高信噪比值的麥克風(fēng)非常重要。如上所述,目標語(yǔ)音信號的SPL電平可能低至44dB。對于94dB SPL的1kHz音來(lái)說(shuō),如果使用信噪比(SNR)為66dB的麥克風(fēng),等效的本底噪聲為28dB SPL,那么最差情況下的語(yǔ)音與麥克風(fēng)自身噪聲之比為16dB。如果選擇信噪比為55dB的麥克風(fēng),那么語(yǔ)音與麥克風(fēng)自身噪聲之比可能低至5dB!

ADC內部的本底噪聲也很重要,因為如果應用中的ADC動(dòng)態(tài)范圍不夠的話(huà),還會(huì )造成信號飽和。

圖1顯示了兩種ADC的輸入參考噪聲,它們都是麥克風(fēng)增強設置值的函數。紅線(xiàn)顯示的是動(dòng)態(tài)范圍大約是96dB的18位ADC性能,藍線(xiàn)顯示的是動(dòng)態(tài)范圍大約為106dB的24位ADC性能。作為參考,灰線(xiàn)顯示的是信噪比為66dB、靈敏度為-43dBV/Pascal的麥克風(fēng)自身噪聲電平。


圖1:麥克風(fēng)自身的噪聲和來(lái)自ADC的噪聲將疊加在一起形成系統總的本底噪聲。

圖2和圖3顯示了分別使用96dB動(dòng)態(tài)范圍和106dB動(dòng)態(tài)范圍的ADC時(shí)系統的屬性。106dB ADC可以提供更低的本底噪聲和更高的飽和點(diǎn)。合理的設置是針對96dB ADC使用24dB的麥克風(fēng)增強值、針對106dB ADC使用12dB的麥克風(fēng)增強值。在本例中,使用106dB ADC時(shí)的本底噪聲要低2dB,飽和點(diǎn)要高12dB。本底噪聲低2dB對于拾取遠場(chǎng)條件中的語(yǔ)音來(lái)說(shuō)尤其重要。


圖2:這張表顯示了使用96dB ADC時(shí)的系統屬性。


圖3:這張表顯示了使用106dB ADC時(shí)的系統屬性。

考慮到峰值內容和諧振等因素,由于回聲而在麥克風(fēng)處產(chǎn)生的SPL電平可能達到96dB甚至更高。因此對于具有大聲回放而且體積不大的設備來(lái)說(shuō),在使用96dB或者更低動(dòng)態(tài)范圍的ADC時(shí)飽和問(wèn)題很常見(jiàn)。當在實(shí)際系統中遇到這些問(wèn)題時(shí),唯一的解決方案通常是進(jìn)一步降低麥克風(fēng)的增強值,但這樣做的同時(shí)會(huì )抬高本底噪聲。在這個(gè)例子中,麥克風(fēng)增強值需要減小到12dB。然而,與106dB ADC相比,這樣做將使本底噪聲高出4.3dB。因此我們可以知道,對遠場(chǎng)產(chǎn)品來(lái)說(shuō)首選的解決方案是使用具有高信噪比的麥克風(fēng)和106dB或更高動(dòng)態(tài)范圍的ADC。

遠場(chǎng)噪聲/干擾和混響消除以及擺脫方向性約束

在智能家居遠場(chǎng)應用中,獲得魯棒性的語(yǔ)音拾取的條件可以說(shuō)是相當苛刻的。用戶(hù)和設備之間的遠距離導致了其信噪比比近場(chǎng)應用要低很多。遠距離還會(huì )造成語(yǔ)音具有很低的直接路徑與混響路徑比值(DRR)。這個(gè)比值衡量的是直接傳輸到麥克風(fēng)的語(yǔ)音信號能量與通過(guò)反射途徑到達麥克風(fēng)的能量的相對大小。在大多數家庭和辦公室中,RT60時(shí)間一般在300ms至800ms范圍內—這個(gè)時(shí)間將導致音頻信號在室內來(lái)回反彈中損失掉約60dB的能量。當用戶(hù)與麥克風(fēng)的距離超過(guò)1米時(shí),低的DRR值對于傳統語(yǔ)音增強解決方案和語(yǔ)音識別性能來(lái)說(shuō)是一個(gè)很大的問(wèn)題。

噪聲/干擾條件的變化也很大。系統需要能夠同時(shí)處理靜態(tài)干擾(也就是說(shuō)頻譜特性非常穩定或變化非常緩慢的信號)和非靜態(tài)干擾(即頻譜特性不斷變化的信號)。當噪聲相對穩定時(shí),傳統的單個(gè)麥克風(fēng)增強方法是非常有效的。然而,當干擾變成非穩態(tài)時(shí),這種方法就捉襟見(jiàn)肘了。因此為了改進(jìn)現實(shí)世界條件下的語(yǔ)音識別性能,要求使用多麥克風(fēng)方法。

傳統的多麥克風(fēng)增強算法,比如波束成形,通過(guò)估計一組受約束的空間濾波器來(lái)增強來(lái)自預定義空間方向的信號。圖4顯示了一種傳統波束成形器的框圖。這種波束成形器有三個(gè)主要單元:最小方差無(wú)失真響應(MVDR),阻塞矩陣(BM),自適應后置濾波器。


圖4:傳統波束成形器有三個(gè)主要單元:最小方差無(wú)失真響應(MVDR),阻塞矩陣(BM),自適應后置濾波器。

MVDR將以這樣的一種方式將麥克風(fēng)信號合成在一起:一邊嘗試將波束成形器的空波束指向干擾源,一邊將一個(gè)波束指向目標源。對每一個(gè)獨立的空波束都要求一個(gè)額外的麥克風(fēng),因此對于目標語(yǔ)音可能來(lái)自任何方向的智能家庭應用來(lái)說(shuō)會(huì )顯著(zhù)增加成本。MVDR利用增強的信噪比產(chǎn)生對目標源的估計。然而,信號仍然可能包含相當多的殘留噪聲,因為它不能抵消來(lái)自與目標源相同方向的干擾,而這種情況在典型的現實(shí)世界中是很常見(jiàn)的,而且它也不能利用有限的麥克風(fēng)數量抵消掉波束外的所有干擾。阻塞矩陣(BM)可以通過(guò)朝目標源放置波束成形器的零點(diǎn)來(lái)估計噪聲/干擾。然而結果信號將包含目標源的殘留,因為在混響條件下,由于反射(混響)的原因目標源不是從單一方向到達麥克風(fēng)的。

自適應后置濾波器的目的是從MVDR輸出中消除殘留噪聲,從而提高信噪比。然而,所有濾波器算法都受這樣一個(gè)事實(shí)的限制:在阻塞矩陣的輸出中存在很強的目標源。噪聲估計中的這種殘留語(yǔ)音將導致所有后置濾波器扭曲到語(yǔ)音信號。隨著(zhù)混響的增加(DRR越來(lái)越小),這種失真的嚴重性也隨之增加。解決這個(gè)問(wèn)題的唯一方法是顯著(zhù)增加麥克風(fēng)的數量,這種解決方案對許多消費類(lèi)應用來(lái)說(shuō)就變得太過(guò)昂貴了。

因此在對成本敏感的消費產(chǎn)品所具有的遠場(chǎng)條件下,傳統的波束成形解決方案不能提供令人滿(mǎn)意的性能,需要新的解決方案。

理想的解決方案應該能在各種遠場(chǎng)音頻條件下提供一致的噪聲抑制性能,即使是只使用兩個(gè)麥克風(fēng)。這樣的解決方案不應對濾波解決方案提出任何嚴苛的約束條件,比如波束成形中的方向性約束,同時(shí)能提供良好的靜止和非靜止噪聲抑制能力。理想的解決方案還應該隱式地建;祉懶,從而避免其性能受DDR變化顯著(zhù)影響這樣的波束成形問(wèn)題。最后,解決方案應該具有足夠的魯棒性,它可以完全不受麥克風(fēng)位置和麥克風(fēng)匹配的影響,從而消除對專(zhuān)門(mén)參數調諧的要求。

一種改進(jìn)的遠場(chǎng)解決方案實(shí)現是這樣一種架構:算法中受監視/約束的部分只用于檢測目的,不直接用于約束濾波器設計,而且濾波器都接受無(wú)監視方式的訓練。圖5顯示了基于盲源分離(BSS)的這樣一種解決方案的高層結構。這種解決方案有三個(gè)主要部分:基于受監視功能的話(huà)音活動(dòng)檢測器(VAD),不受監視的空間濾波,不受監視的頻譜濾波。


圖5:這張圖顯示了基于盲源分離的SSP高層結構。

基于受監視功能的話(huà)音活動(dòng)檢測器(VAD)會(huì )對目標語(yǔ)音的存在進(jìn)行概率測量。然后在不受監視的濾波模塊中使用這個(gè)信息判斷是否為噪聲、干擾或目標語(yǔ)音源訓練濾波器。在這種架構中可以使用任何合適的VAD。

系統的核心是不受監視的空間濾波(USF)—基于獨立分量分析(ICA)的一種BSS算法。這種ICA算法設法建模目標源和干擾源的混合系統,并允許用線(xiàn)性濾波將它們分開(kāi)來(lái)。在只有兩個(gè)麥克風(fēng)的系統中,USF將產(chǎn)生4個(gè)信號輸出,每個(gè)麥克風(fēng)2個(gè)。對每個(gè)麥克風(fēng)來(lái)說(shuō),一個(gè)信號包含目標源和一些殘留噪聲,另一個(gè)信號包含對所有干擾源的估計,其中目標源已經(jīng)被濾除。

USF做到這一點(diǎn)所需的唯一信息是在知道何時(shí)目標語(yǔ)音有效以及何時(shí)噪聲有效,這個(gè)信息來(lái)自VAD。然后USF尋找濾波器以完全不受監視的方式對目標源和干擾源進(jìn)行分拆。USF并不明確地使用源方向,雖然這個(gè)信息可以用來(lái)改善VAD決策。另外,麥克風(fēng)在設備上的位置和麥克風(fēng)之間的不匹配對算法的影響很小。在ICA系統中,如果存在N個(gè)源,那么通常至少需要N個(gè)麥克風(fēng)來(lái)恢復原始信號。然而,通過(guò)將信號看作是包含1)一個(gè)目標語(yǔ)音信號和一個(gè)噪聲信號,或2)只有一個(gè)噪聲信號,ICA可以只與兩個(gè)麥克風(fēng)和未知數量的噪聲源一起使用。

USF的輸出不是在系統輸出中直接使用,因為它假設合成信號是由有限數量的空間定位源產(chǎn)生的信號的線(xiàn)性合成。這種一致性假設條件對主要的語(yǔ)音源信號來(lái)只是部分成立,但對現實(shí)世界噪聲來(lái)說(shuō)不是的。因此線(xiàn)性濾波對于現實(shí)世界應用來(lái)說(shuō)不是最優(yōu)的,要求用非線(xiàn)性、隨時(shí)間變化的統計性后置濾波對信號進(jìn)行補償。后置濾波方法通常涉及到對由線(xiàn)性濾波器輸出推導出的頻譜/臨時(shí)模板(或增益)進(jìn)行估計。雖然模板通常能提高噪聲抑制能力,但如果沒(méi)有考慮分拆模型不確定性的話(huà),屏蔽效應可能導致信號的嚴重劣化。

用于頻譜濾波的方法可以基于不受監視的頻譜增益分布學(xué)習,而這種分布源自USF的輸出信號。然后就能產(chǎn)生語(yǔ)音存在/不存在的概率;這些概率用來(lái)控制對每個(gè)通道的頻譜增強。增強技術(shù)可以消除有害的干擾,與此同時(shí)消除最近的混響分量,即有效地去除混響。

圖6和圖7顯示了這樣一種系統的性能例子。在這個(gè)測試中,用戶(hù)距雙麥克風(fēng)系統3米遠。麥克風(fēng)處的目標語(yǔ)音電平是60dB,麥克風(fēng)處的干擾語(yǔ)音電平是50dB。圖6中的上面通道顯示的是沒(méi)經(jīng)任何處理的接收信號。下面通道顯示的是經(jīng)過(guò)處理后的輸出。圖7顯示了處理之前和之后的干擾頻譜內容。在這種條件下,可以達到大約30dB的干擾信號抑制。當未處理信號通過(guò)語(yǔ)音識別引擎發(fā)送時(shí),可能達到95%的誤字率(WER)。經(jīng)過(guò)處理后的WER可下降到15%。


圖6:上面通道顯示的是未經(jīng)任何處理的接收信號。下面通道顯示的是處理后的輸出。


圖7:顯示的是處理之前和處理之后的干擾頻譜內容。

聲學(xué)回音消除(AEC)已經(jīng)存在很多年了,是任何免提通信系統的必要部分。聲學(xué)回音消除器可以從麥克風(fēng)記錄中消除設備本身正在回放的音頻。最簡(jiǎn)單的AEC是半雙工的,也就是說(shuō),當遠端在講話(huà)時(shí),它會(huì )馬上關(guān)閉近端的麥克風(fēng),反之亦然,即當近端講話(huà)時(shí)則關(guān)閉遠端的麥克風(fēng)。在這些系統中,同一時(shí)刻只能有一邊講話(huà)。

對于語(yǔ)音控制應用來(lái)說(shuō),真正的全雙工回音消除是系統的一個(gè)必要部分,也就是要達到語(yǔ)音控制和回放同時(shí)進(jìn)行的效果。聲學(xué)回音消除器(AEC)要想正常工作,需要能夠訪(fǎng)問(wèn)到信號,也就是設備正在播放的回音參考。AEC隨即使用這個(gè)回音參考對房間內的聲學(xué)回音路徑進(jìn)行線(xiàn)性建模。然而在實(shí)際系統中,回音路徑中通常有相當多的非線(xiàn)性因素,它們會(huì )顯著(zhù)降低系統性能—比如當設備正在試圖從小的揚聲器中產(chǎn)生大的回放音量時(shí)。另外一個(gè)例子發(fā)生在回放信號被發(fā)送到AEC作為回音參考之后對這個(gè)回放信號進(jìn)行非線(xiàn)性的后置處理之時(shí)。語(yǔ)音控制的機頂盒(STB)就是這種情況,此時(shí)AEC在工作,機頂盒中也獲得了回音參考,但電視機很可能在播放音頻之前在音頻上疊加一些未知延時(shí)和后處理。在這些條件下使用傳統的AEC性能會(huì )很低。

這個(gè)問(wèn)題可以這樣解決:將AEC連接到前文介紹的噪聲抑制技術(shù)。只要AEC能夠區分遠端、近端和雙邊談話(huà)活動(dòng),這個(gè)信息就能用作USF的活動(dòng)檢測輸入。這種方法在具有非線(xiàn)性及受損回音參考的系統中可以提供真正全雙工的AEC性能。

另外,這種新的AEC技術(shù)應該包含一個(gè)延時(shí)估計算法,以便通過(guò)對齊回音參考和麥克風(fēng)信號來(lái)解決回音路徑中的未知延時(shí),就象在機頂盒案例中那樣。

圖8和圖9顯示了一個(gè)機頂盒系統的性能。用戶(hù)距電視機3米遠,麥克風(fēng)模塊位于電視機頂上,并連接到機頂盒。用戶(hù)給機頂盒發(fā)出自然語(yǔ)言命令。在麥克風(fēng)模塊處目標語(yǔ)音的SPL是60dB,來(lái)自電視回放內容的回音SPL是72dB。圖8的上部顯示的是未經(jīng)處理的麥克風(fēng)信號,底部顯示的是經(jīng)過(guò)處理的麥克風(fēng)信號。圖9顯示的是處理前后殘留回音的頻譜內容。在這個(gè)案例中,處理前的誤字率(WER)是100%,處理后則達到了8%。


圖8:這張圖的上部分顯示的是未經(jīng)處理的麥克風(fēng)信號,下部分顯示的是處理過(guò)的麥克風(fēng)信號。


圖9:這張圖顯示了處理前后殘留回音的頻譜內容。

本文小結

傳統的波束成形語(yǔ)音增強方法在智能家庭遠場(chǎng)應用環(huán)境中通常無(wú)法提供可接受的解決方案,因此很有必要開(kāi)發(fā)其它的系統來(lái)成功地滿(mǎn)足和應對這些遠場(chǎng)挑戰。舉例來(lái)說(shuō),科勝訊(Conexant)公司已經(jīng)開(kāi)發(fā)出了如同本文所述的極具成本效益且高集成度的解決方案,這些解決方案采用了高動(dòng)態(tài)范圍的ADC,在低信噪比、低DDR以及語(yǔ)音和噪聲方向未知的條件下具有卓越的遠場(chǎng)噪聲/干擾抑制性能,而且即使在回音信號不完全確定的情況下也能實(shí)現真正全雙工的聲學(xué)回音消除。這些解決方案已被科勝訊公司部署到從智能家庭設備到平板電腦、PC和可穿戴設備的許多產(chǎn)品平臺上,并且所有產(chǎn)品都具有優(yōu)秀的性能結果。

像波束成形等傳統方法要求極高的麥克風(fēng)成本、特殊的平臺調諧,并對麥克風(fēng)位置、匹配以及語(yǔ)音和噪聲的方向性有許多約束條件。而上述替代性解決方案的魯棒性可直接轉換為更好的性能,并能在新的智能家庭產(chǎn)品開(kāi)發(fā)和制造過(guò)程中顯著(zhù)節省成本。
本文地址:http://selenalain.com/thread-155265-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页