TI公司供稿 語(yǔ)音接口已經(jīng)成為一個(gè)改變人機交互方式的全新切入點(diǎn)。這些系統如何工作?打造這樣一款設備在硬件方面有什么要求?隨著(zhù)語(yǔ)音控制接口變得越來(lái)越普及,德州儀器(TI)的一位工程師對此技術(shù)進(jìn)行了深入的了解,并分享了其對這項技術(shù)的認識和看法。 語(yǔ)音接口是什么? 語(yǔ)音識別技術(shù)自20世紀50年代起開(kāi)始出現在我們身邊。那時(shí)貝爾實(shí)驗室的工程師創(chuàng )建了一款可以識別單個(gè)數字的系統。然而,語(yǔ)音識別只是完整語(yǔ)音接口技術(shù)的一部分。語(yǔ)音接口包含傳統用戶(hù)接口的所有方面:它能呈現信息并為用戶(hù)提供一種操控方式。在語(yǔ)音接口中,操控、甚至一些信息的呈現都將通過(guò)語(yǔ)音實(shí)現。在一些如按鈕或顯示屏等傳統的用戶(hù)接口上,也可能配置語(yǔ)音接口這一選項。 大部分人遇到的第一款語(yǔ)音接口設備很有可能是移動(dòng)電話(huà),或者是個(gè)人電腦上非;A的將語(yǔ)言轉換成文字的程序。然而,這些設備的運行都非常緩慢、識別不精確且可識別的詞匯有限。 那是什么將語(yǔ)音識別從一種附屬性功能變成了計算機世界炙手可熱的技術(shù)呢?首先,如今的計算能力和算法性能都有顯著(zhù)的提高(如果你對隱馬爾科夫模型有所了解,對此你會(huì )有更直觀(guān)的認識)。其次,云技術(shù)和大數據分析的應用也改進(jìn)了語(yǔ)音識別效果,并且提高了識別的速度和準確性。 為你的設備添加語(yǔ)音識別功能 一些人常常會(huì )對如何為項目添加某種語(yǔ)音接口存在疑問(wèn)。實(shí)際上,TI供應幾種不同的語(yǔ)音接口產(chǎn)品,包括ARM®處理器的Sitara™系列產(chǎn)品和C5000™ DSP系列產(chǎn)品,這些產(chǎn)品都具備語(yǔ)音處理的能力。兩種系列的產(chǎn)品各有千秋,分別適用于不同的應用。 在選擇DSP和ARM這兩種解決方案時(shí),考慮的關(guān)鍵因素在于這款設備能否或將如何利用云語(yǔ)音平臺。當中有三種應用場(chǎng)景:第一種是離線(xiàn),所有的處理過(guò)程都在本地設備上發(fā)生。第二種是在線(xiàn),通過(guò)基于云端的語(yǔ)音處理設備,如亞馬遜的Alexa,谷歌助手或IBM Watson;第三種是兩者混合。 離線(xiàn):車(chē)載語(yǔ)音控制 從目前的發(fā)展趨勢來(lái)看,人們似乎希望所有事物都能夠連接至互聯(lián)網(wǎng)。然而,無(wú)論是出于成本考慮或是缺乏可靠的網(wǎng)絡(luò )連接,在某些應用中,連接網(wǎng)絡(luò )的意義其實(shí)不大。在現代的汽車(chē)應用中,許多娛樂(lè )信息系統就采用了離線(xiàn)語(yǔ)音接口系統。這些語(yǔ)音接口系統通常只能使用有限的命令集,如“撥打電話(huà)”、“播放音樂(lè )”和“提高或降低音量”。雖然傳統處理器的語(yǔ)音識別算法取得了重大進(jìn)展,但仍有不盡如人意之處。遇到這樣的情況,例如C55xx等DSP可能夠為系統提供最佳的性能。 在線(xiàn):智能家庭中樞 關(guān)于語(yǔ)音接口的很多熱議主要圍繞于例如Google Home和亞馬遜 Alexa等互聯(lián)設備。由于亞馬遜允許第三方進(jìn)入其已配備Alex語(yǔ)音服務(wù)的語(yǔ)音處理生態(tài)系統,他們在這方面的發(fā)展備受矚目。另外,如Microsoft Azur等其它的云服務(wù)也可以提供語(yǔ)音識別服務(wù)和類(lèi)似功能。值得注意的是,這些設備的聲音處理過(guò)程全部發(fā)生在云端。 是否值得為了這種便捷的集成而向語(yǔ)音服務(wù)供應商提供上行數據完全取決于用戶(hù)。但是,云服務(wù)供應商承擔了主要的工作,設備商需要做的很簡(jiǎn)單,實(shí)際上,由于接口的語(yǔ)音合成部分也發(fā)生在云端,Alexa只要完成最簡(jiǎn)單的功能,即播放并記錄錄音文件。既然不需要特別的信號處理功能,ARM處理器足以處理接口工作。這意味著(zhù),如果你的設備已配備ARM處理器,你就可能集成云計算語(yǔ)音接口。 事實(shí)上,關(guān)注Alexa等不能提供的服務(wù)也是非常重要的。Alexa不直接執行任何一種設備控制或云集成。驅動(dòng)Alexa的許多“智能設備”都具備云計算功能,該功能由開(kāi)發(fā)商提供,可以利用Alexa的語(yǔ)音處理能力將驅動(dòng)輸入至現有的云應用。例如,如果你告訴Alexa需要訂一個(gè)披薩,你最喜愛(ài)的披薩店則需要為Alexa編制一項“技能”。該項技能是一個(gè)可以在你訂披薩時(shí)定義工作內容的代碼。當你每次訂披薩時(shí),Alexa都會(huì )調用該技能。該技能嵌入了可以為你下單的在線(xiàn)訂購系統。同樣,智能家居設備制造商必須執行Alexa如何與本地設備和在線(xiàn)服務(wù)相互作用的技能。亞馬遜自帶許多這樣的技能,加上第三方開(kāi)發(fā)者提供的技能,即便你沒(méi)有開(kāi)發(fā)任何技能,Alexa設備仍然可以非常有用。 混合:互聯(lián)自動(dòng)調溫器 有時(shí),即使沒(méi)有連接互聯(lián)網(wǎng),我們也有保證設備的某些基礎功能可以正常使用的需求。例如:在連不上網(wǎng)的時(shí)候,如果自動(dòng)調溫器不會(huì )自主調節溫度,這就會(huì )是一個(gè)很麻煩的問(wèn)題。為避免這種問(wèn)題的發(fā)生 ,一個(gè)好的產(chǎn)品設計師會(huì )設計一些本地的聲音處理功能,在功能上實(shí)現無(wú)縫銜接。為了實(shí)現此功能,系統必須具有DSP,例如用于本地語(yǔ)音處理的C55XX和用于將已連網(wǎng)的接口連接至云端的ARM處理器。 語(yǔ)音觸發(fā)又是什么? 你也許已經(jīng)注意到了,直到現在我們還沒(méi)有提及新一代語(yǔ)音助手真正神奇的地方:那就是始終關(guān)注“觸發(fā)詞匯”。它們將如何追蹤你在房間內任意位置所發(fā)出的聲音,或是當設備播放音頻時(shí),又如何聽(tīng)到你的聲音?實(shí)現這些其實(shí)并沒(méi)有什么特別神奇的地方,只需要一些智能化軟件。這類(lèi)軟件獨立于云端的語(yǔ)音接口,也能在系統離線(xiàn)的狀態(tài)下運行。 這個(gè)系統最易理解的部分就是“喚醒詞匯”。喚醒詞匯是一個(gè)簡(jiǎn)單的本地語(yǔ)音識別程序,通過(guò)持續性采樣,在接收的音頻信號中尋找單個(gè)詞匯。由于大多數語(yǔ)音服務(wù)均樂(lè )意接受不含喚醒詞匯的音頻,因此該詞匯不需要指定任何特殊的語(yǔ)音平臺。因為實(shí)現這種功能的要求相對較低,所以通過(guò)利用Sphinx或KITT.AI等開(kāi)源數據庫在A(yíng)RM處理器上即可完成操作。 為了聽(tīng)到你在房間內任意位置發(fā)出的聲音,語(yǔ)音識別設備采用一個(gè)叫波束成型的流程。最重要的是,通過(guò)對比不同聲音的到達時(shí)間和麥克風(fēng)間的距離來(lái)確定聲音的來(lái)源。一旦確認了目標聲音的位置,設備就會(huì )采用如空間濾波等音頻處理技術(shù)來(lái)進(jìn)一步減少噪音并增強信號質(zhì)量。波束成型的實(shí)現取決于麥克風(fēng)的布局。真正實(shí)現360度識別則需要一個(gè)非線(xiàn)性麥克風(fēng)陣列(通常是圓形)。對于壁掛式設備而言,僅需兩個(gè)麥克風(fēng)就能啟用180度的空間辨別。 語(yǔ)音助手的最后一招是采用自動(dòng)回波消除(AEC)。AEC在某種程度上類(lèi)似于噪音消除耳機,但應用恰好相反。該算法是利用已知的音樂(lè )等輸出音頻信號來(lái)實(shí)現的。在噪音消除耳機利用這點(diǎn)來(lái)消除外部雜音,AEC消除了輸出信號對輸入信號在麥克風(fēng)上的影響。該設備能忽略自身產(chǎn)生的音頻,且無(wú)論揚聲器播放何種內容,其都仍然能接收。實(shí)現AEC需要大量的計算,其中在DSP中效果最佳。 為了實(shí)施喚醒識別、波束成型和AEC等以上提及的所有功能,則要求ARM處理器配合DSP共同工作:DSP增強了所有的信號處理功能,而ARM處理器控制設備邏輯和接口。DSP可在執行輸入數據管路方面發(fā)揮重要的作用,由此最大限度地減少處理的延遲,從而提供更好的用戶(hù)體驗。ARM可以自由運行如Linux等高級操作系統以控制其它設備。這樣高級的功能全部發(fā)生在本地,若使用云服務(wù),將只接收包含最終處理結果的單個(gè)語(yǔ)音文件。 結論 語(yǔ)音接口似乎已收獲了超高的人氣,并且將在未來(lái)很長(cháng)一段時(shí)間內以不同形式出現在我們的生活中。盡管有多種不同的處理方式可以實(shí)現語(yǔ)音接口服務(wù),但無(wú)論你的應用需要何種裝置,TI都可以為你提供理想的選擇。 l 使用針對語(yǔ)音應用、采用66AK2G02的語(yǔ)音預處理系統參考設計來(lái)實(shí)現音頻設計。 l 下載全新白皮書(shū)“語(yǔ)音接口技術(shù)-語(yǔ)音處理技術(shù)新紀元” |