3G 手機語(yǔ)音識別應用中DSP的選擇策略

發(fā)布時(shí)間:2010-12-15 21:25    發(fā)布者:conniede
關(guān)鍵詞: 3G , ASR , dsp , 電源 , 手機
隨著(zhù)DSP技術(shù)的進(jìn)步,計算能力更強、功耗更低和體積更小的DSP已經(jīng)出現,使3G手機上植入更精確更復雜的自動(dòng)語(yǔ)音識別(ASR)功能成為可能。

目前,基本ASR應用可以分成三大類(lèi):

1). 語(yǔ)音-文本轉換(語(yǔ)音輸入);

2). 講者識別;

3). 語(yǔ)音命令控制(語(yǔ)音控制)。

這三類(lèi)功能包含了3G所需的眾多ASR性能。語(yǔ)音-文本轉換的典型實(shí)例是語(yǔ)音撥號和電子郵件聽(tīng)寫(xiě)。講者識別功能可以通過(guò)語(yǔ)音識別安全地讀出存儲器中的個(gè)人數據,從而滿(mǎn)足信用卡定購和銀行服務(wù)等保密性高的應用需要。語(yǔ)音命令控制功能包括連接語(yǔ)音擴展標記語(yǔ)言(VXML)網(wǎng)站內容的語(yǔ)音接口,它支持財經(jīng)服務(wù)與目錄助理等業(yè)務(wù)。目前VXML被用于規范網(wǎng)站內容的語(yǔ)音標簽。

1 語(yǔ)音識別的兩種方法

3G手機的ASR應用設計可分為兩類(lèi),即以終端為中心和以客戶(hù)/服務(wù)器為中心的應用。如圖1所示為以終端為中心的設計方法,3G手機(終端)執行整個(gè)語(yǔ)音識別過(guò)程并送出識別結果。在圖2所示的客戶(hù)/服務(wù)器方法中,終端只是執行預處理特征提取,然后通過(guò)一個(gè)誤碼受保護的數據信道將這些參數發(fā)送給中心服務(wù)器,中心服務(wù)器最終完成語(yǔ)音識別。如果采用以客戶(hù)/服務(wù)器為中心的設計方法,3G手機應使用數據信道而非移動(dòng)信道來(lái)將語(yǔ)音發(fā)送給服務(wù)器進(jìn)行識別,因為移動(dòng)信道所用的低速率語(yǔ)音編碼會(huì )嚴重影響語(yǔ)音識別的性能。

各種ASR系統的差異主要體現在詞匯量上。一個(gè)簡(jiǎn)單的網(wǎng)絡(luò )設備可能只需要16字的詞庫就能實(shí)現所要求的語(yǔ)音識別功能,而3G移動(dòng)手機則需要更大的專(zhuān)業(yè)詞庫。這些詞匯可以跟講者相關(guān)(訓練語(yǔ)音識別設備使之熟悉用戶(hù)的聲音特征)或跟講者無(wú)關(guān)(語(yǔ)音識別設備可以識別任何人的聲音),DSP的計算負荷就隨著(zhù)詞匯量和訓練數據的增加而增大。

例如,根據隱性馬爾可夫模型(HMM)可以分析一個(gè)典型的跟講者無(wú)關(guān)的100條命令識別的應用實(shí)例。假設HMM模型從左到右沒(méi)有跳躍地順序擺放,共有6個(gè)狀態(tài)、5個(gè)具有對角協(xié)方差的混合高斯分布,包含39個(gè)特征(13嘜-頻率對數系數或MFCC,及其一階和二階差分),具有16位精度,那么,HMM聲學(xué)模型的大小就是100×5×5×(39+2)×2=240kB。

為了實(shí)現輸入語(yǔ)音樣本差分、窗口截獲、MFCC抽取、概率計算和維特比搜索等運算的實(shí)時(shí)性,典型情況下需要消耗DSP的1千萬(wàn)個(gè)乘法-累加周期(MMAC)。對于連續語(yǔ)音識別來(lái)說(shuō),上千個(gè)三音素模型和多種語(yǔ)法模型需要更多的存儲空間,也需要更快的DSP處理速度。

因此,移動(dòng)電話(huà)中ASR系統的成敗很大程度上取決于DSP的功能和設計。第三代系統本身就需要比第二代系統更強性能的DSP,而增加ASR功能就對DSP提出了更高的要求。從結構角度看,對DSP性能的要求是處理速度快、功耗低和代碼密度高。

2 采用高速DSP是關(guān)鍵

由于系統要實(shí)時(shí)對語(yǔ)音進(jìn)行處理和取樣,因此語(yǔ)音識別系統需要具有巨大的計算能力。下面的數字和計算假設采用的是圍繞終端的設計方法。如果將DSP計算資源的20%分配給一個(gè)10MMAC的語(yǔ)音識別系統使用,那么就需要一個(gè)具有50MMAC的DSP才能滿(mǎn)足這一功能需要,并可提供足夠的空間執行3G手機所需的其它DSP任務(wù),如處理軟貓。如果采用較慢的DSP,如25MMAC的DSP,那么詞匯表中的命令數量就要減半,或減少HMM參數,這樣會(huì )降低整個(gè)系統性能。

DSP的速度決定了語(yǔ)音識別系統的復雜性和性能。舉例來(lái)說(shuō),如果一個(gè)基本的跟講者無(wú)關(guān)的連續語(yǔ)音識別系統需要100MMAC,DSP計算資源的50%用于滿(mǎn)足3G手機的其它DSP任務(wù)的需求,那么DSP的處理速度就需要達到200MMAC。

2.1 成本、性能和效率的折衷

DSP的速度越快,就越便于利用現代的HMM技術(shù),如信道匹配和聲域匹配技術(shù),因此,理論上講,DSP速度越快,ASR系統的性能就越好。然而,并行處理方法在提高ASR系統吞吐量中也扮演著(zhù)重要角色。例如,一個(gè)具有4 ALU(算術(shù)邏輯單元)的200MHz DSP比只有1 ALU但運行于400MHz的DSP具有更高的吞吐量。根據具體應用的不同,2到3個(gè)單ALU DSP提供的性能與一個(gè)具有4 ALU的DSP相仿。相對一個(gè)具有4 ALU的DSP處理器方案來(lái)說(shuō),多個(gè)單ALU的DSP會(huì )提高手機的成本,因此對于適銷(xiāo)對路產(chǎn)品要充分權衡成本與性能之間的折衷。


總之,當比較一個(gè)600MHz的單ALU DSP和一個(gè)300MHz但有4 ALU的DSP時(shí),設計工程師始終應把握的最終目標是高效的運算吞吐量,具有多個(gè)ALU的DSP也許是最好的解決方案。

2.2 性能與功耗

頂級性能的DSP采用并行結構來(lái)獲得最佳的性能空間。有個(gè)著(zhù)名的平衡型并行結構StarCore SC140就采用了指令級并行結構,它具有4個(gè)并行ALU以及一個(gè)稱(chēng)為變長(cháng)執行集(VLES)的改進(jìn)型甚長(cháng)指令字模型。VLES的優(yōu)點(diǎn)在于它支持在內存中完成高效的指令調度、執行和打包。它能通過(guò)一個(gè)指令隊列對前端提供反饋,并通過(guò)調度器控制后端,因此除非需要執行計算,VLES處理一般不消耗功率。

在并行VLES結構中,一些特殊指令需要成組以避免空操作(Nop),由于減少了時(shí)鐘周期,處理時(shí)間也相應減少了。比較而言,在甚長(cháng)指令字計算中,所有執行步驟都必須按順序排列,因此在一個(gè)8字節的執行集甚至是1字節數據時(shí),系統就需要7個(gè)占位符(placeholder)或Nop。

由于VLES結構不需要Nop,VLES設計中的復雜性從硬件或編程器轉移到了編譯器。由于每個(gè)周期都充滿(mǎn)了數據,因此每個(gè)周期就具有更高的效率,從而也提高了電源與內存的使用效率。

2.3 電源管理

由于A(yíng)SR系統需要連續處理語(yǔ)音數據,會(huì )使DSP成為消耗電能的主要部件,因此高效利用電源對設備成功走向市場(chǎng)至關(guān)重要。

在高性能DSP中,選擇16位指令集而非32位指令集能提高代碼密度,進(jìn)一步減少對內存、功耗和體積的需求,一部分原因是由于更短的16位指令集可以減少寄存器和數據線(xiàn)數量。例如在A(yíng)SR應用中,存儲的詞匯量可能達到2.5MB(對于1024簇的三音素狀態(tài),5個(gè)合成和39個(gè)參數來(lái)說(shuō),聲學(xué)HMM狀態(tài)模型是400KB;一本有1萬(wàn)個(gè)三態(tài)三音素代碼本是60KB;三音素狀態(tài)轉移概率矩陣是500KB;一個(gè)具有40個(gè)雜亂態(tài)2萬(wàn)字的雙字母組是1.6MB)。如果DSP具有高的代碼密度,能為ASR系統提供固定數量的存儲器,那么就可以獲得更好更大的聲學(xué)和語(yǔ)言模型。

2.4 片上和片外存儲器

對于A(yíng)SR系統中使用的DSP來(lái)說(shuō),有效地利用片上和片外存儲器是另外一個(gè)重要的課題。由于A(yíng)SR系統需要大量的存儲空間用于詞匯與模式識別數據的存儲,一個(gè)靈活的存儲結構在這里將顯得特別重要。例如,一個(gè)具備統一尋址存儲器的DSP能使設計工程師很好地平衡程序和數據,還能平衡系統算法的復雜性與聲學(xué)和語(yǔ)言模型的大小以獲得最優(yōu)化的性能。

例如,如果具有100條命令的識別系統模型只有100kB的片上系統內存,總共內存空間需求是240kB,那么采用二次識別方法能更有效地利用片上快速存儲器。

第一次(原始識別階段)只使用39個(gè)參數中的13個(gè)MFCC,因此模型大小為80kB,可以載入片上內存。原始識別階段的候選命令數量要比原來(lái)的100個(gè)少,比方說(shuō)是33個(gè)命令,但可信度高達99.9%。

第二次(精確識別階段)把33個(gè)候選命令的39個(gè)參數作為模型使用,大小是80kB,因此又可以把該模型裝載入片上內存。這種二次識別方法會(huì )引入一些延時(shí),但延時(shí)非常小,大約只有10ms,說(shuō)話(huà)人一般不會(huì )覺(jué)察到。

統一尋址存儲器能夠支持較大的詞匯庫或命令集,還能支持較大的HMM模型或神經(jīng)網(wǎng)絡(luò )系數,因此能簡(jiǎn)單化實(shí)時(shí)任務(wù)。例如為ASR系統的程序和數據準備100kB的存儲器,設計工程師就能平衡好算法復雜性與詞匯量或命令集大小之間的關(guān)系。如果程序要占50kB,那么數據只能是50kB。如果允許降低識別精度而將程序代碼壓縮到20kB,那么命令集就能用到80kB,也就是增加了詞匯庫容量。

在A(yíng)SR系統中,高度并行化、高代碼密度和有效利用存儲器等優(yōu)點(diǎn)還能使DSP完成語(yǔ)音識別以外的任務(wù)。在大多數情況下,設計工程師可以將部分計算資源分配給語(yǔ)音識別之用,而將剩余資源用來(lái)執行信道處理系統中所需的其它任務(wù)。

3 除了DSP內核以外的其他要求

在選中最優(yōu)化的DSP后,要想獲得高性能的ASR用系統級芯片還需要增加一些功能,例如快速緩存或快速指令/數據存取以及實(shí)時(shí)操作系統(RTOS)才能使ASR系統真正完成實(shí)時(shí)性能。多任務(wù)RTOS能使系統同時(shí)運行多個(gè)應用如雙通道語(yǔ)音識別,因此能極大地提高系統性能。

復雜SoC應用(如信道處理系統)設計工程師能從使用高效的高級語(yǔ)言編譯器的DSP和SoC中獲益,因為這些編譯器允許設計工程師使用C或C++語(yǔ)言進(jìn)行編程。采用增強的片上仿真和調試功能還可以進(jìn)一步縮短設計時(shí)間。對于3G移動(dòng)手機應用中各層次的元器件與系統設計來(lái)說(shuō),除了實(shí)時(shí)性能和簡(jiǎn)化設計流程外,功率管理控制同樣非常重要。在設計SoC時(shí),選擇具有可調功率功能的內核將獲益非淺。例如當移動(dòng)用戶(hù)在說(shuō)話(huà)時(shí),DSP需要全速運行(如300MHz)。當未使用ASR功能時(shí),SoC電源管理電路可以逐步降低到較低的時(shí)鐘速度(如100MHz),從而有效地降低漏電和功耗。

由于A(yíng)SR系統對計算速度的需求會(huì )根據識別特征的差異產(chǎn)生很大變化,例如孤字識別或連續語(yǔ)音識別、詞匯量和跟講者無(wú)關(guān)的語(yǔ)音識別等,因此,能支持ASR功能的信道處理系統的復雜性變化也很大。

SoC非常適合于構造芯片的基礎架構,因此在以客戶(hù)/服務(wù)器系統為中心的設計中是非常理想的選擇,但SoC器件由于功能太強大,因此并不非常適合于用戶(hù)端以終端為中心的設計。然而,隨著(zhù)ASR系統的逐漸成熟以及3G手機支持越來(lái)越復雜的應用和復雜ASR,這類(lèi)功能強大的SoC也能成功地運用到用戶(hù)端。

在SoC上使用多個(gè)DSP能使系統在完成語(yǔ)音識別的同時(shí)更容易地執行其它任務(wù)。例如三個(gè)內核中的一個(gè)可以專(zhuān)門(mén)指定用來(lái)完成多信道的服務(wù)器端ASR,而其它二個(gè)內核用于執行像語(yǔ)音信道和互聯(lián)網(wǎng)數據處理這樣的任務(wù)。將來(lái)如果手機鍵盤(pán)不復存在的話(huà),ASR將成為用戶(hù)與手機之間的唯一接口,到時(shí)這一功能將占用大部分的工作時(shí)間。

采用多個(gè)DSP內核還能提供強大的計算能力,從而使執行非常復雜的ASR任務(wù)成為可能,如電子郵件聽(tīng)寫(xiě)中的連續語(yǔ)音識別、安全交易和VXML中的“口令+講者驗證”等。多個(gè)DSP再加上統一的大型片上存儲器可以極大地縮短跟講者無(wú)關(guān)的訓練過(guò)程,因為在統計型ASR中訓練過(guò)程的計算負載比識別處理過(guò)程的負載重得多。

4 本文小結

盡管3G手機要想贏(yíng)得市場(chǎng),人們對其功能和設計仍將拭目以待,但這些系統需要高性能的信號處理平臺以滿(mǎn)足多媒體任務(wù)需求是不容置疑的,而隨著(zhù)ASR系統的不斷普及,3G手機肯定需要具備運行多任務(wù)能力的多DSP SoC作為解決方案。
本文地址:http://selenalain.com/thread-46853-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页