用定制DSP設計MPEG-4無(wú)線(xiàn)視頻產(chǎn)品

發(fā)布時(shí)間：2010-10-12 12:30 發(fā)布者：eetech

關(guān)鍵詞： dsp , MPEG , 視頻 , 無(wú)線(xiàn)

MPEG-4是一種新興的視頻標準，其彈性糾錯能力和可支持小屏幕的特性使之在移動(dòng)通信市場(chǎng)上受到廣泛關(guān)注，幾乎所有移動(dòng)電話(huà)生產(chǎn)商和PDA開(kāi)發(fā)商都對其表示出極大的興趣。然而這種視頻標準對處理器的要求卻非常高。在整個(gè)移動(dòng)通信結構中，僅MPEG-4處理器這一部分就會(huì )毫不客氣地吞掉大量的資源。因而要想真正實(shí)現無(wú)線(xiàn)視頻應用這一夢(mèng)想，首先就必須解決MPEG-4信號處理問(wèn)題。

工程師們已經(jīng)嘗試過(guò)采用固定編碼邏輯和通用型DSP來(lái)完成這一龐然大物般的MPEG-4處理，但結果均不理想。固定編碼邏輯雖然能夠提供較高的性能，但設計和實(shí)現所需的時(shí)間太長(cháng)，而且得到的設計結果不夠靈活，無(wú)法滿(mǎn)足將來(lái)修改的需要。而通用可編程數字信號處理器(DSP)盡管很適合有限沖擊響應(FIR)濾波和其他一些MAC密集的應用，但對于可變長(cháng)度解碼和離散余弦變換等視頻編解碼中固有的算法卻又無(wú)法有效實(shí)現。

那么怎樣才能設計出滿(mǎn)足要求的處理器呢？本文給出了一種方案：采用定制DSP。工程師們可以利用數字DSP IP核并結合一些新的設計方法，設計一種用戶(hù)化的引擎來(lái)完成所需的MPEG-4功能，從而將無(wú)線(xiàn)視頻應用變?yōu)楝F實(shí)。

本方案的第一步，要開(kāi)發(fā)一種應用軟件來(lái)執行MPEG-4視頻標準，然后對該軟件進(jìn)行優(yōu)化和校驗，以保證其滿(mǎn)足MPEG-4視頻標準的要求。第二步，在這個(gè)應用軟件得到優(yōu)化之后，將其編譯至一個(gè)通用型DSP引擎，仔細分析它在應用中可能出現的性能瓶頸。通過(guò)分析，構造一組由設計者定義的計算單元(DDCU)，有針對性地解決應用中的計算瓶頸問(wèn)題。這組DDCU構成一個(gè)庫，利用這個(gè)庫，設計者可以為不同的產(chǎn)品和產(chǎn)品域創(chuàng )建不同的用戶(hù)應用DSP引擎。例如，在一個(gè)支持QCIF(四分之一普通接口格式)和CIF幀格式的PDA中，可以通過(guò)簡(jiǎn)單等級(SP)和高級簡(jiǎn)單等級(ASP)創(chuàng )建一個(gè)簡(jiǎn)單的定制 DSP來(lái)實(shí)現低速編解碼。

此外，通過(guò)恰當的設計規劃，設計者還可以使引擎的性能剛好滿(mǎn)足目標產(chǎn)品的要求——例如針對CIF格式設計出幀處理速度為每秒15幀的 DSP引擎——這樣就能降低對時(shí)鐘速率、指令長(cháng)度和存儲映像的要求，從而實(shí)現低功率和低成本。但是若想支持更大尺寸的幀并支持高級分析，就需要創(chuàng )建一種性能更高的DSP引擎。這種DSP引擎內部并行度更高，可用資源量更大，因而運行速度也更快。

最后一步，將定制DSP融入多處理器內核，通過(guò)兩者的共同作用來(lái)達到進(jìn)一步規劃高端應用性能的目的。在當今的通信行業(yè)中，產(chǎn)品推向市場(chǎng)的速度越來(lái)越快，以上談到的方法和工具恰好為快速分析和創(chuàng )建定制DSP從而加快產(chǎn)品設計提供了一種較好的方案。

下面讓我們看看定制DSP是如何創(chuàng )建的。

可定制的VLIW(超長(cháng)指令字)引擎

引擎指一組資源的集合，通過(guò)對這種資源編程，可以使之以某種給定的順序實(shí)現一系列操作。通常，設計中最主要的處理工作是由數據通道資源-即我們所說(shuō)的計算單元-來(lái)完成的。

計算單元可以對其輸入進(jìn)行一系列操作，并輸出一個(gè)或多個(gè)計算結果。RISC(精簡(jiǎn)指令集計算機)和DSP是兩種由計算單元組成的處理器。其中，RISC處理器每次(每時(shí)鐘周期)只能執行一個(gè)操作，而典型的多媒體和DSP應用卻可以在每個(gè)時(shí)鐘周期內執行多項操作。這是因為大部分這種高級DSP 的結構都具有某種形式的指令級并行處理能力。

本文給出的方案中，針對MPEG-4應用而設計的DSP引擎能夠達到固定編碼邏輯和通用型DSP都無(wú)法達到的性能。該引擎之所以如此成功，主要原因之一就是采用了VLIW結構。VLIW是一種非常適合多媒體應用的結構。它支持指令級并行性，這就使得采用它的DSP引擎可以在單時(shí)鐘周期內執行多項操作。不但如此，它還支持應用程序編譯過(guò)程中的并行性，這又避免了為龐大的視頻處理耗費過(guò)長(cháng)的運行時(shí)間或增加過(guò)大的晶片體積。與VLIW類(lèi)似的超標量體系結構也具備這一特性。

用戶(hù)應用引擎的一種專(zhuān)用解決方案

下面來(lái)討論一個(gè)現實(shí)生活中的解決方案，該方案采用了三級不同的可定制性來(lái)構造專(zhuān)門(mén)的用戶(hù)應用引擎。

第一級可定制性在處理器的標準資源處提供，這些標準資源包括算術(shù)邏輯單元(ALU)以及乘法器和累加器(MAC)等。對某些應用而言MAC 用得較多，如基于快速傅立葉變換(FFT)的算法；還有一些則傾向于更多地采用ALU。這就提出了一個(gè)要求，對于不同的應用，處理器應有不同的資源組合，而不是將所有的應用都分配到同樣的一組固定的資源中去。

例如，可以將一個(gè)MAC密集的算法分配到一個(gè)包含4 MAC、2 ALU、1 SHIFT的處理器中去，而將一個(gè)ALU密集的應用分配給一個(gè)包含3 ALU、1 MAC、1 SHIFT的引擎。這種處理器資源分配的可定制性對許多普通應用而言已經(jīng)綽綽有余，但對大多數與視頻相關(guān)的應用來(lái)說(shuō)還遠遠不夠，它們的要求更高，并且需要更多的運算單元來(lái)加快運行速度。

第二級可定制性允許向處理器添加DDCU協(xié)處理器。設計者先要對所需完成的應用有一個(gè)大致的認識，接著(zhù)對該應用進(jìn)行分析，將其中的一些專(zhuān)用函數分離出來(lái)，然后在硬件上專(zhuān)門(mén)針對這些函數進(jìn)行加速處理，即添加DDCU。此外，設計者還可以分析一下，采用工具組添加DDCU來(lái)加快運行速度會(huì )對處理器的性能造成怎樣的潛在影響，以及在諸如此類(lèi)的一些其他假設下會(huì )出現什么情況。

DDCU是一種適用于專(zhuān)用算法的計算單元。一旦設計者確認了哪個(gè)算法需要用DDCU進(jìn)行硬件加速之后，就可以寫(xiě)出實(shí)現該DDCU的RTL 代碼，并將其加入用戶(hù)應用引擎。例如，在通用DSP中加入濾波DDCU，那么若用該DSP實(shí)現一個(gè)需要濾波的應用，其表現出來(lái)的性能就會(huì )有所增強。

除此以外，設計者還要在增加并行性所帶來(lái)的性能優(yōu)化和該并行性對指令的影響之間尋找最佳平衡。為解決這一問(wèn)題，可以在VLIW指令中定義分段的數目(從而定義最大并行度)，并為每一段分別分配CU和DDCU(見(jiàn)圖1)。

最后一級可定制性表現在處理器資源的選擇上。設計者可以自己決定需要多大的數據存儲器，以及需要多少個(gè)數據寄存器和地址寄存器。而且，根據具體應用所提出的數據要求，設計者還可以增加存儲器接口，以便提供并行數據訪(fǎng)問(wèn)。這些共享的存儲器接口又可以用來(lái)連接多個(gè)處理器引擎，這就為處理器資源提供了一定的可伸縮性。

采用DSP引擎的一個(gè)關(guān)鍵的好處是可以加快產(chǎn)品投入市場(chǎng)的時(shí)間。但要達到這個(gè)目的，還要先定義一系列與DSP引擎協(xié)作的DDCU協(xié)處理器。在設計MPEG-4引擎的時(shí)候，首先要對其各個(gè)方面進(jìn)行全面分析，確定需要采用哪些DDCU。然后用這些DDCU構建起一個(gè)大致MPEG-4引擎，分析其性能瓶頸，并針對性能瓶頸再定義一些DDCU加入引擎中，從而提高該引擎的性能，沖破其瓶頸。為了更方便地完成以上工作，人們開(kāi)發(fā)出一個(gè)專(zhuān)門(mén)用于MPEG -4應用的DDCU庫。以下討論了該庫中的某些專(zhuān)用DDCU。

1. 比特流/可變長(cháng)度解碼DDCU

在視頻編碼中常常會(huì )遇到可變長(cháng)度解碼。比特流/可變長(cháng)度解碼DDCU 可以加快從輸入比特流中取出可變長(cháng)度字段的速度，這是一種基本操作。如果用軟件來(lái)實(shí)現這種比特流管理，會(huì )消耗大量的時(shí)鐘周期來(lái)處理指針的移位、屏蔽和管理，而采用比特流/可變長(cháng)度解碼DDCU則可以在一個(gè)簡(jiǎn)單的硬件單元里快速完成同樣的功能。

在比特流/可變長(cháng)度解碼DDCU中，由用戶(hù)設計的指令組集中完成普通比特的提取和插入操作。這種DDCU不但能加快處理速度，提高整個(gè)視頻引擎的性能，還可以解放處理器中的其他資源，使之得以用于周?chē)钠渌幚磉^(guò)程。因此，采用這種DDCU不但可以減小指令長(cháng)度，同時(shí)還增強了系統性能。實(shí)際上，在DSP中加入這種計算單元會(huì )使可變長(cháng)度解碼的速度增快23.2%。

2. 量化/反量化DDCU

量化和反量化是視頻編解碼中的兩種基本操作，其計算量占整個(gè)視頻編解碼計算量的10%甚至更多。量化/反量化DDCU允許在單周期內處理多像素，其內部操作可以滿(mǎn)足多種MPEG-4等級的量化需求。在比特流/可變長(cháng)度解碼DDCU中，將可變長(cháng)度解碼模塊的計算需求降低15.4%時(shí)，指令存儲空間也會(huì )減小，這一特性同樣適用于量化、反量化DDCU。

3. 半像素內插/運動(dòng)補償DDCU

這種運算單元用于加速半像素內插操作，該操作所需計算量相當大。在解碼器中，內插/補償操作所消耗的時(shí)鐘周期約為總時(shí)鐘周期的40％。該單元中所涉及的運算其實(shí)很簡(jiǎn)單，只需要面積很小的硅片就能完成，因此很容易移入DDCU中去。就算是邊緣擴展這樣的涉及大量計算的操作，只要不需要進(jìn)行優(yōu)化處理，也還是可以較好地移入硬件中。

不論采用哪種內插類(lèi)型，內插/運動(dòng)補償DDCU中的指令組都允許每周期內插4個(gè)像素，這一特性也減少了需要執行的指令數。通過(guò)使用內插/運動(dòng)補償DDCU，半像素內插/運動(dòng)補償操作的速度可以增快74.6%。

4. DCT/IDCT DDCU

IDCT(反離散余弦變換)和DCT(離散余弦變換)都是視頻編碼中固有的運算。眾所周知，這兩種運算需要占用大量的時(shí)鐘周期，并要求在編寫(xiě)其匯編代碼時(shí)非常小心。本文談到的這種專(zhuān)用DCT/IDCT DDCU單元(依據IEEE 1180－1990規范)可模仿DCT/IDCT中的“蝶形”運算。通過(guò)使用這種計算單元可以大大提高視頻設計的性能和生產(chǎn)力，從而使開(kāi)發(fā)人員能夠集中精力開(kāi)發(fā)視頻應用中的其他方面，以達到使其產(chǎn)品區別于其他同類(lèi)產(chǎn)品的目的。

5. 運動(dòng)估計(MEMC)DDCU

MEMC單元用于幫助完成運動(dòng)估計這一計算量最大的操作。無(wú)線(xiàn)視頻應用中，在每個(gè)運動(dòng)矢量的位置上都必須進(jìn)行誤差測量。MEMC DDCU可以完成兩種最常見(jiàn)的誤差測量計算：絕對誤差和(SAD)測量和平方誤差和(SSE)測量。DSP平臺中若加入該運算單元，那么每周期誤差測量時(shí)所比較和累加的像素位置就可以多達4個(gè)。

6. 四分之一像素運動(dòng)補償單元

基本來(lái)說(shuō)，該單元所提供的功能是對半像素內插單元的一種必要的擴展。四分之一像素算法比半像素算法稍微復雜一些，因為它首先采用了一個(gè)2維FIR 濾波器來(lái)獲取半像素值，然后才使用線(xiàn)性插值法來(lái)計算四分之一像素值。這個(gè)2維濾波器直接并入半像素內插單元，致使半像素內插單元的硅片面積稍有增大，但這種方式仍然保持了較高的像素處理速度，這一速度遠遠超過(guò)只采用Simple Profile 設計的DSP引擎。

7. 全局運動(dòng)補償單元

在視頻應用中有一種變形函數(warping function)專(zhuān)門(mén)用來(lái)描述當前視頻對像相對于參考視頻對像的變化。全局運動(dòng)補償(GMC)單元就是為加速這種函數的運算而設計的。該單元最大可支持 3點(diǎn)變形(即參考VOP的仿射變換)。一旦從比特流中分析出變形點(diǎn)的個(gè)數后，就用這個(gè)數值來(lái)初始化GMC。GMC計算變形等式的速度遠遠快于純軟件實(shí)現方式的計算速度。

8. 語(yǔ)境自適應算法編/解碼DDCU

構成語(yǔ)境需要進(jìn)行逐位操作，而逐位操作只能在標準的32位DSP中實(shí)現。為了打破這一限制，語(yǔ)境自適應算法編/解碼DDCU采用硬件方法形成語(yǔ)境值。該DDCU內部有一個(gè)查找表，用于存放所有可能的語(yǔ)境值，以便快速查找判斷。語(yǔ)境自適應編解碼運算單元支持以1b/周期的速度進(jìn)行算法編、解碼。

怎樣創(chuàng )建一個(gè)工作平臺

設計者定義了需要用到的DDCU之后，就可以用它們來(lái)創(chuàng )建滿(mǎn)足其特殊要求的用戶(hù)應用引擎，并由此構建起工作平臺，從而設計出具有MPEG-4視頻功能的產(chǎn)品。

為清楚起見(jiàn)，讓我們來(lái)看一個(gè)例子，例中的引擎是專(zhuān)門(mén)針對可傳送MPEG-4信息的3G移動(dòng)電話(huà)設計的。這樣的引擎要想在3G移動(dòng)電話(huà)上實(shí)現預期的視頻功能，就必須以低于20MHz的速度處理第1級和第2級MPEG-4簡(jiǎn)單視覺(jué)等級，這樣才能為諸如音頻和語(yǔ)音處理等其他DSP功能留有一定的可規劃帶寬。

在開(kāi)始設計用戶(hù)DSP時(shí)，分配1 ALU、1 SHIFT和1MAC單元作為起始基準平臺是比較合理的。要想增加并行性，只需將這些計算單元再分配給兩個(gè)單獨的指令段：ALU和SHIFT分配給同一段， MAC分配給另一段。如果該視頻應用采用的是幀處理速度為每秒15幀的CIF格式，那么要在這個(gè)用戶(hù)平臺上編譯視頻應用程序就需要40MHz的帶寬，若采用QCIF格式則只需10MHz帶寬。盡管這樣的帶寬已經(jīng)很具競爭力了，但仍然不能滿(mǎn)足前面提到的具有MPEG-4功能的3G移動(dòng)電話(huà)的需要。

降低帶寬要求的解決方案

首先，要分析在用戶(hù)平臺中加入不同的計算單元對其性能的影響(這些計算單元全部來(lái)自MPEG-4 DDCU庫)。也就是說(shuō)，我們定義了一系列的引擎，以此分析不同的計算單元混用方式所造成的性能影響。分析表明，應該保留兩段型引擎定義，因為這可以限制指令寬度，使之不至于過(guò)寬。

然后再定義一些新的引擎，經(jīng)過(guò)編譯，分析其結果。新引擎定義分析的整個(gè)過(guò)程用了1或2個(gè)小時(shí)。由于DDCU庫是提前創(chuàng )建好的，因此許多引擎可以在一天時(shí)間內就分析完。接著(zhù)從這些引擎中選出最能滿(mǎn)足目標產(chǎn)品要求的，用來(lái)構建工作平臺。

這樣得到的工作平臺與基準平臺相比，增加了一個(gè)ALU和四個(gè)MPEG-4 DDCU：比特流DDCU、量化/反量化DDCU、半像素DDCU和DCT/IDCT DDCU(見(jiàn)圖2)。在起始平臺的基礎上添加這些運算單元，目的就是在不增大指令存儲或數據存儲的前提下，盡可能降低對時(shí)鐘速率(MHz)的要求。完成這些操作之后，我們得到了這樣一個(gè)用戶(hù)應用引擎，該引擎可以用帶寬只有18MHz的DSP完成每秒15幀的CIF格式圖像的解碼，同時(shí)還能滿(mǎn)足這種3G無(wú)線(xiàn)視頻應用的其他關(guān)鍵要求(低功率、小晶片尺寸以及低時(shí)鐘速率)。

從圖3中可以看出DDCU對加快整個(gè)應用運行速度的作用。圖中第一條表示在標準CU構成的基準平臺上，整個(gè)運算時(shí)間在IDCT、運動(dòng)補償(MC)以及可變長(cháng)度編碼和反量化(VLD/DQnt)這幾種DDCU之間的分布情況。

可以看出，在這幾種DDCU中，MC部分占用時(shí)鐘周期最多。因此我們在工作平臺上添加了一個(gè)DDCU來(lái)加速半像素內插操作，提高M(jìn)C部分的速度。一旦MC部分所占用的時(shí)鐘周期數大幅降低，VLD/DQnt馬上就上升成為了限制整個(gè)應用性能的最主要因素。針對這一情況，再添加一個(gè)比特流 DDCU和一個(gè)量化/反量化DDCU，又進(jìn)一步提高了性能。這樣，最初的基準平臺已經(jīng)經(jīng)過(guò)了兩次組合。此時(shí)，再將IDCT DDCU加入其中，整個(gè)應用的性能就得到了更大的提高。圖3中的最后一條給出了三次組合后整個(gè)應用需要耗費的時(shí)鐘周期。

上面介紹的只是一個(gè)典型案例。一般而言，在無(wú)線(xiàn)視頻應用的開(kāi)發(fā)中，按照以上這幾步進(jìn)行操作，我們就可以快速地構造一個(gè)優(yōu)化的引擎，為移動(dòng)電話(huà)或PDA設備開(kāi)發(fā)出收發(fā)MPEG-4視頻信息的功能。更妙的是，在構造起這個(gè)引擎的同時(shí)還可以解放一部分處理器資源，使之有余力去支持其他的一些新興功能，比如MP3音頻、網(wǎng)絡(luò )瀏覽，甚至更多。

本文地址：http://selenalain.com/thread-31763-1-1.html 【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布，目的在于傳遞和分享信息，并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問(wèn)題，我們將根據著(zhù)作權人的要求，第一時(shí)間更正或刪除。

相關(guān)文章

網(wǎng)友評論

貿澤電子有獎問(wèn)答視頻，答對領(lǐng)10元微信紅包

廠(chǎng)商推薦

相關(guān)在線(xiàn)工具

FM及電視頻道頻率轉換器

相關(guān)視頻

關(guān)于我們 - 服務(wù)條款 - 使用指南 - 站點(diǎn)地圖 - 友情鏈接 - 聯(lián)系我們
電子工程網(wǎng) © 版權所有京ICP備16069177號 | 京公網(wǎng)安備11010502021702

快速回復 返回頂部 返回列表

午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页