隨著(zhù)寬帶Internet的快速發(fā)展和電子設備計算能力的迅速提高,在Internet上實(shí)時(shí)傳輸高清晰度視頻信息成為可能,以Internet為傳輸媒介的視頻會(huì )議、視頻監控、Internet電視臺等視頻應用方興未艾。這些應用的一個(gè)共同特點(diǎn)是,都需要一個(gè)高性能的實(shí)時(shí)視頻編碼器,特別是高分辨率的視頻應用給視頻編碼器的計算能力提出了很高的要求。例如,一幅720×576的4∶2∶2視頻格式的畫(huà)面,包含有3240個(gè)16×16的YUV宏塊(MacroBlock,即MB)。如果該視頻幀按照P幀或者B幀進(jìn)行壓縮,那么每一個(gè)YUV宏塊都要進(jìn)行運動(dòng)估計、運動(dòng)補償、DCT(Discrete Cosine Transform)/反DCT變換、量化/反量化和VLC(Variable Length Coding)等環(huán)節的運算。如果進(jìn)行實(shí)時(shí)壓縮(每秒鐘壓縮25幀)的話(huà),大致需要316~5GIPS(Instruction persecond)的計算能力。 目前,單一的CPU/DSP一般還不具備這樣的計算能力。為了解決高清晰畫(huà)面的實(shí)時(shí)視頻壓縮問(wèn)題,本文提出了DSP和FPGA(Field Pro-grammable Gate Array)協(xié)同設計方案。使用FPGA完成視頻采集、YUV(視頻亮度Y、色度分量 UV)分離、數據I/O(Input/Output)等所有周邊功能,使用高性能的DSP進(jìn)行視頻壓縮編碼,因而在視頻編碼器內DSP和FPGA能夠進(jìn)行流水操作,有效地提高了編碼器的性能。 為了降低算法的計算復雜度,本文提出了基于宏塊空間復雜度的宏塊編碼類(lèi)型判別算法(MTJBSC)。在標準MPEG24視頻運動(dòng)估計算法中,判別宏塊的編碼類(lèi)型是通過(guò)計算當前宏塊內像素值方差和參考宏塊與當前宏塊之間的方差來(lái)實(shí)現的,因此計算量很大。MTJBSC算法首先計算出當前宏塊的空間負責度(MBC),然后通過(guò)比較當前宏塊的MBC與SAD(Sum of Absolute Difference)值來(lái)判斷當前宏塊的編碼類(lèi)型,大大降低了算法的計算復雜度。 1 硬件設計方案 基于TI公司的圖像開(kāi)發(fā)工具包(Imaging Developer Kit,即IDK)[2]架構,設計了視頻編碼器的硬件平臺。從整體上來(lái)講,視頻編碼器的硬件實(shí)現由DSP和FPGA兩個(gè)模塊組成,其邏輯框圖如圖1所示。由于視頻壓縮編碼計算量很大,為了盡可能提高視頻壓縮幀率,由DSP專(zhuān)門(mén)負責視頻壓縮編碼,而視頻采集、YUV轉換和編碼器I/O接口等其它功能則交由FPGA模塊來(lái)實(shí)現。 如圖1所示,用戶(hù)控制命令(例如視頻壓縮模式)由FPGA模塊首先截獲,然后FPGA模塊向DSP模塊產(chǎn)生外部中斷,DSP在響應中斷時(shí)讀取存儲在FPGA中的用戶(hù)控制命令字,然后DSP解析命令字,并根據用戶(hù)要求的視頻格式、幀圖像分辨率和視頻壓縮碼流速率進(jìn)行視頻壓縮編碼。 模擬視頻信號經(jīng)視頻解碼器轉換為裸視頻數據流,該數據流(或從數字攝像機直接獲得的數據流)經(jīng)FPGA預處理后送入幀存中。DSP讀取幀存中的數據進(jìn)行壓縮編碼,壓縮后的視頻數據送入FIFO中,最后FIFO中的數據通過(guò)串口送給信道編碼器。 FPGA模塊的邏輯框圖見(jiàn)圖2。如圖2所示,視頻解碼器首先將模擬視頻信號量化為復合的YUV數據,然后經(jīng)FPGA進(jìn)行YUV分離(和濾波)后送到幀存(圖1中的SDRAM1)中,C6201使用DMA通道(異步方式)通過(guò)FPGA讀取幀存中的YUV數據進(jìn)行壓縮編碼。幀存(SDRAM1)在刷新(refresh)或缺頁(yè)(pagemiss)時(shí)會(huì )引起DMA讀等待,為了平滑這種等待引起的DMA讀數據的抖動(dòng),設計時(shí)在FPGA的內部實(shí)現了一個(gè)高速FIFO。視頻幀存采用了乒乓結構,將8M字節SDRAM分為兩個(gè)4M字節的地址空間(每一個(gè)地址空間可以容納一幀YUV視頻數據(720×576×115字節)),一個(gè)地址空間用于存儲當前正在采集的視頻數據,另一個(gè)地址空間用于DSP的數據讀取。在壓縮CCIR601格式的視頻圖像(每秒25幀)時(shí),由于DSP的處理速度(大約每秒10幀)慢于視頻采集的速度,所以FPGA模塊在采集完一幀數據進(jìn)入等待狀態(tài),直到DSP壓縮完上一幀視頻數據時(shí),這2個(gè)地址空間才進(jìn)行互換。 DSP模塊接收FPGA模塊送過(guò)來(lái)的YUV視頻數據,然后進(jìn)行視頻壓縮編碼,最后將壓縮的碼流再轉交給FPGA模塊,由FPGA模數據發(fā)送出去。DSP模塊的存儲單元(圖1中的SDRAM2)用來(lái)存放參考幀數據和中間運算結構。MPEG-4壓縮編碼算法指令存放在PROM中,為縮短取指時(shí)間,編碼器在啟動(dòng)時(shí)已將指令從PROM讀到片內存儲器中。MPEG壓縮碼流是變速碼流(VBR),而當該碼流在恒定速率(CBR)的信道上發(fā)送時(shí),需要一個(gè)FIFO緩存來(lái)平滑編碼器輸出碼率的波動(dòng)。 該設計的特點(diǎn)主要表現在以下2個(gè)方面: ①可擴展性好。FPGA模塊除了負責數據I/O功能外,還作為協(xié)處理器使用,可根據需要增加FPGA的門(mén)數來(lái)實(shí)現原來(lái)由DSP完成的功能,例如Huffman編碼、運動(dòng)估計等; ②靈活的視頻壓縮編碼格式控制,編碼器能夠實(shí)時(shí)地根據用戶(hù)的要求進(jìn)行壓縮編碼。 2 視頻壓縮算法優(yōu)化 (1)MPEG-4數據流優(yōu)化設計 實(shí)驗表明,如果代碼和代碼要訪(fǎng)問(wèn)的數據在C6201片內存儲區(PRAM和DRAM),其代碼執行速度要比代碼和數據在片外同步SDRAM中平均快17倍(片內總線(xiàn)寬度為256位,數據訪(fǎng)問(wèn)為1個(gè)CPU周期)。因此,將執行代碼和數據放到片內將大大提高程序的運行速度。 在MPEG-4算法中,由于沒(méi)有考慮存儲器的限制,算法每次讀入一幀YUV數據進(jìn)行壓縮編碼。但對于C6201來(lái)說(shuō),片內只有64K字節DRAM,不可能一次將一幀數據讀到片內存儲器進(jìn)行壓縮。如果將一幀數據一次讀到片外存儲器(SDRAM)中進(jìn)行壓縮,又會(huì )大大降低代碼的執行速度,因此,我們對視頻壓縮算法進(jìn)行了改進(jìn),一次對一個(gè)切片(slice)數據進(jìn)行壓縮編碼,并將壓縮碼流數據直接送入到發(fā)送緩沖區中。 編碼器一次將一個(gè)切片的YUV數據(當前幀)讀入到片內存儲器中,然后根據計算決定切片宏塊的編碼類(lèi)型(幀內/幀間編碼)。如果宏塊進(jìn)行幀內編碼,則YUV數據被分成8×8的像素塊(一個(gè)宏塊包含4個(gè)Y分量像素塊和2個(gè)UV分量像素塊)進(jìn)行DCT變化,以消除圖像空間冗余信息。DCT變化后的系數經(jīng)過(guò)量化后進(jìn)行游程編碼(RunLengthCoding即RLC)和變長(cháng)編碼(VariableLengthCoding,即VLC),變長(cháng)編碼的結果送入到視頻發(fā)送緩沖區中。與此同時(shí),量化后的DCT系數經(jīng)過(guò)反量化(結果放入內存B中)和反DCT過(guò)程形成重建幀,重建幀用作下一幀的參考幀。 如果宏塊進(jìn)行幀間編碼,則以宏塊為單位進(jìn)行運動(dòng)估計,根據運動(dòng)估計的結果建立預測幀。當前幀和預測幀的差值形成了殘差幀(residue frame),殘差幀的編碼過(guò)程與幀內編碼過(guò)程相同。 (2)宏塊編碼類(lèi)型判別算法 在MPEG-4算法中采用了快速運動(dòng)估計算法,但是在進(jìn)行宏塊編碼類(lèi)型判別時(shí)計算量仍然很大。為此,本文提出了基于宏塊空間復雜度的判別算法MTJBSC,進(jìn)一步降低了運動(dòng)估計過(guò)程中的計算量。 在編碼P幀宏塊的時(shí)候,首先要決定宏塊是進(jìn)行幀內編碼還是幀間編碼。在標準MPEG-4算法中是通過(guò)以下方法決定的[5]: 設參考宏塊的像素值(Y分量值,以下同)用P(x,y)表示,當前宏塊的像素值用C(x,y)表示,x,y表示宏塊的縱、橫坐標,M,N表示宏塊的寬和高。當前宏塊像素值的方差用EVAR表示,其值為 參考宏塊和當前宏塊的方差用EVMC表示,其值為 EVMC值越小(比如EVMCEVARandEVMC≥9)then幀內編碼else幀間編碼 顯然,在MPEG-4算法中,為了判斷宏塊的編碼模式進(jìn)行了大量的計算(對于每一個(gè)P幀宏塊都要進(jìn)行上面的計算)。為了減少計算復雜度,本文提出了基于宏塊空間復雜度(EMBC)的宏塊類(lèi)型判斷(MTJBSC)算法,用以判斷P幀宏塊的幀內/幀間編碼模式。 定義宏塊的空間復雜度為水平方向上相鄰像素差值的絕對值之和,即 在基于幀間差原理進(jìn)行視頻壓縮的MPEG標準中,一般都是采用絕對差總合(ESAD)來(lái)進(jìn)行運動(dòng)估計的。在MPEG標準中,宏塊的ESAD值定義為 式中:m,n為該宏塊的運動(dòng)向量。 根據上述定義,MTJBSC算法可簡(jiǎn)單描述為: 如果宏塊的ESAD小于其EMBC,則該P幀宏塊進(jìn)行幀間編碼;否則進(jìn)行幀內編碼。實(shí)驗表明,在壓縮質(zhì)量和壓縮輸出碼率均沒(méi)有大的變動(dòng)的情況下,該算法有效降低了視頻編碼器的計算復雜度,編碼器的壓縮幀率(f/s)得到明顯提高。 3 測試結果 表1為編碼器進(jìn)行裝載測試的測試結果(1幀的平均值)。裝載測試是首先將視頻測試序列裝載到編碼器的SDRAM中,然后進(jìn)行壓縮編碼。使用的視頻序列為標準測試序列mother(CIF格式,彩色,YUV4∶2∶0,5幀),DSP主頻設置為200MHz。 表2為美國TI(TexasInstrument)公司基于DSK6711EVM板開(kāi)發(fā)的H.263視頻編碼器的性能測試數據(裝載測試)[6],DSP主頻為150MHz。TI公司針對DSK6711對H.263做了全面優(yōu)化,算法關(guān)鍵代碼采用了線(xiàn)性匯編語(yǔ)言編寫(xiě)。H.263視頻編碼算法與MPEG視頻編碼算法的壓縮編碼原理、過(guò)程和計算復雜度大致相當,因此二者具有可比性。 從表1和表2可以看出,研制的視頻編碼器平均壓縮幀率為39.2f/s(CIF圖像),而TI公司開(kāi)發(fā)的視頻編碼器平均壓縮幀率為20f/s(CIF圖像),絕對性能提高了96%,考慮到DSP主頻的因素,相對性能仍然提高了47%。 4 結論 采用DSP和FPGA協(xié)同技術(shù)設計實(shí)現了一個(gè)高性能的MPEG24視頻編碼器。使用FPGA完成編碼器I/O功能,使用DSP進(jìn)行視頻壓縮編碼,二者能夠很好地并行工作,系統設計結構簡(jiǎn)捷,硬件工作可靠。同時(shí),針對DSPC6201片內資源特點(diǎn)優(yōu)化了視頻壓縮的數據流模式,采用MTJBSC算法有效地降低了壓縮算法的計算復雜度。測試結果表明,采用MPEG24視頻標準該視頻編碼器每秒能夠每秒壓縮39.2幀CIF圖像。 |