視頻代碼轉換是指從一種壓縮視頻格式轉換為另一種壓縮視頻格式,通常先要把某種格式解碼為原始視頻幀,然后用新的格式重新編碼。在許多應用中高效的代碼轉換至關(guān)重要。例如,為了支持視頻點(diǎn)播數據流,視頻數據要以某種主流格式存儲起來(lái)以節省空間,但必須支持眾多不同的觀(guān)看設備和解碼器。為了做到這一點(diǎn),需要在數據發(fā)送前以實(shí)時(shí)或者快于實(shí)時(shí)的速度進(jìn)行代碼轉換。在視頻節目制作階段進(jìn)行視頻編輯時(shí),也必須對視頻數據進(jìn)行解碼、修改和重新編碼。在普通家庭,為了能在家用視頻服務(wù)器上使用視頻,視頻數據可能也需要轉換才能適應服務(wù)器支持的格式。支持高清視頻點(diǎn)播要求高性能的代碼轉換。RapidMind公司開(kāi)發(fā)的軟件開(kāi)發(fā)平臺利用統一的并行編程模型充分發(fā)揮各種多內核處理器的性能。通過(guò)在RapidMind平臺上建立代碼轉換器,應用程序如今能運行在多種處理器上,包括CPU、GPU和Cell BE,并且還能通過(guò)擴展適應未來(lái)多內核(和眾內核)處理器環(huán)境。 代碼轉換器自然需要支持各種視頻壓縮格式。然而,許多格式在實(shí)現它們所需的運算類(lèi)型方面有很多相似性。另外,編碼器通常要比解碼器貴得多。一般一種視頻標準僅規定了壓縮數據流中存儲什么類(lèi)型的數據以及解碼器該怎樣譯碼,并不規定編碼器如何從原始輸入數據流中提取需要的信息。 通常一種壓縮視頻格式不僅要求實(shí)現對單幀的壓縮,而且要求使用視頻序列中的相鄰幀實(shí)現對中間幀的預測。為了能從傳輸產(chǎn)生的任何錯誤中恢復數據,并允許用戶(hù)從視頻序列中間位置開(kāi)始解壓縮,有些幀是在不參考其它幀的情況下進(jìn)行壓縮的。 單幀壓縮 單幀壓縮有點(diǎn)類(lèi)似于普通的圖像壓縮,通常包含了到不同基礎幀的轉換,如使用不同頻率和方向的余弦變換(離散余弦變換或DCT),或小波變換。這種轉換通常作用于塊,并且從數學(xué)上可精簡(jiǎn)到塊中像素上的一組點(diǎn)積(雖然一些基本函數允許理論上更快的因數分解)。轉換后的系數再經(jīng)過(guò)量化刪除那些對圖像可視無(wú)用的信息,形成一幅近似的圖像,最后使用編碼器編碼去除數據中任何殘留的冗余性。 上述轉換的目的不僅是通過(guò)將圖像中的能量集中為更小的一組數字而使代碼器變得更有效率,而且允許量化器顯著(zhù)地去除感知上不那么重要的信息。例如,DCT就會(huì )對圖像的高頻和低頻成分進(jìn)行分析。由于人眼對高頻時(shí)的量化誤差不甚敏感,因此這些頻率的量化可以粗放一些。另外,在上述壓縮步驟之前通常先要從亮度中分離出色度(顏色)和將色度欠采樣到較低分辨率,因為人眼對亮度邊緣較敏感,但對色度邊緣不太敏感。 一些較復雜的壓縮格式還支持根據空間相鄰的塊對一些圖像塊作出預測。選擇哪個(gè)塊用于預測極具挑戰性,而且支持解碼器中的必要排序在并行系統中也相當復雜。然而,如果塊的內容能夠被準確預測,那么對該塊壓縮時(shí)只需編碼預測值和實(shí)際值之間的(少量)差異。 如此詳細地介紹單幀圖像壓縮的原因是,實(shí)際上作為編碼過(guò)程的一部分,無(wú)論是塊還是單幀壓縮/解壓縮都有必要。特別是中間幀(數據流中的大部分幀)估計,它是通過(guò)融合和混合數據流前后發(fā)生的幀、然后從輸入數據中減去這個(gè)融合后的幀、最后壓縮差異圖像(一般使用類(lèi)似于單幀編碼器的編碼器)實(shí)現的。對這種融合的估計被稱(chēng)為運動(dòng)估計,是編碼過(guò)程中運算量最大的步驟之一。 然而在解碼器中,原始的源數據幀是沒(méi)有的,只有解壓縮后的幀。因此,這種融合要求圖像能在解碼器之前還原。因此它們不僅必須在編碼器中壓縮,而且需要被解壓縮。這種對前面壓縮的數據進(jìn)行解壓縮的需求將導致數據的依賴(lài)性,并影響到在具有不同存儲器系統的處理器之間如何并行使用和分配編碼器。 視頻序列中的圖像組(GOP)中的一些幀(I,幀內編碼幀)使用單幀壓縮算法進(jìn)行編碼,但基于運動(dòng)估計的幀間預測被用來(lái)改進(jìn)幀內幀間(雙向預測編碼幀B,前向預測編碼幀P)的壓縮。只有預測幀和實(shí)際幀之間的差異值需要被壓縮。由于B幀和P幀是根據I幀的解壓縮版本預測出來(lái)的,因此有必要作為編碼過(guò)程的一部分對I幀進(jìn)行壓縮和解壓縮。 圖1:RapidMind是一個(gè)開(kāi)發(fā)和運行時(shí)間平臺,它支持能充分利用多內核處理器的單線(xiàn)程可管理應用程序。開(kāi)發(fā)人員可以用標準的C++語(yǔ)言編寫(xiě)代碼,RapidMind平臺則可以將這些代碼在多個(gè)內核間“并行利用”。 運動(dòng)估計 運動(dòng)估計是很有價(jià)值的。一般需要發(fā)現將像素從輸入圖像中的一個(gè)位置挎貝到融合后的圖像上的這種融合,以便融合后的圖像與該幀實(shí)際圖像間的差異盡可能小。首先,像素塊之間的相似性指標需要被定義,通常是SSD(差值平方和)或SSA(絕對差值和)。然后使用這種相似性指標測試各個(gè)候選源塊的位置,以確定良好的匹配。 有兩點(diǎn)需要注意。第一,如果有較強的運算能力,那么可以測試較多的候選位置,從而可能找到更好的匹配,并提高壓縮率?梢杂眠\算能力的增強來(lái)降低帶寬要求,反之亦然。其次,相似性指標是非線(xiàn)性的。這意味著(zhù)使用多分辨率等技巧來(lái)加快相似性匹配速度是不合適的。低分辨率時(shí)的最佳匹配不一定是高分辨率時(shí)的最佳匹配。 這里有兩個(gè)基本點(diǎn):數據位置和并行體系。首先,GPU是具有很高性能的處理器,但目前位于PCIExpress卡上,這些卡有自己的存儲器。因此為了壓縮視頻流,數據需要傳送到視頻卡上的存儲器中,然后將壓縮結果傳回來(lái)。這一過(guò)程需要以流的形式完成,而這種流式處理與運算隨時(shí)交疊,因此數據傳送不會(huì )成為瓶頸。RapidMind平臺正常情況下可自動(dòng)管理數據,而且(能在內部硬件API支持的地方)提供深層分析功能來(lái)管理這種重疊式流處理。GPU存儲器架構的其它意義還在于互相依賴(lài)的一系列步驟應盡可能保持在相同的存儲器空間中。 最大程度的加速 通常在考慮一個(gè)應用是否能被加速時(shí),人們首先會(huì )分析應用程序的各個(gè)單元,判斷每個(gè)單元上需花多長(cháng)時(shí)間,并利用阿姆達爾定律估計可能的加速程度。 舉例來(lái)說(shuō),考慮到某個(gè)應用程序在單元A上要花10%的時(shí)間,在單元B上要花75%的時(shí)間,單元C上花5%的時(shí)間,單元D上花10%的時(shí)間。該應用程序的流程是A運行一次,然后B和C輪流多次反復運行(取決于彼此關(guān)系),最后才是運行D。 同時(shí)假設單元A估計能加速1.5倍,B能加速20倍,C能加速2倍,D不能做任何加速。 這樣理論上的最大時(shí)間縮短值是: 0.1/1.5+0.75/20+0.05/2+0.1/1=0.23 相當于加速1/0.23(正好超過(guò)4)倍。值得注意的是,雖然單元B(75%的運行時(shí)間)的加速系數達到了很大的20,但只有使所有加速步驟對總運行時(shí)間的影響比較接近的情況下才能取得最好的效果。 事實(shí)上,如果只是以B為目標,并設法使之無(wú)限加速,但總的性能仍將受限于其余單元。 使用GPU 進(jìn)一步考慮使用GPU。大家可以看到B和C是反復進(jìn)行的。如果只是在GPU上加速B,而讓C留在主機上,那么需要不斷地從主機那兒來(lái)回傳送數據,從而嚴重影響性能。因此,即使單元C的加速幅度很小,但根據阿姆達爾定律,它對總的加速效果影響也很小。事實(shí)上,我們可能也想把C移動(dòng)到GPU上以避免這些傳送。 這正是視頻編碼所面臨的境況。即使運動(dòng)估計是視頻壓縮中最昂貴的成分,我們也不能忽略其它因素,尤其是單幀壓縮和解壓縮,因為運動(dòng)估計的其它階段還需要這些結果。在考慮這些因素后,階段優(yōu)化工作量就需要正比于它對總體性能的影響程度。 RapidMind平臺 RapidMind平臺能夠用來(lái)快速實(shí)現和測試算法,并將算法應用于GPU或實(shí)際上多內核的CPU。如果有大量依附于數據的算法單元,Rapid實(shí)現就相當重要,因為所有單元必須移動(dòng)到加速器的存儲空間,以避免出現上述數據搬移問(wèn)題。然而,根據它們的總體影響,優(yōu)化所有這些單元可能不具成本效益,或沒(méi)有太大作用。優(yōu)化工作容易使代碼復雜化,并且更難維護。 RapidMind通過(guò)公共特性集向所有支持的硬件目標提供可移植性。僅使用這組公共特性也可能獲得優(yōu)異的性能。然而,RapidMind還提供了深層機制來(lái)訪(fǎng)問(wèn)特殊硬件特性,這種深層機制對優(yōu)化可能有用,但也會(huì )影響可移植性。因此推薦的做法是軟件項目首先只用公共特性實(shí)現所有必要的單元,然后(在實(shí)現完整功能后)對單元進(jìn)行剖析以確定瓶頸及最有可能的改進(jìn)之處,最后調整特殊單元,可能的話(huà)調整應保持在內核可移植功能集中。如果有必要進(jìn)行特殊硬件的深層分析,使用RapidMind的提取功能可以隔離它的影響,原始的內核特性參考實(shí)現也可以用于實(shí)現可移植性。 |