基于FPGA的機載視頻圖形顯示系統架構設計與優(yōu)化

發(fā)布時(shí)間:2014-12-17 15:42    發(fā)布者:designapp

        隨著(zhù)航空電子技術(shù)的不斷發(fā)展,現代機載視頻圖形顯示系統對于實(shí)時(shí)性等性能的要求日益提高。常見(jiàn)的系統架構主要分為三種:
(1)基于GSP+VRAM+ASIC的架構,優(yōu)點(diǎn)是圖形ASIC能夠有效提高圖形顯示質(zhì)量和速度,缺點(diǎn)是國內復雜ASIC設計成本極高以及工藝還不成熟。
(2)基于DSP+FPGA的架構,優(yōu)點(diǎn)是,充分發(fā)揮DSP對算法分析處理和FPGA對數據流并行執行的獨特優(yōu)勢,提高圖形處理的性能;缺點(diǎn)是,上層CPU端將OpenGL繪圖函數封裝后發(fā)給DSP,DSP拆分后再調用FPGA,系統的集成度不高,接口設計復雜。
(3)基于FPGA的SOPC架構,優(yōu)點(diǎn)是,集成度非常高;缺點(diǎn)是邏輯與CPU整合到一起,不利于開(kāi)發(fā)。
經(jīng)過(guò)對比,機載視頻圖形顯示系統的架構設計具有優(yōu)化空間,值得進(jìn)一步的深入研究,從而設計出實(shí)時(shí)性更高的方案。
本文設計一種基于FPGA的圖形生成與視頻處理系統,能夠實(shí)現2D圖形和字符的繪制,構成各種飛行參數畫(huà)面,同時(shí)疊加外景視頻圖像。在保證顯示質(zhì)量的同時(shí),對其進(jìn)行優(yōu)化,進(jìn)一步提高實(shí)時(shí)性、減少內部BRAM的使用、降低DDR3的吞吐量。
1 總體架構設計
本系統總體設計方案如圖 1所示。以Xilinx的Kintex-7 FPGA為核心,構建出一個(gè)實(shí)時(shí)性高的機載視頻圖形顯示系統。上層CPU接收來(lái)自飛控、導航等系統的圖形和視頻控制命令,對數據進(jìn)行格式化和預處理后,通過(guò)PCIe接口傳送給FPGA。本文主要是進(jìn)行FPGA內部邏輯模塊的設計和優(yōu)化。


圖 1機載顯示系統總體設計框圖

2 機載顯示系統架構設計
機載顯示系統設計主要包括2D繪圖、視頻處理和疊加輸出。2D繪圖功能包括直線(xiàn)、圓、字符等的快速生成。視頻處理功能包括輸入視頻選擇、視頻縮放、旋轉、翻轉等處理。疊加輸出功能,將視頻作為背景與圖形疊加,送到兩路DVI輸出,一路經(jīng)過(guò)預畸變校正后輸出到平顯上,另一路直接輸出來(lái)進(jìn)行地面記錄。
為了滿(mǎn)足上述功能,FPGA邏輯設計的整體流程圖如圖 2所示。


圖 2 FPGA邏輯設計的整體流程圖





       
2.1 實(shí)時(shí)性分析
視頻處理既要實(shí)現單純的外視頻處理,同時(shí)能夠實(shí)現疊加后視頻處理。以旋轉處理為例,若在單純外視頻旋轉處理后,與圖形疊加,再進(jìn)行疊加后旋轉處理,延遲非常大。因此為了提高實(shí)時(shí)性,考慮將圖形整體和外視頻分別進(jìn)行旋轉處理后,再相互疊加。整個(gè)流程中,幀速率提升模塊延遲最大。
2.1.1 幀速率提升算法
幀速率提升指在原有的圖像幀之間插值出新的圖像幀。常見(jiàn)的幀速率提升算法主要包括幀復制法、幀平均法和運動(dòng)補償法。綜合考慮顯示效果和實(shí)時(shí)性要求,最終選擇幀復制法。幀復制法易于實(shí)現、計算量低。其表達式為:



此處輸入PAL視頻幀速率為25幀/秒,輸出DVI視頻幀速率為60幀/秒,即在0.2s內將5幀圖像插值到12幀。如圖 3所示,DDR3中開(kāi)辟5幀存儲空間用于存放25Hz的原始圖像,在0.2 內輸入5幀原始圖像,輸出12幀圖像。延遲為PAL的1.5~2.6幀,最大延遲為

。


圖 3幀速率提升示意圖

2.2 BRAM資源占用
本文設計的機載顯示系統利用一片DDR3作為外部存儲器,所有圖形和視頻數據都需要緩存到DDR3中。為了解決數據存儲沖突,需要將數據先緩存到內部BRAM中。XC7k410T共有795個(gè)36Kb的BRAM。整個(gè)流程中,BRAM資源占用最大的是圖形整體旋轉和視頻旋轉模塊。
2.2.1 視頻旋轉算法



反向旋轉映射優(yōu)點(diǎn)是,旋轉后坐標反向旋轉,除了超出原始坐標范圍的,在旋轉前坐標中都能對應到浮點(diǎn)坐標,并可以用該坐標鄰域的像素點(diǎn)來(lái)唯一確定該坐標的像素值,不會(huì )出現“空洞”現象。





圖4視頻旋轉算法示意圖


2.3 DDR3吞吐量分析
本系統處理的數據量大,FPGA內部的存儲資源無(wú)法滿(mǎn)足數據存儲要求,需要配置系統外部存儲器DDR3。從圖 2可以看出,整個(gè)系統流程最多經(jīng)過(guò)DDR3共9次,下面依次介紹每次讀寫(xiě)DDR3的必要性和數據量。
① 圖形及字符生成模塊讀寫(xiě)數據,由于圖形及字符生成時(shí),沒(méi)有嚴格按照屏幕自上而下、自左而右的順序,所以每一幀圖形都需要存入到DDR3中,并等待一幀處理完再進(jìn)行整體的其他處理。由于像素點(diǎn)操作會(huì )涉及到讀取背景值,所以是雙向的?紤]吞吐量最大的情況,即圖形生成模塊對每幀圖形的一半像素點(diǎn)都進(jìn)行一次讀寫(xiě)操作,則圖形生成模塊讀寫(xiě)數據量為




本文采用DDR3作為系統外部存儲器,其型號為W3H128M72E,數據寬度為72比特(64比特為數據位,8比特為校正位),采用的時(shí)鐘為400MHz,由于DDR3在上升沿和下降沿都進(jìn)行數據的讀寫(xiě)操作,等效于其內部讀寫(xiě)時(shí)鐘為800MHz,即數據帶寬為6400MB/s(800MHz*64bit),滿(mǎn)足本文設計系統的數據吞吐量要求。



       
3 機載顯示系統架構優(yōu)化
設計的機載顯示系統架構能夠滿(mǎn)足性能要求,但是還需要進(jìn)一步優(yōu)化。如圖 5所示,改變不同模塊之間的順序來(lái)優(yōu)化設計,同時(shí)改進(jìn)算法。具體改變如下:
① 圖形整體相對于屏幕的縮放和旋轉功能在CPU端發(fā)送命令前實(shí)現,因為CPU端旋轉和縮放是針對頂點(diǎn)進(jìn)行的,方便快速,同時(shí)減少了FPGA的BRAM資源占用,減少了進(jìn)出DDR3的次數;
② 改進(jìn)幀速率提升算法,進(jìn)一步減少延遲,提高實(shí)時(shí)性;
③ 改進(jìn)視頻旋轉算法,進(jìn)一步降低緩存區的大小,減少BRAM的占用率;
④ 幀速率提升和平移、翻轉、鏡像都需要通過(guò)讀寫(xiě)DDR3來(lái)完成,將兩者合并,同時(shí)完成,減少進(jìn)出DDR3的次數。


圖 5 FPGA邏輯優(yōu)化的整體流程圖


3.1 實(shí)時(shí)性分析
實(shí)時(shí)性是機載顯示系統重要的衡量標準之一,為了確保飛機運行安全,必須確保視頻處理的各個(gè)模塊都有較高的實(shí)時(shí)性。視頻采集、視頻縮放、視頻校正、視頻輸出延遲都是幾行,延遲時(shí)間在 以?xún)。幀速率提升模塊的延遲遠大于其他各個(gè)模塊延遲之和,需要進(jìn)一步改進(jìn),在保證顯示質(zhì)量的同時(shí),進(jìn)一步降低延遲時(shí)間。
3.1.1 幀速率提升算法優(yōu)化
改進(jìn)的幀速率提升算法仍使用幀復制法。在DDR3中開(kāi)辟4個(gè)存儲空間做切換用于存放幀速率為25Hz、場(chǎng)速率為50Hz的PAL圖像。有4個(gè)場(chǎng)緩存區,當接收當前幀的奇場(chǎng)后與前一幀的偶場(chǎng)結合成一幀數據輸出。
幀速率改進(jìn)算法示意圖如圖 6所示。A場(chǎng)正好寫(xiě)完,B場(chǎng)正好讀完,下一幀讀取A場(chǎng)數據,這樣延遲為PAL的1場(chǎng)(半幀);A場(chǎng)正好還差1行寫(xiě)完,B場(chǎng)已讀完,下一幀繼續讀B場(chǎng),這樣延遲為PAL的1+(25/60)=1.42場(chǎng)。延遲為PAL的1~1.42場(chǎng)。最大延遲為

。



圖 6 幀速率改進(jìn)算法示意圖


3.2 BRAM資源占用
原設計的機載顯示系統架構使用反向映射的方法實(shí)現旋轉算法,每一行旋轉后數據反向旋轉時(shí)需要緩存334行視頻旋轉前數據,即需要279個(gè)36Kb的BRAM。相對于其它模塊緩存幾行相比,占用了大量的BRAM空間,因此需要改進(jìn)。
3.2.1 視頻旋轉算法優(yōu)化
視頻旋轉提出了一種改進(jìn)的旋轉映射法,降低緩存空間。示意圖如圖 7所示。對以行掃描的方式獲取的視頻圖像,緩存兩行就能開(kāi)始旋轉處理,先進(jìn)行正向映射,根據當前兩行對應的旋轉后浮點(diǎn)坐標,找到兩行內的整點(diǎn)坐標,再對其進(jìn)行反向映射,利用當前兩行來(lái)得到旋轉后整點(diǎn)坐標的像素值。


圖 7 視頻旋轉改進(jìn)算法示意圖


該算法涉及原始圖像中的2*2大小鄰域,為了提高該模塊的處理速度,設計了一組由三個(gè)雙端口塊存儲器BRAM組成的原始圖像數據緩存器。每個(gè)BRAM用來(lái)存儲1行原始圖像的數據,3個(gè)BRAM中存儲的原始圖像數據包括當前旋轉計算涉及的兩行原始圖像數據以及下一行旋轉計算涉及的一行原始圖像數據。因此,需要緩存3行,使用3個(gè)36Kb的BRAM。
3.3 DDR3吞吐量分析
從圖 5可以看出,優(yōu)化后的系統流程最多經(jīng)過(guò)DDR3共5次,下面依次介紹每次讀寫(xiě)DDR3的必要性和數據量。
① 圖形及字符生成模塊讀寫(xiě)數據,此與原模塊相同,則圖形生成模塊讀寫(xiě)數據量為



② 圖形輸出模塊讀數據及清屏操作寫(xiě)數據,由于視頻輸出模塊是對整個(gè)畫(huà)面的處理,所以需要從DDR3中讀取出來(lái),而由于圖形及字符不是對每個(gè)像素點(diǎn)都進(jìn)行操作的,所以取出后,需要進(jìn)行清屏操作。則讀寫(xiě)數據量為474.6 MB/s 。
③ 視頻旋轉寫(xiě)數據,旋轉后的數據沒(méi)有嚴格按照屏幕自上而下的順序,必須將數據存儲到DDR3中進(jìn)行變換操作,讀寫(xiě)數據量為



④ 視頻輸出模塊讀數據,從DDR3中取出進(jìn)行視頻輸出操作,取出的同時(shí)還能進(jìn)行一些坐標變換操作,如平移、翻轉、鏡像等,讀寫(xiě)數據量為



⑤ 預畸變參數讀數據,用64位來(lái)存儲每個(gè)像素點(diǎn)對應的四個(gè)預畸變參數,則讀寫(xiě)數據量為




表 2為該系統數據吞吐量的計算表,其吞吐量合計為2135.7MB/s。DDR3的數據帶寬為6400MB/s(800MHz*64bit),滿(mǎn)足本文設計系統的數據吞吐量要求。

表 2優(yōu)化后系統數據吞吐量計算表




結論
本文設計一種基于FPGA的機載顯示系統架構,能夠實(shí)現2D圖形繪制,構成各種飛行參數畫(huà)面,同時(shí)疊加外景視頻圖像。實(shí)時(shí)性方面,幀速率提升模塊延遲最大為 ;BRAM資源占用方面,視頻旋轉算法需要279個(gè)36Kb的BRAM;DDR3吞吐量方面,系統吞吐量為2677.6 MB/s 。
優(yōu)化后的機載顯示系統,實(shí)時(shí)性方面,幀速率提升模塊延遲最大為 ;BRAM資源占用方面,視頻旋轉算法需要3個(gè)36Kb的BRAM;DDR3吞吐量方面,吞吐量為2135.7 MB/s。
經(jīng)過(guò)對比分析,優(yōu)化后的機載顯示系統實(shí)時(shí)性提高、BRAM資源占用減少、吞吐量降低,整體性能得到了提升。


本文地址:http://selenalain.com/thread-135941-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页