    一、產(chǎn)品概述 設備基于3U VPX的導冷結構,集成FPGA接口預處理卡,GPU板卡、飛騰ARM處理卡,實(shí)現光纖、差分電口或者Camera link的圖像接入,FPGA信號預處理,GPU AI計算,飛騰ARM的采集管理存儲。 二、系統組成 系統組成包括:3U VPX機箱電源、3U VPX背板、 1塊3U VPX V7采集處理板、1塊3U VPX AGX orin GPU計算主板、1塊3U VPX飛騰處理器計算板。    2.1基于XC7V690T的3U VPX信號處理板(274)  本板卡系我司自主研發(fā)的基于3U VPX導冷架構的信號處理板,適用于高速圖像處理等。芯片采用工業(yè)級設計。該處理板包含1片Xilinx公司的Virtex7系列FPGA-XC7V690T-2FFG1761I。板載兩組64位寬DDR3,每組容量4GB,一個(gè)HPC FMC接口。VPX接口連接4組x4 GTH,24組LVDS,一路RS422,一路1000Base-T。板卡的電氣與機械設計依據VPX標準(VITA 46.0),支持導冷,能夠滿(mǎn)足用戶(hù)在特殊環(huán)境下的使用需求。
  板卡功能 | 參數內容 | 主處理器 | Xilinx XC7V690T-2FFG1761I | 板卡標準 | VPX VITA 46.0 | 電氣規范 | PCIe 2.0,3.0 X4 | FMC接口 | FMC ANSI/VITA 57.1 – 2008 ,ASP-134486-01 HPC中LA,HA,HB全部接口和DP0~DP7 8路高速接口 | 板載緩存 | 兩組DDR3,每組512Mx64bit(4GB), MT41K512M8RH-125-IT | 加載Flash | BPI加載模式,BPI Flash 2Gb | VPX接口 | P1: GTX x16, 支持PCIe、SRIO協(xié)議 P2: LVDS x24,一路RS422,一路1000Base-T | 仿真器接口 | 1x 6Pin JTAG接口,間距2.54mm | LED | 兩個(gè),電源狀態(tài)指示燈,FPGA狀態(tài)指示燈(可編程) | 復位方式 | 外復位 | 板卡尺寸 | 100mm x 160mm x20mm | 板卡重量 | (含散熱片) | 板卡供電 | +12V@4A | 板卡功耗 | 48W | 工作溫度 | Industrial -20℃到+70℃ |
光纖收發(fā)子卡、2711子卡、Cameralink子卡   2.2 基于3U VPX的AGX Orin GPU計算主板(735)  Jetson AGX Orin 采用 NVIDIA Ampere 架構 GPU 和 Arm Cortex-A78AE CPU,以及新一代深度學(xué)習和視覺(jué)加速器。高速 IO、204GB/s 的內存帶寬以及 32GB 的 DRAM 能夠饋送多個(gè)并發(fā) AI 應用程序管道。采用 Jetson AGX Orin,您現在可以部署更大型、更復雜的模型,解決自然語(yǔ)言理解、3D 感知和多傳感器融合等問(wèn)題。Jetson Orin算力高達275 TOPS,是上一代多個(gè)并發(fā) AI推理管道性能的8倍,加上支持多個(gè)傳感器高速接口,可為新時(shí)代機器人提供理想的解決方案. GPU | 2048-core NVIDIA Ampere architecture GPU with 64 Tensor Cores | CPU | 12-core Arm Cortex-A78AE v8.2 64-bit CPU 3MB L2 + 6MB L3 | 顯存 | 64GB 256-bit LPDDR5 204.8GB/s | 存儲 | 64GB eMMC 5.1 | DLA最大頻率 | 1.6 GHz | AI性能 | 275 TOPS | DL加速器 | 2x NVDLA v2 | 視頻加速器 | 1x PVA v2 | 視頻編碼 | 2x 4K60 (H.265), 4x 4K30 (H.265) 8x 1080p60 (H.265), 16x 1080p30 (H.265) | 視頻解碼 | 1x 8K30 (H.265), 3x 4K60 (H.265), 7x 4K30 (H.265) 11x 1080p60 (H.265),22x 1080p30 (H.265) | PCle | x8 PCle Gen4 | 顯示接口 | HDMI | 網(wǎng)絡(luò ) | RJ45 接口 (高達1 GbE) |
2.3 3U VPX飛騰處理器刀片計算機 
2.3.1 產(chǎn)品概述 該產(chǎn)品是一款基于國產(chǎn)飛騰FT2000 4核或騰銳D2000 8核的高性能3U VPX刀片式計算機。產(chǎn)品提供了4個(gè)x4 PCIe 3.0總線(xiàn)接口,同時(shí)可配置為1個(gè)x16或2個(gè)x8 PCIe3.0接口,因此具有很強的擴展性,極大地滿(mǎn)足多負載多節點(diǎn)的應用需求。產(chǎn)品結構完全符合VITA 46.0規范,有很強的可靠性、可維護性、可管理性,并與軍用計算機的抗振動(dòng)、抗沖擊、抗寬溫環(huán)境急劇變化等惡劣環(huán)境特性進(jìn)行完美融合。 2.3.2 功能指標 ● 3U 5HP VPX規格。 ● 支持FT-2000/4 四核處理器和騰銳D2000 八核處理器 FT-2000/4標準版,2.6GHz,16W 騰銳D2000/8標準版,2.3GHz,25W ● 板載16GB雙通道DDR4內存,頻率2400MHz。 ● 支持2個(gè)VGA接口,最大分辨率1920x1080@60Hz;其中1路VGA為后出接口。 ● 支持4個(gè)x4 PCIe3.0接口,可配置成1個(gè)x16 PCIe 3.0或2個(gè)x8 PCIe 3.0。 ● 前面板支持1路10/100/1000Mbps網(wǎng)絡(luò )接口,后出2路10/100/1000Mbps網(wǎng)絡(luò )信號,其中1路后出網(wǎng)口與前面板網(wǎng)口二選一切換。 ● 板載1個(gè)mSATA接口,支持SATA3.0;后出2路SATA3.0信號,用于擴展存儲。 ● 前面板支持2個(gè)USB3.0接口;后出2路USB3.0接口信號。 ● 提供2路RS232后出串口,其中1路可選RS422/RS485模式。 ● 提供1路RS232后出CPU管理串口。 ● 前面板帶復位按鍵和LED指示燈。 ● 單板管理功能(可選功能)。 ● 支持銀河麒麟、UOS、Centos、ubuntu、VxWorks系統。 (本項目使用ubuntu操作系統) 三、軟件開(kāi)發(fā)內容
3.1光纖收發(fā)整體流程設計 2路Q(chēng)SFP+光纖接口,一路作為發(fā)送端口,一路作為接收端口,每路接口作為4個(gè)X1通道互不影響。 接收端:數據流從光纖接收端進(jìn)來(lái),存到FPGA的DDR中,然后通過(guò)PCIE導入到GPU中。 發(fā)送端:數據存在飛騰主板中,飛騰通過(guò)PCIE寫(xiě)入FPGA的DDR中,FPGA取走數據,通過(guò)光纖發(fā)送端口發(fā)送出去。 GPU接收的數據通過(guò)千兆網(wǎng)發(fā)送到飛騰主板中。
3.2 TLK2711收發(fā)整體流程設計 
4路TLK2711接口,2路作為發(fā)送端口,2路作為接收端口,每路接口互不影響。 接收端:數據流從TLK2711接收端進(jìn)來(lái),存到FPGA的DDR中,然后通過(guò)PCIE導入到GPU中。 發(fā)送端:數據存在飛騰主板中,飛騰通過(guò)PCIE寫(xiě)入FPGA的DDR中,FPGA取走數據,通過(guò)TLK2711發(fā)送端口發(fā)送出去。 GPU接收的數據通過(guò)千兆網(wǎng)發(fā)送到飛騰主板中。
3.3 FPGA流程框架 如圖所示,FPGA程序可以大體劃分為PCIe端點(diǎn)控制器XDMA、DDR3讀寫(xiě)控制以及TLK2711收發(fā)控制三部分。FPGA與PC的PCIe通信采用Xilinx的XDMA IP,邏輯模塊間采用AXI總線(xiàn)互聯(lián)方式。XDMA0數據鏈路為飛騰主板主控數據鏈路,XDMA1數據鏈路為Orin_GPU卡主控數據鏈路。 Orin_GPU卡主控數據鏈路:tlk2711子卡的接收端口接收到圖像數據緩存到第一組ddr3中,大小為4GB,對0-4GB的ddr3空間讀寫(xiě),gpu把圖像數據讀出并作處理。鏈路數據流向分為數據發(fā)送(FPGA-PC)(這里飛騰主板和Orin_GPU卡都稱(chēng)為PC): 數據接收過(guò)程描述(FPGA-PC):圖像數據以1.6Gbps線(xiàn)速率通過(guò)rxp接口,wr_fifo把16bit數據位寬轉化為128bit數據位寬,fdma_ctrl的寫(xiě)ddr3模塊把數據寫(xiě)入到0-4GB的地址空間,通過(guò)定義的寄存器信號告訴主機軟件取出對應地址空間的數據,通過(guò)dma的C2H通道直接寫(xiě)入主機內存。 飛騰主板主控數據鏈路:飛騰主板把圖像處理結果寫(xiě)入板卡第二組ddr3中,fpga邏輯讀出ddr3中的數據通過(guò)tlk2711子卡的發(fā)送端口發(fā)送出去。(這里飛騰主板和Orin_GPU卡都稱(chēng)為PC)。 數據發(fā)送過(guò)程描述(PC-FPGA):為了實(shí)現數據發(fā)送,主機軟件從主機內存固定位置讀出圖像處理數據發(fā)送到DMA的H2C通道,寫(xiě)入到板載第二組DDR3的0-4GB的空間,主機軟件通過(guò)寄存器通知fdma_ctrl的讀ddr3模塊取出對應地址ddr3的數據,通過(guò)rd_fifo把數據128bit位寬變化到16bit后,給到tlk2711子卡的發(fā)送模塊,最后數據以1.6Gbps的線(xiàn)速率通過(guò)txp口發(fā)送出去。
3.4 軟件PCIE讀流程 軟件啟動(dòng)開(kāi)始接收,軟件通過(guò)寄存器使能FPGA開(kāi)始接收數據(光纖或者TLK2711數據),軟件開(kāi)始輪詢(xún)FPGA寫(xiě)入完成寄存器,當讀到FPGA完成標志,說(shuō)明FPGA已經(jīng)寫(xiě)入數據,軟件讀取DDR中數據,完成一次讀取數據交互流程。 之后重復單次流程,直到數據接收完整。
3.5 軟件PCIE寫(xiě)流程 軟件啟動(dòng)開(kāi)始發(fā)送數據(光纖或者TLK2711數據),軟件把數據寫(xiě)入DDR中, 通過(guò)寄存器使能FPGA開(kāi)始發(fā)送,軟件開(kāi)始輪詢(xún)FPGA讀取完成寄存器,當讀到FPGA完成標志,說(shuō)明FPGA已經(jīng)把DDR的數據取走,這樣就完成一次寫(xiě)入數據交互流程。之后重復單次流程,直到數據發(fā)送完整。
3.6飛騰GPU數據交互 在背板設計中,飛騰主板和GPU千兆網(wǎng)互聯(lián)和RS232互聯(lián)?紤]傳輸速度,使用千兆網(wǎng)進(jìn)行傳輸。使用TCP/IP協(xié)議,飛騰處理器為T(mén)CP服務(wù)端,GPU為T(mén)CP客戶(hù)端主動(dòng)進(jìn)行鏈接請求。 3.7 客戶(hù)端界面 客戶(hù)端具有狀態(tài)信息顯示,控制四通道光纖數據發(fā)送或者雙通道TLK2711接口數據發(fā)生功能。上位機自動(dòng)識別FPGA子卡類(lèi)型,切換操作界面。 四通道光纖子卡界面 雙通道TLK2711子卡界面   |