FPGA豐富的邏輯資源、充沛的I/O引腳以及較低的功耗,被廣泛應用于嵌入式系統和高速數據通信領(lǐng)域,F如今,各大FPGA生產(chǎn)廠(chǎng)商為方便用戶(hù)的設計和使用,提供了較多的、可利用的IP核資源,極大地減少了產(chǎn)品的開(kāi)發(fā)周期和開(kāi)發(fā)難度,從而使用戶(hù)得以更專(zhuān)注地構思各種各樣創(chuàng )意且實(shí)用的功能,而不是把大量時(shí)間浪費在產(chǎn)品的調試和驗證中。 千兆以太網(wǎng)技術(shù)在工程上的應用是當前的研究熱點(diǎn)之一。相比于其他RS-232或RS-485等串口通信,千兆以太網(wǎng)更加普及和通用,可以直接與Internet上的其他終端相連;相比于百兆網(wǎng)絡(luò ),千兆以太網(wǎng)傳輸速度更快、傳輸距離更遠,再結合UDP/IP協(xié)議棧,可以更方便地與上位機進(jìn)行通信。 本文結合FPGA和千兆以太網(wǎng)靈活與快速的優(yōu)勢,設計了一個(gè)多通道并支持不同格式的數據采集系統。為了更好地為上位機軟件所支持,搭建了一個(gè)簡(jiǎn)單的UDP/IP數據通道來(lái)完成數據到上位機的高速傳輸。同時(shí),為了克服UDP這類(lèi)不可靠的、面向無(wú)連接的協(xié)議帶來(lái)的數據錯誤和缺失問(wèn)題,使用一塊DDR2SDRAM芯片來(lái)緩存各通道數據,在應用層制定了與上位機交互及丟包處理的通信協(xié)議,從而保證了采集數據到達上位機的可靠性。 1系統總體結構 系統的設計目標是為了讓不同通道、不同格式的數據都能通過(guò)同一個(gè)網(wǎng)絡(luò )通道被快速無(wú)誤地傳遞給上位機,由于設備與上位機運行狀態(tài)的不同,采集數據速率的變化,甚至網(wǎng)線(xiàn)質(zhì)量,使傳輸過(guò)程中的錯誤和丟包情況在所難免,所以需要有適當的機制和存儲器緩存來(lái)保證傳輸的可靠性。 圖1 系統總體結構 圖1所示即為本系統的總體結構,除了使用一塊DDR2 SDRAM芯片之外,網(wǎng)絡(luò )模型中物理層的功能由一塊PHY芯片來(lái)完成。目前一般PHY芯片均能兼容10Mbit.s-1、100Mbit.s-1、1 000 Mbit.s-13種速率的以太網(wǎng)傳輸,并向上層提供多種接口,如MII、GMII、RGMII和TBI接口等,對于上位機一側則直接是普通的RJ45網(wǎng)口插槽。物理層接收數據鏈路層的并行數據,并將其轉換為原始的比特流;同時(shí)也將原始比特流轉化成并行數據,提交給數據鏈路層。 2 FPGA模塊功能 FPGA模塊通過(guò)響應上位機的指令,完成數據采集、打包、傳輸、丟包重傳等工作。所有工作的基礎是MAC子層、網(wǎng)絡(luò )層、傳輸層等OSI參考模型各層協(xié)議的可靠實(shí)現,每一層都按照標準接口向上一層提供特定服務(wù),而把如何實(shí)現這些服務(wù)的細節對上一層加以屏蔽。 圖2 FPGA模塊結構 圖2顯示了系統FPGA模塊的具體結構,以及各個(gè)子模塊之間的關(guān)系。為縮短設計周期,提高設計質(zhì)量,在模塊中分別調用了Altera公司現有的以太網(wǎng)控制器IP核和DDR2控制器IP核資源。 2.1 DDR2讀寫(xiě)控制 若不考慮網(wǎng)絡(luò )中丟包的情況,數據一邊采集,一邊打包向上位機發(fā)送,是不需要外部存儲器來(lái)緩存的。但是在實(shí)際測試中發(fā)現,目前普通配置的PC機無(wú)法承受千兆以太網(wǎng)的快速傳輸能力,丟包很常見(jiàn),尤其是增加到多個(gè)通道時(shí),設備向上位機的輸出能力加大,丟包率也立即隨之升高。所以,使用一片DDR2 SDRAM緩存各通道的數據是必要的。 設計中直接調用Altera公司提供的DDR2 SDRAM控制器,并選用一塊它可以驅動(dòng)的芯片來(lái)提高工作效率。芯片可使用的緩存空間是要重點(diǎn)關(guān)注的。每個(gè)通道都要分配固定的緩存區域,所以要將有限的內存空間作合理的劃分。如果是圖像數據,單個(gè)通道至少要有緩存兩幀以上的空間。DDR2讀寫(xiě)控制模塊直接調用DDR2 SDRAM控制器IP核,但由于該IP核提供給用戶(hù)端的接口使用不方便,需要按照其文檔上介紹的時(shí)序來(lái)進(jìn)行突發(fā)式讀寫(xiě)。 本模塊的功能主要是協(xié)調各通道采集數據的寫(xiě)入和讀出。如圖3所示,寫(xiě)操作時(shí),各通道的數據首先用FPGA資源進(jìn)行緩存,然后寫(xiě)入控制狀態(tài)機通過(guò)輪詢(xún)的方式依次檢查各個(gè)通道已經(jīng)緩存的數據量,如果足夠一次突發(fā)寫(xiě),則將其寫(xiě)入SDRAM芯片的相應通道塊中,然后再檢查下一通道;讀操作時(shí),讀出控制狀態(tài)機也依次檢查各個(gè)通道寫(xiě)入SDRAM芯片的數據量,如果足夠一次突發(fā)讀,則將其讀出,通過(guò)網(wǎng)絡(luò )發(fā)送出去。 圖3 DDR2 讀寫(xiě)控制模塊結構 基于以上控制方式,設計對各通道的數據格式是不作限制,如圖1中所示,可以是PAL、Camera Link、VGA等各種格式的圖像或組合,只是在采集之前向上位機報告各個(gè)通道的數據信息。但需要說(shuō)明的是,這些數據的帶寬總和理論上不應超過(guò)千兆以太網(wǎng)的最大傳輸速率,這是采用輪詢(xún)方式得以成功的前提。其實(shí),如今普通PC機的處理能力遠遠不能達到這個(gè)最大限制,當速度到達100 Mbit.s-1時(shí),上位機丟包就已經(jīng)很?chē)乐。如果是將采集的數據在上位機上顯示,最多可能只有70~80 Mbit.s-1;如果還要將數據寫(xiě)入硬盤(pán),那數據率則會(huì )更低,除了配備一塊上好的硬盤(pán)之外,還需要在上位機軟件的優(yōu)化上多作努力。 2.2以太網(wǎng)發(fā)送接收控制 本模塊的功能就是MAC子層、網(wǎng)絡(luò )層、傳輸層各層協(xié)議的具體實(shí)現,這些子模塊作為數據傳輸的通道,需要具有一定的緩存和查錯能力,同時(shí)為了能擴展其他協(xié)議,還必須保持相互之間的獨立性。如圖4所示,硬件設備接收數據的過(guò)程就是以太網(wǎng)幀經(jīng)過(guò)每一層,去除各層的首部并核對校驗,最后獲得純粹的用戶(hù)數據;發(fā)送數據的過(guò)程就是用戶(hù)數據每經(jīng)過(guò)一層,添加相應的首部和校驗,直到組成一個(gè)完整的以太網(wǎng)幀。 1)MAC子層的功能。設計中直接調用Altera公司提供的三速以太網(wǎng)控制器IP核實(shí)現MAC子層的功能,該IP核提供了統一的寄存器接口,用戶(hù)可以通過(guò)它來(lái)配置以太網(wǎng)最大幀長(cháng)、源MAC地址、目的MAC地址和PHY地址等重要信息。如圖4所示,發(fā)送數據時(shí),MAC模塊向數據幀添加以太網(wǎng)首部,并利用CRC算法添加32位的校驗碼;接收數據時(shí),MAC模塊同樣要進(jìn)行CRC校驗,對于不正確的數據幀要予以丟棄,用戶(hù)也可以通過(guò)配置寄存器決定是否將校驗位一并送至上一層。 (2)UDP/IP協(xié)議棧的實(shí)現。相對于TCP協(xié)議的三次握手,UDP和IP協(xié)議面向無(wú)連接的性質(zhì)使其在硬件上可以快速實(shí)現,至于連接的建立完全可以在應用層實(shí)現。 如圖4所示,UDP和IP協(xié)議的功能在硬件上的實(shí)現有較多相同之處:對于上層發(fā)送的數據均需要添加相應的首部和校驗和;對于下層接收的數據,檢驗校驗和,并去除首部,然后才能送到上一層;由于首部中有該數據包的長(cháng)度區域,所以無(wú)論是發(fā)送和接收,都需要將數據包全部緩存,才能確定其長(cháng)度大小,相當于一種“存儲-轉發(fā)”的機制。 當然,UDP協(xié)議與IP協(xié)議在實(shí)現時(shí)也有不同的地方,主要體現在校驗和的計算方法上。UDP協(xié)議的校驗和是將首部和數據一起校驗,而且這個(gè)首部不僅是8 Byte的UDP首部,還包括12Byte的偽首部。在UDP層計算校驗和還用到了IP層的地址,但這違背了網(wǎng)絡(luò )分層模型的理念。IP協(xié)議的校驗和只計算IP數據包的頭部,一般情況下只有固定的20 Byte. 2.3應用層協(xié)議處理 不同通道采集的數據按照規定的數據包長(cháng)度進(jìn)行打包,然后再發(fā)送到上面的以太網(wǎng)控制模塊,需要專(zhuān)門(mén)的模塊進(jìn)行組織和調度,并添加對應通道的標簽。同時(shí),網(wǎng)絡(luò )中也不只是設備到上位機方向的采集數據包,也有反方向的用于控制的命令包:首先要考慮的問(wèn)題是設備從何時(shí)開(kāi)始采集數據,何時(shí)停止采集,這都是要上位機發(fā)送命令來(lái)控制的;其次,對于丟失包的統計與處理,這一部分工作稍微有些困難,但無(wú)論是設備和上位機都可以完成,顯然交給上位機處理比較適宜,然后上位機向設備發(fā)送帶丟失包序號的短數據包,設備優(yōu)先從DDR2緩存中找到該丟失的數據包,發(fā)往上位機。 系統中完成這些功能的模塊相當于一個(gè)位于UDP/IP層之上的應用層協(xié)議,而這個(gè)協(xié)議的內容是由系統設計者所規定的,但必須為FPGA開(kāi)發(fā)人員和上位機軟件程序開(kāi)發(fā)人員所共享,這樣在不同機器上的對應層就有了一個(gè)可以互相通信的對等體(Peer)。這樣制定應用層協(xié)議,不但增加了系統相關(guān)功能的保密性,還可以由開(kāi)發(fā)人員自行裁剪應用層功能,靈活地協(xié)調軟硬件應該負責的細節,最后敲定最簡(jiǎn)潔的實(shí)現方案。 3上位機軟件的功能 由于本系統的硬件部分實(shí)現了UDP/IP協(xié)議棧的內容,上位機軟件在開(kāi)發(fā)時(shí)有了較多可利用的系統調用,主要是Socket(套接字)原語(yǔ)的使用。相對于硬件開(kāi)發(fā)來(lái)說(shuō),軟件開(kāi)發(fā)方便實(shí)現一些復雜的功能和計算,所以在系統構想之初就刻意將一些較難實(shí)現的部分交由上位機軟件來(lái)處理,主要是圖像幀間隔的識別和重傳包的統計。 關(guān)于數據包重傳,硬件設備在傳送各個(gè)通道的圖像時(shí),只選取一個(gè)合適的點(diǎn)開(kāi)始采集圖像,而不負責在數據包中添加圖像幀的開(kāi)始和結束等信息,因為這樣不僅偏離了多通道圖像和數據兼容的初衷,而且給FPGA程序的實(shí)現增加了困難,尤其是采集的數據要進(jìn)出DDR2 SDRAM緩存,如果在這些純數據中添加額外的標志數據,可能會(huì )打亂整個(gè)緩存區的布局。所以上位機只能根據接收的數據量來(lái)判斷各個(gè)圖像幀之間的間隔,然后無(wú)論顯示或存儲,都以幀為單位進(jìn)行。 4系統設計注意事項 4.1 ARP包的響應與抑制 上位機在向設備發(fā)送UDP數據包之前,可能會(huì )先發(fā)送一個(gè)ARP包,請求設備的MAC地址。所以在FPGA程序中要能響應該數據包,并發(fā)送ARP回復,否則設備與上位機將不能通信。得到設備的MAC地址后,上位機會(huì )暫時(shí)將其保存,建立一個(gè)ARP表項;一段時(shí)間后,ARP表老化,會(huì )再次向設備發(fā)送ARP請求。 為了能正確響應ARP請求和回復,必須要清楚ARP數據包的格式。如圖5所示,如果以太網(wǎng)幀“幀類(lèi)型”區域的值為0x0806,則表示該幀后面的數據填充為一個(gè)ARP包。至于是ARP請求還是ARP回復,需要根據ARP首部的操作碼來(lái)辨別:操作碼為0x0001,則是ARP請求包;操作碼為0x0002,則是ARP回復包。ARP請求包填入一個(gè)廣播幀并發(fā)向網(wǎng)絡(luò )中的所有主機,所以其以太網(wǎng)目的地址為廣播幀地址0xffffffffffff,并且由于它的目標是請求目的主機的MAC地址,故圖中“接收方MAC地址”區域沒(méi)有確切值,可為任意6 Byte的填充;ARP回復包已經(jīng)得到了所需的MAC地址,但是要注意,此時(shí)的發(fā)送方和接收方已經(jīng)對調,相應區域的填寫(xiě)也應適當改變。 圖4 用戶(hù)數據打包/解包示意圖 以太網(wǎng)協(xié)議規定的最短幀長(cháng)為64Byte,這就要求其數據填充至少為46 Byte,如圖4所示,而圖5中的ARP字段共有28 Byte,所以無(wú)論是ARP請求還是回復,均應有18 Byte的填充數據。有些PC機會(huì )發(fā)送其他設備的ARP請求,即使此時(shí)只有一根直連線(xiàn)將設備與上位機相連。這時(shí)設備是不能響應該請求的,應當在MAC層和IP層之間就將這樣的請求屏蔽,防止干擾正常的數據包傳輸。 圖5 ARP包格式 4.2 Jumbo幀的利弊 以太網(wǎng)標準規定的最大幀長(cháng)度為1 518 Byte,這包括IP層和UDP層添加的首部,一般發(fā)送的數據包也都應該限制在這一范圍內。但千兆以太網(wǎng)有一種廠(chǎng)商標準的超長(cháng)幀格式,目前還沒(méi)有獲得IEEE標準委員會(huì )的認可,它規定的幀格式與普通以太網(wǎng)幀相同,只是其數據填充區域可以突破原有限制,整個(gè)幀長(cháng)度為9 000~64 000 Byte不等,即Jumbo巨型幀。 在本系統中采用Jumbo幀的好處:(1)可以適當提高網(wǎng)絡(luò )帶寬的利用率。這主要靠節省各層首部的添加得到。(2)減少操作系統因頻繁響應網(wǎng)絡(luò )設備的中斷而帶來(lái)的CPU資源的過(guò)多占用。這可以說(shuō)是采用Jumbo幀的主要原因,因為要處理千兆以太網(wǎng)較高的數據率,無(wú)論上位機軟件如何優(yōu)化,CPU的占用仍然很高,這時(shí)如果能減少其他地方的CPU開(kāi)銷(xiāo),將大幅增加軟件的處理能力。 但Jumbo幀在使用時(shí)也有一些不利的地方。首先,目前很多PC機的網(wǎng)絡(luò )適配器不支持Jumbo幀的傳輸,雖然Altera的以太網(wǎng)控制器IP核支持,但這不足以使兩個(gè)設備進(jìn)行通信;其次,Jumbo幀會(huì )長(cháng)時(shí)間占用網(wǎng)絡(luò )通道,這會(huì )影響那些對數據延遲敏感的設備和應用;第三,Jumbo幀的丟包意味著(zhù)嚴重的災難,一幀相當于十多個(gè)正常幀,這會(huì )將處理能力弱的PC機迅速引入重傳的陷阱,丟包越來(lái)越多,直到網(wǎng)絡(luò )帶寬被全部占用,導致上位機軟件崩潰。所以在考慮支持Jumbo幀之前,應先充分權衡這些優(yōu)勢與不足。 5結束語(yǔ) 系統硬件設備與上位機軟件配合工作,可以較好地完成雙路彩色PAL制數據流的采集任務(wù)。通過(guò)實(shí)際測試與分析,采用Jumbo幀進(jìn)行傳輸,有效地減少了軟件運行過(guò)程中的系統中斷數,從而最大限度地降低了CPU的占用。利用搭建起來(lái)的千兆以太網(wǎng)運行環(huán)境,可以擴展類(lèi)似的高速數據傳輸應用。 |