Stratix III FPGA與Xilinx Virtex-5:體系結構和性能對比

發(fā)布時(shí)間:2010-9-26 14:01    發(fā)布者:eetech
關(guān)鍵詞: FPGA , Stratix , Virtex , Xilinx
按照摩爾定律,隨著(zhù)工藝尺寸的降低,性能和密度在不斷提高,但是卻很難控制好功耗,難以跟上摩爾定律的預期。為了能夠使系統級功耗保持在最低水平上,65nm Altera Stratix III FPGA采用了多種工藝技術(shù),包括Altera專(zhuān)有的可編程功耗技術(shù)。Stratix III FPGA的核心結構建立在創(chuàng )新的邏輯單元之上——自適應邏輯模塊(ALM)。這種核心結構與MultiTrack互聯(lián)體系結構相結合,以很少的跳轉實(shí)現高性能互聯(lián),使Stratix III器件能夠以非常低的功耗,高效實(shí)現高速邏輯、算法和寄存器功能。

體系結構的優(yōu)勢

高性能、面積利用率非常高的體系結構的關(guān)鍵所在是ALM,它由組合邏輯、兩個(gè)寄存器和兩個(gè)加法器構成,如圖1所示。組合部分含8個(gè)輸入,包括一個(gè)查找表(LUT),使用Altera獲得專(zhuān)利的LUT技術(shù),查找表可以在兩個(gè)自適應LUT (ALUT)之間進(jìn)行劃分。一個(gè)完整的ALM可實(shí)現一個(gè)任意6輸入功能,但是由于組合邏輯模塊有8個(gè)輸入,因此,一個(gè)ALM可以實(shí)現兩個(gè)功能的各種組合。



圖1. ALM模塊結構

除了能夠實(shí)現一個(gè)完整的6輸入LUT,ALM還可以實(shí)現兩個(gè)獨立的4輸入功能,或者輸入都獨立的一個(gè)5輸入和一個(gè)3輸入功能(表1總結了ALM所支持的組合邏輯配置)。由于可以提供兩個(gè)寄存器和兩個(gè)加法器,ALM能夠靈活地實(shí)現標準4輸入LUT (4-LUT)體系結構的2.5個(gè)邏輯單元(LE),這一體系結構含有一個(gè)4-LUT,進(jìn)位邏輯和一個(gè)寄存器。

f 關(guān)于這一體系結構的詳細說(shuō)明,請參考Stratix III器件手冊www.altera.com/literature/hb/stx3/stratix3_handbook.pdf。
表1. 靈活的ALM



注釋?zhuān)?

(1) 請參考Stratix III器件手冊(www.altera.com/literature/hb/stx3/stratix3_handbook.pdf),了解一個(gè)ALM可實(shí)現的7輸入類(lèi)型的詳細信息。

ALM還含有兩個(gè)寄存器和兩個(gè)加法器,如圖2所示。之所以增加了另一個(gè)寄存器,是因為實(shí)驗表明,許多客戶(hù)應用需要的寄存器和LUT比高于1:1。兩個(gè)額外的加法器是為了增強ALM的算術(shù)能力,每個(gè)ALM可實(shí)現兩個(gè)2位加法或者兩個(gè)3位加法。因此,ALM要比基本6-LUT的寄存器多一倍,算術(shù)能力也提高一倍,是非常優(yōu)異的構建模塊。

ALM在兩年前推出,要比最近才推出的Xilinx Virtex-5邏輯單元(也稱(chēng)為L(cháng)UT觸發(fā)器對)更靈活,面積利用率也更高。Virtex-5邏輯單元含有一個(gè)基本6-LUT、進(jìn)位邏輯和一個(gè)寄存器,如圖2所示。作為對比,ALM的組合邏輯部分有8個(gè)輸入,支持所有的6輸入功能,以及其他使用兩個(gè)輸出的大量小功能組合。Virtex-5邏輯單元的組合邏輯部分是基本6-LUT,也有64位CRAM,以及兩個(gè)輸出,這和ALM相似,但是只含有6個(gè)輸入,實(shí)現一個(gè)以上邏輯功能的能力有限。其輸出之一是6-LUT的輸出,另一個(gè)是5-LUT,對應RAM配置的下半部分。



圖2. Stratix III ALM和Virtex-5 LUT觸發(fā)器對的對比

盡管基本6-LUT能夠實(shí)現兩個(gè)更小的功能,但通常還是只用作一個(gè)6-LUT。由于LUT只有6個(gè)輸入,所需的共享輸入數量嚴格限制了可組合的功能類(lèi)型。這一限制使得很難將基本6-LUT用作兩個(gè)5-LUT。作為對比,Stratix III ALM的兩個(gè)附加輸入使其能夠用作兩個(gè)全功能5-LUT,在面積上有很大的優(yōu)勢。

表2給出了幾種功能組合所需要的共享輸入的數量。例如,ALM能夠實(shí)現兩個(gè)獨立的4輸入功能(沒(méi)有共享輸入),而Virtex-5 LUT需要三個(gè)共享輸入。圖3是另一個(gè)例子:ALM能夠實(shí)現一個(gè)5輸入和一個(gè)3輸入功能,不需要任何共享輸入,而Virtex-5 LUT需要三個(gè)共享輸入。很難找到適合Virtex-5 LUT的功能,導致輸入少于6個(gè)的功能需要占用6-LUT資源才能實(shí)現。

表2. Stratix III ALM和Virtex-5 LUT靈活性對比



結合8輸入分段式LUT和2:1寄存器至LUT比,ALM能夠高效實(shí)現兩個(gè)獨立功能,每個(gè)需要一個(gè)觸發(fā)器,不需要共享輸入或者其他資源。結果,在任何實(shí)際設計中,所需要的ALM要少于Virtex-5邏輯單元(參見(jiàn)圖3)。



圖3. Stratix III ALM和Virtex-5 LUT觸發(fā)器對實(shí)現的5輸入和3輸入功能

性能基準測試

Altera在65個(gè)真實(shí)設計(針對最小面積進(jìn)行了優(yōu)化)基礎上進(jìn)行了新的性能基準測試,以比較Stratix III和Virtex-5的性能。性能基準測試提供了Altera ALM和Xilinx LUT觸發(fā)器對的相對性能平均測量結果。由于具有高效的分段式能力,Stratix III ALM性能平均要比Virtex-5 LUT觸發(fā)器對高1.8倍。在某些設計中,甚至達到2.3倍,如圖4所示!1”處的水平黑線(xiàn)表示在這一點(diǎn),Virtex-5 (LUT觸發(fā)器對)和Stratix III (ALM)的邏輯單元數量相同。



圖4. Stratix III ALM和Virtex-5 LUT觸發(fā)器對性能基準測試對比

注釋?zhuān)?

(1) 在最新版ISE設計軟件中,針對面積進(jìn)行優(yōu)化時(shí),75個(gè)客戶(hù)設計中的10個(gè)出現了錯誤。

為了更好的理解這些結果,圖5顯示了由綜合產(chǎn)生的LUT分解。圖表清晰的顯示,Virtex-5器件經(jīng)過(guò)綜合,比Stratix III器件產(chǎn)生了更多的6-LUT百分比——32%比13%。這一不同的原因在于,當Virtex-5使用一個(gè)基本6-LUT時(shí),由于大部分情況下,不管一個(gè)功能需要6個(gè)輸入還是更少的輸入,都要占用整個(gè)LUT,因此,Virtex-5需要盡可能多的輸入。Virtex-5只能高效實(shí)現6-LUT,所以,綜合總是嘗試產(chǎn)生盡可能多的6-LUT。因為不太可能將兩個(gè)功能合在一起,共享輸入,因此很難建立更小的功能。



圖5. 綜合期間產(chǎn)生的LUT規模分布

由于LUT具有分段能力,綜合工具可以改變LUT規模的分布,產(chǎn)生大小功能合適的組合,因此可以使用更少的ALM。特別是5個(gè)以及更少輸入的功能只使用一半ALM,因此,只在對速率要求高的邏輯中使用6輸入功能便顯得非常重要。

ALM可以通過(guò)軟件優(yōu)化來(lái)靈活地實(shí)現。圖6所示為Quartus II集成綜合(QIS)針對三種不同目的(速度、面積和二者平衡)進(jìn)行優(yōu)化后產(chǎn)生的三種LUT規模分布。目的不同,LUT規模組合也就不同。當針對速度進(jìn)行優(yōu)化時(shí),產(chǎn)生的6-LUT數量最多;針對面積進(jìn)行優(yōu)化時(shí),以最少的ALM產(chǎn)生不同的分布。這種靈活性只有Altera能夠提供,它源自在體系結構開(kāi)發(fā)過(guò)程中,為獲得最佳結果,對軟件和硬件相互作用進(jìn)行的深入研究。

f 關(guān)于A(yíng)LM設計和研究的詳細說(shuō)明,請參閱Stratix II FPGA體系結構白皮書(shū)www.altera.com/literature/wp/wp-01003.pdf。



圖6. QIS產(chǎn)生的功能分布

在真實(shí)客戶(hù)設計基礎上進(jìn)行大量基準測試分析,并針對最小面積實(shí)施完整的綜合、布局布線(xiàn)設計流程后發(fā)現,Stratix III ALM“等價(jià)于”或者“容納的邏輯是”Virtex-5邏輯單元的1.8倍(參見(jiàn)表3)。
表3. 歸一化后的相對邏輯性能



考慮到這一1.8倍的因素,EPSL340器件的邏輯要比XC5VLX330多出17%(參見(jiàn)表4和圖7)。
表4. Stratix III和Virtex-5等價(jià)器件對比






圖7. Stratix III L和Virtex-5 LX邏輯性能對比

注釋?zhuān)?

(1) 在這一器件密度上,EP3SE260提供最佳的邏輯、DSP和存儲器。

(2) Virtex-5 6-LUT轉換至ALM計數時(shí),使用1.8倍因子。

布線(xiàn)體系結構

除了邏輯模塊結構之外,另一關(guān)鍵FPGA特性是布線(xiàn)體系結構。Stratix系列器件引入了MultiTrack互聯(lián),以實(shí)現最佳連接和性能。布線(xiàn)體系結構提供不同邏輯模塊群——邏輯陣列模塊(LAB)之間的連接,可以通過(guò)從一個(gè)LAB到另一個(gè)LAB的“跳數”對其進(jìn)行衡量。跳數越少,模式預測性更好,那么性能也就越好,CAD工具也就更容易進(jìn)行優(yōu)化。

布線(xiàn)結構是大量的行列連線(xiàn)。Stratix系列使用三側布線(xiàn)結構,如圖8所示。這意味著(zhù),一個(gè)LAB能夠驅動(dòng)上面一個(gè)水平通道(H)和左側、右側兩個(gè)垂直(V)通道的所有連線(xiàn),也可以接受這些通道的驅動(dòng)。通道中含有長(cháng)度為4、8、16和24的連線(xiàn),在連線(xiàn)上任意LAB處都可以下載信號。



圖8. 布線(xiàn)體系結構側面的數量

為簡(jiǎn)單起見(jiàn),只考慮長(cháng)度為4的連線(xiàn),圖9顯示了從給定LAB(灰色框表示其位置)連接至其他LAB所需要的跳數。



圖9. Stratix系列連接

由于可配置邏輯模塊(CLB)能夠連接至一個(gè)垂直通道和一個(gè)水平通道(連接至CLB上面一半的連線(xiàn),以及CLB下面一半的連線(xiàn))的所有連線(xiàn),因此Virtex體系結構使用兩側走線(xiàn)體系結構。此外,其連線(xiàn)只能連接至走線(xiàn)部分點(diǎn)的CLB。這些因素限制了連接和布局。采用Virtex-5器件,CLB仍能連接至兩個(gè)通道,但還是需要L形(在Xilinx材料中指對角)連線(xiàn)來(lái)提高互聯(lián)能力。

表5對比了在給定跳數情況下,Stratix III系列和Virtex-5能夠連接的LAB/CLB數量。在Stratix III器件中,與Virtex-5中的CLB相比,一跳能夠到達更多的LAB (34)。如果利用高效的ALM來(lái)調整這些數量,結果對Stratix III器件更有利。由于LAB含有等價(jià)的25個(gè)基于4-LUT的LE,而Virtex-5大約為11個(gè)(使用1.8倍因子),如果我們根據這些因素調整在給定跳數內能夠到達的邏輯數量,就邏輯性能而言,走線(xiàn)連接情況會(huì )更好。

表5. Stratix III和Virtex-5連接對比



注釋?zhuān)?

(1) 1個(gè)ALM = 2.5個(gè)LE,每個(gè)LAB = 10個(gè)ALM

存儲器LAB

Stratix III FPGA由LAB構成,每個(gè)LAB含有10個(gè)靈活的ALM,而ALM可配置實(shí)現邏輯功能、寄存器功能以及復雜的算術(shù)功能。

Stratix III FPGA內核中增加了一種新的LAB——存儲器LAB (MLAB)。LAB和MLAB是Stratix III FPGA中的共存對,MLAB ALM可用作普通的LAB ALM,也可以配置為雙端口靜態(tài)隨機訪(fǎng)問(wèn)存儲器(SRAM),如圖10所示。



圖10. Stratix III MLAB

LAB的這種LUT-RAM功能可支持最大640位,配置為64×10或者32×20簡(jiǎn)單雙端口SRAM模塊,而Virtex-5的CLB只支持64×4配置。SRAM模塊經(jīng)過(guò)優(yōu)化,可以實(shí)現濾波延遲線(xiàn)、小容量FIFO緩沖和移位寄存器,最大性能達到650MHz時(shí)鐘速率。表6對比了Stratix III和Virtex-5系列對應器件,EP3SL340有4.3Mbits的LUT-RAM。

表6. Stratix III和Virtex-5器件的RAM分布



性能優(yōu)勢

Stratix III性能優(yōu)勢包括其獨特的內核體系結構以及低功耗技術(shù),內核體系結構可保證系統級時(shí)序逼近有足夠的性能余量。

內核性能

采用Quartus II開(kāi)發(fā)軟件中全集成的內核體系結構,可以輕松實(shí)現Stratix III器件(該器件是業(yè)界速度最快的FPGA)的高性能優(yōu)勢,對設計進(jìn)行最佳綜合,成功實(shí)現布局布線(xiàn),盡快達到時(shí)序逼近,幫助設計人員提高效能,同時(shí)達到性能目標。

圖11顯示了來(lái)自一組75個(gè)真實(shí)客戶(hù)設計的基準測試結果,表明Stratix III器件要比Stratix II器件平均快25%。



圖11. Stratix III和Stratix II基準測試

此外,Stratix III FPGA比競爭65nm器件(例如Virtex-5,參見(jiàn)圖12)快出一個(gè)速率等級。這一平均性能優(yōu)勢基于業(yè)界認可的基準測試方法,在一組真實(shí)客戶(hù)設計中使用了帶有DSE和Xplorer的最新版Quartus II和Xilinx ISE設計軟件,以獲得最佳性能結果。



圖12. Stratix III和Virtex-5基準測試

更好的系統級性能,并有余量

某些供應商任意規定速率,使用戶(hù)不得不在實(shí)際中對規范進(jìn)行調整,很難獲得最佳性能,而Altera在規范上采取了保守的方法。設計人員使用Altera FPGA,可確保輕松實(shí)現時(shí)序逼近。例如,當Altera說(shuō)明能夠達到333MHz DDR2性能(例如采用Stratix II FPGA)時(shí),實(shí)際在所有情況下,設計人員都能保證系統工作在333MHz上。事實(shí)上,用戶(hù)的產(chǎn)品性能甚至可以達到400MHz DDR2。在另一個(gè)例子中,Stratix II FPGA在LVDS和DDR2規范上有足夠的余量,超過(guò)1.25Gbps和400MHz。按照這一趨勢,Stratix III FPGA將繼續順利實(shí)現系統級時(shí)序要求。

要實(shí)現更高的系統性能,不但需要很好的內核性能、片內RAM、數字信號處理(DSP)模塊,而且還需要對I/O進(jìn)行優(yōu)化。Stratix III FPGA的DSP模塊和片內RAM (TriMatrix存儲器)針對最佳DSP性能進(jìn)行了全面優(yōu)化,能夠運行在600MHz上。此外,Stratix III FPGA比目前所有的單片DSP處理器的性能高出幾個(gè)數量級,每秒乘累加運算次數(GMAC)達到537吉。

TriMatrix片內存儲器提供三種不同的存儲器結構:640位MLAB、9Kbit塊(M9K)和144Kbit塊(M144K)。這些模塊針對最大效率進(jìn)行優(yōu)化,MLAB可以放置在器件中的任何地方,非常靈活,能夠支持600MHz以上的時(shí)鐘速率。采用TriMatrix片內存儲器和DSP模塊,Stratix III器件是視頻和圖像處理、高速數字通信以及其他高性能DSP應用的理想選擇。FPGA內核模塊的性能如表7所示。

表7. Stratix III FPGA內核性能



為完善高性能內核,Stratix III FPGA采用了高性能I/O進(jìn)行設計,能夠與外部器件進(jìn)行寬帶連接。例如,Stratix III I/O外部存儲器接口采用專(zhuān)用存儲器接口電路,能夠實(shí)現DDR3和QDR II+等最新的高性能存儲器接口。Stratix III FPGA是目前唯一支持400MHz DDR3和QDR II+的FPGA。而且,DDR2、QDR2 II和RLDRAM II的性能在Stratix II器件基礎上進(jìn)一步得到了提高(表8中進(jìn)行了總結)。Altera與一流供應商合作,確保用戶(hù)的Stratix III FPGA能夠連接最新的存儲器。

表8. Stratix III FPGA I/O性能



使用這些高級特性和可定制知識產(chǎn)權(IP),設計人員能夠迅速輕松的將多種應用集成到復雜系統中,而不用降低Stratix III FPGA的性能。

低功耗

Stratix III FPGA采用了創(chuàng )新的工藝和體系結構進(jìn)行開(kāi)發(fā),降低了功耗,同時(shí)實(shí)現了最佳性能。其獨特的低功耗技術(shù)包括:
  • 可編程功耗技術(shù):這一技術(shù)使Stratix III邏輯結構能夠在LAB級進(jìn)行設置,根據具體設計需要,提供高速邏輯或者低功耗邏輯。通過(guò)這種方式,只有一小部分關(guān)鍵時(shí)序通路采用高速設置。其他部分則采用低功耗設置,低功耗邏輯的泄漏功率降低了70%。
  • 可選內核電壓:用戶(hù)可以選擇1.1V或者0.9V來(lái)獲得需要的性能,通過(guò)降低內核電壓來(lái)節省功耗。
  • 工藝和電路技術(shù):Stratix III采用了多閾值晶體管、長(cháng)度可變晶體管、低k絕緣、三門(mén)氧化(TGO)、超薄門(mén)氧化以及應變硅等技術(shù),能夠很好的控制功耗。
  • 軟件功耗模型和優(yōu)化:采用Quartus II設計軟件,可以輕松地自動(dòng)實(shí)現Stratix III的低功耗特性。PowerPlay早期功耗估算器(EPE)等特性,以及功耗驅動(dòng)綜合等各種功耗優(yōu)化技術(shù),能夠將動(dòng)態(tài)功耗平均降低20%。

與1.2V的Stratix II FPGA和1.0V的Virtex-5相比,利用低功耗技術(shù),Stratix III FPGA在0.9V時(shí)靜態(tài)功耗降低了64%,動(dòng)態(tài)功耗降低了55%(參見(jiàn)表9)。表9中的數值針對Stratix II進(jìn)行了歸一化處理,來(lái)自供應商功耗估算器工具的公開(kāi)數據。計算結果基于每個(gè)ALM或者Virtex-5等價(jià)ALM的靜態(tài)功耗。

表9. 高端FPGA的靜態(tài)和動(dòng)態(tài)功耗對比




f 關(guān)于Stratix III低功耗技術(shù)的詳細說(shuō)明,請參閱Stratix III可編程功耗白皮書(shū)www.altera.com/literature/wp/wp-01006.pdf。

基準測試方法

對FPGA性能進(jìn)行基準測試是一項復雜的任務(wù),不完善的測試過(guò)程會(huì )導致結果不確定或者不正確。Altera進(jìn)行了大量投入以開(kāi)發(fā)嚴謹科學(xué)的基準測試方法,并得到了業(yè)界專(zhuān)家的認可,是測量FPGA性能可靠正確的方法。

f 關(guān)于基準測試方法的詳細信息,請參考FPGA性能基準測試方法白皮書(shū)www.altera.com/literature/wp/wpfpgapbm.pdf。

結論

由于很難控制好功耗,現在越來(lái)越難以跟上摩爾定律的預期——工藝尺寸不斷降低,性能和密度不斷提高。但是,經(jīng)過(guò)多年的研究,Stratix III FPGA取得了多項創(chuàng )新,例如ALM和布線(xiàn)體系結構、嵌入式功能(DSP和RAM)、高級I/O標準以及外部存儲器接口等。這些創(chuàng )新特性集成在業(yè)界領(lǐng)先的Quartus II軟件中,能夠以極低的功耗提供優(yōu)異的性能,在盡可能小的FPGA中實(shí)現大型設計。

詳細信息
本文地址:http://selenalain.com/thread-29301-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页