Xilinx UltraScale 架構針對要求最嚴苛的應用,提供了前所未有的ASIC級的系統級集成和容量。 UltraScale架構是業(yè)界首次在A(yíng)ll Programmable架構中應用最先進(jìn)的ASIC架構優(yōu)化。該架構能從20nm平面FET結構擴展至16nm鰭式FET晶體管技術(shù)甚至更高的技術(shù),同時(shí)還能從單芯片擴展到3D IC。借助Xilinx Vivado設計套件的分析型協(xié)同優(yōu)化,UltraScale架構可以提供海量數據的路由功能,同時(shí)還能智能地解決先進(jìn)工藝節點(diǎn)上的頭號系統性能瓶頸。這種協(xié)同設計可以在不降低性能的前提下達到實(shí)現超過(guò)90%的利用率。 UltraScale架構的突破包括: • 幾乎可以在晶片的任何位置戰略性地布置類(lèi)似于A(yíng)SIC的系統時(shí)鐘,從而將時(shí)鐘歪斜降低達50% • 系統架構中有大量并行總線(xiàn),無(wú)需再使用會(huì )造成時(shí)延的流水線(xiàn),從而可提高系統速度和容量 • 甚至在要求資源利用率達到90%及以上的系統中,也能消除潛在的時(shí)序收斂問(wèn)題和互連瓶頸 • 可憑借3D IC集成能力構建更大型器件,并在工藝技術(shù)方面領(lǐng)先當前行業(yè)標準整整一代 • 能在更低的系統功耗預算范圍內顯著(zhù)提高系統性能,包括多Gb串行收發(fā)器、I/O以及存儲器帶寬 • 顯著(zhù)增強DSP與包處理性能 賽靈思UltraScale架構為超大容量解決方案設計人員開(kāi)啟了一個(gè)全新的領(lǐng)域。 越多越好 自從“全面數字化”(all things digital)概念引入以來(lái),“越多越好”成為了所有市場(chǎng)領(lǐng)域中數字系統的一種基本的、必然的發(fā)展趨勢。這一期望成為了促使系統要求更高分辨率、更高帶寬和更大存儲量的基本動(dòng)力。而“更多”這一理念同時(shí)從邏輯上也引發(fā)了如下事實(shí)的產(chǎn)生: • 更多的器件生成更多數據。 • 更多的數據意味著(zhù)數據必須更快流動(dòng)。 • 更多快速流動(dòng)的數據要求計算速度更快。 • 更多的應用需要更快速地訪(fǎng)問(wèn)更多數據。 • 數據量的增長(cháng)和數據速率的提高對數據完整性提出了更高要求。 目前幾乎每個(gè)領(lǐng)域的數據創(chuàng )建和數據傳輸速率都在快速增長(cháng),這會(huì )加大對新型器件架構的需求,以應對如下問(wèn)題所帶來(lái)的重重挑戰: • 海量數據流以及類(lèi)似于A(yíng)SIC的時(shí)鐘布線(xiàn) • 海量I/O和存儲器帶寬 • 更快的DSP和包處理 • 電源管理 • 多級安全 UltraScale架構:賽靈思的新一代All Programmable架構 為了達到每秒數百Gb的系統性能和全線(xiàn)速下的智能處理能力,并擴展到Tb級和每秒萬(wàn)億次浮點(diǎn)運算,需要采用一種新的架構方案。為此,我們要做的不僅僅是簡(jiǎn)單地提高每個(gè)晶體管或系統模塊的性能,或擴展系統中的模塊數量,而是要從根本上改善通信、時(shí)鐘、關(guān)鍵路徑和互連功能,以滿(mǎn)足海量數據流、實(shí)時(shí)數據包和圖像處理需求。 UltraScale™ 架構通過(guò)在一個(gè)全面可編程(All Programmable)架構中應用最先進(jìn)的ASIC 技術(shù),可應對上述需要海量I/O和存儲器帶寬、海量數據流以及卓越DSP和包處理性能的挑戰。。UltraScale架構經(jīng)過(guò)精調可提供大規模布線(xiàn)能力并且與Vivado®設計工具進(jìn)行協(xié)同優(yōu)化,因此該架構的利用率達到了空前的高水平(超過(guò)90%),而且不會(huì )降低性能。 UltraScale架構是業(yè)界首次在A(yíng)ll Programmable架構中應用最先進(jìn)的ASIC架構優(yōu)化該架構能從20nm平面FET結構擴展至16nm鰭式FET晶體管技術(shù)甚至更高的技術(shù),同時(shí)還能從單芯片擴展到3D IC。UltraScale架構不僅能解決系統總吞吐量擴展和時(shí)延方面的局限性,而且還能直接應對先進(jìn)工藝節點(diǎn)上的頭號系統性能瓶頸,即互連問(wèn)題。 Xilinx UltraScale架構旨在滿(mǎn)足下一代系統級性能要求。(見(jiàn)圖1) ![]() 圖1:下一代高性能目標應用范例 賽靈思對UltraScale架構進(jìn)行了數百項設計提升,并將這些改進(jìn)實(shí)現有機結合,讓設計團隊能夠打造出比以往功能更強、運行速度更快、單位功耗性能更高的系統。見(jiàn)圖2。 ![]() 圖2:Xilinx UltraScale架構 UltraScale架構與Vivado™設計套件結合使用可提供如下這些新一代系統級功能: • 針對寬總線(xiàn)進(jìn)行優(yōu)化的海量數據流,可支持數Tb級吞吐量和最低時(shí)延 • 高度優(yōu)化的關(guān)鍵路徑和內置高速存儲器,級聯(lián)后可消除DSP和包處理中的瓶頸 • 增強型DSP slice包含27x18位乘法器和雙加法器,可以顯著(zhù)提高定點(diǎn)和IEEE 754標準浮點(diǎn)算法的性能與效率 • 第二代3D IC系統集成的晶片間帶寬以及最新3D IC寬存儲器優(yōu)化接口均實(shí)現階梯式增長(cháng) • 類(lèi)似于A(yíng)SIC的多區域時(shí)鐘,提供具備超低時(shí)鐘歪斜和高性能擴展能力的低功耗時(shí)鐘網(wǎng)絡(luò ) • 海量I/O和存儲器帶寬,用多個(gè)硬化的ASIC級100G以太網(wǎng)、Interlaken和PCIe® IP核優(yōu)化,可支持新一代存儲器接口功能并顯著(zhù)降低時(shí)延 • 電源管理可對各種功能元件進(jìn)行寬范圍的靜態(tài)與動(dòng)態(tài)電源門(mén)控,實(shí)現顯著(zhù)節能降耗 • 新一代安全策略,提供先進(jìn)的AES比特流解密與認證方法、更多密鑰模糊處理功能以及安全器件編程 • 通過(guò)與Vivado工具協(xié)同優(yōu)化消除布線(xiàn)擁塞問(wèn)題,實(shí)現了90%以上的器件利用率,同時(shí)不降低性能或增大時(shí)延 系統設計人員將這些系統級功能進(jìn)行多種組合,以解決各種問(wèn)題。下面的寬數據路徑方框圖可以很好地說(shuō)明這一問(wèn)題。見(jiàn)圖3. ![]() 圖3:Tb級I/O需要海量的并行數據路徑 圖中,數據速率高達Tbps的數據流從從左側流入再從右側流出。系統必須在左右兩側的I/O端口之間傳輸數據流,同時(shí)還要執行必要的處理工作?梢酝ㄟ^(guò)高速串行收發(fā)器來(lái)進(jìn)行I/O傳輸,運行速率高達數Gbps。一旦數Gbps的串行數據流進(jìn)入器件,就必須扇出(fan out),以便與片上資源的數據流、路由和處理能力相匹配。 Tb級系統的設計挑戰:時(shí)鐘歪斜與海量數據流 舉一個(gè)現實(shí)的實(shí)例,假設左側和右側I/O端口的帶寬為100Gb/s。這意味著(zhù)片上資源也必須要處理至少100Gb/s的流量。設計人員一般采用512至1024位的寬總線(xiàn)或數據路徑來(lái)處理相關(guān)的數據吞吐量,產(chǎn)生一個(gè)與片上資源功能相匹配的系統時(shí)鐘。如果線(xiàn)速提高到400Gb/s,那么總線(xiàn)寬度達到1024至2048位也并不少見(jiàn)。 現在考慮一下這類(lèi)總線(xiàn)的時(shí)鐘要求。在UltraScale架構推出之前,高系統時(shí)鐘頻率運行會(huì )使這些海量數據路徑上的時(shí)鐘歪斜程度增大,甚至達到整個(gè)系統時(shí)鐘周期的將近一半。時(shí)鐘歪斜幾乎占用一半的時(shí)鐘周期,這種情況下設計方案需要依靠大量流水線(xiàn)才有可能達到目標系統性能。只剩下一半的時(shí)鐘周期可用于計算,因此得到可行解決方案的幾率就會(huì )很低。大量使用流水線(xiàn)不僅會(huì )占用大量寄存器資源,而且還會(huì )對系統的總時(shí)延造成巨大影響,這也再次證明了這種方法在當今的高性能系統中不可行。 UltraScale架構提供類(lèi)似ASIC時(shí)鐘功能 多虧UltraScale 架構提供類(lèi)似ASIC的多區域時(shí)鐘功能,使得設計人員現在可以將系統級時(shí)鐘放在整個(gè)晶片的任何最佳位置上,從而使系統級時(shí)鐘歪斜降低多達50%。將時(shí)鐘驅動(dòng)的節點(diǎn)放在功能模塊的幾何中心并且平衡不同葉節點(diǎn)時(shí)鐘單元(leaf clock cell)的時(shí)鐘歪斜,這樣可以打破阻礙實(shí)現多Gb系統級性能的一個(gè)最大瓶頸。系統總體時(shí)鐘歪斜降低后,就無(wú)需再使用大量流水線(xiàn),并可消除隨之而來(lái)的時(shí)延問(wèn)題。UltraScale架構中類(lèi)似于A(yíng)SIC的時(shí)鐘功能不僅能移除時(shí)鐘布置方面的限制,還能在系統設計中實(shí)現大量獨立的高性能、低歪斜時(shí)鐘源。這與前幾代可編程邏輯器件中所采用的時(shí)鐘方案完全不同。從系統設計人員的角度出發(fā),這種解決方案能輕松解決時(shí)鐘歪斜問(wèn)題。 從容應對海量數據流挑戰 極高性能應用一般采用寬總線(xiàn)或寬數據路徑來(lái)匹配路由到片上處理資源的數據流。然而采用寬總線(xiàn)來(lái)擴展性能時(shí),除了要簡(jiǎn)單處理時(shí)鐘歪斜問(wèn)題外,還要應對一系列自身挑戰。眾所周知,同類(lèi)競爭架構經(jīng)證實(shí)其適用于高性能設計的布線(xiàn)資源非常有限且缺乏靈活性。如果FPGA的互連架構性能較低,那么用它來(lái)實(shí)現100Gb/s吞吐量的應用時(shí),需要將數據總線(xiàn)提升到1536至2048位的寬度。 盡管更寬的總線(xiàn)實(shí)現方案可以降低系統時(shí)鐘頻率,但由于缺乏支持寬總線(xiàn)系統所需的布線(xiàn)資源,因此會(huì )產(chǎn)生嚴重的時(shí)序收斂問(wèn)題。而且有些FPGA廠(chǎng)商采用的是過(guò)時(shí)的模擬退火布局布線(xiàn)算法,不考慮擁塞程度和總線(xiàn)路長(cháng)度等全局設計指標,因此會(huì )進(jìn)一步加劇時(shí)序收斂問(wèn)題。這樣,設計人員就不得不進(jìn)行多方面權衡,包括降低系統性能(通常不可。;使用大量流水線(xiàn),不惜增大時(shí)延;或者降低可用器件資源利用率。在任何情況下,經(jīng)證明這些解決方案都是不佳或存在欠缺的方案。最重要的是,傳統FPGA中布線(xiàn)資源(用于滿(mǎn)足100Gb/s應用的要求)的局限性幾乎可以說(shuō)明它們不可能適用新一代多Tb應用的要求,即便能適用,但器件的利用率會(huì )非常低,時(shí)延極高。 更為復雜的問(wèn)題在于,通過(guò)大量的寬數據總線(xiàn)來(lái)擴展性能會(huì )帶來(lái)額外的代價(jià),那就是需要顯著(zhù)增加邏輯電路開(kāi)銷(xiāo)用以支持寬總線(xiàn)的實(shí)施,從而進(jìn)一步加大實(shí)現時(shí)序收斂的難度。 以以太網(wǎng)數據包大小為例可以很好地說(shuō)明這個(gè)情況。以太網(wǎng)的數據包最小為64字節(512位)。假設采用2048位寬的總線(xiàn)來(lái)實(shí)現400G的系統,那么總線(xiàn)最多容納4個(gè)數據包。 在2048位寬的總線(xiàn)中存在多種數據包組合形式,例如4個(gè)完整數據包或者1個(gè)、2個(gè)或3個(gè)完整或部分數據包,這樣需要使用大量邏輯來(lái)處理不同的情況與組合。需要大量復雜的重復邏輯來(lái)應對這些可能的組合。此外,如果總線(xiàn)要求對四個(gè)數據包進(jìn)行同時(shí)處理并寫(xiě)入到存儲器中,那么可能需要對邏輯的某些部分進(jìn)行加速(或擴展性能)?梢钥紤]通過(guò)邏輯加速或用四個(gè)獨立的相同存儲器控制器來(lái)相繼處理多個(gè)數據包,但這些方式會(huì )進(jìn)一步加大布線(xiàn)資源的壓力,迫使架構必須具備更多的高性能、低歪斜布線(xiàn)資源。參見(jiàn)圖4。 ![]() 圖4:增加數據路徑時(shí)鐘寬度和時(shí)鐘速率需要更多邏輯和布線(xiàn)資源 半導體工藝的擴展影響互連技術(shù) 隨著(zhù)業(yè)界向20nm或更高級半導體工藝技術(shù)推進(jìn),在與銅線(xiàn)互連有關(guān)的RC延遲方面出現了新的挑戰,它會(huì )阻礙向新工藝節點(diǎn)演進(jìn)所實(shí)現的性能提升效果。晶體管互連延遲的增加會(huì )直接影響所能實(shí)現的總體系統性能,因此更加需要所使用的布線(xiàn)架構能提供滿(mǎn)足新一代應用要求的性能等級。UltraScale布線(xiàn)架構在開(kāi)發(fā)過(guò)程中充分考慮了新一代工藝技術(shù)的特點(diǎn),而且能明顯減輕銅線(xiàn)互連的影響——如不進(jìn)行妥善處理會(huì )成為系統性能瓶頸。 UltraScale互連架構:針對海量數據流進(jìn)行優(yōu)化 UltraScale新一代互連架構的推出體現了可編程邏輯布線(xiàn)技術(shù)的真正突破。賽靈思致力于滿(mǎn)足從多Gb智能包處理到多Tb數據路徑等新一代應用需求,即必須支持海量數據流。在實(shí)現寬總線(xiàn)邏輯模塊(將總線(xiàn)寬度擴展至512位、1024位甚至更高)的過(guò)程中,布線(xiàn)或互連擁塞問(wèn)題一直是影響實(shí)現時(shí)序收斂和高質(zhì)量結果的主要制約因素。過(guò)于擁堵的邏輯設計通常無(wú)法在早期器件架構中進(jìn)行布線(xiàn);即使工具能夠對擁塞的設計進(jìn)行布線(xiàn),最終設計也經(jīng)常需要在低于預期的時(shí)鐘速率下運行。而UltraScale布線(xiàn)架構則能完全消除布線(xiàn)擁塞問(wèn)題。結論很簡(jiǎn)單:只要設計合理,就能進(jìn)行布線(xiàn)。 我們來(lái)做個(gè)類(lèi)比。位于市中心的一個(gè)繁忙十字路口,交通流量的方向是從北到南,從南到北,從東到西,從西到東,有些車(chē)輛正試圖掉頭,所有交通車(chē)輛試圖同時(shí)移動(dòng)。這樣通常就會(huì )造成大堵車(chē),F在考慮一下將這樣的十字路口精心設計為現代化高速公路或主干道,情況又會(huì )如何。道路設計人員設計出了專(zhuān)用坡道(快行道),用以將交通流量從主要高速路口的一端順暢地疏導至另一端。交通流量可以從高速路的一端全速移動(dòng)到另一端,不存在堵車(chē)現象。 賽靈思為UltraScale架構加入了類(lèi)似的快行道。這些新增的快行道可供附近的邏輯元件之間傳輸數據,盡管這些元件并不一定相鄰,但它們仍通過(guò)特定的設計實(shí)現邏輯上的連接。這樣,UltraScale架構所能管理的數據量就會(huì )呈指數級上升,如圖5所示。 ![]() 圖5:增加真實(shí)有效的路由路徑可以幫助解決日益增長(cháng)的系統復雜性 UltraScale架構堆疊硅片互聯(lián)技術(shù)全面強化所有功能 很少有開(kāi)發(fā)的技術(shù)能夠像堆疊硅片互聯(lián)(SSI)技術(shù)集成那樣對器件容量和性能產(chǎn)生如此重大的影響,這已得到了賽靈思第一代基于7系列All Programmable器件的3D IC產(chǎn)品的驗證。集成SSI技術(shù)后,設計人員可以構建出工藝技術(shù)領(lǐng)先行業(yè)標準整整一代水平的更大型器件。而且該技術(shù)在賽靈思第二代基于UltraScale架構的3D IC產(chǎn)品中也同樣會(huì )達到這種效果。 由于3D IC中硅片間通信連接比獨立封裝的硅片間通信連接更密集、更快速,因此硅片間的通信所需功耗更低(假設硅片無(wú)需驅動(dòng)硅片到封裝間互連以及板級互連的附加阻抗)。所以,與獨立封裝的硅片相比,SSI技術(shù)的集成能夠在顯著(zhù)擴大容量和性能的同時(shí)降低功耗。此外,由于無(wú)法輕易訪(fǎng)問(wèn)電路板層面的硅片間通信,這樣系統安全性也得到了加強。 Virtex®UltraScale和Kintex®UltraScale系列成員在第二代3D IC中的連接資源數量以及相關(guān)的硅片間帶寬都實(shí)現了階梯式增長(cháng)。布線(xiàn)資源和硅片間帶寬的大幅增長(cháng)確保了新一代應用能夠在實(shí)現其高器件利用率的前提下達到目標性能和時(shí)序收斂。 智能、快速處理的挑戰 對于任何高性能系統來(lái)說(shuō),無(wú)論目標是提高數據包吞吐量,還是增大DSP GMAC,亦或是增加屏幕的每秒顯示像素,所面臨的技術(shù)挑戰都是相同的,如圖6所示。 ![]() 圖6:高性能系統需要海量的數據帶寬 無(wú)論對于哪種應用,問(wèn)題描述起來(lái)都很簡(jiǎn)單,即大量數據以數十至數百GB的速度通過(guò)多個(gè)高速串行端口進(jìn)入系統。應將這些高速數據路由到處理邏輯并進(jìn)行實(shí)時(shí)處理,這一般要求采用較高的DSP或包處理速度來(lái)應對高數據速率。輸入數據和中間處理結果數據必須存儲在系統中或靠近處理元件的地方,或者存放在與系統臨近的大容量存儲器內。數據經(jīng)過(guò)處理后,必須路由至高速輸出收發(fā)器進(jìn)行發(fā)送。如圖6所示: • 通過(guò)高速串行線(xiàn)路實(shí)現系統數據的輸入和輸出要求利用可靠的多Gb串行收發(fā)器實(shí)現很高的I/O帶寬。串行收發(fā)器必須可靠并具備非常低的誤碼率。 • 大量并行布局線(xiàn)路從多Gb串行收發(fā)器扇出至廣泛的功能處理模塊,這需要通過(guò)低時(shí)鐘歪斜的寬扇出能力才能實(shí)現。布置大量并行總線(xiàn)的難度比較大。 • 要對海量數據流進(jìn)行處理,就要采用高吞吐量的邏輯模塊和DSP模塊,并要通過(guò)高帶寬存儲器接口實(shí)現非?焖俚膬炔颗c外部存儲器訪(fǎng)問(wèn)能力。這種處理需求對任何架構的數據與時(shí)鐘布線(xiàn)功能都來(lái)說(shuō)都是一種嚴峻的考驗。 必須在一定的功耗范圍內滿(mǎn)足所有性能指標。系統必須在有限的功耗和冷卻限值內運行,如圖 7概念圖所示。 ![]() 圖7:UltraScale架構超越了早期的功耗和性能限制 UltraScale架構的組成部分針對新一代處理系統的眾多復雜要求進(jìn)行了調整。 提供海量I/O和存儲器帶寬 UltraScale架構能在顯著(zhù)增強高速SerDes收發(fā)器性能的同時(shí)大幅降低其功耗。Virtex UltraScale器件采用可支持5 Tbps以上串行系統帶寬的新一代SerDes(收發(fā)器)。 基于UltraScale架構的GTY和GTH串行收發(fā)器包含內部變速箱(gearbox)邏輯,用于將多Gb/s的串行數據線(xiàn)速率轉化成更寬的數據總線(xiàn)(幾百MHz),以便與片上邏輯和存儲器速度相匹配。收發(fā)器的gearbox能消除在系統設計中因使用外部gearbox芯片而帶來(lái)的成本。與之類(lèi)似的是,基于UltraScale架構的GTY串行收發(fā)器所采用的集成分數鎖相環(huán)(PLL)能夠將一個(gè)參考時(shí)鐘轉換成多個(gè)線(xiàn)路速率,因此無(wú)需再使用外部的電壓控制型晶體振蕩器(VCXO)。僅這一項功能就可以節省數十個(gè)分立器件,并為采用眾多不同線(xiàn)路速率高速串行端口的系統設計節省數百美元。 采用UltraScale架構的ASIC級串行收發(fā)器與早期器件中的收發(fā)器相比具備更高的靈活性,同時(shí)保留了賽靈思7系列ALL Programmable器件可靠的自適應均衡功能(自動(dòng)增益控制、連續時(shí)間線(xiàn)性均衡、決策反饋均衡)。賽靈思的自適應均衡功能可以將誤碼率維持在無(wú)法檢測到的水平(例如小于10-17),并允許基于UltraScale架構的收發(fā)器直接驅動(dòng)數GHz的高速背板。 提供超高的外部與內部存儲器帶寬 UltraScale架構能支持多個(gè)適用于DDR3/4的SDRAM存儲控制器,并包含硬化的DDR物理層(PHY)片上模塊,從而將存儲器接口性能提升到了新高度。與早期器件相比,基于UltraScale架構的器件具備如下優(yōu)勢: • 更多SDRAM控制器 • 更寬的SDRAM端口 • 更快的存儲器端口 因此,基于UltraScale架構的All Programmable器件能提供超過(guò)1 Tb/s的DDR SDRAM存儲器帶寬,用以滿(mǎn)足領(lǐng)先的新一代系統設計提出的海量數據流、快速處理和超大存儲器等要求。與軟核PHY相比,硬化的SDRAM PHY模塊能將讀取時(shí)延降低30%,同時(shí)該模塊能控制DDR4 SDRAM,從而將用于外部存儲器的功耗降低20%以上。 片上Block RAM性能往往是影響系統最大時(shí)鐘速率的關(guān)鍵因素。賽靈思已對UltraScale架構All Programmable器件中的Block RAM進(jìn)行了重新設計,以便在降低功耗的同時(shí)與系統中其他可編程模塊的性能相匹配。新的Block RAM架構支持高速存儲器級聯(lián),消除了DSP和包處理中存在的瓶頸。輸出多路復用器在這種新架構中的使用方式很獨特,使得Vivado設計套件工具在無(wú)需附加片讓布線(xiàn)或邏輯資源的情況下也能高效創(chuàng )建大型、快速的RAM陣列和FIFO。 賽靈思還加強了基于UltraScale架構的Block RAM FIFO配置,以便在相同FIFO上支持不同寬度的輸入與輸出端口。當FIFO需要從一個(gè)系統時(shí)鐘域跨越到另一個(gè)域時(shí)(UltraScale架構現在支持很多個(gè)時(shí)鐘域),這項功能很有幫助。 實(shí)現快速、智能處理 為滿(mǎn)足最終用戶(hù)要求,DSP和包處理系統的性能需要不斷提高,如圖8示。 ![]() 圖8:系統性能需要隨時(shí)間推移而增長(cháng) 人們需要從噪聲中提取更多信號信息;需要創(chuàng )建更加逼真的圖像;需要應對無(wú)止境的數據包流量增長(cháng),所有這些都在對性能提出更高要求。然而,與此同時(shí),還要將成本控制在規定的預算范圍內,這樣就給設計帶來(lái)了諸多實(shí)際限制。如圖9所示,圖中描述了LTE和LTE Advanced(LTE-A)基站的性能與成本隨時(shí)間的變化趨勢。 ![]() 圖9:LTE性能和成本發(fā)展趨勢 簡(jiǎn)而言之,客戶(hù)需要以更低成本獲得更高的系統性能,這是大多數電子產(chǎn)業(yè)永恒不變的趨勢,而這也正是UltraScale架構的優(yōu)勢所在。 在領(lǐng)先的性能優(yōu)勢基礎之上增強DSP 賽靈思針對UltraScale架構顯著(zhù)增強了已經(jīng)具備行業(yè)最高性能的Virtex-7 FPGA的DSP48E1 DSP slice,以實(shí)現更快的數字信號處理能力,同時(shí)減少DSP模塊外部的布線(xiàn)或邏輯資源使用量。在DSP slice上應用的一系列創(chuàng )新功能可以改善乘法運算和MACC運算,從而增強功能并降低功耗。 基于UltraScale架構的DSP48E2 DSP slice包含27×18位乘法器,可將更大的函數映射到更少的DSP slice中。例如,DSP48E2 block憑借更寬的27×18位乘法器能夠以更少的資源實(shí)現IEEE Std 754雙精度算法,與采用賽靈思7系列All Programmable器件中的DSP48E1模塊實(shí)現相同功能相比,所采用的DSP模塊數量可減少三分之二。 在DSP48E2 slice中包含寬MUX和寬XOR函數后,像錯誤校正與控制(ECC)、循環(huán)冗余校驗(CRC)以及前向糾錯(FEC)等非DSP運算就可以將DSP slice作為高速、硬化的寬邏輯模塊來(lái)使用。這些增強特性有助于提高性能,降低功耗,并減少可配置邏輯模塊(CLB)的使用量,從而將更多CLB用于實(shí)現其他功能。正是通過(guò)為DSP等模塊增加新功能,UltraScale架構得以同時(shí)滿(mǎn)足新一代應用對于提高處理能力以及降低成本方面的要求。 擴展的智能數據包處理性能 無(wú)止境的帶寬需求正持續推高網(wǎng)絡(luò )通信基礎設施的升級投入。數字視頻傳輸所形成的海量數據流加速了100Gb/s網(wǎng)絡(luò )設備的成熟,同時(shí)也加大了對400G解決方案的需求。數據包處理甚至可以給當前業(yè)內數百Gb每秒速率的最先進(jìn)架構帶來(lái)嚴峻的性能挑戰。在線(xiàn)路速度下執行的校驗和計算與橋接等基礎數據包處理功能會(huì )對性能和資源利用率帶來(lái)顯著(zhù)影響。 除了解決與高性能數據包處理有關(guān)的海量數據流問(wèn)題外,UltraScale架構還包含多種專(zhuān)為數據包處理定制的創(chuàng )新功能。其中包括:對DSP48模塊進(jìn)行修改以支持線(xiàn)速度下進(jìn)行的CRC 32校驗和計算;加入了硬化的Gb以太網(wǎng)MAC和Interlaken芯片到芯片接口,用以支持智能數據包處理的性能突破和最新的集成等級。 UltraScale架構滿(mǎn)足下一代系統級功耗要求 隨著(zhù)系統級性能伴隨產(chǎn)品的更新?lián)Q代而不斷得到擴展,人們期望(也是系統要求)功耗也能保持不變或者繼續降低。例如,對于有線(xiàn)通信基礎設備而言,新一代線(xiàn)路卡必須在不改變外形尺寸或功耗水平的前提下支持更高的帶寬或計算性能。盡管我們可能認為這與系統性能提升的本質(zhì)有一些矛盾(通常來(lái)說(shuō)性能提升必然以功耗增加為代價(jià)),但是我們仍可通過(guò)系統集成、電源管理策略以及高級工藝技術(shù)來(lái)持續降低系統功耗。 UltraScale架構為每一代All Programmable系列提供了無(wú)可比擬的系統級功耗優(yōu)勢。低功耗的半導體工藝加上芯片和軟件上顯著(zhù)的靜態(tài)、動(dòng)態(tài)功耗門(mén)控技術(shù)使得總的系統功耗比Xilinx 7系列器件(已經(jīng)是目前業(yè)界功耗最低的可編程邏輯器件)還要低50%。 降低功耗對設計人員來(lái)說(shuō)意味著(zhù)兩件事:(1)更低的功耗預算和散熱管理要求;(2)更高的速度。這兩點(diǎn)對滿(mǎn)足新一代應用不斷提高的要求極為重要。 UltraScale的IP保護與防篡改安全功能 幾乎在所有市場(chǎng)都在不斷加大對賽靈思All Programmable FPGA的使用,以至于這些器件正在成為眾多新系統的核心。 賽靈思All Programmable器件的不斷普及使得保護器件內的IP與保護器件所處理的數據具有同等重要性。隨著(zhù)安全威脅意識的增長(cháng),系統安全領(lǐng)域隨即推出了一系列可推動(dòng)設計安全性不斷提高的策略與標準。設計人員在部署需要達到安全標準的產(chǎn)品時(shí),必須考慮眾多安全威脅或潛在薄弱環(huán)節。簡(jiǎn)要的薄弱環(huán)節列表包括如下內容:大意自滿(mǎn)、不完備的安全措施、后門(mén)漏洞、設計缺陷、器件缺陷、單粒子翻轉、比特流解碼、電子欺詐、特洛伊木馬、回讀、邊帶信道以及故障插入。 賽靈思的安全解決方案與創(chuàng )新產(chǎn)品已經(jīng)歷了五代以上的發(fā)展,UltraScale All Programmable架構在這一基礎上引入了多種增強型安全特性,可對載入器件內的IP提供更強的保護并實(shí)現防篡改功能,繼續保持著(zhù)延續賽靈思在安全解決方案領(lǐng)域的領(lǐng)先地位。UltraScale 架構在安全性方面的改進(jìn)包括:更強大更先進(jìn)的AES比特流解密與認證方案;更多密鑰模糊處理功能;確保在編程過(guò)程中無(wú)法對加密密鑰進(jìn)行外部訪(fǎng)問(wèn)。這樣就能得到穩定可靠的業(yè)界領(lǐng)先解決方案,滿(mǎn)足不斷變化的新一代安全要求。 分析協(xié)同優(yōu)化=可預見(jiàn)性的成功 為最嚴格的應用實(shí)現最高水平的集成度、容量和類(lèi)似于A(yíng)SIC的系統級性能,僅這一項就已經(jīng)頗具挑戰。而UltraScale架構還從20nm平面FET擴展至16nm鰭式FET甚至更高級的技術(shù),并且從單芯片電路擴展至3D IC,同時(shí)還能在不降低性能的前提下實(shí)現高達90%的最高器件利用率。滿(mǎn)足這些嚴苛目標的唯一途徑就是將UltraScale架構與Vivado設計套件進(jìn)行協(xié)同優(yōu)化。 Vivado設計套件是一款全新的SoC增強型設計環(huán)境,最初針對賽靈思7系列器件推出,主要用于未來(lái)十年的All Programmable器件(例如UltraScale架構)。Vivado能解決可編程系統集成與實(shí)現方面的關(guān)鍵設計瓶頸,其生產(chǎn)力相對同類(lèi)競爭開(kāi)發(fā)環(huán)境提高了四倍。 要實(shí)現新一代設計提出的超高性能、集成度以及結果質(zhì)量目標,就需要采用全新的器件布局布線(xiàn)方案。傳統FPGA布局布線(xiàn)工具依靠模擬退火作為主要的布局優(yōu)化算法,無(wú)法顧及擁塞程度或總導線(xiàn)長(cháng)度等全局設計指標。要實(shí)現具備多Tb性能的設計,需要采用寬總線(xiàn)而且要求時(shí)鐘歪斜幾乎為零。因此,采用模擬退火這種不考慮總體導線(xiàn)長(cháng)度和擁塞情況的布局布線(xiàn)算法是絕對不可行的。 最佳的布局方案取決于多種因素,例如時(shí)序、導線(xiàn)長(cháng)度和擁塞等標準。 Vivado設計套件利用多變量成本函數找出最優(yōu)布局方案,這樣,設計人員就可以快速確定布線(xiàn)方案,并使器件利用率達到90%以上且不降低性能。與采用其他解決方案相比,這種方式的運行時(shí)間更短而且結果的變化程度也更小,這樣實(shí)現設計收斂所需的迭代次數就更少,并且性能和器件利用率都達到了業(yè)界前所未有的高水平。 UltraScale架構與工藝技術(shù) 工藝技術(shù)在任何芯片架構中都是一個(gè)重要的考慮因素,賽靈思UltraScale架構可以支持多種工藝技術(shù)。賽靈思與臺積(TSMC)合作推出的28nm HPL(低功耗高性能)工藝技術(shù)是賽靈思7系列All Programmable器件能夠取得巨大成功的主要因素。憑借之前合作所取得的經(jīng)驗,賽靈思與臺積又開(kāi)發(fā)出了20nm 20SoC平面工藝技術(shù),用以支持預計將于2013年推出的第一代賽靈思UltraScale All Programmable器件。 然而,賽靈思設計UltraScale架構還有另一個(gè)目的,那就是充分利用繼20SoC之后的工藝節點(diǎn)16FinFET所提供的更高的性能、容量和節電性能。 另外,在賽靈思“FinFast”開(kāi)發(fā)計劃(該計劃匯集了賽靈思和臺積的優(yōu)秀工程設計人才)的支持下,賽靈思UltraScale架構和Vivado 設計套件針對臺積 16FinFET工藝技術(shù)進(jìn)行了協(xié)同優(yōu)化。這樣,賽靈思與臺積將于2014年推出第二代UltraScale All Programmable器件芯片。 結論 為了實(shí)現數百Gbps的系統級性能,實(shí)現全線(xiàn)速智能處理,并擴展至Tbps和每秒萬(wàn)億次的浮點(diǎn)運算水平,我們需要采用一種全新的架構方案。賽靈思根據新一代高性能系統需求已經(jīng)開(kāi)發(fā)出了新一代UltraScale 架構和Vivado設計套件。UltraScale架構能提供ASIC級的系統性能,滿(mǎn)足最嚴苛的新一代應用要求:即實(shí)現海量I/O和存儲器帶寬、海量數據流、極高的DSP與包處理性能,并在不影響性能的前提下實(shí)現超過(guò)90%的前所未有的器件利用率。 UltraScale是業(yè)內首款在A(yíng)ll Programmable架構中應用最前沿ASIC架構增強功能的產(chǎn)品,能夠從20nm平面FET擴展到16nm 鰭式FET,甚至更先進(jìn)的技術(shù),此外還能從單芯片電路擴展至3D IC。 通過(guò)整合臺積的先進(jìn)技術(shù)并與Vivado新一代設計套件實(shí)現協(xié)同優(yōu)化,賽靈思提前一年實(shí)現同類(lèi)競爭產(chǎn)品1.5倍至2倍的系統級性能與集成度。這相當于我們比競爭對手領(lǐng)先整整一代。 如需了解如何利用UltraScale架構實(shí)現您的新一代設計目標,或者詳細了解基于UltraScale架構的All Programmable FPGA系列,請聯(lián)系當地的賽靈思銷(xiāo)售辦事處或者訪(fǎng)問(wèn)網(wǎng)址 china.xilinx.com。 |