兩個(gè)月前,也就是曾經(jīng)的FPGA巨頭Altera被英特爾收購的4年之后,英特爾推出了“全面借助自身能力”開(kāi)發(fā)的新一代FPGA產(chǎn)品——Agilex。與此前Altera推出的Stratix、Arria、Cyclone、Max等產(chǎn)品系列完全不同,Agilex是一個(gè)全新的FPGA系列,“體現了你能想象到的所有與Intel相關(guān)的技術(shù)資源”,被英特爾寄予了更多的期待。![]() 這里所提到的“相關(guān)技術(shù)資源”,基本上等同于英特爾在2018年底“架構日”上所提出的制程和封裝、架構、內存和存儲、互連、安全、軟件這“六大技術(shù)支柱”。盡管當時(shí)英特爾官方表示將會(huì )盡快把六大技術(shù)支柱運用于自己的整個(gè)工程部門(mén),落實(shí)在已經(jīng)或即將推出的產(chǎn)品與技術(shù)規劃中。但只用了不到半年的時(shí)間,Agilex FPGA就成為“六大技術(shù)支柱”落地的最佳載體,英特爾強大的系統研發(fā)和整合能力可見(jiàn)一斑。 窺一斑而知全豹 Agilex是Agile(敏捷)和Flexible(靈活)兩個(gè)詞語(yǔ)的結合體,而這兩個(gè)特點(diǎn)也正是現代FPGA技術(shù)最為核心的兩大要點(diǎn)。英特爾在2015年時(shí)就承諾說(shuō)未來(lái)會(huì )根據不同的客戶(hù)需求提供不同點(diǎn)5的異構架構,包括:分立的CPU+FPGA、封裝集成的CPU+FPGA、以及將Intel CPU/FPGA/ARM三者進(jìn)行管芯集成的FPGA。 理由是顯而易見(jiàn)的。通過(guò)集成,不但能夠降低延時(shí),提高效能和性能/瓦,更可以統一處理器和FPGA之間的工具流程,為不同的性能需求提供更廣泛的體系結構支持。4年之后,Agilex FPGA通過(guò)異構架構,實(shí)現了對不同制程工藝、不同邏輯單元之間的集成,在靈活性和定制化方面實(shí)現了突破。 根據英特爾2月份的基準測試,Agilex在最大時(shí)鐘速率(Fmax)上比Stratix 10提高了40%,而總能耗降低高達40%。此外,Agilex還具有高達40 TFLOP的DSP性能(FP16配置)和92 TOP DSP性能(INT8配置)。 坦率的說(shuō),僅憑異構架構這一點(diǎn),Agilex FPGA其實(shí)是無(wú)法實(shí)現上述性能指標的,那么,Agilex FPGA中還隱藏著(zhù)哪些不為人知的“黑科技”呢? .10納米工藝和高級3D封裝 對于英特爾這樣擁有“端到端”解決方案的半導體巨頭來(lái)說(shuō),擁有先進(jìn)的半導體制程技術(shù)和封裝技術(shù),是構建領(lǐng)先產(chǎn)品的基礎與關(guān)鍵。在架構日以及隨后的CES 2019展上,英特爾相繼展示了覆蓋云到端的10納米產(chǎn)品,包括“Ice Lake”P(pán)C 處理器、“Lakefield”客戶(hù)端平臺、“Snow Ridge”網(wǎng)絡(luò )系統芯片、“Ice Lake”英特爾至強可擴展處理器,以及被外界視為繼2018年推出的嵌入式多芯片互連橋接(EMIB)封裝技術(shù)之后,又一個(gè)具備“里程碑”意義的創(chuàng )新突破——“Foveros”3D封裝技術(shù)。 為了確保性能的一致性,Agilex FPGA器件核心的FPGA邏輯結構芯片同樣采用了英特爾10納米芯片制程技術(shù)構建,這也是目前世界上最先進(jìn)的FinFET制程技術(shù)之一。同時(shí),Agilex還融合了英特爾專(zhuān)有嵌入式多芯片互連橋接(EMIB)集成的 3D 異構系統級封裝(SiP)技術(shù),它提供了一種高性能、低成本的方法,有助于將Chiplets和FPGA邏輯結構芯片集成至相同的封裝中。 .第二代英特爾HyperFlex架構和Chiplets架構 Agilex FPGA的邏輯結構芯片采用了第二代英特爾HyperFlex架構,除了與第一代架構一樣,在整個(gè)核心結構中都使用額外的寄存器Hyper-Registers外,二代架構還提升了整體結構性能,同時(shí)最大限度地降低了功耗,其中最顯著(zhù)的一項改進(jìn)是在超級寄存器中添加了高速旁路。 而Chiplets是一種物理IP模塊,可通過(guò)封裝級集成方法和標準化接口集成其他Chiplets。借助Chiplets這種混合搭配模式,收發(fā)器數量不再受通道數量的限制。設計人員要想增加或減少收發(fā)器通道數量,只需添加所需的收發(fā)器Chiplets即可,無(wú)需重新布局芯片以集成不同數量的通道。僅此一項,英特爾就將單個(gè)收發(fā)器通道的速度從58Gbps提升到112Gbps。 .高性能處理器接口 在數據中心里作為CPU的硬件加速器,用來(lái)加速深度學(xué)習的模型訓練、金融計算、網(wǎng)絡(luò )功能卸載等各類(lèi)應用,是當前FPGA的一個(gè)主要應用場(chǎng)景。但該領(lǐng)域亟待解決的核心問(wèn)題之一,就是緩存一致性。換句話(huà)說(shuō),就是必須要明確CPU與硬件加速器之間的內存互聯(lián)協(xié)議。 今年3月,英特爾宣布聯(lián)合微軟、阿里、思科、戴爾EMC、Facebook、谷歌、惠普企業(yè)HPE和華為等公司,共同推出一個(gè)全新的互聯(lián)標準,取名為Compute Express Link(CXL),應用目標鎖定互聯(lián)網(wǎng)數據中心、通信基礎設施、云計算與云服務(wù)等領(lǐng)域,而這也正是FPGA大顯身手的重要平臺。 為了確保高性能在線(xiàn)處理和處理器負載加速,英特爾Agilex FPGA支持最新一代高性能處理器接口,包括PCIe Gen 5和CXL,并將成為首款采用Xeon可擴展處理器的一致的高速緩存和內存互聯(lián)結構的FPGA。 .先進(jìn)的內存層級結構 Agilex FPGA 支持各個(gè)層級的內存資源,包括通過(guò)專(zhuān)用接口提供的嵌入式內存資源、封裝內內存和片外內存。該層級結構的第一層是嵌入式片上內存,包括MLAB、塊RAM和eSRAM,每種內存均可提供不同的容量,以滿(mǎn)足不同的處理需求。此外,英特爾在設計中還使用SIP技術(shù)將高帶寬內存(HBM)直接集成至Agilex FPGA器件中,有助于縮減電路板尺寸和成本,簡(jiǎn)化與降低電源需求。 另一個(gè)值得關(guān)注的重點(diǎn)是Agilex平臺還集成了eASIC技術(shù)。這種集成eASIC芯片定制技術(shù)能夠實(shí)現從FPGA到結構化ASIC的遷移。換句話(huà)說(shuō),用戶(hù)可以利用eASIC自身具備的可復用 IP 的自定義邏輯連續體,在整個(gè)產(chǎn)品生命周期內進(jìn)行靈活優(yōu)化,快速從FPGA轉移到ASIC。 .軟件 全新硬件架構每一個(gè)數量級的性能提升,軟件能相應帶來(lái)兩個(gè)數量級的性能提升。在新一代Agilex FPGA上,配套支持軟件Quartus Prime可縮短硬件開(kāi)發(fā)者30%的編譯時(shí)間,內存利用率也提高了15%。同時(shí),新一代的Agilex FPGA也納入到One API的架構當中。 即將于今年第四季度推出的“OneAPI”軟件編程框架,,為軟件開(kāi)發(fā)者提供了單一源的異構編程環(huán)境,支持常見(jiàn)的性能庫API、Intel VTune和Advisor等軟件開(kāi)發(fā)工具,能夠將軟件匹配到能最大程度加速軟件代碼的硬件上,用以簡(jiǎn)化包括FPGA、CPU、GPU、人工智能和其它加速器在內的各種計算引擎的編程接口,降低各種架構和工作負載下的開(kāi)發(fā)復雜性,加速六大技術(shù)支柱的大規模部署。 迎接多元化計算時(shí)代 讓我們先暫時(shí)跳出FPGA這個(gè)小圈子,來(lái)看看為什么英特爾要提出“六大技術(shù)支柱”? 有人說(shuō)這“六大技術(shù)支柱”是英特爾為抵御NVIDIA、AMD和賽靈思等公司而筑起的堅固城防,也有人不惜溢美之詞,將其稱(chēng)之為英特爾引領(lǐng)未來(lái)計算發(fā)展的“創(chuàng )新矩陣”。但其實(shí)無(wú)論叫法如何,在英特爾看來(lái),這六大技術(shù)支柱之間是相互關(guān)聯(lián)、緊密耦合的,既能夠帶來(lái)指數級的創(chuàng )新,也是英特爾未來(lái)十年甚至未來(lái)五十年的主要驅動(dòng)力。 從英特爾發(fā)布的數據來(lái)看,其10nm工藝下的晶體管密度達到了100.8Mtr/mm2,大約是上一代的14nm工藝的2.7倍。也就是說(shuō)在2015-2018這3年左右的時(shí)間內,英特爾實(shí)現了晶體管密度2.7倍的增長(cháng)。同時(shí),英特爾還正在積極研究如納米線(xiàn)晶體管、III-V材料(如砷化鎵和磷化銦)晶體管、硅晶片3D堆疊、高密度內存與互聯(lián)、紫外光(EUV)光刻技術(shù)、自旋電子、神經(jīng)元計算等前沿項目。 發(fā)展半導體精尖制造技術(shù)和平臺,生產(chǎn)世界上最好的芯片,持續推動(dòng)制程和封裝工藝技術(shù)創(chuàng )新,當然是英特爾的使命,但還不是全部。 我們現在正逐漸轉向以數據為中心的時(shí)代。預期到2020年,普通用戶(hù)每天產(chǎn)生的數據量為1.5GB,智慧醫院每天3TB,自動(dòng)駕駛每天達4TB,而聯(lián)網(wǎng)飛機和智慧工廠(chǎng)每天分別達到了40TB和1PB! 這意味著(zhù)伴隨著(zhù)數據量的爆炸式增長(cháng),數據類(lèi)型也發(fā)生革命性變化,人工智能、5G、自動(dòng)駕駛、云計算、物聯(lián)網(wǎng)等新興應用帶來(lái)了更加多元化的計算需求。例如在嵌入式應用領(lǐng)域和邊緣設備端,用戶(hù)的需求是能夠實(shí)時(shí)抽取包括圖像、視頻和視覺(jué)信息在內的數據;在通信基礎設施端,用戶(hù)需要高帶寬融合處理能力;在云端,相關(guān)企業(yè)的需求則是能夠高效的管理、組織和處理激增的數據。 也就是說(shuō),當我們從更高的維度來(lái)看數據架構時(shí),就會(huì )明顯的意識到,在這個(gè)海量數據推動(dòng)計算架構快速演進(jìn)并呈指數級擴展的時(shí)代,沒(méi)有一種單一的技術(shù)可以全面滿(mǎn)足消費者或企業(yè)客戶(hù)對未來(lái)的計算需求,不可能只通過(guò)直接的標量架構就能解決所有應用,他們需要的是在多樣化的層級結構中連接多樣化的架構,比如分別應用于CPU、GPU、AI和FPGA產(chǎn)品中的標量(Scalar)、矢量(Vector)、矩陣(Matrix)和空間(Spatial)架構。 同時(shí),隨著(zhù)從高度動(dòng)態(tài)、非結構化自然數據中進(jìn)行收集、分析和決策的需求越來(lái)越高,對計算的需求也超越了經(jīng)典的CPU和GPU架構。雖然領(lǐng)先的制程和CPU仍然至關(guān)重要,但要想充分把握數據爆發(fā)帶來(lái)的機遇,還需要在包括制程和封裝、架構、內存和存儲、互連、安全、軟件在內的一系列基礎構建模塊上極速創(chuàng )新。那種不去研究數據的產(chǎn)生、類(lèi)別、以及所需要的處理能力,是不行的。這和以前的通用數據處理不一樣,只單純強調某一種處理器算力的做法是行不通的。 英特爾希望能通過(guò)六大技術(shù)支柱引領(lǐng)“超異構計算”時(shí)代。即通過(guò)提供多樣化的標量、矢量、矩陣和空間計算架構組合,以先進(jìn)制程技術(shù)進(jìn)行設計,由顛覆性?xún)却鎸哟谓Y構提供支持,通過(guò)先進(jìn)封裝集成到系統中,使用光速互連進(jìn)行超大規模部署,提供統一的軟件開(kāi)發(fā)接口以及安全功能。 以英特爾在CES 2019上展示的下一代CPU微架構Sunny Cove為例,它包含了可加速人工智能和加密等專(zhuān)用計算任務(wù)的新功能,旨在提高通用計算任務(wù)下每時(shí)鐘計算性能和降低功耗。在即將量產(chǎn)的10納米PC處理器Ice Lake中,就高度整合了Sunny Cove微架構、AI使用加速指令集以及英特爾第11代核心顯卡。 為什么要把制程封裝和架構設計組合在一起?因為通過(guò)超異構計算,英特爾可以集成不同架構、不同制程、3D封裝、互連和OneAPI等技術(shù),確?梢宰钣行У貙(shí)現產(chǎn)品多樣性,提升產(chǎn)品穩定度,快速滿(mǎn)足客戶(hù)定制化和市場(chǎng)化的需求。 在向數據公司轉型的過(guò)程中,英特爾將自身定義為端到端方案提供商,即產(chǎn)品線(xiàn)覆蓋云端、網(wǎng)絡(luò )傳輸端和終端。其中,核心來(lái)自云端的大規模數據處理,而布局端到端則可以讓英特爾掌握“數據什么時(shí)候來(lái)、是什么樣的數據、需要怎么來(lái)處理”。 為了增進(jìn)處理新數據的能力,加快技術(shù)發(fā)展的步伐,并推動(dòng)PC和服務(wù)器以外的計算,英特爾過(guò)去六年來(lái)不但一直在研究能夠加快經(jīng)典計算平臺的專(zhuān)用架構,還同時(shí)加大了對人工智能(AI)和神經(jīng)擬態(tài)計算的投資和研發(fā)。完成了制造和封裝的首款自主學(xué)習神經(jīng)擬態(tài)測試芯片Loihi、已交付的49量子位超導量子測試芯片、在300毫米晶圓制程上發(fā)明的自旋量子位制造流程等,均被業(yè)界視作英特爾對未來(lái)計算的提前布局,旨在顛覆未來(lái)計算格局。 隨著(zhù)人工智能、物聯(lián)網(wǎng)、傳感器等技術(shù)的融合應用及進(jìn)一步發(fā)展,越來(lái)越多無(wú)人干預的機器設備和應用場(chǎng)景成為可能,“自能(Autonomous)”也正取代“智能”,成為帶動(dòng)新一輪創(chuàng )新發(fā)展的新趨勢。在這樣的時(shí)代大背景下,英特爾戰略性地跳出了單純比拼工藝和算力的低層次競爭格局,站在更高的起點(diǎn)上,通過(guò)構建全新的六大技術(shù)創(chuàng )新組合,將CPU、GPU、FPGA、AI加速器、通信系統、高速存儲等部分有機的結合到一起,重新定義了產(chǎn)品開(kāi)發(fā)設計的模式,Agilex FPGA就是最佳印證之一。我們也期待看到更多基于六大技術(shù)支柱打造的產(chǎn)品上市,引領(lǐng)產(chǎn)業(yè)更好地解決多元化計算需求的挑戰。 |