• 與之前一代的Speedcore 嵌入式FPGA(eFPGA)產(chǎn)品相比,Speedcore Gen4的性能提速60%、功耗降低50%、芯片面積縮小65% • 新的機器學(xué)習處理器(MLP)單元模塊為人工智能/機器學(xué)習(AI / ML)應用提供高出300%的性能 Achronix半導體公司推出其第四代嵌入式FPGA產(chǎn)品Speedcore Gen4 eFPGA IP,以支持客戶(hù)將FPGA功能集成到他們的SoC之中。Speedcore Gen4將性能提高了60%、功耗降低了50%、芯片面積減少65%,同時(shí)保留了原有的Speedcore eFPGA IP的功能,即可將可編程硬件加速功能引入廣泛的計算、網(wǎng)絡(luò )和存儲應用,實(shí)現接口協(xié)議橋接/轉換、算法加速和數據包處理。 在Speedcore Gen4架構中,Achronix將機器學(xué)習處理器(MLP)添加到Speedcore可提供的資源邏輯庫單元模塊中。MLP模塊是一種高度靈活的計算引擎,它與存儲器緊密耦合,從而為人工智能和機器學(xué)習(AI / ML)應用提供了性能/功耗比最高和成本最低的解決方案。 Achronix 半導體公司總裁兼首席執行官Robert Blake說(shuō)道:“Achronix是第一家向SoC開(kāi)發(fā)公司提供量產(chǎn)eFPGA IP的公司,使他們能夠創(chuàng )建支持各種全新應用的可編程數據加速器。新的Speedcore Gen4 eFPGA架構提供了以前僅在A(yíng)SIC中才能實(shí)現的、最佳的硬件加速平衡,以及我們經(jīng)過(guò)量產(chǎn)驗證過(guò)的FPGA技術(shù)提供的靈活性和可編程性,從而為新興人工智能/機器學(xué)習和高數據帶寬應用的爆炸式需求提供了支持! Robert補充到:“我們正在使用經(jīng)過(guò)驗證的同樣的方法體系來(lái)為客戶(hù)提供最新的Speedcore Gen4 eFPGA技術(shù),來(lái)滿(mǎn)足他們將eFPGA IP的所有優(yōu)勢和靈活性與增強的人工智能/機器學(xué)習功能相結合的愿望,而這種最前沿的人工智能/機器學(xué)習功能得益于我們最新機器學(xué)習處理器單元模塊和臺積電(TSMC)最先進(jìn)的7nm工藝技術(shù)! 解決帶寬爆炸問(wèn)題 固定和無(wú)線(xiàn)網(wǎng)絡(luò )帶寬的急劇增加,加上處理能力向邊緣等進(jìn)行重新分配,以及數十億物聯(lián)網(wǎng)設備的出現,將給傳統網(wǎng)絡(luò )和計算基礎設施帶來(lái)壓力。這種新的處理范式意味著(zhù)每秒將有數十億到數萬(wàn)億次的運算。傳統云和企業(yè)數據中心計算資源和通信基礎設施無(wú)法跟上數據速率的指數級增長(cháng)、快速變化的安全協(xié)議、以及許多新的網(wǎng)絡(luò )和連接要求。傳統的多核CPU和SoC無(wú)法在沒(méi)有輔助的情況下獨立滿(mǎn)足這些要求,因而它們需要硬件加速器,通常是可重新編程的硬件加速器,用來(lái)預處理和卸載計算,以便提高系統的整體計算性能。經(jīng)過(guò)優(yōu)化后的Speedcore Gen4 eFPGA已經(jīng)可以滿(mǎn)足這些應用需求。 Speedcore Gen4是最佳的人工智能/機器學(xué)習加速器 除了計算和網(wǎng)絡(luò )基礎設施的通用要求之外,人工智能/機器學(xué)習還對高密度和針對性計算產(chǎn)生了顯著(zhù)增加的需求。與以前的Achronix FPGA產(chǎn)品相比,新的Achronix機器學(xué)習處理器(MLP)利用了人工智能/機器學(xué)習處理的特定屬性,并將這些應用的性能提高了300%。這是通過(guò)多種架構性創(chuàng )新來(lái)實(shí)現的,這些創(chuàng )新可以同時(shí)提高每個(gè)時(shí)鐘周期的性能和操作次數。 新的Achronix機器學(xué)習處理器(MLP)是一個(gè)完整的人工智能/機器學(xué)習計算引擎,支持定點(diǎn)和多個(gè)浮點(diǎn)數格式和精度。每個(gè)機器學(xué)習處理器包括一個(gè)循環(huán)寄存器文件(Cyclical Register File),它用來(lái)存儲重用的權重或數據。各個(gè)機器學(xué)習處理器與相鄰的機器學(xué)習處理器單元模塊和更大的存儲單元模塊緊密耦合,以提供最高的處理性能、每秒最高的操作次數和最低的功率分集。這些機器學(xué)習處理器支持各種定點(diǎn)和浮點(diǎn)格式,包括Bfloat16、16位、半精度、24位和單元塊浮點(diǎn)。用戶(hù)可以通過(guò)為其應用選擇最佳精度來(lái)實(shí)現精度和性能的均衡。 為了補充機器學(xué)習處理器并提高人工智能/機器學(xué)習的計算密度,Speedcore Gen4查找表(LUT)可以實(shí)現比任何獨立FPGA芯片產(chǎn)品高出兩倍的乘法器。領(lǐng)先的獨立FPGA芯片在21個(gè)查找表可以中實(shí)現6x6乘法器,而Speedcore Gen4僅需在11個(gè)LUT中就可實(shí)現相同的功能,并可在1 GHz的速率上工作。 架構性創(chuàng )新提高系統性能 與上一代Speedcore產(chǎn)品相比,新的Speedcore Gen4架構實(shí)現了多項創(chuàng )新,從而可將系統整體性能提高60%。其中查找表的所有方面都得到了增強,以支持使用最少的資源來(lái)實(shí)現各種功能,從而可縮減面積和功耗并提高性能。其中的更改包括將ALU的大小加倍、將每個(gè)LUT的寄存器數量加倍、支持7位函數和一些8位函數、以及為移位寄存器提供的專(zhuān)用高速連接。 其中的路由架構也借由一種獨立的專(zhuān)用總線(xiàn)路由結構得到了增強。此外,在該路由結構中還有專(zhuān)用的總線(xiàn)多路復用器,可有效地創(chuàng )建分布式的、運行時(shí)可配置的交換網(wǎng)絡(luò )。這為高帶寬和低延遲應用提供了最佳的解決方案,并在業(yè)界首次實(shí)現了將網(wǎng)絡(luò )優(yōu)化應用于FPGA互連。 如何評估Speedcore Gen4 Achronix的ACE設計工具中包括了Speedcore Gen4 eFPGAs的預先配置示例實(shí)例,它們可支持客戶(hù)針對性能、資源使用率和編譯時(shí)間去評估Speedcore Gen4的結果質(zhì)量;Achronix現已可提供支持Speedcore Gen4的ACE設計工具。Speedcore采用了一種模塊化的架構,它可根據客戶(hù)的要求輕松配置其大小。Achronix使用其Speedcore Builder工具來(lái)即刻創(chuàng )建新的Speedcore實(shí)例,以便滿(mǎn)足客戶(hù)對其快速評估的要求。對于需要了解芯片尺寸和功率信息的客戶(hù),可以聯(lián)系Achronix來(lái)了解有關(guān)其特定Speedcore Gen4 eFPGA的面積和工藝要求的詳細信息。 供貨 對于已量產(chǎn)的Speedcore架構,Achronix可在6周內為客戶(hù)配置并提供Speedcore eFPGA IP和支持文件。采用臺積電7nm工藝節點(diǎn)的Speedcore Gen4將于2019年上半年投入量產(chǎn),但是芯片設計企業(yè)現已可以聯(lián)系Achronix,以獲得支持其特定需求的Speedcore Gen4實(shí)例。Achronix還將于2019年下半年提供用于臺積電16nm和12nm工藝節點(diǎn)的Speedcore Gen4 eFPGA IP。 |