作者:高級分析師Aakash Jani 2021年6月 www.linleygroup.com 林利集團(The Linley Group)高級分析師Aakash Jani撰寫(xiě) CertusPro-NX是萊迪思在18個(gè)月內采用Nexus技術(shù)平臺開(kāi)發(fā)的第四款產(chǎn)品,它將為更廣泛的應用帶來(lái)行業(yè)領(lǐng)先的功耗、性能和尺寸優(yōu)勢。這些通用FPGA提供低功耗、小尺寸和高帶寬I/O(例如PCIe Gen3和千兆以太網(wǎng)接口)等特性。它們非常適用于網(wǎng)絡(luò )邊緣人工智能、工業(yè)IoT、5G控制平面和其他應用。本白皮書(shū)由萊迪思贊助,但文中觀(guān)點(diǎn)和分析內容為作者所有。 萊迪思半導體推出的第四款基于Nexus平臺的產(chǎn)品——CertusPro-NX為現有FPGA市場(chǎng)帶來(lái)了重大革新。該系列FPGA采用28 nm FD-SOI工藝制造,擁有低功耗和小尺寸優(yōu)勢,主要針對低密度器件市場(chǎng)。與之前發(fā)布的Certus-NX相比,新產(chǎn)品的邏輯單元從17 K提升到了96 K。2020年,通用FPGA市場(chǎng)更加多元化,市場(chǎng)規模增長(cháng)約為10%;CertusPro-NX可用于實(shí)現各種功能,應用領(lǐng)域包括5G蜂窩網(wǎng)、人工智能和物聯(lián)網(wǎng)。這些市場(chǎng)不斷發(fā)生著(zhù)變化,而FPGA則能提供ASIC不具備的強大靈活性。 新產(chǎn)品系列有兩種型號,CPNX-50K有52K邏輯單元;CPNX-100K有96K邏輯單元,也是首發(fā)工程樣片。如圖1所示,后一種型號有一個(gè)支持LPDDR4 DRAM的可編程I/O(同類(lèi)FPGA中尚屬首次)。萊迪思還將內部存儲器容量拓展了3倍,讓CertusPro-NX在進(jìn)行存儲密集運算時(shí)降低功耗。 ![]() 圖1:CertusPro-NX框圖。全新FPGA包含7.3 Mb的片上存儲器、156個(gè)18x18乘法器的DSP模塊、可編程邏輯以及8個(gè)靈活的10Gbps SERDES通道(可配置連接DisplayPort或CoaXPress)。 在設計CertusPro-NX系列產(chǎn)品時(shí),萊迪思采用了28 nmFD-SOI工藝。盡管之前人們對這個(gè)選擇存在質(zhì)疑,但萊迪思完美達成了功耗和軟錯誤率方面的標準,這對公司贏(yíng)得客戶(hù)的多個(gè)應用設計來(lái)說(shuō)至關(guān)重要。除了可編程邏輯之外,CertusPro-NX還擁有硬核模塊,也可以降低功耗。它還包括一個(gè)10G以太網(wǎng)端口和一個(gè)四通道PCIe Gen3控制器。萊迪思還尤其關(guān)注位流配置模塊,因而其器件的啟動(dòng)速度非常之快,可在不到 30 毫秒內完成配置。 CertusPro-NX相比于前代產(chǎn)品提升巨大,能夠讓客戶(hù)在他們基于FPGA的設計中實(shí)現高級功能。萊迪思將新產(chǎn)品的邏輯單元數量翻倍,拓展了片上存儲器容量,升級了PCIe控制器以及可編程I/O接口。與英特爾的Cyclone V GT系列和賽靈思的Artix-7系列相比,新產(chǎn)品的性能達到了行業(yè)最佳。 機器視覺(jué)和網(wǎng)絡(luò )邊緣AI 除了拓展CertusPro-NX的可編程邏輯架構外,萊迪思還強化了該平臺的AI功能。新器件使用了7.3 Mb的內部存儲器,客戶(hù)可以加載輕量化的神經(jīng)網(wǎng)絡(luò )來(lái)識別物體、監聽(tīng)關(guān)鍵詞或檢測異常行為。然而硬件只是設計的一方面。萊迪思的sensAI軟件集合能與Caffe、TensorFlow、TensorFlow Lite和Keras等框架配合使用,且擁有萊迪思AI編譯器的支持。這一經(jīng)過(guò)驗證的解決方案集合為眾多萊迪思客戶(hù)提供了功耗和資源效率充分優(yōu)化的人工智能應用。該軟件平臺與公司的多款FPGA兼容(CertusPro-NX的兼容性計劃于今年晚些時(shí)候推出)。 網(wǎng)絡(luò )邊緣的機器視覺(jué)應用不僅要求使用硬件來(lái)實(shí)現神經(jīng)網(wǎng)絡(luò ),還需要傳感器兼容、傳感器聚合和圖像預處理等功能。在這方面,萊迪思通過(guò)可編程I/O和SERDES模塊來(lái)為CertusPro-NX的客戶(hù)提供足夠的靈活性。例如,許多高清圖像傳感器都采用SLVS-EC接口,這是許多網(wǎng)絡(luò )邊緣AI加速器所缺少的。 可編程SERDES還支持各種將數據從網(wǎng)絡(luò )邊緣傳輸到系統內部的標準,包括CoaXPress和10G Ethernet。 CertusPro-NX 的片上存儲器大小遠超競品。由于DRAM操作會(huì )增加功耗并降低吞吐量,所以如果所有權重都存儲在芯片上,神經(jīng)網(wǎng)絡(luò )就能以最佳狀態(tài)運行,且能夠最大限度地減少DRAM訪(fǎng)問(wèn)。因此,客戶(hù)希望擁有更大的片上存儲器。萊迪思全新FPGA可以存儲多達100萬(wàn)個(gè)8位權重——幾乎是Cyclone V GT或Artix-7的兩倍。由于芯片內部可以存儲更多的權重,CertusPro-NX可以在不訪(fǎng)問(wèn)DRAM的情況下運行更大的AI模型,從而降低功耗。 當萊迪思FPGA確實(shí)需要訪(fǎng)問(wèn)DRAM時(shí)會(huì )使用可編程I/O模塊,它支持LPDDR4和速度達1066 Mbps的DDR3存儲器。CertusPro-NX是同類(lèi)產(chǎn)品中首個(gè)支持LPDDR4的產(chǎn)品——比僅提供DDR3及更低標準的競品領(lǐng)先一代。然而,平均而言,這種較新的技術(shù)會(huì )增加芯片和系統的功耗。但由于CertusPro-NX有著(zhù)更大的片上存儲器和優(yōu)化的存儲器控制器,它可以通過(guò)使用片上和外部存儲器,降低能耗和存儲器訪(fǎng)問(wèn)時(shí)間來(lái)達到新的能效高度。長(cháng)期的可用性也是包括嵌入式視覺(jué)在內的許多市場(chǎng)關(guān)注的問(wèn)題,LPDDR4則解除了這種擔憂(yōu)。 構建智能家居甚至是智慧城市的一個(gè)關(guān)鍵因素是可見(jiàn)性。大多數終端用戶(hù)更傾向于不顯眼的物聯(lián)網(wǎng)傳感器設計,而小尺寸的微處理器是此類(lèi)設計的核心。CertusPro-NX的面積僅為81 mm2,在支持SERDES的同類(lèi)產(chǎn)品中擁有最小的封裝,比Cyclone V GT小33%,比Artix-7小84%。小尺寸FPGA進(jìn)一步增加了設計的可用空間,讓OEM廠(chǎng)商得以增加更多功能或縮小設計尺寸。 工業(yè)物聯(lián)網(wǎng) 最新一代工業(yè)物聯(lián)網(wǎng)的特點(diǎn)就是大規模自動(dòng)化,這得益于互連和數據分析方面的進(jìn)步。為實(shí)現自動(dòng)化分揀和包裝等任務(wù),智能工廠(chǎng)需要數千臺物聯(lián)網(wǎng)設備,它們每天共生成和處理的數據量達TB級。驅動(dòng)這些設備的芯片必須尺寸小、功耗低且可靠性高。為了讓客戶(hù)為工業(yè)4.0做好充分準備,萊迪思在其最新一代FPGA中采用了以上原則。 與基于CMOS工藝的FPGA競品相比,CertusPro-NX采用了FD-SOI來(lái)降低功耗。對這種功耗優(yōu)勢進(jìn)行量化分析的一種方法是查看各個(gè)供應商的功耗估算器。假設設計需要65 K邏輯單元、使用了75%的DSP和存儲器、運行兩個(gè)5Gbps的SERDES通道。對于在85℃結溫和125MHz頻率下運行的該設計而言,CertusPro-NX的總功耗(動(dòng)態(tài)+靜態(tài))比Artix-7少75%,比Cyclone V GT少65%,如圖 2 所示。 這些數據展示了FD-SOI工藝帶來(lái)的強大功耗優(yōu)勢。該制造技術(shù)在基板中使用絕緣層,與其他28 nm Bulk CMOS產(chǎn)品相比,漏電流最多可降低75%;而漏電流是產(chǎn)生靜態(tài)功耗和待機功耗的主要因素。 隨著(zhù)OEM廠(chǎng)商通過(guò)提高功耗來(lái)提升其產(chǎn)品性能,英特爾和賽靈思的FPGA將比萊迪思FPGA更快地超過(guò)其結溫閾值。憑借其領(lǐng)先的功耗效率,CertusPro-NX擁有更多功耗和散熱空間,從而幫助OEM廠(chǎng)商縮減系統尺寸,降低散熱管理成本。此外在結溫以下運行的系統不需要安裝容易出現機械故障的風(fēng)扇。 散熱對于工業(yè)馬達控制更為重要。馬達往往是密封的,防止灰塵顆粒進(jìn)入,縮短其使用壽命。然而,在運行期間,熱量會(huì )在馬達中積聚并提高FPGA周?chē)沫h(huán)境溫度。與競品相比,萊迪思的低功耗解決方案能讓FPGA控制更高扭矩的馬達而不會(huì )過(guò)熱。 ![]() 圖2:FPGA功耗比較。LC = 邏輯單元。與英特爾和賽靈思的同類(lèi)FPGA相比,萊迪思FPGA的功耗降低65-75%。此處的功耗估算是5 Gbps雙通道SERDES應用在125MHz以及85℃結溫下,資源使用率為75%時(shí)計算得出的。(數據來(lái)源:萊迪思) FD-SOI還擁有消除單粒子翻轉(SEU)錯誤的額外優(yōu)勢。當輻射粒子穿過(guò)器件并與存儲器或寄存器單元相互作用時(shí)會(huì )發(fā)生這種錯誤,這會(huì )導致器件邏輯狀態(tài)錯誤翻轉,從而破壞存儲器或數據路徑。與Artix-7相比,CertusPro-NX可降低99%的軟錯誤數量,無(wú)需使用軟錯誤檢測邏輯和糾錯代碼。這種方法既提高了系統可靠性,又簡(jiǎn)化了客戶(hù)設計。 CertusPro-NX的平均故障間隔時(shí)間(MTBF)是Artix-7的110倍。這一特性可滿(mǎn)足汽車(chē)和醫療系統對可靠性的需求;由于不需要經(jīng)常進(jìn)行現場(chǎng)調整,因此還可以降低維護成本,保證關(guān)鍵操作的正常持續運行。較高的MTBF還可以提高工業(yè)機器人的安全性,因為控制FPGA進(jìn)入未知狀態(tài)可能會(huì )導致機器故障,從而造成人身傷害或財產(chǎn)損失。 OEM廠(chǎng)商通常需要將FPGA與其他系統組件配對,這要求芯片間接口擁有高帶寬,防止數據流瓶頸。全新CertusPro-NX具有支持此類(lèi)連接的四通道PCIe Gen3控制器。而其競品通常只支持PCIe Gen2,每個(gè)通道速度比PCIe Gen3慢了50%。更高的SERDES帶寬結合更新的PCIe技術(shù),讓CertusPro-NX的客戶(hù)打破芯片互連的瓶頸,而使用其他解決方案可能難以實(shí)現這樣的效果。 5G應用 為了更好地服務(wù)于無(wú)線(xiàn)網(wǎng)絡(luò ),基站OEM會(huì )將控制平面和用戶(hù)平面分開(kāi),讓每個(gè)平面獨立擴展——這是5G網(wǎng)絡(luò )的一個(gè)關(guān)鍵特性,因為隨著(zhù)3GPP不斷發(fā)布新規范,這兩個(gè)平面每年都會(huì )有所變化?刂破矫媸悄K化的,因此無(wú)線(xiàn)網(wǎng)絡(luò )供應商可以將其功能拆分到多個(gè)芯片中或將它們整合到單個(gè)芯片上。它處理各種任務(wù),包括身份驗證、客戶(hù)端 (UE) 會(huì )話(huà)管理和統一數據管理。 盡管CPU可以執行所有這些功能,但它的效率不如FPGA。據行業(yè)估計,OEM廠(chǎng)商需要高效的硬件,因為每個(gè)5G基站的功耗比4G基站高70%?紤]到靈活性和功耗限制,基站OEM通常需要FPGA來(lái)協(xié)助增強處理器或 ASIC。萊迪思新產(chǎn)品的功耗低于A(yíng)rtix-7和Cyclone V GT,簡(jiǎn)化了基站的散熱管理。 5G小基站空間狹小,數據流動(dòng)量大。CertusPro-NX在擁有SERDES功能的同類(lèi)芯片產(chǎn)品尺寸最小,非常適合小尺寸設計且數據速率不會(huì )受到限制。如圖3所示,CertusPro-NX領(lǐng)先的75 Gbps SERDES帶寬比Artix-7高36%,是Cyclone V GT的2倍以上。對于數據包管理等高帶寬功能,萊迪思FPGA憑借其更大的SERDES帶寬可提供更高的吞吐量,面積效率遙遙領(lǐng)先。 ![]() 圖3:SERDES總帶寬。CertusPro-NX超過(guò)競品達2倍之多,在數據密集型操作(例如5G基站中的統一數據管理)方面有著(zhù)顯著(zhù)優(yōu)勢。(數據來(lái)源:萊迪思) 結論 萊迪思推出CertusPro-NX主要是為了滿(mǎn)足機器視覺(jué)、工業(yè)物聯(lián)網(wǎng)、5G蜂窩網(wǎng)和其他不斷增長(cháng)的市場(chǎng)需求。該器件經(jīng)優(yōu)化的內部存儲器和LPDDR4可最大限度地減少神經(jīng)網(wǎng)絡(luò )等存儲密集型操作的功耗。FD-SOI技術(shù)降低了功耗和故障率,讓下一代器件更可靠且運行成本更低。新款FPGA的10Gbps SERDES和行業(yè)領(lǐng)先的封裝尺寸使其非常適合輔助數據處理的小型系統,例如5G蜂窩網(wǎng)絡(luò )。除了在這些領(lǐng)域中表現出色,OEM還可以將其應用于許多其他領(lǐng)域,包括國防、汽車(chē)和幀抓取。 文中三款FPGA包含數量大致相同的邏輯單元,但萊迪思的產(chǎn)品由于支持LPDDR4而具有顯著(zhù)優(yōu)勢。相比之下,其他器件仍采用DDR3存儲器。CertusPro-NX 還提供更大的內部存儲器和領(lǐng)先的SERDES帶寬?蛻(hù)不僅可以使用萊迪思FPGA處理和傳輸更多數據,而且還可以將功耗降低多達75%,電路板面積減少84%。 通過(guò)推出CertusPro-NX,萊迪思為多年來(lái)投資較少的這一重要領(lǐng)域注入了新的活力。它的主要競爭對手在過(guò)去十年中沒(méi)有發(fā)布任何一款新的低成本架構產(chǎn)品,因此它有機會(huì )通過(guò)PCIe Gen3和LPDDR4等新技術(shù)來(lái)鞏固其最新產(chǎn)品系列的市場(chǎng)地位。這一策略讓萊迪思在低功耗FPGA的功耗和尺寸方面始終保持領(lǐng)先。CertusPro-NX在前一代產(chǎn)品創(chuàng )新技術(shù)的基礎上,擴展了存儲器、SERDES和邏輯功能,更好地服務(wù)于5G基站、工業(yè)物聯(lián)網(wǎng)和機器視覺(jué)等新興市場(chǎng)。 Aakash Jani是 The Linley Group 的高級分析師兼《微處理器報告》的主編。Linley Group 為客戶(hù)提供最全面的微處理器和 SoC 設計方面的分析。我們不僅分析業(yè)務(wù)戰略,還 分析技術(shù)層面。我們的專(zhuān)題文章涵蓋的主題包括嵌入式處理器、移動(dòng)處理器、服務(wù)器處理 器、AI 加速器、IoT 處理器、處理器 IP 核和以太網(wǎng)芯片。有關(guān)更多信息,請訪(fǎng)問(wèn)我們的官方網(wǎng)站 www.linleygroup.com。 |