當AI遇到FPGA,低功耗智能探測系統不再是難題

發(fā)布時(shí)間:2020-10-12 18:26    發(fā)布者:eechina
關(guān)鍵詞: FPGA , 邊緣設備 , Lattice , sensAI
作者:Lattice半導體公司

從家庭控制中智能門(mén)鈴和安全攝像頭的存在檢測,到零售應用中用于庫存的對象計數,再到工業(yè)應用中物體和存在檢測,越來(lái)越多的網(wǎng)絡(luò )邊緣應用正在不斷推動(dòng)新型AI解決方案面市。根據IHS Markit(現Omida)的預測,2018-2025年物聯(lián)網(wǎng)設備數量將達到400億,截至2022年,所有企業(yè)產(chǎn)生的數據中近50%會(huì )在傳統數據中心或云端以外的地方進(jìn)行處理。

但與此同時(shí),市場(chǎng)一方面要求設計人員開(kāi)發(fā)出性能比以往更高的解決方案;另一方面,延遲、帶寬、隱私、功耗和成本問(wèn)題又限制了他們依賴(lài)云的計算資源來(lái)執行分析。如何解決系統對于日益嚴格的功耗(毫瓦級)和小尺寸(5mm2到100mm2)要求?如何能夠快速獲得相應的硬件和軟件工具、參考設計、演示示例和設計服務(wù)?萊迪思公司為此做出了有益的嘗試。

Lattice sensAI再獲重大更新

作為萊迪思推出的業(yè)界第一款用于網(wǎng)絡(luò )邊緣設備端AI處理的完整解決方案集合,sensAITM提供了供開(kāi)發(fā)人員評估、開(kāi)發(fā)和部署基于FPGA的機器學(xué)習/人工智能解決方案所需的全部資源,包括模塊化硬件平臺、演示示例、參考設計、神經(jīng)網(wǎng)絡(luò )IP核、軟件開(kāi)發(fā)工具和定制化設計服務(wù)。


圖1:sensAI架構框圖

2019年上半年,sensAI通過(guò)更新迎來(lái)10倍性能提升,這是由多個(gè)優(yōu)化促成的,包括通過(guò)更新CNN IP和神經(jīng)網(wǎng)絡(luò )編譯器、新增8位激活量化、智能層合并以及雙DSP引擎等特性。而最令人感到興奮的是它新增并優(yōu)化了用于快速實(shí)現網(wǎng)絡(luò )邊緣常見(jiàn)AI應用的參考設計,為關(guān)鍵詞檢測、人臉識別、人員偵測、人員計數等賦予了更強大的特性。


圖2:在訓練過(guò)程中支持8位量化可在神經(jīng)網(wǎng)絡(luò )模型訓練過(guò)程中實(shí)現更高的精度

為了演示關(guān)鍵詞檢測系統的功能,工程師使用了搭載iCE40 UltraPlus FPGA的HiMax HM01B0 UPduino shield開(kāi)發(fā)板。該開(kāi)發(fā)板有兩個(gè)直連到FPGA的I2S麥克風(fēng)、用于FPGA設計的外部閃存、權重激活存儲器、以及LED指示燈用以指示是否檢測到關(guān)鍵詞。用戶(hù)可以直接對麥克風(fēng)說(shuō)話(huà),一旦檢測到關(guān)鍵詞,LED就會(huì )亮起。


圖3:關(guān)鍵詞檢測演示系統

圖4左側是針對低功耗運行進(jìn)行優(yōu)化、采用CMOS圖像傳感器的人員偵測演示,通過(guò)VGG8網(wǎng)絡(luò )提供64 x 64 x 3的分辨率,該系統以每秒5幀的速率運行,使用iCE40 UltraPlus FPGA功耗僅為7mW;右側是性能經(jīng)優(yōu)化的人員計數應用演示,同樣也使用CMOS圖像傳感器,通過(guò)VGG8網(wǎng)絡(luò )提供128 x 128 x 3的分辨率。該演示以每秒30幀的速率運行,使用ECP5-85K FPGA功耗為850mW。


圖4:這些參考設計展示了sensAI提供的功耗與性能可選方案

Lattice人員識別參考設計方案也應用于售賣(mài)機上檢測人員的出現,喚醒售賣(mài)機的內核。通過(guò)減少非人員靠近造成的誤觸發(fā),或人員路過(guò)造成的誤觸發(fā),達到減小功耗的目的。

2020年5月,sensAI又成功升級至3.0版本。

在此前支持ECP5/ECP5-5G和iCE40 UltraPlus 模塊化硬件平臺的基礎上,新推出的sensAI 3.0版本支持CrossLink-NX™系列FPGA,運行sensAI軟件的CrossLink-NX FPGA比之前版本降低了一半的功耗,同時(shí)實(shí)現性能翻倍,從而為監控/安防、機器人、汽車(chē)和計算領(lǐng)域的智能視覺(jué)應用帶來(lái)功耗和性能上的再次突破。同時(shí),它還擁有定制化卷積神經(jīng)網(wǎng)絡(luò )CNN IP并新增支持MobileNet v2、SSD和ResNet模型,這些靈活的加速器IP可簡(jiǎn)化常見(jiàn)CNN網(wǎng)絡(luò )的實(shí)現,經(jīng)優(yōu)化后可更加充分利用FPGA的并行處理能力,開(kāi)發(fā)人員可輕松編譯經(jīng)過(guò)訓練的神經(jīng)網(wǎng)絡(luò )模型并將其下載到CrossLink-NX FPGA中。


圖6:sensAI支持多種AI算法模型

CrossLink-NX FPGA采用28nm FD-SOI工藝制造,與同類(lèi)FPGA競品相比,功耗可降低75%。在CrossLink-NX FPGA上運行解決方案時(shí),sensAI可提供多達2.5Mb的分布式內存、RAM塊以及額外的DSP資源,MIPI I/O提供瞬時(shí)啟動(dòng)的性能可在不到3ms的時(shí)間內完成自我配置,而整個(gè)器件的配置也只需8ms。在基于CrossLink-NX的對象計數演示中,——基于VGG的對象計數演示擁有10幀/秒的性能,功耗僅為200mW。

當AI遇見(jiàn)超低功耗FPGA

擁有5K LUT的iCE40 UltraPlus FPGA可實(shí)現網(wǎng)絡(luò )邊緣實(shí)時(shí)在線(xiàn)的智能應用所需的神經(jīng)網(wǎng)絡(luò )模式匹配。其擁有5280個(gè)4輸入LUT、自定義I/O、多達80Kb和1Mb的嵌入式存儲器,睡眠電流低至75uA,工作電流僅為1-10mA,功耗低至1mW,硬件平臺尺寸小至5.5mm2。為了滿(mǎn)足各類(lèi)應用的需求,還采用了包括從專(zhuān)為電子消費品和IoT設備優(yōu)化的超小尺寸2.15 mm x 2.50 mm x 0.45 mm WLCSP封裝,到低成本應用的0.5mm間距7x7mm QFN封裝在內的多種封裝選項。

功耗優(yōu)化遙遙領(lǐng)先的原因,得益于其采用的分布式異構處理(Distributed Heterogenous Processing, DHP)架構。由于不使用云端執行算法,而是使用內置的數字信號處理器(DSP)執行重復的數字處理任務(wù),因此大幅減少了功耗極大的應用處理器(AP)的計算負載,從而實(shí)現更長(cháng)時(shí)間的睡眠模式以延長(cháng)電池使用時(shí)間。另一方面,內置的神經(jīng)網(wǎng)絡(luò )軟IP和編譯器實(shí)現了靈活的機器學(xué)習/人工智能應用,消除了云端智能應用帶來(lái)的延遲,降低了整個(gè)系統解決方案的成本。


圖7:iCE40 UltraPlus采用的分布式異構處理(DHP)架構

圖8和圖9描述了不同FPGA之間存在的資源差異如何影響到人臉檢測和人員檢測應用的性能和功耗。圖8左側的32x32輸入示例中,橙色部分代表卷積層上運行的周期。在四個(gè)示例中,UltraPlus的乘法器數量最少,其他三片ECP5 FPGA的乘法器數量依次遞增。隨著(zhù)乘法器數量的增加,卷積層所需的周期數減少;右側的90x90輸入示例中,在每個(gè)柱形圖的底部有大面積的藍色區域。這是由于設計更為復雜,需要占用外部DRAM,性能就有所折中。


圖8:在UltraPlus和ECP5 FPGA上實(shí)現入門(mén)級和提高級人臉檢測時(shí)的性能、功耗和占用面積

人員偵測應用的情況類(lèi)似,兩組分別采用了64x64輸入和128x128輸入的情況。同樣,較多的乘法器會(huì )減少卷積層的負擔,而依賴(lài)DRAM則會(huì )影響性能。


圖9:在UltraPlus和ECP5 FPGA上實(shí)現簡(jiǎn)單和復雜人員檢測時(shí)的性能、功耗和占用面積

其實(shí),設計AI模型的最常見(jiàn)做法就是使用處理器,可能是GPU或者DSP,也有可能是微控制器(MCU)。不過(guò),低端MCU可能連簡(jiǎn)單的AI模型也無(wú)法處理,高性能處理器又可能會(huì )違反設備的功耗和成本要求,但這正是低功耗FPGA發(fā)揮作用的地方。與增強處理器來(lái)處理算法的方式不同,萊迪思iCE40 UltraPlus FPGA可以作為MCU的協(xié)處理器,處理MCU無(wú)法解決的復雜任務(wù)之余,將功耗保持在要求范圍內。

另一種思路是將低功耗FPGA作為單獨運行的、完整的AI引擎,此時(shí)FPGA中的DSP就起到了關(guān)鍵作用。即便網(wǎng)絡(luò )邊緣設備沒(méi)有其他的計算資源,也可以在不超出功耗、成本或電路板尺寸預算的情況下添加AI功能,更何況它們還擁有支持快速演進(jìn)算法所需的靈活性和可擴展性。

無(wú)論采取哪種方法,都意味著(zhù)設計人員可以采用萊迪思sensAI以及一片低功耗的iCE40 UltraPlus FPGA對傳感器數據進(jìn)行預處理,從而最大程度地降低了向SoC或云端傳輸數據進(jìn)行分析的成本。例如,如果是用在智能門(mén)鈴上,sensAI會(huì )初步讀取來(lái)自圖像傳感器的數據。如果判斷為不是人,比如說(shuō)是一只貓,那么系統就不會(huì )喚醒SoC或連接到云端作進(jìn)一步處理。因此,這種方法可以最大程度降低數據傳輸成本和功耗。如果預處理系統判斷門(mén)口的對象是人,則喚醒SoC作進(jìn)一步處理。這能極大減少系統需要處理的數據量,同時(shí)降低功耗要求,這對于實(shí)時(shí)在線(xiàn)的網(wǎng)絡(luò )邊緣應用來(lái)說(shuō)至關(guān)重要。


圖10:基于iCE40 UltraPlus FPGA的sensAI會(huì )預處理傳感器數據以判斷該數據是否需要發(fā)送到SoC作進(jìn)一步處理

結語(yǔ):

萊迪思的FPGA具有獨特的優(yōu)勢,可以滿(mǎn)足網(wǎng)絡(luò )邊緣設備快速變化的市場(chǎng)需求。設計人員可以在不依賴(lài)云端的情況下,快速為網(wǎng)絡(luò )邊緣設備提供更多計算資源的其中一個(gè)方法是使用FPGA中本身的并行處理能力來(lái)加速神經(jīng)網(wǎng)絡(luò )性能。此外,通過(guò)使用針對低功耗運行而優(yōu)化的低密度、小尺寸封裝FPGA,設計人員可以滿(mǎn)足新的消費和工業(yè)應用對功耗和尺寸的嚴格限制。

本文地址:http://selenalain.com/thread-605246-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页