為快速增長(cháng)的網(wǎng)絡(luò )邊緣人工智能應用提供更高性能的解決方案

發(fā)布時(shí)間:2019-9-12 10:05    發(fā)布者:eechina
關(guān)鍵詞: 邊緣人工智能 , ECP5 , iCE40 , UltraPlus , FPGA
萊迪思半導體白皮書(shū) 2019年8月

存在檢測和對象計數等網(wǎng)絡(luò )邊緣人工智能應用越來(lái)越受歡迎,但設計人員越來(lái)越多地要求在不影響性能的情況下實(shí)現低功耗和小尺寸的網(wǎng)絡(luò )邊緣人工智能解決方案。萊迪思的sensAI技術(shù)集合的最新版本, 適用于ECP5和iCE40 UltraPlus FPGA,為設計人員提供了在網(wǎng)絡(luò )邊緣實(shí)現低功耗、高性能AI所需的硬件平臺、IP、軟件工具、參考設計和設計服務(wù)。

摘要

低成本、高性能的網(wǎng)絡(luò )邊緣解決方案的市場(chǎng)競爭日益激烈。領(lǐng)先的市場(chǎng)研究公司預測,在未來(lái)六年內,網(wǎng)絡(luò )邊緣解決方案市場(chǎng)將迎來(lái)大爆發(fā)。IHS預計到2025年,將有超過(guò)400億臺設備在網(wǎng)絡(luò )邊緣運行,而市場(chǎng)情報機構Tractica預測,屆時(shí)每年將出貨超過(guò)25億臺網(wǎng)絡(luò )邊緣設備。

隨著(zhù)新一代網(wǎng)絡(luò )邊緣應用的出現,設計人員越來(lái)越傾向于開(kāi)發(fā)結合低功耗和小尺寸而不降低性能的解決方案。推動(dòng)這些新的AI解決方案的是越來(lái)越多的網(wǎng)絡(luò )邊緣應用,例如家庭控制中智能門(mén)鈴和安全攝像頭的存在檢測,零售應用中用于庫存的對象計數,以及工業(yè)應用中的物體和存在檢測。一方面,市場(chǎng)要求設計人員開(kāi)發(fā)出性能比以往更高的解決方案。另一方面,延遲、帶寬、隱私、功耗和成本問(wèn)題限制了他們依賴(lài)云的計算資源來(lái)執行分析。

同時(shí),性能、功耗和成本限制因應用而異。隨著(zhù)實(shí)時(shí)在線(xiàn)網(wǎng)絡(luò )邊緣應用的數據需求不斷推動(dòng)對基于云的服務(wù)的需求,設計人員必須解決傳統的功耗、電路板面積和成本問(wèn)題。開(kāi)發(fā)人員如何解決系統對于日益嚴格的功耗(毫瓦級)和小尺寸(5 mm2到100 mm2)要求。單論各種性能要求就已經(jīng)很難滿(mǎn)足。

利用FPGA的優(yōu)勢

萊迪思的FPGA具有獨特的優(yōu)勢,可以滿(mǎn)足網(wǎng)絡(luò )邊緣設備快速變化的市場(chǎng)需求。設計人員可以在不依賴(lài)云端的情況下,快速為網(wǎng)絡(luò )邊緣設備提供更多計算資源的其中一個(gè)方法是使用FPGA中本身的并行處理能力來(lái)加速神經(jīng)網(wǎng)絡(luò )性能。此外,通過(guò)使用針對低功耗運行而優(yōu)化的低密度、小尺寸封裝FPGA,設計人員可以滿(mǎn)足新的消費和工業(yè)應用對功耗和尺寸的嚴格限制。例如,萊迪思的iCE40  UltraPlus™和ECP5™產(chǎn)品系列支持網(wǎng)絡(luò )邊緣解決方案的開(kāi)發(fā),功耗低至1 mW到1 W,硬件平臺尺寸小至5.5 mm2到100  mm2。通過(guò)將超低功耗、高性能和高精度與全面的傳統接口支持相結合,這些FPGA為網(wǎng)絡(luò )邊緣設備開(kāi)發(fā)人員提供了滿(mǎn)足不斷變化的設計要求所需的靈活性。


圖1:萊迪思半導體的低功耗、小尺寸FPGA提供適當的性能和功能組合,支持網(wǎng)絡(luò )邊緣人工智能應用

為了滿(mǎn)足這一需求并加速開(kāi)發(fā),萊迪思推出了業(yè)界第一款技術(shù)集合sensAI™,為設計人員提供了開(kāi)發(fā)智能家居、智能工廠(chǎng)、智能城市和智能汽車(chē)中低功耗、高性能網(wǎng)絡(luò )邊緣設備所需的所有工具。sensAI旨在滿(mǎn)足支持AI的網(wǎng)絡(luò )邊緣設備不斷增長(cháng)的需求,提供全面的硬件和軟件解決方案,用于在網(wǎng)絡(luò )邊緣運行的智能設備中實(shí)現低功耗、實(shí)時(shí)在線(xiàn)的AI功能。它于2018年推出,旨在無(wú)縫創(chuàng )建新設計或更新現有設計,其低功耗AI推理針對這些新應用要求進(jìn)行了優(yōu)化。

這個(gè)綜合設計生態(tài)系統中有什么?首先,萊迪思的模塊化硬件平臺,如帶有HM01B0        Shield開(kāi)發(fā)板的iCE40 UPduino 2.0和基于ECP5的嵌入式視覺(jué)開(kāi)發(fā)套件(EVDK),為應用開(kāi)發(fā)提供了堅實(shí)的基礎。UPduino可用于僅需幾毫瓦的AI設計,而EVDK支持需要更高功耗但通常工作在1W以下的應用。

軟IP可以很容易地實(shí)例化到FPGA中,以加速神經(jīng)網(wǎng)絡(luò )的開(kāi)發(fā)。因此,sensAI開(kāi)發(fā)包包括CNN加速器IP, 能讓設計人員在iCE40 UltraPlus FPGA中實(shí)現深度學(xué)習應用。sensAI還提供完整的CNN可設置參數的加速器IP核,可以在萊迪思的ECP5 FPGA中實(shí)現。這些IP支持可變量化。這反過(guò)來(lái)又使設計人員能夠在數據準確性和功耗之間進(jìn)行權衡。

Lattice的sensAI技術(shù)集合允許設計人員通過(guò)易于使用的工具流程探索設計選項和權衡。設計人員可以使用Caffe、TensorFlow和Keras等行業(yè)標準框架進(jìn)行網(wǎng)絡(luò )訓練。開(kāi)發(fā)環(huán)境還提供神經(jīng)網(wǎng)絡(luò )編譯器,將訓練的網(wǎng)絡(luò )模型映射為固定點(diǎn)表示,支持權重和激活的可變量化。設計人員可以使用編譯器來(lái)幫助分析、仿真和編譯不同類(lèi)型的網(wǎng)絡(luò ),以便在沒(méi)有RTL經(jīng)驗的情況下在萊迪思的加速器IP核上實(shí)現。然后,設計人員可以使用傳統的FPGA設計工具,如Lattice Radiant和Diamond來(lái)實(shí)現整個(gè)FPGA設計。

為加快設計實(shí)現,sensAI提供了越來(lái)越多的參考設計和演示。包括面部識別、手勢檢測、關(guān)鍵詞檢測、人員存在檢測、面部跟蹤、對象計數和速度標志檢測。最后,設計團隊通常需要一定的專(zhuān)業(yè)知識才能完成設計。為滿(mǎn)足這一需求,萊迪思與全球各地的眾多設計服務(wù)合作伙伴建立了合作關(guān)系,以便為AI / ML專(zhuān)業(yè)知識不足的客戶(hù)提供支持。


圖2:Lattice senseAI是一整套硬件和軟件解決方案,適用于網(wǎng)絡(luò )邊緣人工智能應用的開(kāi)發(fā)

主要更新

為了滿(mǎn)足網(wǎng)絡(luò )邊緣AI快速增長(cháng)的性能要求,萊迪思在2019年發(fā)布sensAI更新,增強了其性能并優(yōu)化了設計流程。更新后的sensAI比上一版本的性能提升了10倍,這是由多個(gè)優(yōu)化促成的,包括通過(guò)更新CNN IP 和神經(jīng)網(wǎng)絡(luò )編譯器,新增8位激活量化、智能層合并以及雙DSP引擎等特性,優(yōu)化了存儲器的訪(fǎng)問(wèn)。

在最新版本中,由于更新了神經(jīng)網(wǎng)絡(luò )編譯器,支持8位輸入數據,存儲器訪(fǎng)問(wèn)序列得到大幅優(yōu)化。因此不僅外部存儲器的訪(fǎng)問(wèn)減少了一半,還支持使用更高分辨率的圖像作為數據輸入。使用更高分辨率的圖像, 解決方案自然更為精確。

為進(jìn)一步加速性能,萊迪思優(yōu)化了sensAI神經(jīng)網(wǎng)絡(luò )中的卷積層,減少了卷積計算耗費的時(shí)間。萊迪思將器件中的卷積引擎數量翻倍,減少了約50%的卷積時(shí)間。

萊迪思在不增加功耗的情況下提升了sensAI的性能,設計人員因此可以選擇ECP5 FPGA產(chǎn)品系列中門(mén)數較少的器件。經(jīng)優(yōu)化的演示示例可以幫助實(shí)現性能提升。例如,針對低功耗運行進(jìn)行優(yōu)化、采用CMOS圖像傳感器的人員偵測演示,通過(guò)VGG8網(wǎng)絡(luò )提供64 x 64 x 3的分辨率。該系統以每秒5幀的速率運行,使用iCE40 UltraPlus FPGA功耗僅為7 mW。第二個(gè)性能經(jīng)優(yōu)化的演示,針對人員計數應用,同樣也使用CMOS圖像傳感器,通過(guò)VGG8網(wǎng)絡(luò )提供128 x 128 x 3的分辨率。該演示以每秒30幀的速率運行,使用ECP5-85K FPGA功耗為850 mW。


圖3:這些參考設計展示了sensAI提供的功耗與性能可選方案

與此同時(shí),sensAI給用戶(hù)帶來(lái)無(wú)縫的設計體驗,它支持更多神經(jīng)網(wǎng)絡(luò )模型和機器學(xué)習框架,從而縮短設 計周期。全新可定制化的參考設計可簡(jiǎn)化對象計數和存在檢測等常見(jiàn)的網(wǎng)絡(luò )邊緣解決方案的開(kāi)發(fā),同時(shí)設計合作伙伴生態(tài)也在不斷拓展,為用戶(hù)提供重要的設計服務(wù)。有了這些,萊迪思能為開(kāi)發(fā)人員提供他們復制或調整其設計所需的全部關(guān)鍵工具。例如,下列框圖展示了萊迪思提供的一系列全面的組件,包括訓練模型、訓練數據集、訓練腳本、經(jīng)過(guò)更新的神經(jīng)網(wǎng)絡(luò )IP和神經(jīng)網(wǎng)絡(luò )編譯器。


圖4: sensAI的設計流程包括了行業(yè)領(lǐng)先的機器學(xué)習框架、訓練數據和腳本、神經(jīng)網(wǎng)絡(luò )IP等設計和訓練網(wǎng)絡(luò )邊緣AI設備必需的資源

萊迪思還拓展了對機器學(xué)習框架的支持,致力于提供無(wú)縫的用戶(hù)體驗。最初版本的sensAI支持Caffe和TensorFlow,最新版本新增支持Keras,這是用Python編寫(xiě)的開(kāi)源神經(jīng)網(wǎng)絡(luò ),可在TensorFlow、Microsoft Cognition Toolkit或Theano上運行。Keras旨在幫助工程師快速實(shí)現深度神經(jīng)網(wǎng)絡(luò ),它可以提供用戶(hù)友好、模塊化和可拓展的環(huán)境,加速原型設計。Keras最初被當做一種接口而非獨立的機器學(xué)習框架,它的高度抽象性能讓開(kāi)發(fā)人員加速開(kāi)發(fā)深度學(xué)習模型。

為進(jìn)一步簡(jiǎn)化使用,萊迪思更新了sensAI神經(jīng)網(wǎng)絡(luò )編譯器工具,它可以在機器學(xué)習模型轉換為固件文件時(shí)自動(dòng)選擇最精確的分數位數。sensAI更新還新增了一個(gè)硬件調試工具,讓用戶(hù)可以在神經(jīng)網(wǎng)絡(luò )每個(gè)層進(jìn)行讀取和寫(xiě)入。進(jìn)行軟件仿真之后,工程師也需要知道他們的網(wǎng)絡(luò )在實(shí)際硬件上的表現。使用此工具,工程師可以在短短幾分鐘內看到硬件運行的結果。

此外,最新版本的sensAI得到了越來(lái)越多公司的支持,他們?yōu)槿R迪思提供專(zhuān)為低功耗、實(shí)時(shí)在線(xiàn)的網(wǎng)絡(luò )邊緣設備而優(yōu)化的設計服務(wù)和產(chǎn)品開(kāi)發(fā)技能。這些公司通過(guò)無(wú)縫更新現有設計或針對特定應用開(kāi)發(fā)完整的解決方案來(lái)幫助客戶(hù)構建網(wǎng)絡(luò )邊緣AI設備。

sensAI設計案例

萊迪思這一更高性能的全新解決方案可用于下列四種不同的加速器設計案例。在第一個(gè)設計案例中(圖5),設計工程師使用sensAI來(lái)構建獨立運行模式的解決方案。這種系統架構能讓設計工程師在萊迪思iCE40 UltraPlus或ECP5 FPGA上開(kāi)發(fā)出實(shí)時(shí)在線(xiàn)的集成解決方案,具有延遲低、安全性高的特點(diǎn),其中FPGA資源可用于系統控制。典型的一種應用就是使用獨立運行的傳感器實(shí)現人員偵測和計數。


圖5:將sensAI作為獨立運行的網(wǎng)絡(luò )邊緣AI處理解決方案

設計人員還使用sensAI開(kāi)發(fā)兩種不同類(lèi)型的預處理解決方案。第一種情況下(圖6),設計人員采用了萊迪思sensAI以及一片低功耗的iCE40 UltraPlus FPGA對傳感器數據進(jìn)行預處理,從而最大程度地降低了向SoC或云端傳輸數據進(jìn)行分析的成本。例如,如果是用在智能門(mén)鈴上,sensAI會(huì )初步讀取來(lái)自圖像傳感器的數據。如果判斷為不是人,比如說(shuō)是一只貓,那么系統就不會(huì )喚醒SoC或連接到云端作進(jìn)一步處理。因此,這種方法可以最大程度降低數據傳輸成本和功耗。如果預處理系統判斷門(mén)口的對象是人,則喚醒SoC 作進(jìn)一步處理。這能極大減少系統需要處理的數據量,同時(shí)降低功耗要求,這對于實(shí)時(shí)在線(xiàn)的網(wǎng)絡(luò )邊緣應用來(lái)說(shuō)至關(guān)重要。


圖6:在此案例中,sensAI會(huì )預處理傳感器數據來(lái)判斷該數據是否需要發(fā)送到SoC作進(jìn)一步處理

在第二個(gè)預處理應用中,設計人員可以使用ECP5 FPGA實(shí)現神經(jīng)網(wǎng)絡(luò )加速(圖7)。在此案例中,設計人員利用ECP5 IO的靈活性將各類(lèi)現有的板載器件(如傳感器)連接到低端MCU,實(shí)現高度靈活的系統控制。


圖7:第二個(gè)系統架構也采用了預處理,設計人員可以使用ECP5和sensAI預處理傳感器數據,加強神經(jīng)網(wǎng)絡(luò )的綜合性能

設計人員還可以在后處理系統中使用sensAI加速器(圖8)。越來(lái)越多的設計案例表明,很多公司雖然已經(jīng)開(kāi)發(fā)出經(jīng)過(guò)驗證、基于MCU的解決方案,但是他們希望在不更換組件或重新設計的情況下新增某種AI功能。但是在某些情況下,他們的MCU性能相對不足。典型的例子就是智能工業(yè)或智能家庭應用,在進(jìn)行分析之前需要圖像濾波。設計人員可以在這里添加另一個(gè)MCU,然后經(jīng)歷耗時(shí)的設計驗證過(guò)程,或者也可以在MCU和數據中心之間添加加速器進(jìn)行后處理,最大限度地減少發(fā)送到云端的數據量。這種方法對想要添加AI功能的物聯(lián)網(wǎng)設備開(kāi)發(fā)人員尤其有吸引力。


圖8:通過(guò)sensAI增強該基于MCU的設計,讓現有的設計支持網(wǎng)絡(luò )邊緣AI功能

結論

顯然,未來(lái)幾年將是實(shí)時(shí)在線(xiàn)的網(wǎng)絡(luò )邊緣智能設備這一市場(chǎng)發(fā)展的關(guān)鍵時(shí)期。由于應用變得越來(lái)越復雜,設計人員將急需能夠以低功耗支持更高性能的工具。萊迪思最新版本的sensAI技術(shù)配合ECP5和iCE40 UltraPlus FPGA,將為設計人員提供硬件平臺、IP、軟件工具、參考設計和設計服務(wù),幫助他們戰勝競爭對手,快速開(kāi)發(fā)出成功的解決方案。

本文地址:http://selenalain.com/thread-568531-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页