來(lái)源: 第一財經(jīng)資訊 隨著(zhù)人工智能技術(shù)和應用的發(fā)展,作為深度學(xué)習和人工智能領(lǐng)域的專(zhuān)用芯片,NPU正逐漸走向舞臺中央。 NPU,神經(jīng)網(wǎng)絡(luò )處理單元,用于高效執行神經(jīng)網(wǎng)絡(luò )的計算,通常具有優(yōu)化的硬件架構,如向量處理單元、矩陣乘法單元、卷積單元和激活函數單元等,能夠在硬件級別上執行大規模矩陣運算和卷積運算,以提高神經(jīng)網(wǎng)絡(luò )計算效率。 當前各類(lèi)AI算法主要利用深度神經(jīng)網(wǎng)絡(luò )等算法模擬人類(lèi)神經(jīng)元和突觸,NPU能夠實(shí)現更高效率、更低能耗處理人工神經(jīng)網(wǎng)絡(luò )、隨機森林等機器學(xué)習算法和深度學(xué)習模型。如今,多家手機廠(chǎng)商已搭載NPU,AIPC也將通過(guò)“CPU(中央處理器)+NPU+GPU(圖形處理器)”打造本地混合計算。那么,NPU會(huì )是繼GPU之后的又一風(fēng)口嗎? NPU:高效能、低功耗、更擅長(cháng)推理 “相比于CPU和GPU,NPU的優(yōu)勢在于高效能、低功耗、易于編程、降低了開(kāi)發(fā)門(mén)檻,同時(shí)支持多種語(yǔ)言和框架方便開(kāi)發(fā)者進(jìn)行模型開(kāi)發(fā)和部署!盜DC中國分析師杜昀龍告訴第一財經(jīng)。 傳統的CPU通常用于執行通用計算任務(wù),但對于處理大規模的神經(jīng)網(wǎng)絡(luò )計算,CPU的處理效率相對較低。 GPU通常作為CPU的協(xié)處理器,和CPU相比邏輯運算單元更少,處理并行計算優(yōu)勢明顯,能夠分擔CPU的計算量,也是目前數據中心側應用最廣的加速計算芯片。 NPU采用“數據驅動(dòng)并行計算”的架構,在電路層模擬人類(lèi)神經(jīng)元和突觸,特別擅長(cháng)處理視頻、圖像類(lèi)的海量多媒體數據。區別于CPU、GPU所遵循的馮諾依曼架構,NPU能夠通過(guò)突觸權重實(shí)現存儲計算一體化,提高運行效率,因此比GPU更擅長(cháng)推理。且NPU芯片設計邏輯更為簡(jiǎn)單,在處理推理工作負載時(shí)具有顯著(zhù)的能耗節約優(yōu)勢。 不過(guò),由于GPU已經(jīng)具備英偉達CUDA等完善的生態(tài),杜昀龍認為,缺少像GPU那樣完善的生態(tài)環(huán)境是目前NPU滲透率提升最大的瓶頸。 據IDC數據,2022年中國實(shí)現數據中心計算加速仍以GPU為主,GPU在人工智能芯片市場(chǎng)中出貨量占比達86%;NPU占比為12%,較以往具有明顯增長(cháng)。 多用于端側和邊緣側 與云側不同的是,端側對于功耗更加敏感,對低功耗芯片的需求更明顯。因此,隨著(zhù)人工智能應用場(chǎng)景陸續落地,NPU易開(kāi)發(fā)、高效能、低功耗等優(yōu)勢逐漸突顯。業(yè)內普遍認為,在大算力需求爆發(fā)下,云側的算力需求將傳遞至端側。目前,實(shí)現智能終端算力的最常用方式是在SoC芯片中內置NPU模塊。 “NPU是專(zhuān)門(mén)為人工智能應用而設計的芯片,目前看NPU通常用于邊緣側和端側場(chǎng)景更多,比如人臉識別、人臉解鎖、影像處理等!倍抨例埍硎。 AIPC有望在2024年批量上市,而AIPC普遍搭載NPU,與CPU、GPU共同構成AIPC核心算力。 英特爾近期發(fā)布了內置NPU的第14代酷睿Ultra移動(dòng)處理器。英特爾表示,2024年,將有230多款機型搭載酷睿Ultra。蘋(píng)果也將在2024年發(fā)布搭載M3處理器的MacBook,并透露其M3處理器的NPU性能相較于M1提升了60%。 手機端則更早開(kāi)始搭載NPU,華為最早在Mate10采用寒武紀NPU,后在990系列上采用自研的達芬奇NPU。蘋(píng)果從A11SoC開(kāi)始加入Neuralengine,最新公布的A14SoC中,NPU算力已有巨大提升,Neuralengine結合CPU上的機器學(xué)習加速器能夠大大提高AI應用體驗。 除智能手機、AIPC外,在汽車(chē)、邊緣側如XR及各類(lèi)物聯(lián)網(wǎng)智能終端中,NPU也有應用。隨著(zhù)大模型走進(jìn)千行百業(yè),端側AI、邊緣側AI滲透率提升,也將帶來(lái)更多NPU需求。 國產(chǎn)芯片廠(chǎng)商深入布局 目前,國內芯片廠(chǎng)商正奮力自研NPU,以把握AI浪潮。以阿里平頭哥為代表的芯片公司已推出面向數據中心AI應用的人工智能推理芯片,目前含光800已成功應用在數據中心、邊緣服務(wù)器等場(chǎng)景。 國產(chǎn)SoC廠(chǎng)商也在深入布局NPU,以豐富和提升SoC人工智能處理能力。 NPU在SoC中的典型應用為機器視覺(jué)。以瑞芯微(603893.SH)的新一代機器視覺(jué)方案RV1106及RV1103為例,兩顆芯片在NPU、ISP、視頻編碼、音頻處理等性能均有顯著(zhù)升級,集成度與性?xún)r(jià)比較高,可以在低待機功耗的同時(shí)提供優(yōu)秀的邊緣AI算力。瑞芯微高性能的RV1126具備四核ARMCortex-A7和RISC-VMCU,2.0TopsNPU,活體檢測率可以高達98.48%,最新旗艦芯片RK3588支持6Tops的NPU算力。 晶晨股份(688099.SH)A311D在采用高性能A73內核的同時(shí),搭載了5TOPS的高性能NPU,可以廣泛用于各類(lèi)中高端AIOT(人工智能物聯(lián)網(wǎng))設備。 NPU IP方面,芯原股份(688521.SH)通過(guò)2016年對圖芯美國的收購,芯原獲得了圖形處理器(GPU)IP,在此基礎上自主開(kāi)發(fā)出了NPU IP。芯原股份此前告訴第一財經(jīng),目前,在A(yíng)IoT領(lǐng)域,公司用于人工智能的神經(jīng)網(wǎng)絡(luò )處理器IP已經(jīng)被50多家客戶(hù)的100多款芯片所采用,被用在物聯(lián)網(wǎng)、可穿戴設備、安防監控、服務(wù)器、汽車(chē)電子等10個(gè)應用領(lǐng)域。 |