清華發(fā)布最通俗易懂的AI芯片研究報告

發(fā)布時(shí)間：2018-11-27 14:40 發(fā)布者：eechina

關(guān)鍵詞：清華 , AI芯片

一、AI芯片基本知識及現狀

從廣義上講只要能夠運行人工智能算法的芯片都叫作 AI 芯片。但是通常意義上的 AI 芯片指的是針對人工智能算法做了特殊加速設計的芯片，現階段，這些人工智能算法一般以深度學(xué)習算法為主，也可以包括其它機器學(xué)習算法。人工智能與深度學(xué)習的關(guān)系如圖所示。

▲人工智能與深度學(xué)習

深度學(xué)習算法，通常是基于接收到的連續數值，通過(guò)學(xué)習處理，并輸出連續數值的過(guò)程，實(shí)質(zhì)上并不能完全模仿生物大腦的運作機制。基于這一現實(shí)，研究界還提出了SNN（Spiking Neural Network，脈沖神經(jīng)網(wǎng)絡(luò )）模型。作為第三代神經(jīng)網(wǎng)絡(luò )模型， SNN 更貼近生物神經(jīng)網(wǎng)絡(luò )——除了神經(jīng)元和突觸模型更貼近生物神經(jīng)元與突觸之外， SNN 還將時(shí)域信息引入了計算模型。目前基于 SNN 的 AI 芯片主要以 IBM 的 TrueNorth、 Intel 的 Loihi 以及國內的清華大學(xué)天機芯為代表。

1、AI 芯片發(fā)展歷程

從圖靈的論文《計算機器與智能》和圖靈測試，到最初級的神經(jīng)元模擬單元——感知機，再到現在多達上百層的深度神經(jīng)網(wǎng)絡(luò )，人類(lèi)對人工智能的探索從來(lái)就沒(méi)有停止過(guò)。上世紀八十年代，多層神經(jīng)網(wǎng)絡(luò )和反向傳播算法的出現給人工智能行業(yè)點(diǎn)燃了新的火花。反向傳播的主要創(chuàng )新在于能將信息輸出和目標輸出之間的誤差通過(guò)多層網(wǎng)絡(luò )往前一級迭代反饋，將最終的輸出收斂到某一個(gè)目標范圍之內。 1989 年貝爾實(shí)驗室成功利用反向傳播算法，在多層神經(jīng)網(wǎng)絡(luò )開(kāi)發(fā)了一個(gè)手寫(xiě)郵編識別器。 1998 年 Yann LeCun 和 Yoshua Bengio 發(fā)表了手寫(xiě)識別神經(jīng)網(wǎng)絡(luò )和反向傳播優(yōu)化相關(guān)的論文《Gradient-based learning applied to documentrecognition》，開(kāi)創(chuàng )了卷積神經(jīng)網(wǎng)絡(luò )的時(shí)代。

此后，人工智能陷入了長(cháng)時(shí)間的發(fā)展沉寂階段，直到 1997年 IBM的深藍戰勝?lài)H象棋大師和 2011年 IBM的沃森智能系統在 Jeopardy節目中勝出，人工智能才又一次為人們所關(guān)注。 2016 年 Alpha Go 擊敗韓國圍棋九段職業(yè)選手，則標志著(zhù)人工智能的又一波高潮。從基礎算法、底層硬件、工具框架到實(shí)際應用場(chǎng)景，現階段的人工智能領(lǐng)域已經(jīng)全面開(kāi)花。

作為人工智能核心的底層硬件 AI 芯片，也同樣經(jīng)歷了多次的起伏和波折，總體看來(lái)，AI 芯片的發(fā)展前后經(jīng)歷了四次大的變化，其發(fā)展歷程如圖所示。

▲AI 芯片發(fā)展歷程

（1） 2007 年以前， AI 芯片產(chǎn)業(yè)一直沒(méi)有發(fā)展成為成熟的產(chǎn)業(yè)；同時(shí)由于當時(shí)算法、數據量等因素，這個(gè)階段 AI 芯片并沒(méi)有特別強烈的市場(chǎng)需求，通用的 CPU 芯片即可滿(mǎn)足應用需要。

（2）隨著(zhù)高清視頻、 VR、 AR游戲等行業(yè)的發(fā)展， GPU產(chǎn)品取得快速的突破；同時(shí)人們發(fā)現 GPU 的并行計算特性恰好適應人工智能算法及大數據并行計算的需求，如 GPU 比之前傳統的 CPU在深度學(xué)習算法的運算上可以提高幾十倍的效率，因此開(kāi)始嘗試使用 GPU進(jìn)行人工智能計算。

（3）進(jìn)入 2010 年后，云計算廣泛推廣，人工智能的研究人員可以通過(guò)云計算借助大量 CPU 和 GPU 進(jìn)行混合運算，進(jìn)一步推進(jìn)了 AI 芯片的深入應用，從而催生了各類(lèi) AI 芯片的研發(fā)與應用。

（4）人工智能對于計算能力的要求不斷快速地提升，進(jìn)入 2015 年后， GPU 性能功耗比不高的特點(diǎn)使其在工作適用場(chǎng)合受到多種限制，業(yè)界開(kāi)始研發(fā)針對人工智能的專(zhuān)用芯片，以期通過(guò)更好的硬件和芯片架構，在計算效率、能耗比等性能上得到進(jìn)一步提升。

2、我國 AI 芯片發(fā)展情況

目前，我國的人工智能芯片行業(yè)發(fā)展尚處于起步階段。長(cháng)期以來(lái)，中國在 CPU、 GPU、DSP 處理器設計上一直處于追趕地位，絕大部分芯片設計企業(yè)依靠國外的 IP 核設計芯片，在自主創(chuàng )新上受到了極大的限制。然而，人工智能的興起，無(wú)疑為中國在處理器領(lǐng)域實(shí)現彎道超車(chē)提供了絕佳的機遇。人工智能領(lǐng)域的應用目前還處于面向行業(yè)應用階段，生態(tài)上尚未形成壟斷，國產(chǎn)處理器廠(chǎng)商與國外競爭對手在人工智能這一全新賽場(chǎng)上處在同一起跑線(xiàn)上，因此，基于新興技術(shù)和應用市場(chǎng)，中國在建立人工智能生態(tài)圈方面將大有可為。

由于我國特殊的環(huán)境和市場(chǎng)，國內 AI 芯片的發(fā)展目前呈現出百花齊放、百家爭鳴的態(tài)勢， AI 芯片的應用領(lǐng)域也遍布股票交易、金融、商品推薦、安防、早教機器人以及無(wú)人駕駛等眾多領(lǐng)域，催生了大量的人工智能芯片創(chuàng )業(yè)公司，如地平線(xiàn)、深鑒科技、中科寒武紀等。

盡管如此，國內公司卻并未如國外大公司一樣形成市場(chǎng)規模，反而出現各自為政的散裂發(fā)展現狀。除了新興創(chuàng )業(yè)公司，國內研究機構如北京大學(xué)、清華大學(xué)、中國科學(xué)院等在A(yíng)I 芯片領(lǐng)域都有深入研究；而其他公司如百度和比特大陸等， 2017 年也有一些成果發(fā)布�？梢灶A見(jiàn)，未來(lái)誰(shuí)先在人工智能領(lǐng)域掌握了生態(tài)系統，誰(shuí)就掌握住了這個(gè)產(chǎn)業(yè)的主動(dòng)權。

3、AI學(xué)者概況

基于來(lái)自清華大學(xué)AMiner 人才庫數據，全球人工智能芯片領(lǐng)域學(xué)者分布如圖所示，從圖中可以看到，人工智能芯片領(lǐng)域的學(xué)者主要分布在北美洲，其次是歐洲。中國對人工智能芯片的研究緊跟其后，南美洲、非洲和大洋洲人才相對比較匱乏。

▲ 人工智能芯片領(lǐng)域研究學(xué)者全球分布

按國家進(jìn)行統計來(lái)看美國是人工智能芯片領(lǐng)域科技發(fā)展的核心。英國的人數緊排在美國之后。其他的專(zhuān)家主要分布在中國、德國、加拿大、意大利和日本。

▲人工智能芯片領(lǐng)域研究學(xué)者全球分布

對全球人工智能芯片領(lǐng)域最具影響力的 1000 人的遷徙路徑進(jìn)行了統計分析，得出下圖所示的各國人才逆順差對比。

▲各國人才逆順差

可以看出，各國人才的流失和引進(jìn)是相對比較均衡的，其中美國為人才流動(dòng)大國，人才輸入和輸出幅度都大幅度領(lǐng)先。英國、中國、德國和瑞士等國次于美國，但各國之間人才流動(dòng)相差并不明顯。

二、AI 芯片的分類(lèi)及技術(shù)

人工智能芯片目前有兩種發(fā)展路徑：一種是延續傳統計算架構，加速硬件計算能力，主要以 3 種類(lèi)型的芯片為代表，即 GPU、 FPGA、 ASIC，但 CPU依舊發(fā)揮著(zhù)不可替代的作用；另一種是顛覆經(jīng)典的馮·諾依曼計算架構，采用類(lèi)腦神經(jīng)結構來(lái)提升計算能力，以 IBM TrueNorth 芯片為代表。

1、傳統 CPU

計算機工業(yè)從 1960 年代早期開(kāi)始使用 CPU 這個(gè)術(shù)語(yǔ)。迄今為止， CPU 從形態(tài)、設計到實(shí)現都已發(fā)生了巨大的變化，但是其基本工作原理卻一直沒(méi)有大的改變。通常 CPU 由控制器和運算器這兩個(gè)主要部件組成。傳統的 CPU 內部結構圖如圖 3 所示，從圖中我們可以看到：實(shí)質(zhì)上僅單獨的 ALU 模塊（邏輯運算單元）是用來(lái)完成數據計算的，其他各個(gè)模塊的存在都是為了保證指令能夠一條接一條的有序執行。這種通用性結構對于傳統的編程計算模式非常適合，同時(shí)可以通過(guò)提升 CPU 主頻（提升單位時(shí)間內執行指令的條數）來(lái)提升計算速度。但對于深度學(xué)習中的并不需要太多的程序指令、卻需要海量數據運算的計算需求，這種結構就顯得有些力不從心。尤其是在功耗限制下，無(wú)法通過(guò)無(wú)限制的提升 CPU 和內存的工作頻率來(lái)加快指令執行速度，這種情況導致 CPU 系統的發(fā)展遇到不可逾越的瓶頸。

▲傳統 CPU 內部結構圖（僅 ALU 為主要計算模塊）

2、并行加速計算的 GPU

GPU 作為最早從事并行加速計算的處理器，相比 CPU 速度快，同時(shí)比其他加速器芯片編程靈活簡(jiǎn)單。

傳統的 CPU 之所以不適合人工智能算法的執行，主要原因在于其計算指令遵循串行執行的方式，沒(méi)能發(fā)揮出芯片的全部潛力。與之不同的是， GPU 具有高并行結構，在處理圖形數據和復雜算法方面擁有比 CPU 更高的效率。對比 GPU 和 CPU 在結構上的差異， CPU大部分面積為控制器和寄存器，而 GPU 擁有更ALU(ARITHMETIC LOGIC UNIT，邏輯運算單元)用于數據處理，這樣的結構適合對密集型數據進(jìn)行并行處理， CPU 與 GPU 的結構對比如圖所示。程序在 GPU系統上的運行速度相較于單核 CPU往往提升幾十倍乃至上千倍。隨著(zhù)英偉達、 AMD 等公司不斷推進(jìn)其對 GPU 大規模并行架構的支持，面向通用計算的 GPU(即GPGPU， GENERAL PURPOSE GPU，通用計算圖形處理器)已成為加速可并行應用程序的重要手段。

▲CPU 及 GPU 結構對比圖（引用自 NVIDIA CUDA 文檔）

GPU 的發(fā)展歷程可分為 3 個(gè)階段，發(fā)展歷程如圖所示：

第一代 GPU(1999 年以前 ) ，部分功能從 CPU 分離，實(shí) 現硬件加速，以GE(GEOMETRY ENGINE)為代表，只能起到 3D 圖像處理的加速作用，不具有軟件編程特性。

第二代 GPU(1999-2005 年)，實(shí)現進(jìn)一步的硬件加速和有限的編程性。 1999 年，英偉達發(fā)布了“專(zhuān)為執行復雜的數學(xué)和幾何計算的” GeForce256 圖像處理芯片，將更多的晶體管用作執行單元，而不是像 CPU 那樣用作復雜的控制單元和緩存，將 T&L(TRANSFORM AND LIGHTING)等功能從 CPU 分離出來(lái)，實(shí)現了快速變換，這成為 GPU 真正出現的標志。之后幾年， GPU 技術(shù)快速發(fā)展，運算速度迅速超過(guò) CPU。 2001 年英偉達和 ATI 分別推出的GEFORCE3 和 RADEON 8500，圖形硬件的流水線(xiàn)被定義為流處理器，出現了頂點(diǎn)級可編程性，同時(shí)像素級也具有有限的編程性，但 GPU 的整體編程性仍然比較有限。

第三代 GPU(2006年以后)， GPU實(shí)現方便的編程環(huán)境創(chuàng )建，可以直接編寫(xiě)程序。 2006年英偉達與 ATI分別推出了 CUDA(Compute United Device Architecture，計算統一設備架構)編程環(huán)境和 CTM(CLOSE TO THE METAL)編程環(huán)境，使得 GPU 打破圖形語(yǔ)言的局限成為真正的并行數據處理超級加速器。

2008 年，蘋(píng)果公司提出一個(gè)通用的并行計算編程平臺 OPENCL（OPEN COMPUTING LANGUAGE，開(kāi)放運算語(yǔ)言），與 CUDA 綁定在英偉達的顯卡上不同，OPENCL 和具體的計算設備無(wú)關(guān)。

▲GPU 芯片的發(fā)展階段

目前， GPU 已經(jīng)發(fā)展到較為成熟的階段。谷歌、 FACEBOOK、微軟、 TWITTER 和百度等公司都在使用 GPU 分析圖片、視頻和音頻文件，以改進(jìn)搜索和圖像標簽等應用功能。此外，很多汽車(chē)生產(chǎn)商也在使用 GPU 芯片發(fā)展無(wú)人駕駛。不僅如此， GPU 也被應用于VR/AR 相關(guān)的產(chǎn)業(yè)。

但是 GPU也有一定的局限性。深度學(xué)習算法分為訓練和推斷兩部分， GPU 平臺在算法訓練上非常高效。但在推斷中對于單項輸入進(jìn)行處理的時(shí)候，并行計算的優(yōu)勢不能完全發(fā)揮出來(lái)。

3、半定制化的 FPGA

FPGA 是在 PAL、 GAL、 CPLD 等可編程器件基礎上進(jìn)一步發(fā)展的產(chǎn)物。用戶(hù)可以通過(guò)燒入 FPGA 配置文件來(lái)定義這些門(mén)電路以及存儲器之間的連線(xiàn)。這種燒入不是一次性的，比如用戶(hù)可以把 FPGA 配置成一個(gè)微控制器 MCU，使用完畢后可以編輯配置文件把同一個(gè)FPGA 配置成一個(gè)音頻編解碼器。因此，它既解決了定制電路靈活性的不足，又克服了原有可編程器件門(mén)電路數有限的缺點(diǎn)。

FPGA 可同時(shí)進(jìn)行數據并行和任務(wù)并行計算，在處理特定應用時(shí)有更加明顯的效率提升。對于某個(gè)特定運算，通用 CPU 可能需要多個(gè)時(shí)鐘周期；而 FPGA 可以通過(guò)編程重組電路，直接生成專(zhuān)用電路，僅消耗少量甚至一次時(shí)鐘周期就可完成運算。

此外，由于 FPGA的靈活性，很多使用通用處理器或 ASIC難以實(shí)現的底層硬件控制操作技術(shù)，利用 FPGA 可以很方便的實(shí)現。這個(gè)特性為算法的功能實(shí)現和優(yōu)化留出了更大空間。同時(shí) FPGA 一次性成本(光刻掩模制作成本)遠低于 ASIC，在芯片需求還未成規模、深度學(xué)習算法暫未穩定，需要不斷迭代改進(jìn)的情況下，利用 FPGA 芯片具備可重構的特性來(lái)實(shí)現半定制的人工智能芯片是最佳選擇之一。

功耗方面，從體系結構而言， FPGA 也具有天生的優(yōu)勢。傳統的馮氏結構中，執行單元（如 CPU 核）執行任意指令，都需要有指令存儲器、譯碼器、各種指令的運算器及分支跳轉處理邏輯參與運行，而 FPGA 每個(gè)邏輯單元的功能在重編程（即燒入）時(shí)就已經(jīng)確定，不需要指令，無(wú)需共享內存，從而可以極大的降低單位執行的功耗，提高整體的能耗比。

由于 FPGA 具備靈活快速的特點(diǎn)，因此在眾多領(lǐng)域都有替代 ASIC 的趨勢。 FPGA 在人工智能領(lǐng)域的應用如圖所示。

▲FPGA 在人工智能領(lǐng)域的應用

4、全定制化的 ASIC

目前以深度學(xué)習為代表的人工智能計算需求，主要采用 GPU、 FPGA 等已有的適合并行計算的通用芯片來(lái)實(shí)現加速。在產(chǎn)業(yè)應用沒(méi)有大規模興起之時(shí)，使用這類(lèi)已有的通用芯片可以避免專(zhuān)門(mén)研發(fā)定制芯片（ASIC）的高投入和高風(fēng)險。但是，由于這類(lèi)通用芯片設計初衷并非專(zhuān)門(mén)針對深度學(xué)習，因而天然存在性能、功耗等方面的局限性。隨著(zhù)人工智能應用規模的擴大，這類(lèi)問(wèn)題日益突顯。

GPU 作為圖像處理器，設計初衷是為了應對圖像處理中的大規模并行計算。因此，在應用于深度學(xué)習算法時(shí)，有三個(gè)方面的局限性：第一，應用過(guò)程中無(wú)法充分發(fā)揮并行計算優(yōu)勢。深度學(xué)習包含訓練和推斷兩個(gè)計算環(huán)節， GPU 在深度學(xué)習算法訓練上非常高效，但對于單一輸入進(jìn)行推斷的場(chǎng)合，并行度的優(yōu)勢不能完全發(fā)揮。第二，無(wú)法靈活配置硬件結構。 GPU 采用 SIMT 計算模式，硬件結構相對固定。目前深度學(xué)習算法還未完全穩定，若深度學(xué)習算法發(fā)生大的變化， GPU 無(wú)法像 FPGA 一樣可以靈活的配制硬件結構。第三，運行深度學(xué)習算法能效低于 FPGA。

盡管 FPGA 倍受看好，甚至新一代百度大腦也是基于 FPGA 平臺研發(fā)，但其畢竟不是專(zhuān)門(mén)為了適用深度學(xué)習算法而研發(fā)，實(shí)際應用中也存在諸多局限：第一，基本單元的計算能力有限。為了實(shí)現可重構特性， FPGA 內部有大量極細粒度的基本單元，但是每個(gè)單元的計算能力(主要依靠 LUT 查找表)都遠遠低于 CPU 和 GPU 中的 ALU 模塊；第二、計算資源占比相對較低。為實(shí)現可重構特性， FPGA 內部大量資源被用于可配置的片上路由與連線(xiàn)；第三，速度和功耗相對專(zhuān)用定制芯片(ASIC)仍然存在不小差距；第四， FPGA 價(jià)格較為昂貴，在規模放量的情況下單塊 FPGA 的成本要遠高于專(zhuān)用定制芯片。

因此，隨著(zhù)人工智能算法和應用技術(shù)的日益發(fā)展，以及人工智能專(zhuān)用芯片 ASIC產(chǎn)業(yè)環(huán)境的逐漸成熟，全定制化人工智能 ASIC也逐步體現出自身的優(yōu)勢，從事此類(lèi)芯片研發(fā)與應用的國內外比較有代表性的公司如圖所示。

▲人工智能專(zhuān)用芯片（包括類(lèi)腦芯片）研發(fā)情況一覽

深度學(xué)習算法穩定后， AI 芯片可采用 ASIC 設計方法進(jìn)行全定制，使性能、功耗和面積等指標面向深度學(xué)習算法做到最優(yōu)。

5、類(lèi)腦芯片

類(lèi)腦芯片不采用經(jīng)典的馮·諾依曼架構，而是基于神經(jīng)形態(tài)架構設計，以 IBM Truenorth為代表。 IBM 研究人員將存儲單元作為突觸、計算單元作為神經(jīng)元、傳輸單元作為軸突搭建了神經(jīng)芯片的原型。目前， Truenorth 用三星 28nm 功耗工藝技術(shù)，由 54 億個(gè)晶體管組成的芯片構成的片上網(wǎng)絡(luò )有 4096 個(gè)神經(jīng)突觸核心，實(shí)時(shí)作業(yè)功耗僅為 70mW。由于神經(jīng)突觸要求權重可變且要有記憶功能， IBM 采用與 CMOS 工藝兼容的相變非揮發(fā)存儲器（PCM）的技術(shù)實(shí)驗性的實(shí)現了新型突觸，加快了商業(yè)化進(jìn)程。

三、AI芯片產(chǎn)業(yè)及趨勢

1、AI芯片應用領(lǐng)域

隨著(zhù)人工智能芯片的持續發(fā)展，應用領(lǐng)域會(huì )隨時(shí)間推移而不斷向多維方向發(fā)展，這里我們選擇目前發(fā)展比較集中的幾個(gè)行業(yè)做相關(guān)的介紹。

▲AI芯片目前比較集中的應用領(lǐng)域

（1）智能手機

2017 年 9 月，華為在德國柏林消費電子展發(fā)布了麒麟 970 芯片，該芯片搭載了寒武紀的 NPU，成為“全球首款智能手機移動(dòng)端 AI 芯片” ； 2017 年 10 月中旬 Mate10 系列新品（該系列手機的處理器為麒麟 970）上市。搭載了 NPU 的華為 Mate10 系列智能手機具備了較強的深度學(xué)習、本地端推斷能力，讓各類(lèi)基于深度神經(jīng)網(wǎng)絡(luò )的攝影、圖像處理應用能夠為用戶(hù)提供更加完美的體驗。

而蘋(píng)果發(fā)布以 iPhone X 為代表的手機及它們內置的 A11 Bionic 芯片。A11 Bionic 中自主研發(fā)的雙核架構 Neural Engine（神經(jīng)網(wǎng)絡(luò )處理引擎），它每秒處理相應神經(jīng)網(wǎng)絡(luò )計算需求的次數可達 6000 億次。這個(gè) Neural Engine 的出現，讓 A11 Bionic 成為一塊真正的 AI 芯片。 A11 Bionic 大大提升了 iPhone X 在拍照方面的使用體驗，并提供了一些富有創(chuàng )意的新用法。

（2）ADAS（高級輔助駕駛系統）

ADAS 是最吸引大眾眼球的人工智能應用之一，它需要處理海量的由激光雷達、毫米波雷達、攝像頭等傳感器采集的實(shí)時(shí)數據。相對于傳統的車(chē)輛控制方法，智能控制方法主要體現在對控制對象模型的運用和綜合信息學(xué)習運用上，包括神經(jīng)網(wǎng)絡(luò )控制和深度學(xué)習方法等，得益于 AI 芯片的飛速發(fā)展，這些算法已逐步在車(chē)輛控制中得到應用。

（3）CV（計算機視覺(jué)（Computer Vision）設備

需要使用計算機視覺(jué)技術(shù)的設備，如智能攝像頭、無(wú)人機、行車(chē)記錄儀、人臉識別迎賓機器人以及智能手寫(xiě)板等設備，往往都具有本地端推斷的需要，如果僅能在聯(lián)網(wǎng)下工作，無(wú)疑將帶來(lái)糟糕的體驗。而計算機視覺(jué)技術(shù)目前看來(lái)將會(huì )成為人工智能應用的沃土之一，計算機視覺(jué)芯片將擁有廣闊的市場(chǎng)前景。

（4） VR 設備

VR 設備芯片的代表為 HPU 芯片，是微軟為自身 VR 設備 Hololens 研發(fā)定制的。這顆由臺積電代工的芯片能同時(shí)處理來(lái)自 5個(gè)攝像頭、 1個(gè)深度傳感器以及運動(dòng)傳感器的數據，并具備計算機視覺(jué)的矩陣運算和 CNN 運算的加速功能。這使得 VR 設備可重建高質(zhì)量的人像 3D 影像，并實(shí)時(shí)傳送到任何地方。

（5）語(yǔ)音交互設備

語(yǔ)音交互設備芯片方面，國內有啟英泰倫以及云知聲兩家公司，其提供的芯片方案均內置了為語(yǔ)音識別而優(yōu)化的深度神經(jīng)網(wǎng)絡(luò )加速方案，實(shí)現設備的語(yǔ)音離線(xiàn)識別。穩定的識別能力為語(yǔ)音技術(shù)的落地提供了可能；與此同時(shí)，語(yǔ)音交互的核心環(huán)節也取得重大突破。語(yǔ)音識別環(huán)節突破了單點(diǎn)能力，從遠場(chǎng)識別，到語(yǔ)音分析和語(yǔ)義理解有了重大突破，呈現出一種整體的交互方案。

（6）機器人

無(wú)論是家居機器人還是商用服務(wù)機器人均需要專(zhuān)用軟件+芯片的人工智能解決方案，這方面典型公司有由前百度深度學(xué)習實(shí)驗室負責人余凱創(chuàng )辦的地平線(xiàn)機器人，當然地平線(xiàn)機器人除此之外，還提供 ADAS、智能家居等其他嵌入式人工智能解決方案。

2、AI芯片國內外代表性企業(yè)

本篇將介紹目前人工智能芯片技術(shù)領(lǐng)域的國內外代表性企業(yè)。文中排名不分先后。人工智能芯片技術(shù)領(lǐng)域的國內代表性企業(yè)包括中科寒武紀、中星微、地平線(xiàn)機器人、深鑒科技、靈汐科技、啟英泰倫、百度、華為等，國外包括英偉達、 AMD、 Google、高通、Nervana Systems、 Movidius、 IBM、 ARM、 CEVA、 MIT/Eyeriss、蘋(píng)果、三星等。

中科寒武紀。寒武紀科技成立于 2016 年，總部在北京，創(chuàng )始人是中科院計算所的陳天石、陳云霽兄弟，公司致力于打造各類(lèi)智能云服務(wù)器、智能終端以及智能機器人的核心處理器芯片。阿里巴巴創(chuàng )投、聯(lián)想創(chuàng )投、國科投資、中科圖靈、元禾原點(diǎn)、涌鏵投資聯(lián)合投資，為全球 AI芯片領(lǐng)域第一個(gè)獨角獸初創(chuàng )公司。

寒武紀是全球第一個(gè)成功流片并擁有成熟產(chǎn)品的 AI 芯片公司，擁有終端 AI 處理器 IP和云端高性能 AI 芯片兩條產(chǎn)品線(xiàn)。 2016 年發(fā)布的寒武紀 1A 處理器（Cambricon-1A）是世界首款商用深度學(xué)習專(zhuān)用處理器，面向智能手機、安防監控、無(wú)人機、可穿戴設備以及智能駕駛等各類(lèi)終端設備，在運行主流智能算法時(shí)性能功耗比全面超越傳統處理器。

中星微。1999 年，由多位來(lái)自硅谷的博士企業(yè)家在北京中關(guān)村科技園區創(chuàng )建了中星微電子有限公司，啟動(dòng)并承擔了國家戰略項目——“星光中國芯工程”,致力于數字多媒體芯片的開(kāi)發(fā)、設計和產(chǎn)業(yè)化。

2016 年初，中星微推出了全球首款集成了神經(jīng)網(wǎng)絡(luò )處理器（NPU）的 SVAC 視頻編解碼 SoC，使得智能分析結果可以與視頻數據同時(shí)編碼，形成結構化的視頻碼流。該技術(shù)被廣泛應用于視頻監控攝像頭，開(kāi)啟了安防監控智能化的新時(shí)代。自主設計的嵌入式神經(jīng)網(wǎng)絡(luò )處理器（NPU）采用了“數據驅動(dòng)并行計算” 架構，專(zhuān)門(mén)針對深度學(xué)習算法進(jìn)行了優(yōu)化，具備高性能、低功耗、高集成度、小尺寸等特點(diǎn)，特別適合物聯(lián)網(wǎng)前端智能的需求。

▲集成了 NPU 的神經(jīng)網(wǎng)絡(luò )處理器 VC0616 的內部結構

地平線(xiàn)機器人（Horizon Robotics）。地平線(xiàn)機器人成立于 2015 年，總部在北京，創(chuàng )始人是前百度深度學(xué)習研究院負責人余凱。BPU（BrainProcessing Unit）是地平線(xiàn)機器人自主設計研發(fā)的高效人工智能處理器架構IP，支持 ARM/GPU/FPGA/ASIC 實(shí)現，專(zhuān)注于自動(dòng)駕駛、人臉圖像辨識等專(zhuān)用領(lǐng)域。 2017年，地平線(xiàn)發(fā)布基于高斯架構的嵌入式人工智能解決方案，將在智能駕駛、智能生活、公共安防三個(gè)領(lǐng)域進(jìn)行應用，第一代 BPU芯片“盤(pán)古” 目前已進(jìn)入流片階段，預計在 2018年下半年推出，能支持 1080P 的高清圖像輸入，每秒鐘處理 30 幀，檢測跟蹤數百個(gè)目標。地平線(xiàn)的第一代 BPU 采用 TSMC 的 40nm工藝，相對于傳統 CPU/GPU，能效可以提升 2~3 個(gè)數量級（100~1,000 倍左右）。

深鑒科技。深鑒科技成立于 2016 年，總部在北京。由清華大學(xué)與斯坦福大學(xué)的世界頂尖深度學(xué)習硬件研究者創(chuàng )立。深鑒科技于 2018 年 7 月被賽靈思收購。深鑒科技將其開(kāi)發(fā)的基于 FPGA 的神經(jīng)網(wǎng)絡(luò )處理器稱(chēng)為 DPU。到目前為止，深鑒公開(kāi)發(fā)布了兩款 DPU：亞里士多德架構和笛卡爾架構，其中，亞里士多德架構是針對卷積神經(jīng)網(wǎng)絡(luò ) CNN 而設計；笛卡爾架構專(zhuān)為處理 DNN/RNN 網(wǎng)絡(luò )而設計，可對經(jīng)過(guò)結構壓縮后的稀疏神經(jīng)網(wǎng)絡(luò )進(jìn)行極致高效的硬件加速。相對于 Intel XeonCPU 與 Nvidia TitanX GPU，應用笛卡爾架構的處理器在計算速度上分別提高 189 倍與 13 倍，具有 24,000 倍與 3,000 倍的更高能效。

靈汐科技。靈汐科技于 2018 年 1 月在北京成立，聯(lián)合創(chuàng )始人包括清華大學(xué)的世界頂尖類(lèi)腦計算研究者。公司致力于新一代神經(jīng)網(wǎng)絡(luò )處理器（Tianjic）開(kāi)發(fā)，特點(diǎn)在于既能夠高效支撐現有流行的機器學(xué)習算法（包括 CNN， MLP， LSTM 等網(wǎng)絡(luò )架構），也能夠支撐更仿腦的、更具成長(cháng)潛力的脈沖神經(jīng)網(wǎng)絡(luò )算法；使芯片具有高計算力、高多任務(wù)并行度和較低功耗等優(yōu)點(diǎn)。軟件工具鏈方面支持由 Caffe、 TensorFlow 等算法平臺直接進(jìn)行神經(jīng)網(wǎng)絡(luò )的映射編譯，開(kāi)發(fā)友善的用戶(hù)交互界面。 Tianjic 可用于云端計算和終端應用場(chǎng)景，助力人工智能的落地和推廣。

啟英泰倫。啟英泰倫于2015年 11月在成都成立，是一家語(yǔ)音識別芯片研發(fā)商。啟英泰倫的 CI1006是基于 ASIC 架構的人工智能語(yǔ)音識別芯片，包含了腦神經(jīng)網(wǎng)絡(luò )處理硬件單元，能夠完美支持 DNN 運算架構，進(jìn)行高性能的數據并行計算，可極大的提高人工智能深度學(xué)習語(yǔ)音技術(shù)對大量數據的處理效率。

百度。百度 2017 年 8 月 Hot Chips 大會(huì )上發(fā)布了 XPU，這是一款 256 核、基于 FPGA 的云計算加速芯片。合作伙伴是賽思靈（Xilinx）。 XPU 采用新一代 AI 處理架構，擁有 GPU 的通用性和 FPGA 的高效率和低能耗，對百度的深度學(xué)習平臺 PaddlePaddle 做了高度的優(yōu)化和加速。據介紹， XPU 關(guān)注計算密集型、基于規則的多樣化計算任務(wù)，希望提高效率和性能，并帶來(lái)類(lèi)似 CPU 的靈活性。

華為。麒麟 970 搭載的神經(jīng)網(wǎng)絡(luò )處理器 NPU 采用了寒武紀 IP，如圖 12 所示。麒麟 970 采用了 TSMC 10nm 工藝制程，擁有 55 億個(gè)晶體管，功耗相比上一代芯片降低 20%。 CPU 架構方面為 4 核 A73+4 核 A53 組成 8 核心，能耗同比上一代芯片得到 20%的提升； GPU 方面采用了 12 核 Mali G72 MP12GPU，在圖形處理以及能效兩項關(guān)鍵指標方面分別提升 20%和50%； NPU 采用 HiAI移動(dòng)計算架構，在 FP16 下提供的運算性能可以達到 1.92 TFLOPs，相比四個(gè) Cortex-A73 核心，處理同樣的 AI 任務(wù)，有大約具備 50 倍能效和 25 倍性能優(yōu)勢。

英偉達（Nvidia）。英偉達創(chuàng )立于 1993 年，總部位于美國加利福尼亞州圣克拉拉市。早在 1999 年，英偉達發(fā)明了 GPU，重新定義了現代計算機圖形技術(shù)，徹底改變了并行計算。深度學(xué)習對計算速度有非�？量痰囊�，而英偉達的 GPU 芯片可以讓大量處理器并行運算，速度比 CPU 快十倍甚至幾十倍，因而成為絕大部分人工智能研究者和開(kāi)發(fā)者的首選。自從 Google Brain 采用 1.6 萬(wàn)個(gè) GPU 核訓練 DNN 模型，并在語(yǔ)音和圖像識別等領(lǐng)域獲得巨大成功以來(lái)，英偉達已成為 AI 芯片市場(chǎng)中無(wú)可爭議的領(lǐng)導者。

AMD。美國 AMD 半導體公司專(zhuān)門(mén)為計算機、通信和消費電子行業(yè)設計和制造各種創(chuàng )新的微處理器（CPU、 GPU、 APU、主板芯片組、電視卡芯片等），以及提供閃存和低功率處理器解決方案，公司成立于 1969 年。 AMD 致力為技術(shù)用戶(hù)——從企業(yè)、政府機構到個(gè)人消費者——提供基于標準的、以客戶(hù)為中心的解決方案。

2017 年 12 月 Intel 和 AMD 宣布將聯(lián)手推出一款結合英特爾處理器和 AMD 圖形單元的筆記本電腦芯片。目前 AMD 擁有針對 AI 和機器學(xué)習的高性能 Radeon Instinc 加速卡，開(kāi)放式軟件平臺 ROCm 等。

Google 。Google 在 2016 年宣布獨立開(kāi)發(fā)一種名為 TPU 的全新的處理系統。 TPU 是專(zhuān)門(mén)為機器學(xué)習應用而設計的專(zhuān)用芯片。通過(guò)降低芯片的計算精度，減少實(shí)現每個(gè)計算操作所需晶體管數量的方式，讓芯片的每秒運行的操作個(gè)數更高，這樣經(jīng)過(guò)精細調優(yōu)的機器學(xué)習模型就能在芯片上運行得更快，進(jìn)而更快地讓用戶(hù)得到更智能的結果。在 2016 年 3 月打敗了李世石和 2017 年 5 月打敗了柯杰的阿爾法狗，就是采用了谷歌的 TPU 系列芯片。

Google I/O-2018 開(kāi)發(fā)者大會(huì )期間，正式發(fā)布了第三代人工智能學(xué)習專(zhuān)用處理器 TPU 3.0。TPU3.0 采用 8 位低精度計算以節省晶體管數量，對精度影響很小但可以大幅節約功耗、加快速度，同時(shí)還有脈動(dòng)陣列設計，優(yōu)化矩陣乘法與卷積運算，并使用更大的片上內存，減少對系統內存的依賴(lài)。速度能加快到最高 100PFlops（每秒 1000 萬(wàn)億次浮點(diǎn)計算）。

高通。在智能手機芯片市場(chǎng)占據絕對優(yōu)勢的高通公司，也在人工智能芯片方面積極布局。據高通提供的資料顯示，其在人工智能方面已投資了 Clarifai 公司和中國“專(zhuān)注于物聯(lián)網(wǎng)人工智能服務(wù)” 的云知聲。而早在 2015 年 CES 上，高通就已推出了一款搭載驍龍 SoC 的飛行機器人——Snapdragon Cargo。高通認為在工業(yè)、農業(yè)的監測以及航拍對拍照、攝像以及視頻新需求上，公司恰好可以發(fā)揮其在計算機視覺(jué)領(lǐng)域的能力。此外，高通的驍龍 820 芯片也被應用于 VR頭盔中。事實(shí)上，高通已經(jīng)在研發(fā)可以在本地完成深度學(xué)習的移動(dòng)端設備芯片。

Nervana Systems。Nervana 創(chuàng )立于 2014 年，公司推出的 The Nervana Engine 是一個(gè)為深度學(xué)習專(zhuān)門(mén)定制和優(yōu)化的 ASIC 芯片。這個(gè)方案的實(shí)現得益于一項叫做 High Bandwidth Memory 的新型內存技術(shù)，這項技術(shù)同時(shí)擁有高容量和高速度，提供 32GB 的片上儲存和 8TB 每秒的內存訪(fǎng)問(wèn)速度。該公司目前提供一個(gè)人工智能服務(wù)“in the cloud” ，他們聲稱(chēng)這是世界上最快的且目前已被金融服務(wù)機構、醫療保健提供者和政府機構所使用的服務(wù)。他們的新型芯片將會(huì )保證 Nervana 云平臺在未來(lái)的幾年內仍保持最快的速度。

Movidius（被 Intel 收購）。2016 年 9 月， Intel 發(fā)表聲明收購了 Movidius。 Movidius 專(zhuān)注于研發(fā)高性能視覺(jué)處理芯片。其最新一代的 Myriad2 視覺(jué)處理器主要由 SPARC 處理器作為主控制器，加上專(zhuān)門(mén)的DSP 處理器和硬件加速電路來(lái)處理專(zhuān)門(mén)的視覺(jué)和圖像信號。這是一款以 DSP 架構為基礎的視覺(jué)處理器，在視覺(jué)相關(guān)的應用領(lǐng)域有極高的能耗比，可以將視覺(jué)計算普及到幾乎所有的嵌入式系統中。

該芯片已被大量應用在 Google 3D 項目的 Tango 手機、大疆無(wú)人機、 FLIR 智能紅外攝像機、�？瞪铐盗袛z像機、華睿智能工業(yè)相機等產(chǎn)品中。

IBM。IBM 很早以前就發(fā)布過(guò) watson，投入了很多的實(shí)際應用。除此之外，還啟動(dòng)了類(lèi)腦芯片的研發(fā)，即 TrueNorth。TrueNorth 是 IBM 參與 DARPA 的研究項目 SyNapse 的最新成果。 SyNapse 全稱(chēng)是Systems of Neuromorphic Adaptive Plastic Scalable Electronics（自適應可塑可伸縮電子神經(jīng)系統，而 SyNapse 正好是突觸的意思），其終極目標是開(kāi)發(fā)出打破馮·諾依曼體系結構的計算機體系結構。

ARM。ARM 推出全新芯片架構 DynamIQ，通過(guò)這項技術(shù)， AI 芯片的性能有望在未來(lái)三到五年內提升 50 倍。

ARM的新CPU架構將會(huì )通過(guò)為不同部分配置軟件的方式將多個(gè)處理核心集聚在一起，這其中包括一個(gè)專(zhuān)門(mén)為 AI 算法設計的處理器。芯片廠(chǎng)商將可以為新處理器配置最多 8 個(gè)核心。同時(shí)為了能讓主流 AI 在自己的處理器上更好地運行， ARM 還將推出一系列軟件庫。

CEVA。CEVA 是專(zhuān)注于 DSP 的 IP 供應商，擁有眾多的產(chǎn)品線(xiàn)。其中，圖像和計算機視覺(jué) DSP產(chǎn)品 CEVA-XM4是第一個(gè)支持深度學(xué)習的可編程 DSP，而其發(fā)布的新一代型號 CEVA-XM6，具有更優(yōu)的性能、更強大的計算能力以及更低的能耗。CEVA 指出，智能手機、汽車(chē)、安全和商業(yè)應用，如無(wú)人機、自動(dòng)化將是其業(yè)務(wù)開(kāi)展的主要目標。

MIT/Eyeriss。Eyeriss 事實(shí)上是 MIT 的一個(gè)項目，還不是一個(gè)公司，從長(cháng)遠來(lái)看，如果進(jìn)展順利，很可能孵化出一個(gè)新的公司。Eyeriss 是一個(gè)高效能的深度卷積神經(jīng)網(wǎng)絡(luò )（CNN）加速器硬件，該芯片內建 168 個(gè)核心，專(zhuān)門(mén)用來(lái)部署神經(jīng)網(wǎng)路（neural network），效能為一般 GPU 的 10 倍。其技術(shù)關(guān)鍵在于最小化 GPU 核心和記憶體之間交換數據的頻率（此運作過(guò)程通常會(huì )消耗大量的時(shí)間與能量）：一般 GPU 內的核心通常共享單一記憶體，但 Eyeriss 的每個(gè)核心擁有屬于自己的記憶體。

目前， Eyeriss 主要定位在人臉識別和語(yǔ)音識別，可應用在智能手機、穿戴式設備、機器人、自動(dòng)駕駛車(chē)與其他物聯(lián)網(wǎng)應用裝置上。

蘋(píng)果。在 iPhone 8 和 iPhone X 的發(fā)布會(huì )上，蘋(píng)果明確表示其中所使用的 A11 處理器集成了一個(gè)專(zhuān)用于機器學(xué)習的硬件——“神經(jīng)網(wǎng)絡(luò )引擎（Neural Engine） ”，每秒運算次數最高可達6000 億次。這塊芯片將能夠改進(jìn)蘋(píng)果設備在處理需要人工智能的任務(wù)時(shí)的表現，比如面部識別和語(yǔ)音識別等。

三星。2017 年，華為海思推出了麒麟 970 芯片，據知情人士透露，為了對標華為，三星已經(jīng)研發(fā)了許多種類(lèi)的人工智能芯片。三星計劃在未來(lái)三年內新上市的智能手機中都采用人工智能芯片，并且他們還將為人工智能設備建立新的組件業(yè)務(wù)。三星還投資了Graphcore、深鑒科技等人工智能芯片企業(yè)。

3、技術(shù)趨勢

目前主流 AI 芯片的核心主要是利用 MAC（Multiplier and Accumulation，乘加計算）加速陣列來(lái)實(shí)現對 CNN（卷積神經(jīng)網(wǎng)絡(luò )）中最主要的卷積運算的加速。這一代 AI 芯片主要有如下 3 個(gè)方面的問(wèn)題。

（1）深度學(xué)習計算所需數據量巨大，造成內存帶寬成為整個(gè)系統的瓶頸，即所謂“memory wall” 問(wèn)題。

（2）與第一個(gè)問(wèn)題相關(guān)，內存大量訪(fǎng)問(wèn)和 MAC陣列的大量運算，造成 AI芯片整體功耗的增加。

（3）深度學(xué)習對算力要求很高，要提升算力，最好的方法是做硬件加速，但是同時(shí)深度學(xué)習算法的發(fā)展也是日新月異，新的算法可能在已經(jīng)固化的硬件加速器上無(wú)法得到很好的支持，即性能和靈活度之間的平衡問(wèn)題。

因此可以預見(jiàn)下一代 AI 芯片將有如下的五個(gè)發(fā)展趨勢。

（1）、更高效的大卷積解構/復用

在標準 SIMD 的基礎上， CNN 由于其特殊的復用機制，可以進(jìn)一步減少總線(xiàn)上的數據通信。而復用這一概念，在超大型神經(jīng)網(wǎng)絡(luò )中就顯得格外重要。如何合理地分解、映射這些超大卷積到有效的硬件上成為了一個(gè)值得研究的方向，

（2）、更低的 Inference 計算/存儲位寬

AI 芯片最大的演進(jìn)方向之一可能就是神經(jīng)網(wǎng)絡(luò )參數/計算位寬的迅速減少——從 32 位浮點(diǎn)到 16 位浮點(diǎn)/定點(diǎn)、 8 位定點(diǎn)，甚至是 4 位定點(diǎn)。在理論計算領(lǐng)域， 2 位甚至 1 位參數位寬，都已經(jīng)逐漸進(jìn)入實(shí)踐領(lǐng)域。

（3）、更多樣的存儲器定制設計

當計算部件不再成為神經(jīng)網(wǎng)絡(luò )加速器的設計瓶頸時(shí)，如何減少存儲器的訪(fǎng)問(wèn)延時(shí)將會(huì )成為下一個(gè)研究方向。通常，離計算越近的存儲器速度越快，每字節的成本也越高，同時(shí)容量也越受限，因此新型的存儲結構也將應運而生。

（4）、更稀疏的大規模向量實(shí)現

神經(jīng)網(wǎng)絡(luò )雖然大，但是，實(shí)際上有很多以零為輸入的情況，此時(shí)稀疏計算可以高效的減少無(wú)用能效。來(lái)自哈佛大學(xué)的團隊就該問(wèn)題提出了優(yōu)化的五級流水線(xiàn)結，在最后一級輸出了觸發(fā)信號。在 Activation層后對下一次計算的必要性進(jìn)行預先判斷，如果發(fā)現這是一個(gè)稀疏節點(diǎn)，則觸發(fā) SKIP 信號，避免乘法運算的功耗，以達到減少無(wú)用功耗的目的。

（5）、計算和存儲一體化

計算和存儲一體化（process-in-memory）技術(shù)，其要點(diǎn)是通過(guò)使用新型非易失性存儲（如 ReRAM）器件，在存儲陣列里面加上神經(jīng)網(wǎng)絡(luò )計算功能，從而省去數據搬移操作，即實(shí)現了計算存儲一體化的神經(jīng)網(wǎng)絡(luò )處理，在功耗性能方面可以獲得顯著(zhù)提升。

近幾年，AI技術(shù)不斷取得突破性進(jìn)展。作為AI技術(shù)的重要物理基礎，AI芯片擁有巨大的產(chǎn)業(yè)價(jià)值和戰略地位。但從大趨勢來(lái)看，目前尚處于A(yíng)I芯片發(fā)展的初級階段，無(wú)論是科研還是產(chǎn)業(yè)應用都有巨大的創(chuàng )新空間�，F在不僅英偉達、谷歌等國際巨頭相繼推出新產(chǎn)品，國內百度、阿里等紛紛布局這一領(lǐng)域，也誕生了寒武紀等AI芯片創(chuàng )業(yè)公司。在CPU、GPU等傳統芯片領(lǐng)域與國際相差較多的情況下，中國AI芯片被寄望能實(shí)現彎道超車(chē)。

本文地址：http://selenalain.com/thread-550612-1-1.html 【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布，目的在于傳遞和分享信息，并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問(wèn)題，我們將根據著(zhù)作權人的要求，第一時(shí)間更正或刪除。

相關(guān)文章

網(wǎng)友評論

貿澤電子有獎問(wèn)答視頻，答對領(lǐng)10元微信紅包

廠(chǎng)商推薦

關(guān)于我們 - 服務(wù)條款 - 使用指南 - 站點(diǎn)地圖 - 友情鏈接 - 聯(lián)系我們
電子工程網(wǎng) © 版權所有京ICP備16069177號 | 京公網(wǎng)安備11010502021702

快速回復 返回頂部 返回列表

午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页