格芯贏(yíng)得AI芯片業(yè)務(wù)

發(fā)布時(shí)間:2020-8-20 15:34    發(fā)布者:eechina
12LP+工藝改善晶體管,IP加速神經(jīng)網(wǎng)絡(luò )

作者:Linley Gwennap(2020年7月27日)

像Nvidia這樣的芯片巨頭可以負擔得起7nm技術(shù),但初創(chuàng )公司和其他規模較小的公司卻因為復雜的設計規則和高昂的流片成本而掙扎不已——所有這些都是為了在晶體管速度和成本方面取得適度的改善。格芯的新型12LP+技術(shù)提供了一條替代途徑,通過(guò)減小電壓而不是晶體管尺寸來(lái)降低功耗。格芯還開(kāi)發(fā)了專(zhuān)門(mén)針對AI加速而優(yōu)化的新型SRAM和乘法累加(MAC)電路。其結果是,典型AI運算的功耗最多可減少75%。Groq和Tenstorrent等客戶(hù)已經(jīng)利用初代12LP技術(shù)獲得了業(yè)界領(lǐng)先的結果,首批采用12LP+工藝制造的產(chǎn)品將于今年晚些時(shí)候流片。

為了實(shí)現這些結果,格芯(GF)采取了整體方法來(lái)加速AI運算,特別是推理卷積神經(jīng)網(wǎng)絡(luò )(CNN)。此工作負載非常依賴(lài)MAC運算,但格芯發(fā)現,大部分功耗實(shí)際上用在從本地SRAM讀取數據并將其傳輸到MAC單元上。新的SRAM設計大大降低了CNN和其他經(jīng)常訪(fǎng)問(wèn)長(cháng)數據向量的應用的功耗。新的MAC針對大多數AI加速器的較小數據類(lèi)型和較低時(shí)鐘速度而設計,這也有助于節省功耗。SRAM單元中的成對晶體管經(jīng)過(guò)重新設計以提高匹配度,使電壓得以降低,從而減小所需的電壓裕量。

格芯在放棄7nm及更小線(xiàn)寬技術(shù)的計劃之后轉而選擇了這條道路,專(zhuān)注于FD-SOI、SiGe和其他差異化技術(shù)(參見(jiàn)MPR 8/13/18,“格芯新戰略”)。12LP+和AI方面的努力就是其差異化戰略的又一例證。這種方法的優(yōu)勢在某些方面要比7nm更大,但成本更低。以前,這家晶圓廠(chǎng)專(zhuān)注于制造AMD公司的高性能CPU,但隨著(zhù)AMD將其業(yè)務(wù)轉移至臺積電,修訂后的戰略已幫助格芯吸引到新客戶(hù)。

為AI而設計

在典型的高性能CPU中,本地SRAM每周期提供一個(gè)完整的緩存行,然后CPU通過(guò)多路復用器(mux)選擇所需的字。例如,使用256位緩存行的64位CPU需要一個(gè)4:1多路復用器,如圖1(a)所示。在這種情況下,即使CPU每個(gè)周期僅使用64位,SRAM陣列中的所有256位緩存行也會(huì )在每次訪(fǎng)問(wèn)時(shí)放電。這種方法最大程度地減小了SRAM延遲,從而有可能提高最大時(shí)鐘速度或減少流水線(xiàn)級數——這二者都是影響CPU性能的關(guān)鍵因素。


圖1. 格芯AI專(zhuān)用存儲器。通用陣列最大程度地減小了隨機存取的延遲。添加鎖存器會(huì )增加延遲,但會(huì )降低順序存取的功耗。 

AI加速器通常以比PC處理器低的時(shí)鐘速度運行,其設計師更關(guān)心吞吐量而不是延遲。此外,CPU通常具有隨機存取模式,但CNN產(chǎn)生的則是順序存儲器存取,其處理的向量常常具有數以百計或數以千計的元素。為了更好地支持這些設計,格芯在SRAM陣列和多路復用器之間添加了一個(gè)鎖存器,如圖1(b)所示。這樣做會(huì )給讀取路徑增加一個(gè)周期,CPU設計師絕不會(huì )接受這種做法,但它為AI加速器帶來(lái)了可觀(guān)的好處。

首先,鎖存器將多路復用器與陣列解耦,從而減小位緩存行上的電容,進(jìn)而降低每次SRAM存取的功耗。但更大的好處是,在讀操作之后,完整的256位輸出仍位于鎖存器中。如果隨后的讀操作訪(fǎng)問(wèn)下一個(gè)遞增存儲器地址,那么可以從鎖存器中讀取該值,而根本無(wú)需驅動(dòng)陣列。對于從很長(cháng)的一系列順序地址讀取數據的程序,此設計只需在25%的時(shí)間內為SRAM陣列供電?紤]到包括多路復用器和鎖存器的整個(gè)電路,格芯估計:相對于標準編譯的SRAM,CNN工作負載的功耗可降低53%。由于時(shí)序約束變得寬松,新的SRAM也縮小了25%。

盡管MAC單元的功耗僅占總功耗的一小部分,但其面積常常占總芯片面積的最大部分。新設計具有一個(gè)16x16位乘法器,與高端CPU所需的64位設計不同;鶖禐4的Booth乘法器饋入一個(gè)48位加法器,以進(jìn)行高精度累加。對于CNN推理中常見(jiàn)的8位整數(INT8)數據,可以將MAC單元拆分為每個(gè)周期產(chǎn)生兩個(gè)8x8乘法,并進(jìn)行24位累加。格芯的目標工作頻率為1.0GHz,物理設計因而得以簡(jiǎn)化,功耗和芯片面積得以減小。新的MAC單元比之前的12LP單元小12%;在相同電壓下都以1.0GHz運行時(shí),所需的功耗減少25%。


圖2. 12LP+的能耗降幅。在典型的脈動(dòng)MAC陣列中,新的SRAM和MAC設計使總功耗比之前的12LP技術(shù)降低了三分之一,而降低工作電壓又使總功耗降低了三分之一。(數據來(lái)源:格芯)

為減小電壓而付出的大量工作

為了進(jìn)一步降低功耗,格芯在工作電壓上狠下功夫。無(wú)論什么節點(diǎn),一個(gè)重要挑戰是管理晶體管的制造偏差。柵極和溝道在形狀、厚度或摻雜上的微小差異可能會(huì )改變晶體管的功函數(衡量電子移動(dòng)通過(guò)材料所需能量的參數)。功函數會(huì )修改閾值電壓,從而決定晶體管何時(shí)切換狀態(tài)。對于給定工藝,晶圓廠(chǎng)會(huì )將工作電壓設置得足夠高,以確保芯片上的所有晶體管都能可靠地開(kāi)關(guān),即它必須超過(guò)最壞情況下的閾值電壓。

為了應對這一挑戰,12LP+增加了雙功函數晶體管。此技術(shù)原本是為7nm工藝而開(kāi)發(fā)的,格芯將其移植到了12nm節點(diǎn)中。新設計以不同方式摻雜NMOS和PMOS晶體管,以便更好地平衡其功函數。這種方法會(huì )使成本略有增加,但大大降低了所需的裕量:對于1.0GHz的目標頻率,SRAM的工作電壓從12LP的0.7V降至12LP+的0.55V。12LP邏輯的標稱(chēng)電壓為0.8V,欠驅電壓為0.7V,但在12LP+中,它也可以采用0.55V工作。由于功耗與電壓的平方成比例,因此這些變化可以使功耗減半。

SRAM是主要的耗電器件,所以格芯專(zhuān)注于開(kāi)發(fā)低壓存儲器單元。測試芯片顯示,即使在0.45V電壓下,新型LVSRAM的良率仍超過(guò)95%,這意味著(zhù)設計在0.55V電壓下具有充足的裕量。為使邏輯功能受益,格芯委托Arm的物理知識產(chǎn)權(physical-IP)小組為12LP+工藝創(chuàng )建了一個(gè)完整的低壓標準單元庫。該庫定于9月上市,客戶(hù)可利用它來(lái)構建完整的AI加速器以讓SRAM和MAC單元采用0.55V電壓工作。

新技術(shù)的總節電效果非常顯著(zhù)。格芯對MAC單元的脈動(dòng)陣列(這是CNN加速的常見(jiàn)配置)的功耗進(jìn)行了仿真。仿真讀取權重和激活(圖2中顯示為SRAM功耗),讓數據移動(dòng)通過(guò)脈動(dòng)陣列(傳輸),然后執行計算(MAC)。相對于基本設計,新的MAC單元和鎖存SRAM使總能耗減少了三分之一以上,而傳輸能耗保持不變。以0.55V電壓工作會(huì )產(chǎn)生一個(gè)全面的大壓降,使該設計的總節電量達到68%。

與往常一樣,格芯通過(guò)廣泛的物理元件庫(包括數字、模擬和無(wú)源器件)來(lái)支持12LP+工藝。格芯提供EDA工具(如Cadence和Synopsys插件)、Spice模型、設計規則檢查器、時(shí)序模型以及布局布線(xiàn)功能。為了提高良率,格芯提供了完整的可制造性設計(DFM)流程。格芯已針對12LP+重新優(yōu)化了12LP物理IP,包括存儲器和I/O接口。除了Arm的低壓標準單元庫外,Rambus和Synopsys等第三方IP供應商也支持12LP+。

助力AI領(lǐng)先公司

這項新技術(shù)建立在格芯成功的12LP工藝基礎上,為行業(yè)領(lǐng)先的AI產(chǎn)品提供助力。例如,硅谷初創(chuàng )公司Groq開(kāi)發(fā)了一種新的架構方法來(lái)加速集數百個(gè)功能單元于單個(gè)核心中的神經(jīng)網(wǎng)絡(luò )。龐大的設計包括220MB的SRAM和200,000以上的MAC單元(參見(jiàn)MPR 1/6/20,“Groq撼動(dòng)神經(jīng)網(wǎng)絡(luò )”)。Groq采用12LP使如此大型設計的功耗保持在300W的預算之內。該芯片以1.0GHz的初始速度,對INT8數據實(shí)現了每秒820萬(wàn)億次運算(TOPS)的峰值吞吐量,超過(guò)了所有其他已發(fā)布的加速器。

加拿大初創(chuàng )公司Tenstorrent也加快了推理速度,但它選擇了一個(gè)不同的設計目標:總線(xiàn)供電的PCIe卡的功耗限值為75W。其第一款芯片具有120個(gè)獨立的核心,每個(gè)核心包含1MB的SRAM和大約500個(gè)MAC單元。這種方法仍然需要大量的SRAM和MAC單元。該芯片以1.3GHz的初始速度可提供368 TOPS(參見(jiàn)MPR 4/13/20,“Tenstorrent提升AI性能”)。12LP技術(shù)幫助Tenstorrent實(shí)現了每瓦4.9 TOPS的性能,這一效率在數據中心產(chǎn)品中遙遙領(lǐng)先,如圖3所示。

在這個(gè)市場(chǎng)上占有最大份額的Nvidia最近發(fā)布了基于新型Ampere架構的A100加速器。Ampere引入了許多創(chuàng )新特性,峰值性能提高到624 TOPS,超過(guò)了除Groq之外的所有已發(fā)布芯片。然而,盡管采用7nm工藝,但A100仍需要400W TDP,比之前的12nm產(chǎn)品還高33%。為了適應功耗預算的增加,Nvidia不得不降低時(shí)鐘速度(相對于12nm產(chǎn)品),并禁用芯片上15%的核心。這是一種不尋常的策略,可能意味著(zhù)芯片功耗大大高于仿真功耗(參見(jiàn)MPR 6/8/20,“Nvidia A100稱(chēng)霸AI性能”)。因此,雖然A100的晶體管較小,但其每瓦性能?chē)乐芈浜笥贕roq和Tenstorrent芯片。

與格芯的12nm工藝相比,臺積電7nm工藝的一個(gè)優(yōu)點(diǎn)是晶體管密度增加一倍,使得Nvidia可將超過(guò)500億個(gè)晶體管封裝到A100中。為了幫助客戶(hù)在這方面競爭,格芯支持各種小芯片方法。格芯在多芯片封裝方面擁有豐富的經(jīng)驗,包括具有高帶寬存儲器(HBM)的2.5D硅中介層設計。針對3D芯片堆疊,格芯已開(kāi)發(fā)出混合晶圓鍵合(HWB)技術(shù),其使用間距為5.76微米的硅通孔(TSV),并有密度提升的路線(xiàn)圖。對于低密度互連,客戶(hù)可以在便宜的有機襯底上構建小芯片配置,類(lèi)似于A(yíng)MD的Rome處理器。這些小芯片方法中的任何一種都能在不遷移到7nm工藝的情況下實(shí)現很高的晶體管數量。

價(jià)格和供貨情況

格芯的12LP+技術(shù)已可用于設計啟動(dòng)。我們預計量產(chǎn)將從2021年下半年開(kāi)始。有關(guān)更多在線(xiàn)信息,請訪(fǎng)問(wèn)tinyurl.com/yxam2z7l。

優(yōu)于7nm

臺積電聲稱(chēng),相對于其10nm節點(diǎn),其7nm技術(shù)可使時(shí)鐘速度提高多達20%,功耗降低多達40%(參見(jiàn)MPR 5/20/19,“EUV工藝實(shí)現量產(chǎn)”)。但是,這些最佳情況下的數字都假定晶體管的負載很輕。復雜的處理器設計通常受限于金屬電容而不是晶體管速度,因此只能獲得上述好處的一半或更少。如前所述,Nvidia的7nm A100比其12nm的前代產(chǎn)品要慢,而高通公司首款7nm處理器Snapdragon 855的最大CPU速度僅比Snapdragon 845提高了2%。臺積電預期5nm的收益將小于7nm,因為更多地使用EUV會(huì )增加每片晶圓和流片的成本。

格芯的12LP+提供了一條替代路徑,與臺積電的7nm相比,功耗大幅降低,成本則沒(méi)有增加。功耗降低主要歸功于新的雙功函數晶體管,它支持0.55V電壓選項。臺積電的7nm技術(shù)提供超低VT (ULVT)晶體管,其工作電壓最低為0.6V。臺積電長(cháng)期以來(lái)服務(wù)于智能手機客戶(hù),專(zhuān)注于低壓操作,而格芯更側重于PC,直到最近才發(fā)生改變,因此其在這方面的進(jìn)步在很大程度上是彌補差距。


圖3. 高端AI加速器比較。與Nvidia的新產(chǎn)品A100相比,Groq TSP的性能更強勁(以每秒萬(wàn)億次運算或TOPS衡量),而功耗卻更低。Tenstorrent的性能目標較低,但功效(每瓦TOPS)是A100的三倍。(數據來(lái)源:供應商)

12LP+的其余優(yōu)勢來(lái)自于該技術(shù)專(zhuān)為AI設計的SRAM和MAC單元。這種方法反映了晶圓廠(chǎng)的差異化:臺積電必須服務(wù)于廣泛的客戶(hù),而格芯可以專(zhuān)注于特定的新興工作負載。AI市場(chǎng)尤其成果豐碩,因為有太多的公司(特別是初創(chuàng )公司)在開(kāi)發(fā)CNN加速器。大型客戶(hù)通常會(huì )自行設計緩存和MAC單元,但格芯的設計對于希望將開(kāi)發(fā)成本降至最低而專(zhuān)注于獨特架構的初創(chuàng )公司很有用。

更長(cháng)期問(wèn)題是,在沒(méi)有7nm及更小線(xiàn)寬技術(shù)的路線(xiàn)圖的情況下,格芯能否保持競爭力。臺積電的5nm技術(shù)正在量產(chǎn)中,客戶(hù)已經(jīng)啟動(dòng)未來(lái)節點(diǎn)的設計。這些先進(jìn)的工藝使設計師能夠將更多存儲器和MAC單元放入芯片中。市場(chǎng)份額最大的大型公司將繼續沿這條路走下去。面向AI市場(chǎng)的小型公司則會(huì )發(fā)現12LP+更實(shí)惠,而且可以使用小芯片來(lái)經(jīng)濟高效地提高晶體管數量。Groq和Tenstorrent通過(guò)格芯的12LP技術(shù)實(shí)現了領(lǐng)先的AI性能,12LP+中的AI增強功能將使新技術(shù)更加卓越。

本文地址:http://selenalain.com/thread-600374-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页