存算一體:2023年年度盤(pán)點(diǎn) & 2024年技術(shù)前瞻

發(fā)布時(shí)間:2024-3-1 08:46    發(fā)布者:eechina
關(guān)鍵詞: 存算一體
來(lái)源:半導體行業(yè)觀(guān)察

一、 2023年存算一體行業(yè)盤(pán)點(diǎn)

​在過(guò)去的2023一年中,AI行業(yè)飛速發(fā)展,對硬件算力的需求也呈爆炸式增長(cháng),特別是生成式大模型的火熱,SOTA模型的參數規模提升了幾個(gè)數量級。一方面,可預見(jiàn)的模型參數量增長(cháng)需要更大規模的片上算力,在存內計算技術(shù)應用中即意味著(zhù)更大規模的存算陣列以及更多的宏單元堆疊;另一方面,復雜網(wǎng)絡(luò )的推理或訓練需要存算陣列能夠支持更高精度的計算類(lèi)型,例如INT16、FP16、FP32等數據類(lèi)型的乘累加計算。


對于存算宏單元的設計,從過(guò)去一年中存算領(lǐng)域的高水平會(huì )議/期刊論文發(fā)表情況來(lái)看,數字域的高精度存內計算依然是主流,數字域計算極高的信噪比與魯棒性使高精度的乘累加計算成為可能,在更低的芯片制程下,數字域存算宏單元也能達到很高的面積效率與計算吞吐。而另一方面,越來(lái)越多以存算宏單元為乘累加引擎構建的微架構/片上系統的出現是大勢所趨,隨著(zhù)模型參數量的急劇增長(cháng),難以在片上實(shí)現參數的全靜態(tài)處理,因而不得不將包括了大容量的片外存儲(DDR)在內的存儲器層級(Memory Hierarchy)納入系統設計的考慮范疇,一些基于高帶寬存儲器(HBM)的存內處理體系的出現很好地印證了這一點(diǎn)。此外,在對功耗和性能要求嚴苛的邊緣側,以ReRAM和MRAM為代表的非易失性存儲器存內/近存計算架構能夠實(shí)現極低的待機功耗,有望在邊緣端實(shí)現高能效/高安全性的網(wǎng)絡(luò )推理乃至模型微調。

(一)存算一體學(xué)術(shù)界重點(diǎn)事件盤(pán)點(diǎn)

1. ISSCC2023會(huì )議于2月19日召開(kāi)

1.1 AMD 董事長(cháng)兼首席執行官蘇姿豐在會(huì )上表示,到目前為止,實(shí)現計算能力持續復合增長(cháng)的最大限制因素是能效,以加速下一代高性能計算所需的能效創(chuàng )新,并最終實(shí)現 zettascale級別的性能。要完全應對這一挑戰,就需要通過(guò)擴展特定領(lǐng)域的架構來(lái)加速核心算法,在從晶體管到軟件系統各個(gè)方面大規模部署人工智能。

7.4 臺積電(TSMC)基于4nm FinFET 工藝開(kāi)發(fā)了一款數字域存內計算宏單元(DCIM),通過(guò)降低陣列利用率,即部分使能陣列的方式,重構了存儲的權重(Weight)的位寬(8b/12b),輸入特征值(Input Feature)以比特串行(Bit-Serial)的方式輸入宏單元,在乘累加后處理模塊處實(shí)現了8/12/16b的位寬重構,以此來(lái)支持更高精度的整型矩陣向量乘計算。此外,該設計采用雙8T+NOR門(mén)的比特單元設計以支持運算和更新的同時(shí)進(jìn)行(PingPong設計)。臺積電的研究人員還根據運算時(shí)流水線(xiàn)的延時(shí)余量設計了混合閾值電壓的晶體管分布,在SRAM陣列和加法樹(shù)前級采用高閾值電壓晶體管以降低漏電,在后級加法樹(shù)采用低閾值電壓晶體管以降低延時(shí),平衡了宏單元的整體功耗與延時(shí)。最終在先進(jìn)工藝和設計技巧加持下,宏單元達到了6163-TOPS/W/b(~96TOPS/W for INT8)的能效以及4790TOPS/mm2/b(~75TOPS/mm2 for INT8)的算力密度。

7.1 & 7.2 臺灣清華大學(xué)(NTHU)和東南大學(xué)(SEU)分別提出了兩套基于SRAM-CIM的存內實(shí)現浮點(diǎn)計算的方案,NTHU的研究人員將進(jìn)行乘累加計算的權重指數(Exponent)和特征值指數相加,在時(shí)域中完成一批數據(128組)的移位對指,根據對指結果對特征值尾數(Mantissa)進(jìn)行移位后再與權重尾數在電荷-數字混合域進(jìn)行整型的乘累加計算,而SEU的研究人員將權重數據和特征值數據分開(kāi)對指,對指移位完成后的權重數據存儲在SRAM陣列中,對指移位完成后的特征值數據再以2bit串行的方式輸入到宏單元中在數字域完成尾數的乘累加計算。

值得一提的是,NTHU的工作以數;旌系姆绞狡胶饬苏w的能量/面積效率與計算準確度,而SEU的工作利用近似數字計算的方式同樣在能效/面效與準確度中做出了權衡(tradeoff)。兩個(gè)宏單元支持的浮點(diǎn)數據類(lèi)型不約而同地都選擇了Google在TPUv3上提出支持的浮點(diǎn)數類(lèi)型BF16,BF16擁有比FP16更大的數值空間,計算時(shí)不易溢出,其8bit的尾數位寬對于存算宏單元支持BF16/INT8的重構也十分友好。最終NTHU的宏單元(22nm)實(shí)現了16.22~17.59的TFLOPS/W的能效,在90%的輸入稀疏性下能夠達到70.21 TFLOPS/W的峰值能效,而SEU的宏單元(28nm)達到了14.04~31.6 TFLOPS/W的浮點(diǎn)能效以及19.5~44 TOPS/W的整型(INT8)計算能效。

16.1 & 16.2 清華大學(xué)(THU)和復旦大學(xué)(FDU)分別提出了兩款支持Transformer類(lèi)型網(wǎng)絡(luò )的加速器,均以整型的SRAM-CIM宏單元為乘累加引擎,THU的加速器支持多模態(tài)Transformer,利用注意力計算的稀疏性對計算token進(jìn)行實(shí)時(shí)剪枝,宏單元利用數據的比特稀疏性提高計算能效最終達到了48.4~101.1的INT8系統能效以及12.1~60.3的INT16系統能效,FDU的工作同樣利用了數據稀疏性,使用蝶形數據壓縮電路跳過(guò)塊狀(block-wise)的零數據,提升了系統運算性能,最終達到了25.22的INT8系統能效。

16.4 中科院微電子所(IMCAS)和清華大學(xué)(THU)共同發(fā)表的支持浮點(diǎn)計算的存算加速器工作提出了另一種實(shí)現高精度浮點(diǎn)計算的思路,該工作利用了神經(jīng)網(wǎng)絡(luò )計算的數據分布特征,將大的離群數值與其他數據分開(kāi)計算,大的離群數值總量小,但對計算結果影響大,這部分被分配到數字邏輯中進(jìn)行無(wú)精度損失的計算,而其他的總量大,數值相對小的數據被送往存算宏單元中完成乘累加計算,忍受并行計算的對指移位帶來(lái)的截斷精度損失。架構整體還對比特串行計算的稀疏性以及離群值的稀疏性做細致的加速,達到了17.2~91.3的系統浮點(diǎn)能效(FP16的數據類(lèi)型)。

33.2 & 33.4 & 16.6 臺灣清華(NTHU)&臺積電(TSMC)團隊以及東南大學(xué)(SEU)團隊分別發(fā)表了兩款基于MRAM的近存/存內計算宏單元(33.2、33.4)。NTHU&TSMC團隊在22nm工藝下實(shí)現了一款8Mb大小支持4/8b近存計算宏單元,在部署ResNet20網(wǎng)絡(luò )時(shí)能夠達到160.1TOPS/W的峰值能效(@90%輸入稀疏度),而SEU團隊在70nm下驗證了一款2Mb大小支持單比特存內計算的MRAM宏單元,為改善傳統1T1M比特單元的讀寫(xiě)性能,該團隊創(chuàng )新性地提出了偽2T2M的比特單元,最終在0.85V供電電壓下測得能效標準值41.5TOPS/W.

此外,NTHU&TSMC團隊在28nm工藝下實(shí)現了一款基于ReRAM存內計算的邊緣端處理器(16.6),該處理器擯棄傳統的片外非易失性存儲+片上邏輯計算的架構,利用片上4MByte的ReRAM存內計算宏單元實(shí)現了極低功耗的休眠-啟動(dòng)的邊緣端場(chǎng)景應用。該加速器支持1~8比特的計算精度,在0.8V供電電壓,INT8部署MobileNetv2網(wǎng)絡(luò )的工作條件下測得芯片整體能效可達51.4TOPS/W.

2. 2023年9月14日,清華大學(xué)(THU)團隊在Science雜志上發(fā)表首顆實(shí)現片上訓練的ReRAM存算一體芯片.其將所有的網(wǎng)絡(luò )參數部署在片上的ReRAM陣列,利用推理結果的符號位對憶阻器單元的電導進(jìn)行調制,完成誤差的反向傳播,進(jìn)而完成網(wǎng)絡(luò )的片上訓練,論文展示了芯片在小車(chē)循跡、手寫(xiě)數字識別、語(yǔ)音識別等任務(wù)上優(yōu)秀的學(xué)習能力和推理精度。

(二) 產(chǎn)業(yè)界重點(diǎn)事件盤(pán)點(diǎn)

1. 后摩智能5月發(fā)布首款基于存算一體架構大算力智駕芯片后摩鴻途®️H30

后摩鴻途®️H30基于 SRAM 存儲介質(zhì),采用數字存算一體架構,擁有極低的訪(fǎng)存功耗和超高的計算密度,在 Int8 數據精度條件下,其 AI 核心IPU 能效比高達 15Tops/W,是傳統架構芯片的7 倍以上。

得益于存算一體的架構優(yōu)勢,H30 基于 12nm 工藝制程,在 Int8 數據精度下實(shí)現高達 256TOPS 的物理算力,所需功耗不超過(guò)35W,整個(gè) SoC 能效比達到了 7.3Tops/W,具有高計算效率、低計算延時(shí)以及低工藝依賴(lài)等特點(diǎn)。

2. 特斯拉DOJO 量產(chǎn)開(kāi)始

2021年,特斯拉在A(yíng)I DAY上公布的AI訓練芯片“D1”及超級計算平臺dojo架構細節。2023 年 7 月,特斯拉官方稱(chēng)Dojo 的量產(chǎn)已經(jīng)正式開(kāi)始。D1 采用臺積電7nm工藝制造,核心面積達645平方毫米,僅次于NVIDIA Ampere架構的超級計算核心A100(826平方毫米)、AMD CDNA2架構的下代計算核心Arcturus(750平方毫米左右),集成了多達500億個(gè)晶體管,相當于Intel剛剛發(fā)布的具有高達1000億顆晶體管的Ponte Vecchio計算芯片的一半,內部走線(xiàn),長(cháng)度超過(guò)11英里,也就是大約18公里。

據特斯拉介紹,其D1芯片集成了四個(gè)64位超標量CPU核心,擁有多達354個(gè)訓練節點(diǎn),特別用于8×8乘法,支持FP32、BFP64、CFP8、INT16、INT8等各種數據指令格式,都是AI訓練相關(guān)的。

特斯拉稱(chēng),D1芯片的FP32單精度浮點(diǎn)計算性能達22.6TFlops(每秒22.6萬(wàn)億次),BF16/CFP8計算性能則可達362TFlops(每秒362萬(wàn)億次)。為了支撐AI訓練的擴展性,它的互連帶寬非常驚人,最高可達10TB/s,由多達576個(gè)通道組成,每個(gè)通道的帶寬都有112Gbps。實(shí)現這一切熱設計功耗為400W。

Tesla Dojo處理器采用數據流近存計算架構,通過(guò)大量更快更近的片上存儲和片上存儲之間的流轉減少對內存的訪(fǎng)問(wèn)頻度,提升系統性能,算力達362TFLOPS@FP16,每個(gè)D1芯片放置440MB SRAM,解決內存墻問(wèn)題。

美國紐約州州長(cháng)Kathy Hochul在今年1月26日舉行的新聞發(fā)布會(huì )上表示,特斯拉將投資5億美元,在該州的布法。 羅市(Buffalo)建造一臺“Dojo”超級計算機。

3. 后摩智能點(diǎn)亮首款RRAM大容量存儲芯片并完成測試驗證

后摩智能完成首款可商用的RRAM測試及應用場(chǎng)景開(kāi)發(fā),探測及證實(shí)了現有工業(yè)級的RRAM的技術(shù)邊界。后續將與車(chē)規級應用場(chǎng)景結合,希望與伙伴共同打造新興存儲及新型存算計算范式,賦能客戶(hù)。

目前,后摩智能該款RRAM芯片能夠滿(mǎn)足在高質(zhì)量/高安全性要求的商用場(chǎng)景,更新版本可以實(shí)現對車(chē)規級應用的支持,尤其是車(chē)載娛樂(lè )系統、部分低等級車(chē)規要求,在工業(yè)電子類(lèi)/消費電子類(lèi),其功能/性能能滿(mǎn)足對eFlash場(chǎng)景的替代,甚至能夠改變原有計算架構,對只讀/少讀場(chǎng)景有較大的革命優(yōu)勢,尤其在亞22nm工藝之后,有望能夠進(jìn)一步成為高端芯片的嵌入式存儲器使用。

在功耗性能方面,其整體功耗低至60mW,支持power down模式,支持不同區域分別關(guān)斷功能,支持sleep模式等,可以進(jìn)一步在不同應用場(chǎng)景進(jìn)行功耗控制。

4. 2023年9月,硅谷AI芯片初創(chuàng )公司D-Matrix獲得1.1億美元的B輪融資

領(lǐng)投方為新加坡頂尖投資公司淡馬錫(Temasek),微軟和三星等科技巨頭跟投。D-Matrix采用SRAM存算一體+Chiplet技術(shù)來(lái)構建針對大模型的計算芯片。

D-Matrix的新融資將用來(lái)打造其數字內存計算 (DIMC) Chiplet推理計算卡Corsair,據稱(chēng)推理速度是英偉達H100 GPU的9倍,如果是計算卡集群,與英偉達的類(lèi)似解決方案相比,功率效率提高20倍,延遲降低20倍,成本降低高達30倍。

每塊Corsair計算卡擁有8個(gè)Jayhawk II Chiplet,每個(gè)Jayhawk II提供2Tb/s(250GB/s)的芯片到芯片帶寬,單塊Corsair計算卡就擁有8Tb/s(1TB/s)的聚合芯片到芯片帶寬。但是這一套硬件將在2024年才能正式投入使用。

5. 三星電子在Hot Chips 2023上公布了高帶寬存儲器(HBM)-內存處理(PIM)和低功耗雙倍數據速率

(LPDDR)-PIM研究成果。這兩款存儲器是未來(lái)可用于人工智能(AI)行業(yè)的下一代存儲器。近年來(lái),隨著(zhù)內存瓶頸成為AI半導體領(lǐng)域的一大挑戰,HBM-PIM作為下一代內存半導體備受矚目。

三星電子展示了一項研究成果,將HBM-PIM應用于生成式AI,與現有HBM相比,加速器性能和功效提高了一倍以上。研究中使用的GPU是AMD的MI-100。為了驗證MoE模型,還構建了 HBM-PIM 集群。集群中使用了 96 臺配備 HBM-PIM 的 MI-100。在MoE模型中,HBM-PIM還表明加速器性能比HBM高兩倍,功率效率比HBM高三倍。

除了HBM-PIM,三星電子還展示了LPDDR-PIM。LPDDR-PIM 是一種將 PIM 與移動(dòng) DRAM 相結合的形式,可直接在邊緣設備內處理計算。由于它是針對邊緣設備開(kāi)發(fā)的產(chǎn)品,因此帶寬(102.4GB/s)也較低。三星電子強調,與DRAM相比,功耗可降低72%。

二、2024年存算一體(Compute-In-Memory)技術(shù)方向前瞻

1.頂層架構設計加速存內計算技術(shù)應用落地

目前,在電路宏單元層面,不論是基于SRAM或DRAM的存內高性能計算還是基于新型非易失存儲器的極低功耗存內計算,在存儲陣列內設計計算單元以實(shí)現較大規模數據并行計算的方式已被驗證具有很高的計算能效與算力密度,但是,想要將存算技術(shù)真正落地,與存內計算電路宏單元配套的頂層架構設計以及配套的軟件編譯必不可少,尤其是針對較大規模網(wǎng)絡(luò )在整個(gè)片上系統的部署,因而展望2024,有關(guān)存算一體技術(shù)的架構探索與加速器設計仍將持續火熱;

2. 高精度可重構的存算宏單元設計,向著(zhù)通用計算場(chǎng)景進(jìn)發(fā)

目前,面對愈來(lái)愈復雜多變的網(wǎng)絡(luò )推理任務(wù),網(wǎng)絡(luò )模型對于硬件支持的計算精度要求也在不斷提高,以往的宏單元支持的INT8整型計算能夠較好地完成CNN等網(wǎng)絡(luò )的部署,而類(lèi)Transformer網(wǎng)絡(luò )往往要求INT16甚至更高的數據精度,另一方面,較大規模的網(wǎng)絡(luò )參數以及多變的網(wǎng)絡(luò )類(lèi)型對存算宏單元的靈活性提出要求,因而支持高精度、可重構的存算宏單元,邁向著(zhù)更通用的應用場(chǎng)景;

3. 先進(jìn)封裝/新型工藝助力存算一體實(shí)現極致的系統性能

一方面,2.5D/3D/3.5D等先進(jìn)封裝技術(shù)快速發(fā)展,高帶寬存儲器(HBM)、混合鍵合(Hybrid Bonding)、芯粒(Chiplet)等先進(jìn)互連技術(shù)將實(shí)現更高速的片間互連,這也會(huì )給設計大算力的存內計算系統帶來(lái)機遇;另一方面,基于新型非易失性存儲器的存內計算將賦能更低功耗的邊緣端網(wǎng)絡(luò )推理,新型器件例如FeRAM、CFET等有待演化出更先進(jìn)的存儲&計算一體電路。
本文地址:http://selenalain.com/thread-852024-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页