谷歌的自研芯片帝國

發(fā)布時(shí)間:2023-12-13 15:46    發(fā)布者:eechina
關(guān)鍵詞: 谷歌 , 自研芯片
來(lái)源:半導體行業(yè)觀(guān)察

這兩天,AI再一次登上了各大媒體的頭條。

12月6日,谷歌官宣了了全新的多模態(tài)大模型 Gemini,包含了三個(gè)版本,根據谷歌的基準測試結果,其中的 Gemini Ultra 版本在許多測試中都表現出了“最先進(jìn)的性能”,甚至在大部分測試中完全擊敗了 OpenAI 的 GPT-4。

而在Gemini出盡了風(fēng)頭的同時(shí),谷歌還丟出了另一個(gè)另一個(gè)重磅炸彈——全新的自研芯片TPU v5p,它也是迄今為止功能最強大的 TPU。

根據官方提供的數據,每個(gè) TPU v5p pod 在三維環(huán)形拓撲結構中,通過(guò)最高帶寬的芯片間互聯(lián)(ICI),以 4,800 Gbps/chip 的速度將 8,960 個(gè)芯片組合在一起,與 TPU v4 相比,TPU v5p 的 FLOPS 和高帶寬內存(HBM)分別提高了 2 倍和 3 倍。

除此之外,TPU v5p訓練大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍,利用第二代 SparseCores,TPU v5p 訓練嵌入密集模型的速度比 TPU v4 快 1.9 倍。TPU v5p 在每個(gè) pod 的總可用 FLOPs 方面的可擴展性也比 TPU v4 高出 4 倍,且每秒浮點(diǎn)運算次數(FLOPS)增加了一倍,單個(gè) pod 中的芯片數量也增加了一倍,大大提高了訓練速度的相對性能。

谷歌還找來(lái)了一堆科學(xué)家為T(mén)PU v5p的AI性能背書(shū):

Salesforce 高級研究科學(xué)家Erik Nijkamp表示:“我們一直在利用谷歌云TPU v5p對Salesforce的基礎模型進(jìn)行預訓練,這些模型將作為專(zhuān)業(yè)生產(chǎn)用例的核心引擎,我們看到訓練速度有了顯著(zhù)提高。事實(shí)上,Cloud TPU v5p 的計算能力是上一代 TPU v4 的 2 倍之多。我們還非常喜歡使用 JAX 從 Cloud TPU v4 到 v5p 的無(wú)縫輕松過(guò)渡。我們很高興能通過(guò)精確量化訓練(AQT)庫對 INT8 精確格式的原生支持來(lái)優(yōu)化我們的模型,從而進(jìn)一步提高速度!

Lightricks 核心生成式人工智能研究團隊負責人 Yoav HaCohen 博士表示:“利用谷歌云 TPU v5p 的卓越性能和充足內存,我們成功地訓練了文本到視頻的生成模型,而無(wú)需將其拆分成單獨的進(jìn)程。這種最佳的硬件利用率大大加快了每個(gè)訓練周期,使我們能夠迅速開(kāi)展一系列實(shí)驗。在每次實(shí)驗中快速訓練模型的能力促進(jìn)了快速迭代,這是我們的研究團隊在競爭激烈的生成式人工智能領(lǐng)域的寶貴優(yōu)勢!

谷歌 DeepMind 和谷歌研究院首席科學(xué)家 Jeff Dean也力挺自家芯片:“在早期使用中,谷歌DeepMind和谷歌研究院觀(guān)察到使用TPU v5p芯片的LLM訓練工作負載的速度比TPU v4代提高了2倍。對 ML 框架(JAX、PyTorch、TensorFlow)和協(xié)調工具的強大支持使我們能夠在 v5p 上更高效地擴展。有了第二代 SparseCores,我們還發(fā)現嵌入式工作負載的性能有了顯著(zhù)提高。TPU 對于我們在 Gemini 等前沿模型上開(kāi)展最大規模的研究和工程工作至關(guān)重要!

對于谷歌來(lái)說(shuō),Gemini是應對Open AI的一柄利器,而TPU v5p則是一塊敲門(mén)磚,用它來(lái)壘起一道抵御英偉達GPU的高墻,軟件硬件雙管齊下,似乎它在A(yíng)I時(shí)代里已處在不敗之地。

問(wèn)題來(lái)了,谷歌憑什么能擁有現在的優(yōu)勢?

岌岌無(wú)名到名滿(mǎn)天下

谷歌TPU并非一蹴而就,它的自研旅途始于十年之前。

作為一家科技公司的谷歌,其實(shí)早在 2006 年就考慮為神經(jīng)網(wǎng)絡(luò )構建專(zhuān)用集成電路 (ASIC),但到了 2013 年,情況變得緊迫了起來(lái),谷歌的科學(xué)家們開(kāi)始意識到,神經(jīng)網(wǎng)絡(luò )快速增長(cháng)的計算需求與數據中心數量存在著(zhù)不可協(xié)調的矛盾。

當時(shí)的 Google AI負責人Jeff Dean經(jīng)過(guò)計算后發(fā)現,如果有1億安卓用戶(hù)每天使用手機語(yǔ)音轉文字服務(wù)3分鐘,其中消耗的算力就是Google所有數據中心總算力的兩倍,而全球安卓用戶(hù)遠不止1億。

數據中心的規模不可能無(wú)限制地擴張下去,谷歌也不可能限制用戶(hù)使用服務(wù)的時(shí)間,但CPU和GPU都難以滿(mǎn)足谷歌的需求:CPU一次只能處理相對來(lái)說(shuō)很少量的任務(wù),GPU在執行單個(gè)任務(wù)時(shí)效率較低,而且所能處理的任務(wù)范圍更小,自研成了最后的出路。

谷歌立下了一個(gè)小目標:針對機器學(xué)習這一目的來(lái)構建特定領(lǐng)域計算架構(Domain-specific Architecture),還要將深度神經(jīng)網(wǎng)絡(luò )推理的總體擁有成本(TCO)降低至原來(lái)的十分之一。

通常,ASIC 的開(kāi)發(fā)需要數年時(shí)間,但谷歌卻僅用了 15 個(gè)月就完成了TPU處理器的設計、驗證、制造并部署到數據中心。TPU 項目的技術(shù)負責人 Norm Jouppi(也是 MIPS 處理器的主要架構師之一)這樣描述沖刺階段:

“我們的芯片設計速度非?。這確實(shí)非常了不起。我們在沒(méi)有修正錯誤或更改掩膜的情況下,就開(kāi)始出貨第一個(gè)芯片?紤]到我們在構建芯片的同時(shí)還在招聘團隊,然后招聘 RTL(電路設計)人員,并急于招聘設計驗證人員,這一切都非常忙碌!

代表著(zhù)谷歌技術(shù)結晶的初代TPU 采用了 28 納米工藝制造,運行頻率為 700MHz,運行時(shí)功耗為 40W,谷歌將處理器包裝成外置加速卡,安裝在 SATA 硬盤(pán)插槽中,實(shí)現即插即用。TPU 通過(guò) PCIe Gen3 x16 總線(xiàn)與主機連接,可提供 12.5GB/s 的有效帶寬。

與 CPU 和 GPU 相比,單線(xiàn)程 TPU 不具備任何復雜的微架構功能,極簡(jiǎn)主義是特定領(lǐng)域處理器的優(yōu)點(diǎn),谷歌的TPU一次只能運行一項任務(wù):神經(jīng)網(wǎng)絡(luò )預測,但每瓦性能卻達到了GPU的30倍,CPU的80倍。

谷歌在這件事上表現得非常低調,直到2016年的Google I/O開(kāi)發(fā)者大會(huì )上,首席執行官Sundar Pichai才正式向世界展示了TPU這一自研成果。

Pichai對參會(huì )的嘉賓表示,DeepMind研發(fā)的AlphaGo能夠擊敗韓國棋手李世石,底層硬件里的TPU功不可沒(méi),TPU就像希臘神話(huà)中引發(fā)特洛伊戰爭的女人——海倫,它的出現引起了“成千芯片與之競逐”。

但谷歌并未止步于此,幾乎是在第一代TPU完成后,就立刻投入到了下一代的開(kāi)發(fā)當中:2017年,TPU v2問(wèn)世;2018年,TPU v3推出;2021年,TPU v4在Google I/O開(kāi)發(fā)者大會(huì )上亮相……

而谷歌對于A(yíng)I芯片也愈發(fā)得心應手:第一代 TPU 僅支持 8 位整數運算,這意味著(zhù)它能進(jìn)行推理,但訓練卻遙不可及;而TPU v2,不僅引入了HBM內存,還支持了浮點(diǎn)運算,從而支持了機器模型的訓練和推理;TPU v3則在前一代基礎上,重點(diǎn)加強了性能,且部署在 Pod 中的芯片數量翻四倍。

到了TPU v4,Pichai更是驕傲地表示:“AI技術(shù)的進(jìn)步有賴(lài)于計算基礎設施的支持,而TPU正是Google計算基礎設施的重要部分。新一代TPU v4芯片的速度是v3的兩倍多。Google用TPU集群構建出Pod超級計算機,單臺TPU v4 Pod包含4096塊v4芯片,每臺Pod的芯片間互連帶寬是其他互連技術(shù)的10倍,因此,TPU v4 Pod的算力可達1 ExaFLOP,即每秒執行10的18次方浮點(diǎn)運算,相當于1000萬(wàn)臺筆記本電腦的總算力!

到了2023年的今天,TPU已經(jīng)成為了AI芯片的代名詞之一,成為了繼CPU和GPU后又一重要的處理器,它部署在谷歌數十座數據中心當中,每天完成著(zhù)數以?xún)|計的AI計算任務(wù)。

谷歌的自研帝國

TPU只是谷歌自研的序幕。

2017年的Google Cloud Next '17 大會(huì )上,谷歌推出了名為T(mén)itan的定制安全芯片,它專(zhuān)為硬件級別的云安全而設計,通過(guò)為特定硬件建立加密身份,實(shí)現更安全的識別和身份驗證,從而防范日益猖獗的BIOS攻擊。

Titan芯片面向的并不全是谷歌自己,它的出現是為了說(shuō)服企業(yè),數據存在谷歌云中比企業(yè)的本地數據中心更安全,谷歌表示,自研的Titan芯片通過(guò)建立強大的基于硬件的系統身份,來(lái)驗證系統固件和軟件組件,保護啟動(dòng)的過(guò)程,這一切得益于谷歌自己創(chuàng )建的硬件邏輯,從根本上減少了硬件后門(mén)的可能性,基于Titan的生態(tài)系統也確保了設施僅使用授權且可驗證的代碼,最終讓谷歌云擁有了比本地數據中心更安全的可靠性。

Titan的出現,只不過(guò)是小試牛刀,2021年3月,谷歌在A(yíng)SPLOS 會(huì )議上首次介紹了一塊應用于YouTube服務(wù)器的自研芯片,即Argos VCU,它的任務(wù)很簡(jiǎn)單,就是對用戶(hù)上傳的視頻進(jìn)行轉碼。

根據數據統計,用戶(hù)每分鐘會(huì )向YouTube上傳超過(guò)500小時(shí)的各種格式的視頻內容,而谷歌則需要將這些內容快速轉換成多種分辨率(包括144p、240p、360p、480p、720p、1080p、1440p、2160p和4320p)和各種格式(例如,H.264、VP9或AV1),沒(méi)有一塊具備強大的編碼能力的芯片,想要快速轉碼就是一件不可能的事情。

谷歌嘗試過(guò)兩種解決方案,第一種是英特爾的視覺(jué)計算加速器(VCA),包含三個(gè) Xeon E3 CPU,內置 Iris Pro P6300/P580GT4e 集成圖形內核和先進(jìn)的硬件編碼器,第二種則是利用英特爾至強處理器外加軟件編碼來(lái)完成任務(wù)。

但不論是前者還是后者,都需要龐大的服務(wù)器規模和巨額的電力損耗,于是,谷歌開(kāi)啟了又一塊自研芯片——VCU的研發(fā)。負責監督 YouTube 龐大基礎設施的 Google 工程副總裁斯科特·西爾弗 (Scott Silver) 表示,從2015年開(kāi)始,大約有 100 名 Google 工程師組成的團隊投身設計第一代Argos 芯片,在此后幾年當中,這支團隊不僅完成了研發(fā),還讓芯片應用在谷歌的數據中心當中,而Argos的實(shí)力也得以展現——它處理視頻的效率比傳統服務(wù)器高 20 到 33 倍,處理高分辨率 4K 視頻的時(shí)間由幾天縮短為數小時(shí)。

下一代Argos或許早已悄悄在谷歌服務(wù)器中上線(xiàn)了,根據報道,谷歌自研的第二代VCU將支持 AV1、H.264 和 VP9 編解碼器,可以進(jìn)一步提高其編碼技術(shù)的效率,也將會(huì )是YouTube內容創(chuàng )作生態(tài)的最有力支撐。

而谷歌最強的大招還得是最復雜的手機SoC。2021年10月19日,一場(chǎng)秋季發(fā)布會(huì )上,搭載谷歌首款自研芯片 Tensor 的旗艦手機 Pixel 6 系列首次亮相。

谷歌高級副總裁 Rick Osterloh 在發(fā)布會(huì )上表示,這款芯片是“公司歷史上最大的移動(dòng)硬件創(chuàng )新”,而谷歌CEO Sundar Pichai更是早早地在推特上曬出了Tensor芯片的照片,對于自研項目的自豪感溢于言表。

不過(guò)這塊自研芯片,實(shí)質(zhì)上是基于三星在2020年開(kāi)放的半定制芯片設計的服務(wù),在TechInsights的拆解圖中,Tensor的封裝尺寸為 10.38mm x 10.43mm = 108.26mm 2,內部芯片標識為“S5P9845”,符合傳統三星Exynos處理器命名規則,如Exynos 990的芯片標識為S5E9830,Exynos 2100 5G SoC芯片標識為S5E9840,本質(zhì)上是谷歌定義,三星設計代工的一塊芯片。

即便如此,谷歌的自研芯片的布局也已初具雛形,從TPU到Titan,從VCU到Tensor,谷歌走過(guò)了十年的旅程,而它試圖全盤(pán)掌握這個(gè)硅片組成帝國的野心也昭然若揭。

谷歌的聰明帳與絆腳石

對于谷歌來(lái)說(shuō),要錢(qián)有錢(qián),要技術(shù)有技術(shù),要應用場(chǎng)景有應用場(chǎng)景,可以說(shuō)是各大科技巨頭中在自研AI芯片這條路上走得最遠的,其他廠(chǎng)商目前還在源源不斷地給英偉達賬戶(hù)打錢(qián),但谷歌卻早已做好了兩手準備,不少人甚至將它視為如今英偉達壟斷局面的最強挑戰者。

與微軟和亞馬遜相比,谷歌最突出的優(yōu)勢,就是從系統級的角度設計TPU,單個(gè)芯片固然重要,但在現實(shí)世界中如何在系統中組合使用則更為重要。雖然英偉達也從系統角度思考問(wèn)題,但他們的系統規模比谷歌更小,范圍也更窄。而且谷歌還在 TPU 之間使用了定制的網(wǎng)絡(luò )堆棧 ICI。與昂貴的以太網(wǎng)和 InfiniBand 部署相比,這種鏈路延遲低、性能高,類(lèi)似于英偉達的 NVLink。

事實(shí)上,谷歌的 TPUv2 可以擴展到 256 個(gè) TPU 芯片,與英偉達的 H100 GPU 數量相同。在 TPU v3 和 TPU v4 中,這一數字分別增加到了 1024 和 4096個(gè)。根據趨勢線(xiàn),而最新的 TPU v5p 則可以擴展到 8960 個(gè)芯片,而無(wú)需通過(guò)低效的以太網(wǎng)。

此外,谷歌在OCS、拓撲結構、DLRM 優(yōu)化上也具有獨到的優(yōu)勢,十年來(lái)積攢的經(jīng)驗優(yōu)勢幫助谷歌的TPU在數據中心里和AI大模型中大展身手,在具體應用中,用遙遙領(lǐng)先來(lái)形容也不過(guò)分,未來(lái)谷歌完全擺脫英偉達GPU的掣肘,也并非不可能。

不過(guò),谷歌還有一個(gè)不大不小的絆腳石。

TPU的自研始于2013年,能在15個(gè)月里快速部署到數據中心,同時(shí)實(shí)現快速迭代性能猛增,除了夜以繼日的谷歌研究人員外,另外一家公司提供的幫助也極其重要。

根據2020年摩根大通分析師哈蘭·蘇爾的報告,谷歌TPU v1至v4這幾代均是由博通共同設計的,當時(shí)它已經(jīng)開(kāi)始生產(chǎn)采用7nm 工藝的TPU v4,并開(kāi)始與谷歌合作設計采用5nm工藝的TPU v5

蘇爾表示,博通的專(zhuān)用集成電路(ASIC)業(yè)務(wù)2020全年收入為 7.5 億美元,高于 2016 年的 5000 萬(wàn)美元,除了芯片設計之外,博通還為谷歌提供了關(guān)鍵的知識產(chǎn)權,并負責了制造、測試和封裝新芯片等步驟,以供應谷歌的新數據中心,博通還與其他客戶(hù)如Facebook、微軟和AT&T等公司合作設計ASIC芯片。

而根據2022年博通的財報,其將 ASIC 收入分為兩部分:路由和交換以及計算卸載。計算卸載在數據中心內分兩步處理。當提出計算請求時(shí),路由器和交換機會(huì )決定由數據中心的哪個(gè)部分來(lái)處理這項工作。一旦決定,處理器(通常是 CPU 或 GPU,如 Nvidia 設計的處理器)就會(huì )進(jìn)行計算,然后由這些路由器和交換機再次通過(guò)互聯(lián)網(wǎng)或專(zhuān)用網(wǎng)絡(luò )發(fā)送回最終用戶(hù)。

就收入而言,博通是全球第二大人工智能芯片公司,僅次于英偉達,其ASIC的銷(xiāo)售額達數十億美元,而這正是谷歌為響應微軟與 OpenAI 合作而加大 TPU 部署的結果,光是一家谷歌的TPU就讓博通的ASIC收入翻了兩番還多,谷歌沒(méi)交給英偉達的人工智能稅,以另一種形式進(jìn)了博通的口袋。

無(wú)論是哪家公司,都不會(huì )心甘情愿繼續交這筆錢(qián)的,因而在今年9月就傳出了谷歌準備在2027年前結束與博通的合作關(guān)系,消息人士稱(chēng),谷歌高管已經(jīng)設定了放棄博通的目標,轉而開(kāi)始考慮起了它的競爭對手Marvell,此前兩家公司就TPU 芯片的定價(jià)問(wèn)題陷入了長(cháng)達數月的僵局。

雖然后面谷歌官方又出來(lái)辟謠,表示目前沒(méi)有計劃改變與博通的合作關(guān)系,但私底下兩家不合已經(jīng)是人盡皆知的事情了。

谷歌在TPU上算了一筆聰明帳,在微軟等巨頭乖乖交錢(qián)的時(shí)候,它掏出了TPU v5p來(lái)對抗英偉達,但它沒(méi)想到的是,幾年前還不起眼的ASIC合作,如今卻成了TPU發(fā)展路上最大的一顆絆腳石,只要擴大TPU的部署規模,就得不斷加錢(qián)給博通。

如此想來(lái),巨頭們真的是躲得過(guò)初一,躲不過(guò)十五,躲過(guò)了英偉達GPU高達70%的利潤,卻躲不過(guò)像博通這樣的合作公司,微軟這些巨頭,想要在A(yíng)I芯片上省錢(qián),今后難免會(huì )遇到像谷歌今日一般的困局吧。
本文地址:http://selenalain.com/thread-848378-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页