ARM公司供稿 GPU市場(chǎng)增長(cháng)與Mali 技術(shù)的成功 2006年,圖形處理器(GPU)總出貨量約為1.35億,廣泛用于智能手機、DTV和平板電腦等多種設備。同年,ARM® 完成對挪威Falanx公司的收購,并獲得其移動(dòng)GPU技術(shù),完成對原有IP技術(shù)的擴展。10年后的今天,僅智能手機的全球出貨量就已達到15億臺(據ARM內部數據和Gartner數據顯示);短短10年時(shí)間,ARM Mali技術(shù)也已成為全球出貨量第一的GPU,2015年總計出貨量超過(guò)7.5億。 本文將重點(diǎn)討論GPU市場(chǎng)、技術(shù)、應用案例,以及GPU爆炸式發(fā)展背后的深層原因。同時(shí),文章還將簡(jiǎn)述ARM Mali GPU及其架構在過(guò)去10年的演進(jìn),并介紹搭載全新Bifrost架構的Mali-G71。 ![]() API與制程節點(diǎn)開(kāi)發(fā) 對圖形領(lǐng)域而言,2015年振奮人心——全新應用程序接口(API)的出現允許開(kāi)發(fā)商將基礎圖形硬件發(fā)揮至技術(shù)允許的最高水平。 同年,Khronos團隊的工作引發(fā)有關(guān)Vulkan的熱烈討論。Vulkan是新一代OpenGL API,為新一代圖形API設計量身打造。Vulkan足以滿(mǎn)足全部需求,并徹底終結了OpenGL ES和OpenGL作為API各自為政的時(shí)代。 Vulkan于2016年2月正式發(fā)布,是首款按照開(kāi)發(fā)商需求設計的Khronos API。它由游戲引擎開(kāi)發(fā)商、芯片提供商、IP公司和操作系統供應商共同開(kāi)發(fā),以期打造兼顧各相關(guān)方需求的最佳解決方案。Vulkan API應運而生,采用全新異構系統,不僅內置多線(xiàn)程支持,而且可以最大程度發(fā)揮硬件一致性的優(yōu)勢。Vulkan屬于底層API,允許開(kāi)發(fā)商自主決定硬件交互方式,并通過(guò)底層接入以找到最佳平衡點(diǎn)。 上述特性對虛擬現實(shí)(VR)等新興應用尤為重要,幫助開(kāi)放商減少延遲,優(yōu)化圖形流水線(xiàn)。 ![]() 對聚焦GPU運算應用的開(kāi)發(fā)商來(lái)說(shuō),OpenCL 2的發(fā)布是一個(gè)重要節點(diǎn),多項全新理念進(jìn)一步簡(jiǎn)化了高性能GPGPU應用的開(kāi)發(fā)流程。虛擬存儲共享概念的提出可以說(shuō)最為關(guān)鍵,允許CPU和GPU之間的虛擬地址共享。與硬件一致性結合后,細粒度緩沖器共享成為現實(shí)。該技術(shù)簡(jiǎn)化了實(shí)現CPU和GPU工作負載共享所需的開(kāi)發(fā)工作,因為兩者間的數據雙向傳輸不再是必要條件。 半導體制造工藝也經(jīng)歷了巨大革新。2014年,臺積電與三星推出20納米工藝節點(diǎn),標志著(zhù)平面工藝節點(diǎn)的10年歷史終于落幕。2015年,三星在Exynos 7420上使用全新14納米FinFet技術(shù),臺積電緊隨其后,推出16納米FinFet工藝,并搭載于蘋(píng)果A9芯片。2016年,工藝節點(diǎn)獲得進(jìn)一步完善,成本降低,產(chǎn)量增加。步入2017年, 10納米工藝節點(diǎn)也不再是夢(mèng)想。 從GPU的角度看,工藝節點(diǎn)技術(shù)的進(jìn)步對整個(gè)行業(yè)意義非凡。首先,工藝節點(diǎn)越先進(jìn),單位區域(或功耗)的晶體管密度就越大。GPU屬于并行處理器,只要架構擴展,性能就會(huì )隨之提升。然而,先進(jìn)工藝節點(diǎn)對布線(xiàn)的擴展效果不如晶體管。恰恰相反,Ergo 工藝制程從28納米優(yōu)化至14納米,SoC設計師得以實(shí)現更高的晶體管密度,但卻不如布線(xiàn)的擴展。這意味著(zhù),如果設計10納米GPU時(shí)采用與28納米同樣的方法,設計結果必然會(huì )打折扣,因為晶體管和布線(xiàn)各有權衡,不盡相同。設計師常常需要妥協(xié),使IP適應某個(gè)節點(diǎn),這種權衡隨著(zhù)先進(jìn)工藝節點(diǎn)數量的增加變得愈加重要。 深入探討高端移動(dòng)GPU的性能如何繼續提高之前,我們需要特別指出GPU性能從2011年到2016年提升了20倍這個(gè)有趣的事實(shí)。由于手機同時(shí)變得更加輕薄,因此該數字并不能代表技術(shù)進(jìn)步的全景,但現代移動(dòng)設備開(kāi)發(fā)商對性能提升的渴求已經(jīng)可見(jiàn)一斑。 ![]() 移動(dòng)設備開(kāi)發(fā)商不斷完善現有用例,開(kāi)發(fā)顛覆性的新用例,以保持創(chuàng )新節奏,并從新一輪的性能升級中獲益。 案例開(kāi)發(fā) 隨著(zhù)移動(dòng)平臺的發(fā)展,各類(lèi)傳感器層出不窮。憑借飛速提升的系統性能、不斷改善的屏幕精度和日益增加的電池壽命,移動(dòng)設備開(kāi)發(fā)商已經(jīng)坐擁創(chuàng )新的最佳平臺。 增強現實(shí)(AR)可以充分挖掘并展現智能手機的強勁性能。AR的原理并不復雜,利用高級攝像頭捕捉圖像,經(jīng)過(guò)CPU、GPU、ISP、VPU和DPU,最后顯示在高清屏幕上。這個(gè)過(guò)程中,增強內容將覆蓋實(shí)際影像。根據應用目標的不同,物體識別、方位補償(使用電子羅盤(pán)和/或加速度計)或高級渲染技術(shù)都將各有用武之地。 一些人氣移動(dòng)應用讓AR不再遠在天邊,并一舉進(jìn)軍大眾市場(chǎng),比如將濾鏡疊加在用戶(hù)臉部,然后生成圖片和視頻用于分享的Snapchat;以及讓用戶(hù)在真實(shí)地點(diǎn)看到動(dòng)畫(huà)人物的Pokemon Go。無(wú)獨有偶,還有一些應用采取了更高級的AR技術(shù),比如將攝像頭捕捉與3D物體相結合。這些創(chuàng )新用例層出不窮,并可以用于包括零售和高端游戲在內的各行各業(yè)。舉個(gè)例子,用戶(hù)可以使用移動(dòng)設備查看家具是否與硬裝搭配,家具巨頭宜家就打算在2017年發(fā)布AR產(chǎn)品目錄。 虛擬現實(shí)已經(jīng)不算新理念了,但其核心技術(shù)卻仍在經(jīng)歷巨變。硬件設備已經(jīng)萬(wàn)事俱備,擁有足夠強大的性能運行炫目的VR內容;一個(gè)適合創(chuàng )新的大規模開(kāi)發(fā)商生態(tài)系統也已經(jīng)形成。這一點(diǎn)在移動(dòng)平臺的體現格外深刻,因為人人都能用,且其移動(dòng)性自身便是重要優(yōu)勢。與臺式機和游戲機不同,移動(dòng)設備無(wú)拘無(wú)束。當然,實(shí)現這一點(diǎn)需要在設備上安裝各類(lèi)傳感器。實(shí)際上,VR領(lǐng)域的許多重大突破都是在移動(dòng)設備上實(shí)現的——利用VR技術(shù)增強用戶(hù)體驗的云霄飛車(chē)就是高性能移動(dòng)應用的一個(gè)典型案例。 盡管推陳出新的顛覆式應用不斷刷新智能手機的使用方式,但我們經(jīng)常會(huì )忘記一點(diǎn)現實(shí),最普遍的移動(dòng)應用情景依然是網(wǎng)頁(yè)瀏覽和游戲。近幾年,屏幕分辨率和刷新率都得到提升,用戶(hù)界面(UI)的視覺(jué)效果和使用體驗也越來(lái)越自然。這些優(yōu)化對GPU提出了更高要求,成為成本導向型市場(chǎng)不小的挑戰。 移動(dòng)設備已經(jīng)成為最主要的游戲平臺,由于移動(dòng)游戲的便捷性,玩家人數持續增加,并進(jìn)一步推動(dòng)游戲數量的上升。從免費的獨立游戲到數百萬(wàn)美元投資的工作室游戲,現代玩家有豐富的游戲類(lèi)型、價(jià)格和質(zhì)量等級可供選擇。隨著(zhù)可選游戲數量的上升,視覺(jué)效果也得到顯著(zhù)改善。GPU剛剛引入移動(dòng)設備時(shí),3D游戲簡(jiǎn)單粗暴,不堪入目。而現在呢?游戲畫(huà)面豐富多彩,景色怡人,動(dòng)態(tài)感十足,在上一代的手柄游戲機時(shí)代都是前所未聞的。 ![]() 上圖是ARM演示團隊制作的三張示意圖。我們先來(lái)看看相對簡(jiǎn)單(以今天的標準)的3D內容,演示游戲為2010年推出的True Force,運行于2011年款的Galaxy S2。每幀圖元16k,片段處理每像素時(shí)鐘周期3.7次,基于OpenGL ES 2.0。 3年后的2013年,OpenGL ES 3.0正式推出,改善了GPU 對GPU運算的支持(并不是OpenGL ES 3.0 API的主打特色,而隨OpenGL ES 3.1正式推出);允許開(kāi)發(fā)商使用更多高級渲染技術(shù)。結合基礎硬件后,視覺(jué)質(zhì)量顯著(zhù)提升。將Trollheim演示與TrueForce比較一下便可一目了然,前者的復雜性比后者高了不少。TrueForce的每幀圖元為16k,而Trollheim為150k,TrueForce的片段處理每像素時(shí)鐘周期為3.7次,而Trollheim則為16次。 2016年,Vulkan正式推出,API效率大幅提高,與OpenGL ES相比能夠以更低的開(kāi)銷(xiāo)幫助開(kāi)發(fā)商更好地發(fā)揮硬件性能。當然,硬件本身也快速發(fā)展,比較一下Lofoten和Trollheim演示,我們即可清楚地看到復雜度的提升:每幀圖元提高了300%,片段復雜度提高了150%。 智能手機設計的挑戰與趨勢 使用場(chǎng)景的變化僅是一個(gè)方面,移動(dòng)設備本身也經(jīng)歷大幅升級。智能手機市場(chǎng)最初主打旗艦機型,隨著(zhù)智能化程度的不斷提高,很多 PC特性已經(jīng)可以實(shí)現,但通訊依舊是其主要功能。然而,過(guò)去短短幾年間,智能手機用途不斷擴展,打電話(huà)已不再是智能手機的主要功能,圖像顯示成為了關(guān)注焦點(diǎn)。 過(guò)去,手機電池壽命一般用單次充電支持的通話(huà)時(shí)長(cháng)來(lái)衡量,而現在的標準則是網(wǎng)絡(luò )瀏覽或高端游戲的續航時(shí)間。GPU與顯示性能一起備受關(guān)注。用戶(hù)希望體驗更高質(zhì)量的視覺(jué)效果,到目前為止,這一目標都是經(jīng)由智能手機設計改善,以及顯示內容的美感和流暢性來(lái)實(shí)現,一個(gè)證據就是屏幕邊框變得越來(lái)越窄。市場(chǎng)的大致趨勢是朝著(zhù)屏幕包裹設備的方向發(fā)展,設計美感更多由UI而非硬件來(lái)實(shí)現。下圖中,我們可以看出屏幕占整個(gè)設備的比例不斷增加。這一趨勢在三星Galaxy S7 Edge等機型上體現得尤為明顯,已經(jīng)實(shí)現屏幕對設備的全包裹。 ![]() 除了打電話(huà),現代智能手機還能提供極為豐富的功能,如郵件、社交媒體、導航定位、支付、瀏覽網(wǎng)頁(yè)、游戲、拍照和視頻等等。用戶(hù)在期待功能升級的同時(shí),也希望電池壽命不斷延長(cháng)。但是,即便使用當前所有最先進(jìn)的技術(shù),智能手機的電池容量還是要不斷增大,具體變化趨勢見(jiàn)下圖。 ![]() 除了電池容量變大,智能手機還變得越來(lái)越薄。一些機型的厚度甚至已經(jīng)達到了7毫米以下,考慮到現代智能手機的技術(shù)含量,如此纖薄實(shí)在令人驚訝。 這樣的發(fā)展方向并非完全沒(méi)有弊端。屏幕增大導致電池尺寸變大,機身變薄,設備散熱能力下降,因為屏幕的散熱效率不如金屬機身。此外,機身變薄后,用以散熱的表面積也會(huì )減少,F代高端智能手機的性能上限很大程度上被散熱能力牽制,如何保證機身內部元器件不因為高溫而受損則因此成為另一大挑戰。 現代智能手機裝有多種耗電發(fā)熱的核心元件,如攝像頭子系統、屏幕、調制解調器、Wi-Fi、非易失性存儲器、DRAM和主芯片本身(包括CPU、GPU和其他處理器)。因為總功耗一致,所以其中任何一個(gè)元件功耗的減少,都可以增加其他元件可以使用的配額,這也是系統功耗配比由用例決定的原因。 現代GPU非常復雜,嚴重依賴(lài)CPU運行驅動(dòng)程序,以實(shí)現基于軟件與應用程序進(jìn)行交互。多虧了Vulkan這樣的現代API,驅動(dòng)程序的開(kāi)銷(xiāo)下降了,但是CPU依然需要運行驅動(dòng)程序,所以不能完全避免耗電。由于所有元件功耗預算共享,因此在CPU中使用的、用于GPU交互的功耗就是不能應用于GPU本身的功耗;谏鲜鲈,降低CPU功耗勢在必行,不僅是為GPU發(fā)展掃清瓶頸,更是要為盡可能的提高GPU可用功耗鋪平道路。 與之類(lèi)似,在運行復雜3D游戲的現代系統中,GPU會(huì )消耗大量DRAM帶寬。由于要處理大量數據(上述提及的Lofoten每幀處理600,000個(gè)三角),消耗帶寬責無(wú)旁貸,但DRAM的讀寫(xiě)本身就是耗電的過(guò)程,也需要占用系統的總功耗預算。減少DRAM帶寬可以降低其功耗,并用于其他元件。 現代智能手機的設計和日益復雜的用例對GPU提出了前所未有的挑戰。下一章,我們將介紹ARM新一代GPU和GPU架構是如何應對這些挑戰的。 為下一代設備打造的Mali-G71 Mali-G71是ARM最新推出的高性能GPU,也是首款基于全新Bifrost架構的GPU,性能和效率都獲得顯著(zhù)提升。 ![]() Mali-G71是迄今為止ARM性能最高的GPU。為滿(mǎn)足現代用例所需性能,著(zhù)色器核心數量從1擴展至32,幫助芯片制造商根據目標市場(chǎng)自主權衡性能和功耗。出于這個(gè)原因,我們認為Mali-G71將在各類(lèi)應用中將大展拳腳。 ![]() 如前文所述,智能手機的很多性能都受到散熱的限制,還有一些手機的限制因素則是成本,或者說(shuō)是芯片尺寸。為了實(shí)現更高性,Mali-G71和Bifrost架構同時(shí)升級了能源效率(單位瓦特性能)和性能密度(單位芯片面積性能),幫助功耗與散熱性能遭遇挑戰的芯片制造商實(shí)現更高的GPU性能。相似條件下,Mali-G71的能源效率相較Mali-T880最多可提高20%,性能密度最多可提高40%。此外,外部存儲消耗的總帶寬降低20%,進(jìn)一步減少整體系統功耗。 ![]() Bifrost架構發(fā)展 為了進(jìn)一步說(shuō)明Mali-G71為何具備遠超歷代ARM GPU的性能,我們首先來(lái)探討一下GPU架構本身,以及實(shí)現這些性能的設計方法。 Bifrost是ARM的第三代可編程的GPU架構,其研發(fā)知識與經(jīng)驗傳承自Utgard和Midgard GPU架構。 ![]() ARM的前兩代GPU架構——Utgard和Midgard都取得了巨大成功。它們專(zhuān)為新興的移動(dòng)GPU市場(chǎng)打造,無(wú)論出貨量還是內部科技的運用都可圈可點(diǎn)。Utgard是ARM首款可編程GPU,支持GLES 2.x,片段著(zhù)色器與頂點(diǎn)著(zhù)色器相互獨立。Midgard則引入了統一著(zhù)色器,支持GLES 3.x,并可與OpenCL 1.x Full Profile協(xié)同實(shí)現GPGPU運算。Midgard是一款前瞻性的GPU架構,甚至包括了一些可以支持Vulkan的功能特性?紤]到這是5年前設計的架構,就足以成為了不起的成就。 然而,隨著(zhù)內容和用例的改變,架構本身也必須進(jìn)行根本性的升級,以適應各類(lèi)下一代用例。 ![]() 從頂層設計看,與Midgard架構相比,Bifrost的GPU內核沒(méi)有明顯變化。表面上依然包括多個(gè)可擴展的著(zhù)色器核心、一個(gè)負責與驅動(dòng)程序交互的任務(wù)管理器、一個(gè)負責處理內存頁(yè)表的MMU以及一個(gè)tiler(Bifrost 仍然是一個(gè) Tile based 渲染架構),但全部模塊都獲得了顯著(zhù)提升。 通過(guò)AMBA ACE或AXI-Lite與外界交互的L2子系統為支持AMBA 4 ACE專(zhuān)門(mén)設計,幫助Mali-G71徹底實(shí)現硬件一致性,并在GPU和CPU等其他單元之間實(shí)現了基于硬件的細粒數據透明共享。 我們對tiler做了重新設計,以支持一種全新的渲染流,即索引驅動(dòng)的位置渲染。該技術(shù)的理念是將頂點(diǎn)著(zhù)色分為兩部分以節省帶寬,因為無(wú)需讀寫(xiě)屏幕上看不見(jiàn)的變化參數(varying)1;而且由于無(wú)需寫(xiě)回不可見(jiàn)位置,帶寬可以得到進(jìn)一步節省。 ![]() ![]() 著(zhù)色器核心本身的變化更為巨大。ARM在Bifrost中引入全新指令集,根據大量的內容和趨勢分析以及長(cháng)年的行業(yè)經(jīng)驗開(kāi)發(fā),F代GPU的總體趨勢是執行越來(lái)越多的復雜可編程著(zhù)色器,通常通過(guò)算法完成并采用大量標量代碼。作為全新引擎的一部分,Bifrost采用全新的算法單元,以極高的效率執行高級著(zhù)色器核心。它們更容易擴展,如果未來(lái)需求有增加,該架構也可以輕松應對。 Bifrost的屬性(attribute)單元和變化參數單元相互獨立,這些操作在圖形處理中極為普遍,使用獨立的高度優(yōu)化硬件模塊更為合理。全新的指令集引入高效的四線(xiàn)程組以節省控制邏輯,并通過(guò)四線(xiàn)程組管理器將線(xiàn)程組切換至執行引擎。我們還加入了一個(gè)控制架構以提高物理利用率。如上文所述,此特性對現代工藝節點(diǎn)非常重要。 Bifrost引入了名為子句著(zhù)色器的概念,專(zhuān)門(mén)用于處理執行引擎內部的布線(xiàn)密度問(wèn)題。你可以將子句想象成一組連續自動(dòng)執行的指令,也就是說(shuō),一個(gè)子句的執行不能被中斷,無(wú)論是分支(如分支只發(fā)生在子句邊界上)還是其他任何事件都無(wú)法中斷。這意味著(zhù)子句是可以預測的,數據路徑周?chē)目刂七壿嬜兊酶菀。比如說(shuō),你無(wú)需在子句內部更新程序計數器,因為GPU知道它會(huì )在執行前(或執行后)根據子句內部的指令數量向前推進(jìn)。 對CPU而言,這一行為并不可取,因為CPU必須迅速處理分支,而且分支的出現并不偶然。但恰恰相反,對GPU而言,該技術(shù)又可以進(jìn)一步優(yōu)化設計。請想象一組指令集正在經(jīng)過(guò)。連續的指令經(jīng)常使用上一條指令作為輸入(見(jiàn)下方一排中的多個(gè)ADD正在積累數據)。如果你經(jīng)常觀(guān)察到這一現象,而且你知道訪(fǎng)問(wèn)暫存器組的代價(jià)非常高昂(因為這是一個(gè)巨大的存儲模塊),有一種方法來(lái)緩解這個(gè)問(wèn)題,那就是巧妙地使用臨時(shí)寄存器來(lái)減少寄存器組的訪(fǎng)問(wèn)量。由于寄存器是臨時(shí)的,數據只會(huì )在一個(gè)時(shí)鐘周期中保留,所以要想實(shí)現,子句必須確保在子句內部原子執行。 ![]() ![]() 請參考下圖的簡(jiǎn)單著(zhù)色器程序,從指令集的角度了解子句著(zhù)色器的工作原理。需要指出的是,這是開(kāi)發(fā)者所看不到的,由編譯器完成的。 ![]() 總結 通過(guò)對Bifrost架構如何提高效率和性能的詳細解讀,我們可以清楚地了解Mali-G71具備哪些根本性的創(chuàng )新技術(shù),以實(shí)現萬(wàn)眾期待的GPU性能升級。通過(guò)支持全新的現代API(如Vulkan和OpenCL 2.0),Mali-G71有助于實(shí)現出色的新興應用場(chǎng)景體驗。ARM將繼續研發(fā)Bifrost架構,滿(mǎn)足下一代內容的需求并超越行業(yè)期待。2016年,更多新技術(shù)將現身ARM Mali 多媒體組件。 |