在智能移動(dòng)終端產(chǎn)業(yè)一派繁榮的景象之下,CPU處理器的發(fā)展已幾近極限,而移動(dòng)端對于 GPU圖形處理器的性能需求卻遠遠沒(méi)有停止。根據市調機構Jon Peddie Research針對2013年上半年個(gè)人移動(dòng)設備(智能手機、平板電腦以及掌上游戲機等)GPU出貨量情況的統計,由于獲得蘋(píng)果與三星等應用處理器的采用,Imagination Technologies公司以37.6%的市場(chǎng)占有率位居IP供應商的第一位;高通以及IP授權商ARM、Vivante則緊隨其后。![]() 各移動(dòng)GPU供應商的市占率統計 與此同時(shí),近一年來(lái),移動(dòng)GPU市場(chǎng)正處于飛速發(fā)展之中,特別是從去年下半年開(kāi)始,各大廠(chǎng)商紛紛加大了對移動(dòng)GPU市場(chǎng)的布局力度:去年年底,ARM同時(shí)推出了兩款分別針對高端市場(chǎng)和入門(mén)級應用的移動(dòng)GPU(Mali-T760與T720);今年初,Imagination則推出了高端系列PowerVR Series6XT GPU和入門(mén)級Series6XE GPU;Vivante發(fā)布了基于Vega技術(shù)、可有效處理4K媒體的GPU IP內核(GC7000);高通大力宣傳自己的下一代移動(dòng)GPU Adreno 420,并已用于驍龍805上;NVIDIA發(fā)布的Tagra K1首次把PC級的GPU搭載到了移動(dòng)處理器上。所有跡象表明,在不同公司的企業(yè)經(jīng)營(yíng)策略之下,移動(dòng)GPU市場(chǎng)正呈現出日益激烈的市場(chǎng)競爭態(tài)勢,更多具有鮮明個(gè)性化特色的芯片方案將不斷涌現在市場(chǎng)之上。 克服移動(dòng)運行環(huán)境的局限 對比應用在PC上的GPU性能,ARM公司多媒體處理器事業(yè)部市場(chǎng)營(yíng)銷(xiāo)副總裁Dennis Laudick認為,GPU在移動(dòng)設備運作環(huán)境中與在PC中是全然不同的。例如,應用在PC上的GPU可以通過(guò)一個(gè)AC電源獲取到大量的電力,并通過(guò)非常高功耗PCI等接口連接到大量的內存帶寬,這樣的例子不勝枚舉。因此,在PC環(huán)境中開(kāi)發(fā)的技術(shù)并不會(huì )去考慮功率/面積/熱/帶寬等限制,而是更加直接地藉由越來(lái)越多的電力和資源來(lái)提高性能。 “但在移動(dòng)環(huán)境中的GPU則正好相反,它必須要面對各種不同的約束。在移動(dòng)的環(huán)境下,電源供電是一個(gè)巨大的問(wèn)題,從最初設計開(kāi)始,GPU(或處理器)就需要考慮功耗問(wèn)題,這需要充足的專(zhuān)業(yè)技能,才能從運行環(huán)境中獲得最大化的性能。另外,移動(dòng)設備的環(huán)境也存在帶寬的限制,必須在設計出令人難以置信的輕巧電源的同時(shí),還要能為用戶(hù)提供良好的產(chǎn)品性能和應用體驗!币蚨鴱母旧现v,在PC與移動(dòng)設備上的GPU是完全不同的運作形式,PC中的GPU一般采用簡(jiǎn)單、全屏、“立即模式”的渲染方式;而移動(dòng)設備的GPU則采取分塊渲染等更節能的技術(shù),讓龐大的任務(wù)處理更加智能化,以確保用盡每一“滴”能效。 從工作模式上,Imagination Technologies公司PowerVR多媒體業(yè)務(wù)總監Peter McGuinness更為詳細的介紹道,PC機GPU在傳統上純粹以性能為導向,而移動(dòng)GPU則是為高效率和低功耗所設計的。桌面GPU是典型的提前Z(early-Z buffer)運行模式,通過(guò)冷卻機制來(lái)解決功耗問(wèn)題;移動(dòng)GPU大多基于分塊渲染模式,將內存流量和功耗保持在最低水平。一些移動(dòng)GPU主要依靠運行提前Z模式來(lái)篩選出可見(jiàn)目標,但這種方式可能會(huì )占用大量的面積和功耗。Imagination推出的 PowerVR則采用延遲分塊渲染的模式,僅計算并呈現可見(jiàn)的目標、而省略被遮擋的不可見(jiàn)目標元素,從而擁有獨特的性能優(yōu)勢。 低功耗、小面積設計至關(guān)重要 談到移動(dòng)GPU最引人關(guān)注的低功耗問(wèn)題,Laudick說(shuō)道:“低功耗并非只是一種方法或應用到產(chǎn)品以及設計的一些技巧,它必須在產(chǎn)品設計之初就深植于設計人員與產(chǎn)品規劃的思考核心。這意味著(zhù),很多設計準則與基本架構有關(guān),然而,有些設計準則卻是通過(guò)外部接口來(lái)實(shí)現、又或是一些在設計上特定的先進(jìn)技術(shù)上去節省功耗!睘榱丝朔苿(dòng)設備對GPU先天上的限制,ARM一直在尋找在小面積和有限的功耗內提升處理能力更有效而智能的方式。其中,ASTC紋理壓縮技術(shù)就是一項源自ARM圖像質(zhì)量方面先進(jìn)的技術(shù),能減少內存帶寬和功耗,這項技術(shù)已經(jīng)被主要的移動(dòng)GPU芯片供貨商所采用。 另外,ARM還開(kāi)發(fā)出一系列先進(jìn)技術(shù),進(jìn)一步提升產(chǎn)品性能。如:智能合成技術(shù)用于減少帶寬,可同時(shí)在幀結構中讀取紋理;智能消除技術(shù)可實(shí)現關(guān)鍵的節省帶寬功能,在SoC層級達到顯著(zhù)的低能耗效果,而GPU在渲染的過(guò)程中,在幀與幀之間只會(huì )就不同的部分進(jìn)行渲染;幀緩沖壓縮格式是一種無(wú)損圖像的壓縮技術(shù),允許通過(guò)減少SoC內部IP模塊之間傳輸的數據量,大幅減少帶寬的消耗;像素本地存儲技術(shù)是最近在SIGGRAPH世界圖形圖像學(xué)術(shù)大會(huì )上所展示的另一種技術(shù),能藉由減少對先進(jìn)圖形算法的帶寬需求,達到低功耗的效果。 得益于專(zhuān)為真實(shí)世界應用案例所設計的低功耗特性集,Imagination新推出的PowerVR Series6XT和Series6XE系列均基于PowerVR Rogue圖形架構所帶來(lái)的大量獨特特性,以改進(jìn)整體系統性能,降低功耗,并減少內存帶寬。McGuinness分析道:“首先,PowerVR Rogue GPU采用標量處理,實(shí)現ALU的最高利用率并簡(jiǎn)化圖形編程,這一架構效率對于優(yōu)化圖像處理算法十分必要,很多算法拒絕將色彩信息作為第一步,并只處理強度信息,而這在標量架構中完全不是問(wèn)題。其次,我們增加了新的PVR3C三倍壓縮技術(shù),結合了有損紋理壓縮、無(wú)損圖像壓縮和無(wú)損幾何壓縮技術(shù),降低內存帶寬,且反過(guò)來(lái)更加顯著(zhù)地影響了系統范圍的功耗。第三,系統增加的PowerGearing功能可動(dòng)態(tài)管理不同的功耗水平,并平衡整體SoC功耗,所有的Rogue GPU結合使用FP32和FP16 ALU,實(shí)現了高精度和低功耗運算,與上一代GPU相比,PowerVR Series6XT和6XE GPU擁有高達50%的更多低能耗GFLOPS(每秒執行浮點(diǎn)運算次數)! ![]() Imagination公司移動(dòng)GPU發(fā)展路線(xiàn)圖 除此之外,對于瞄準入門(mén)級平臺的芯片供應商來(lái)說(shuō),生產(chǎn)更大面積的SoC系統級芯片意味著(zhù)成本的提高,因此,處理器芯片的面積也變得越來(lái)越重要。為了解決這一問(wèn)題,Imagination可以為合作伙伴提供優(yōu)化設計工具(DOKs),為各種特定應用實(shí)現性能、功耗和面積之間的理想平衡。例如,Imagination與美國新思科技公司共同開(kāi)發(fā)的第一款優(yōu)化設計工具可為PowerVR Series6 GPU芯片節省高達30%的面積,并且同時(shí)還能顯著(zhù)降低動(dòng)態(tài)功耗。 GPU與CPU協(xié)作成主流趨勢 在對近期移動(dòng)終端市場(chǎng)的觀(guān)察中,Laudick指出,一個(gè)有趣的現象是,市場(chǎng)上設備所具備的多媒體功能越來(lái)越受到人們的關(guān)注。例如:攝像功能不但是大部分移動(dòng)終端產(chǎn)品的標準配置之一,而且設備處理圖像、視頻等多媒體的性能也正在成為影響消費者購買(mǎi)產(chǎn)品的一個(gè)重要因素。在這些多媒體應用中涉及到大量像素處理任務(wù),這一方面可以在CPU上完成,而另一方面,圖像處理和視覺(jué)計算的任務(wù)類(lèi)型具有并行特性,也意味著(zhù)它們非常適合通過(guò)GPU來(lái)運行,有助于加快任務(wù)處理速度,同時(shí)顯著(zhù)降低功耗。 “我們需要用不同的角度來(lái)看GPU,它不再只是針對圖形處理方面,而是作為整個(gè)系統的一個(gè)組成部分。特別是在現有CPU所面臨到的節能挑戰中,尋找GPU可以用來(lái)作為一部分解決方案的可能性,將是未來(lái)的一個(gè)主要方向!盠audick說(shuō)。為此,實(shí)現在GPU和CPU的指令執行間共享數據的能力,是一種較為理想的解決途徑。這種方案通過(guò)緩存一致性以及虛擬內存共享,得以實(shí)現CPU與GPU之間的指針交換,由此消除復制或緩存維護操作,這樣,GPU可以更多地被用于加速更小型任務(wù)的計算能力,使其適合更廣范圍的算法。 作為異質(zhì)運算架構基金會(huì )(HAS Foundation)的創(chuàng )始成員,ARM正參與制定此類(lèi)特性設計所須遵循的標準,并引入到其GPU和CPU的產(chǎn)品設計中。除了Mali-T600系列(業(yè)界首款可提供OpenGL ES 3.0功能的移動(dòng)GPU)之外,ARM推出的Mali-T760 GPU可擴展性達到16個(gè)內核,是專(zhuān)門(mén)為解決高性能、高端移動(dòng)計算的市場(chǎng)需求而設計,這類(lèi)市場(chǎng)的特點(diǎn)是更大的屏幕尺寸、需要處理更復雜的內容、更高的能源效率、在每毫瓦的消耗中追求性能最大化。而一款Mali-T720 GPU則主要為了滿(mǎn)足SoC制造商針對入門(mén)級移動(dòng)計算設備市場(chǎng)的需求。 移動(dòng)設備的性能越來(lái)越取決于不同的系統,尤其是CPU和GPU的相關(guān)能力,這使得最佳的工作負荷分配顯得十分重要。通常最好的處理辦法是將工作量分成最大可能的幾個(gè)部分,以減少系統開(kāi)銷(xiāo)。McGuinness同樣表示道:“移動(dòng)設備如今正在被內在異構的應用程序所主導,這些應用程序包含功能層,這些功能層可以在CPU陣列和GPU之間被劃分GPU被歸類(lèi)為一個(gè)單核,但是事實(shí)上它本身包含一個(gè)大型陣列,并因此實(shí)現更好的效率。通過(guò)在所有可用資源中更高效地分配任務(wù),轉化成一個(gè)更高的幀率或更低的功耗或更快的響應能力,或者三者兼得!崩,一個(gè)VP9視頻解碼器的軟件運行方式可以被分解,這樣代碼的特定部分可以運行在一個(gè)四核的CPU上,同時(shí)算法的計算密集部分可以由一個(gè)PowerVR Rogue GPU 處理。這一異構解決方案雖然沒(méi)有明顯降低功耗,但顯著(zhù)維持了高度優(yōu)化的CPU代碼的幀率,這樣處理的好處在于:當解碼器是在基于瀏覽器的應用程序內被運行時(shí),用戶(hù)將享受更大的可用性、更高的分辨率、更短間隔的CPU周期,且用戶(hù)界面的響應能力也會(huì )獲得明顯的改善。 |