隨著(zhù)過(guò)去20年計算的突飛猛進(jìn),及其對商業(yè)、教育、科研、醫療機構及其他行業(yè)帶來(lái)的社會(huì )效益,計算的能源和環(huán)境足跡也相應地增加。全球30億臺個(gè)人電腦每年消耗的能量超過(guò)總能耗的的1%;全球3,000萬(wàn)臺服務(wù)器將再增加1.5%的總用電量,每年耗費約140億至180億美元。 由于全球上網(wǎng)用戶(hù)越來(lái)越多,據預測到2018年,全球數據中心的總占地面積將從2013年的15億平方英尺增加到近20億平方英尺。這些計算中心的服務(wù)器不僅會(huì )連接到個(gè)人電腦、電話(huà)和平板電腦,還會(huì )連接到大量新型聯(lián)網(wǎng)設備和系統。盡管可能會(huì )與預期有所出入,但保守估計,到2020年將會(huì )有近260億臺包含可穿戴計算機和工業(yè)傳感器在內的各種設備連接到互聯(lián)網(wǎng)。這就意味著(zhù)互聯(lián)網(wǎng)流量會(huì )大幅增加,預計到2015年將會(huì )從2010年的245EB增加到1,000EB。 與用戶(hù)對高能效性能的需求相結合,智能手機、平板電腦和游戲機等將被用于計算密集型任務(wù)中,比如流媒體、視覺(jué)體驗效果更豐富的游戲和增強現實(shí)。同時(shí),在視頻編輯、語(yǔ)音和手勢識別及基于生物特征信息的數據安全等方面,用戶(hù)對便攜式電腦和臺式電腦的需求也不斷升溫。這些因素強力推動(dòng)著(zhù)提高處理器性能同時(shí)降低能耗的技術(shù)創(chuàng )新。 能源效率的現狀 能源效率是數字移動(dòng)革命的主要推動(dòng)因素之一。20世紀40年代至今,計算效率提高了好幾個(gè)數量級,因此筆記本電腦、平板電腦和手機在電池充滿(mǎn)電的條件下可以持續工作幾個(gè)小時(shí)。由于電池技術(shù)的發(fā)展速度明顯落后于計算性能的增長(cháng)速度,移動(dòng)設備制造商只能集成多項技術(shù)來(lái)延長(cháng)電池的續航時(shí)間。比如,智能手機和筆記本電腦在空閑一定時(shí)間后會(huì )自動(dòng)進(jìn)入休眠狀態(tài)。 如下這些改進(jìn)將具有深遠的影響:假如美國境內銷(xiāo)售的計算機都通過(guò)了能源之星認證,那么每年可節約資金10億美元,同時(shí)溫室氣體排放量也能減少150億磅,這相當于140萬(wàn)臺汽車(chē)一年的排放量。 微處理器的電源挑戰 20世紀80年代和90年代是微處理器性能和計算效率大幅提升的黃金時(shí)代。晶體管越來(lái)越小,設計人員可以在單個(gè)芯片上集成更多晶體管,處理器的時(shí)鐘頻率同時(shí)得到提高,進(jìn)而用戶(hù)計算機的性能得到提高。但是晶體管再小,功率密度基本上保持不變—這種現象被稱(chēng)為登納德縮放比例定律。這就是說(shuō)每一代新處理器每單位計算能力的能耗都會(huì )減少至上一代的1/4,同時(shí)電壓和電容也相應降低。 但是,21世紀初,晶體管仍越來(lái)越小,單個(gè)芯片上可集成的晶體管數量仍在增加,但能源效益的增速卻在逐漸放緩。主要原因是晶體管的尺寸已接近物理極限。晶體管越小,制造過(guò)程中漏電的可能性就越大,因為晶體管的閾值電壓已經(jīng)降低到器件不完全關(guān)斷的點(diǎn)。登納德縮放比例定律中的這一完結會(huì )增加消費者所期望的高集成度、高性能器件的功耗,從而需要采用更復雜的散熱技術(shù)和創(chuàng )新的電源管理技術(shù)。 這最終導致半導體制造商不能單純依靠工藝的改進(jìn)來(lái)提高能源效率。此外,即使工程師保持摩爾定律與其歷史性能軌跡相吻合,也同樣需要探索新技術(shù),來(lái)讓能源效率的增長(cháng)速度媲美早期的增長(cháng)速度。 AMD 25×20計劃 AMD的工程師認真研究了上述趨勢和降低信息技術(shù)對環(huán)境影響的市場(chǎng)需求,以及延長(cháng)電池壽命和提高更加輕薄小巧產(chǎn)品性能的需求。因此,過(guò)去幾年他們大大提高了AMD處理器的性能。AMD認識到不能滿(mǎn)足于現狀,因此在2014年6月提出了到2020年實(shí)現加速處理器(APU)能效提高25倍的目標,或“25×20”計劃。 AMD使用平臺性能除以典型應用能耗獲得的典型應用效率指數,來(lái)實(shí)現每單位能耗執行工作的單次測量。通過(guò)使用曲線(xiàn), 可以清楚地看到典型應用實(shí)際上是由空閑功耗而非峰值計算功耗所主導。目前有許多電源相關(guān)的創(chuàng )新技術(shù),可以在不影響性能的前提下最大限度地增加空閑時(shí)間,降低空閑功耗。當然,性能是一個(gè)關(guān)鍵參數—用戶(hù)希望獲得快速響應、快速運算和無(wú)縫視頻回放。他們還希望擁有更長(cháng)的電池續航時(shí)間、更輕薄小巧的尺寸和更小的環(huán)境影響。只要能優(yōu)化典型應用的能效,上述問(wèn)題就可以迎刃而解。 要實(shí)現25x20目標,就必須通過(guò)開(kāi)使用技術(shù)和新方法大幅提高典型應用效率的提升速度。根據這一目標,從2014到2020年,AMD產(chǎn)品功耗的降低至少要比摩爾定律預測的歷史效率趨勢高出70%。這就是說(shuō)到2020年,一臺計算機完成同一項任務(wù)的用時(shí)將是目前個(gè)人電腦的1/5,而平均用電量也將不到目前個(gè)人電腦的1/5。這就好比僅用六年時(shí)間就將原來(lái)100馬力的汽車(chē)變身為一輛500馬力的汽車(chē),同時(shí)每加侖燃料的行駛距離也從原來(lái)的30英里增加到150英里。 實(shí)現25x20目標 架構創(chuàng )新 幾十年來(lái),CPU一直用來(lái)運行一般的編程任務(wù)。它擅長(cháng)于利用分支預測和亂序執行等各種復雜技術(shù)來(lái)串行運行計算指令,從而提高速度。相反,圖形處理器(GPU)是專(zhuān)用加速器,最早是為了在顯示屏上同時(shí)顯示數百萬(wàn)個(gè)像素而設計的。GPU通過(guò)使用較簡(jiǎn)單的執行流水線(xiàn)并行執行計算來(lái)實(shí)現這個(gè)過(guò)程。以前,CPU和GPU雖然集成度越來(lái)越高,但卻是相互獨立運行。 AMD加速處理器(APU)將CPU和GPU集成配置到同一硅片上。這樣做會(huì )帶來(lái)許多優(yōu)勢,比如可以通過(guò)共享內存接口、供電和散熱基礎架構來(lái)提高效率。GPU并行執行提高了自然用戶(hù)界面和模式識別等許多工作負載的處理效率,并且在GPU與CPU協(xié)同使用時(shí),這些工作負載的執行效率能夠提高數倍。優(yōu)化GPU和CPU并行操作可以最大限度地提高設備的性能,縮短任務(wù)用時(shí),并且提高進(jìn)入節能模式的頻率。 一個(gè)長(cháng)期面臨的挑戰是軟件開(kāi)發(fā)人員難于編寫(xiě)充分利用CPU和GPU的應用程序。傳統上,這兩種處理器分別具備獨立的內存系統。這就是說(shuō)無(wú)論何時(shí)CPU想利用GPU,它都得將數據從它的內存中復制到GPU的內存中。這使應用程序的編寫(xiě)不僅效率低下而且困難,因此GPU一般只能用于大數據集的應用中。此外,獨立內存還會(huì )增加用電量,因為處理器會(huì )經(jīng)常將緩存數據在CPU和GPU之間轉移。 通過(guò)AMD最新開(kāi)發(fā)的異構統一內存訪(fǎng)問(wèn)(hUMA),CPU和GPU可以共享同一個(gè)內存。二者可以訪(fǎng)問(wèn)所有的平臺內存,并且還可以將數據分配到系統內存空間的任意位置。這種共享內存架構大大降低了編程的復雜性,其原因是軟件開(kāi)發(fā)人員不用再指出數據的緩存位置,而這個(gè)操作容易出現錯誤,進(jìn)而會(huì )導致很難檢測和修復的漏洞。 統一內存架構的優(yōu)勢顯而易見(jiàn),這使軟件開(kāi)發(fā)人員可以流暢運用Java、C++ AMP和Python等高級語(yǔ)言來(lái)利用GPU的并行處理功能,從而提高性能和效率。最近的一個(gè)主流視頻和圖片編輯程序的運行結果表明,若將GPU的并行處理與CPU相呼應,最高可將某些功能的性能提高17倍。然而,由于GPU和CPU共享電源/熱基礎架構,電源需求與單獨使用CPU時(shí)相等。 hUMA 是AMD 異構系統架構(HSA)實(shí)現的一部分。當按照HSA架構設計和編程時(shí),這樣的電源和性能提升可以擴展到其他的固定功能設備,比如數字信號處理器(DSP)或安全處理器。 代號為“Carrizo”的AMD處理器是行業(yè)內第一款符合異構系統架構基金會(huì )(HSA Foundation)HSA 1.0規范的處理器。該架構大大降低了編程難度,同時(shí)提高了低功耗下的應用性能。 高電源效率硅技術(shù) 計算機工作負載的變化,將會(huì )對微處理器的用電量產(chǎn)生影響。工作負載(比如復雜的服務(wù)器事務(wù)或視頻渲染)需求越大,處理器吸取的電流越大,然后當需求減少時(shí),電流則會(huì )降低。電流突變會(huì )導致芯片供電電壓發(fā)生嚴重波動(dòng)。為了解決電壓下降的問(wèn)題,微處理器設計人員一般會(huì )提供大約10%~15%的額外電壓,以確保處理器電壓始終充足。但過(guò)電壓又會(huì )以能耗為代價(jià),因為其浪費的電力與電壓增長(cháng)的平方成正比(即10%的過(guò)電壓會(huì )造成20%的電力浪費)。 AMD 研發(fā)了多項技術(shù)來(lái)優(yōu)化電壓。其最新的處理器配置了電壓跟蹤電路,以納秒級的精度對平均電壓與電壓下降進(jìn)行比較。通過(guò)在平均電壓下運行,然后短暫地快速降頻來(lái)抵消供電電壓的驟降,它可以恢復大部分被浪費的電力。由于頻率調整可以以納秒級的水平完成, 計算性能幾乎不會(huì )受到影響, 而功耗則會(huì )減少10%~20%。從“Carrizo”APU開(kāi)始,CPU和GPU就都采用了自適應電壓運算功能。 Carrizo首創(chuàng )的另一項電源技術(shù)名為自適應電壓與頻率調節。除了傳統的溫度和功率傳感器,該技術(shù)實(shí)現了獨特的專(zhuān)利硅片速度性能傳感器與電壓傳感器。行業(yè)內大多數人都了解,硅片速度性能和電壓控制會(huì )因器件和平臺的不同而存在明顯差異。這些差異傳統上是通過(guò)對硅片工作增加裕量或“保護帶”來(lái)應對的,因為無(wú)法提前得知準確的運行情況。相對理論上最優(yōu)系統所能實(shí)現的效率,這種保護帶將會(huì )引起顯著(zhù)的效率損失。得益于A(yíng)MD首次引入的最新自適應傳感器和相關(guān)的控制算法,大部分的效率損失可以得到減輕。速度與電壓傳感器能夠讓每個(gè)APU適應于其硅特性、平臺運行和工作環(huán)境。通過(guò)實(shí)時(shí)適配這些參數,APU可以對運算進(jìn)行動(dòng)態(tài)優(yōu)化,最大限度地提高效率,并且在給定性能水平上最多可節電20%。 最后,為了降低CPU的耗電量,AMD利用了與GPU設計方式更接近的高密度庫。AMD借助這一方案可以在更小的面積內集成更多的標準單元(處理器的組成部分),從而能夠減少面積及單元之間的布線(xiàn)距離,并大幅降低功耗。使用高密度庫通常意味著(zhù)在相同的電壓下速度會(huì )稍有些慢,但如果配置合理,可以將功耗和面積減少30%。這就是說(shuō),在功率受限的條件下(絕大部分都是這種情況),實(shí)際的頻率和性能要高于傳統的高性能庫配置。此外,它還能夠釋放出更多芯片空間,因此AMD可以在同一個(gè)芯片上同時(shí)搭載GPU(多媒體處理器)和系統控制器。 電源管理大部分運算平臺僅在一小段時(shí)間內以峰值功率運行。為了最大限度地降低功耗,同時(shí)又最大限度地提高性能,AMD設計了電源管理算法,對典型應用而非峰值計算周期進(jìn)行優(yōu)化,因為只有需求最大的工作負載才會(huì )(短暫)達到峰值計算。因此,race-to-idle技術(shù)可以使計算機盡可能頻繁地進(jìn)入休眠模式,從而降低平均能耗。 AMD在單芯片上集成了各種系統元器件,包括GPU、內存控制器、I/O控制器以及外圍總線(xiàn)。這樣可以更精確地對電源、溫度和所有系統元器件的活動(dòng)進(jìn)行監測和管理。電源控制器可以直接對CPU和GPU之間的處理進(jìn)行管理,從而優(yōu)化性能和效率。通過(guò)這種程度的控制,它能夠像視頻回放的幀與幀之間或打字時(shí)的按鍵之間,或是像網(wǎng)頁(yè)加載完成后那樣,頻繁地讓處理器進(jìn)入空閑模式。由于集成元器件的性能提高了,任務(wù)完成的時(shí)間縮短,因此處理器可以在更多時(shí)間處于空閑模式—這便形成了一個(gè)更高性能和更低功耗協(xié)同提高效率的良性循環(huán)。 圖:不同條件下APU的最低功耗。 AMD的電源管理還可以監控硅片和終端用戶(hù)設備的溫度。根據系統元器件的活動(dòng),它可以確定個(gè)人電腦或移動(dòng)設備的溫度,從而判斷對終端用戶(hù)來(lái)說(shuō)溫度是否過(guò)高。因此,在計算密集型任務(wù)中,APU可以在保證筆記本電腦或變形筆記本溫度不過(guò)高的前提下,通過(guò)提高處理器頻率暫時(shí)提高輸出功率來(lái)提供強大性能。任務(wù)完成后,功耗會(huì )動(dòng)態(tài)降低,因而器件的溫度也會(huì )降低。這一做法可以提高總體能效,因為任務(wù)執行速度提高了,設備可以迅速切換到空閑模式,同時(shí)又能提供迅速響應的體驗。 此外,電源管理微控制器還可以實(shí)時(shí)追蹤特定應用的運行狀態(tài),確定提高處理器頻率可以為其帶來(lái)多大幫助。不會(huì )受益于更高頻率(需要更多能量)的應用將工作在低于處理器最大性能的頻率,從而避免能量浪費。 AMD最新的APU中集成的另一項功能是圍繞處理器運行時(shí)進(jìn)入極低功耗的S0i3狀態(tài)。該低功耗狀態(tài)的采用因不同的OEM/平臺而異(即可以是聯(lián)網(wǎng)待機、現代待機或掛起到內存),但是這種狀態(tài)會(huì )讓差不多所有的APU硅片的電源關(guān)斷,同時(shí)讓所有相關(guān)的I/O器件也進(jìn)入各自的低功耗狀態(tài),從而極大地降低平臺的功耗。圖中展示了在這些條件下APU的電源關(guān)斷。S0i3狀態(tài)使平臺的功耗水平能夠與傳統的S3狀態(tài)(也就是傳統上所說(shuō)的“待機”)相當—S3狀態(tài)的進(jìn)入和退出會(huì )比較耗時(shí),因為它需要操作系統介入。通過(guò)動(dòng)態(tài)實(shí)現這個(gè)過(guò)程,在集成電源管理微控制器的控制下,假如系統活動(dòng)水平足夠低,APU就可以以亞秒級的時(shí)間幀透明實(shí)現與待機相當的功耗水平。這直接意味著(zhù)可以降低典型應用條件下的平均功耗。 AMD最新推出的產(chǎn)品還具有許多其他面向效率的功能,比如視頻和音頻加速,AMD開(kāi)發(fā)路線(xiàn)涵蓋了自適應I/O優(yōu)化和壓縮技術(shù)、更精確的電壓管理和基于工作負載的能耗優(yōu)化等。 |