來(lái)源:半導體產(chǎn)業(yè)縱橫 在處理和存儲數據方面,功耗至關(guān)重要,而其中許多方面并不理想。與功耗相關(guān)的問(wèn)題,尤其是熱量問(wèn)題,如今主導著(zhù)芯片和系統設計,而且這些問(wèn)題在不斷擴大和增多。 隨著(zhù)晶體管密度的提高,這些微小的數字開(kāi)關(guān)產(chǎn)生的熱量無(wú)法通過(guò)傳統方式消除。盡管這個(gè)問(wèn)題看似可以控制,但這產(chǎn)生了一連串需要整個(gè)行業(yè)共同解決的新問(wèn)題,包括EDA公司、制程設備制造商、晶圓廠(chǎng)、封裝廠(chǎng)、現場(chǎng)監測與分析服務(wù)商、材料供應商、研究團隊等。 在這些活動(dòng)的背后,一個(gè)持續的焦點(diǎn)是將更多晶體管集成到固定區域內,以及與之密切相關(guān)且不斷加速的功耗泄漏戰斗。FinFET在16/14納米技術(shù)中解決了漏電門(mén)問(wèn)題,但僅在兩個(gè)節點(diǎn)之后問(wèn)題再次出現。在3納米制程中,引入了與眾不同的全包圍柵極場(chǎng)效應管(即納米片)結構,這使得設計、計量、檢驗和測試變得更具挑戰性和成本。在2納米/18埃技術(shù)中,為確保向晶體管傳輸足夠的功率并緩解布線(xiàn)問(wèn)題,會(huì )從芯片的正面翻轉到背面進(jìn)行電源傳輸。在更高技術(shù)水平中,行業(yè)可能會(huì )再次改變晶體管結構,采用復合場(chǎng)效應晶體管(CFET)。在這一短時(shí)間窗口中,眾多工藝和結構變化不斷涌現,每個(gè)新節點(diǎn)都需要解決更多問(wèn)題。 例如,隨著(zhù)高密度芯片和封裝技術(shù)發(fā)展,瞬態(tài)熱梯度問(wèn)題日益受到關(guān)注。這些熱梯度以不可預測的方式移動(dòng),有時(shí)迅速,有時(shí)緩慢,并且會(huì )隨著(zhù)工作負載的變化而變化。在40納米工藝中,采用較厚的電介質(zhì)、基板和更寬松的間距,這些問(wèn)題僅被當作小麻煩。但在當前尖端的制程技術(shù)中,我們需要更認真地對待這些問(wèn)題。 Cadence產(chǎn)品管理總監Melika Roshandell表示:“盡管基本漏電較之前的技術(shù)有所降低,但總體功耗卻更高。所以,熱量問(wèn)題將更加嚴重,因為你在一個(gè)集成電路中集成了更多的晶體管,同時(shí)不斷提高性能。你希望采用越來(lái)越高的頻率,為此需要提高電壓和功耗,F在的總功耗比上一代更高,所以熱量問(wèn)題將更嚴重。此外,在使用更小節點(diǎn)時(shí),芯片面積也在減小。面積縮小和總功耗增加有時(shí)可能導致熱問(wèn)題惡化,從而使芯片無(wú)法達到 ![]() 圖1:運行中的3D-IC設計的熱力學(xué)耦合仿真 熱量正成為所有硬件工程師共同的噩夢(mèng),并引發(fā)一些難以解決和預先建模的惡性循環(huán): 熱量加速了用于保護信號的電介質(zhì)薄膜(時(shí)間依賴(lài)型電介質(zhì)擊穿,或稱(chēng)TDDB)的破裂,并增加了機械應力,從而導致翹曲。 熱量導致一系列問(wèn)題:它加速電遷移和其他老化效應,可能使數據通路變窄。這進(jìn)一步增加了電路阻力產(chǎn)生的熱量以及驅動(dòng)信號所需的能量,直至(如果可能的話(huà))信號重新路由。 熱量還會(huì )影響存儲器的運行速度,降低系統整體性能。 此外,熱量產(chǎn)生的噪聲對信號完整性造成影響,而且噪聲可能是瞬時(shí)的,這使得分區更加困難。 所有這些因素都可能縮短芯片的壽命,甚至影響芯片的一部分。西門(mén)子EDA的模擬和混合信號驗證解決方案的首席產(chǎn)品經(jīng)理Pradeep Thiagarajan表示:“熱降解晶體管很容易導致芯片或IP損壞。幸運的是,大多數設備的自熱分析可以通過(guò)對每個(gè)MOS器件進(jìn)行瞬態(tài)測量來(lái)評估局部加熱對設計的影響,然后加載溫度差數據并評估波形影響,F在,在面臨越來(lái)越高的數據傳輸速率要求的情況下,各個(gè)方面都需要創(chuàng )新。因此,更好地對所有熱界面材料進(jìn)行建模,就能更有可能解決這些影響,并進(jìn)行適當的設計調整,避免短期或長(cháng)期的硬件故障。歸根結底,我們需要創(chuàng )新的熱解決方案,同時(shí)還必須進(jìn)行正確的建模! 功耗問(wèn)題叢生 許多芯片制造商剛開(kāi)始應對這些問(wèn)題,因為大部分芯片并未使用最先進(jìn)的制程開(kāi)發(fā)。但隨著(zhù)芯片越來(lái)越多地變成由芯片單元組成,所有內容都需要在非40nm或更高工藝平面芯片開(kāi)發(fā)的條件下進(jìn)行特性描述和操作。 值得注意的是,提高晶體管密度,無(wú)論是在單個(gè)芯片還是高級封裝中,未必是提升性能的最有效途徑。然而,它確實(shí)會(huì )提高功率密度,限制時(shí)鐘頻率。因此,許多顯著(zhù)進(jìn)步并非與晶體管本身緊密相關(guān)。這些進(jìn)步包括硬件-軟件協(xié)同設計、更快的物理層和互連、新型絕緣和電子遷移材料、具有較高精度和較短恢復時(shí)間的預取處理、稀疏算法以及新的電源傳輸方案。 Arm公司高級首席CPU架構師Vincent Risson表示:“理解整個(gè)系統堆棧非常重要。當然,計算機對功率有重要貢獻,但系統的其他部分也同樣重要。這就是為什么我們有不同級別的緩存,而且緩存的大小也不同。我們在上一代產(chǎn)品中加大了緩存規模,因為擁有本地緩存能使下游電源將計算視為本地運行。隨著(zhù)我們擴展到3D,我們可以設想使用3D堆疊緩存,這將有助于減少數據傳輸并提高效率! 關(guān)鍵是在設計周期的每個(gè)環(huán)節提高效率,不僅僅局限于硬件。盡管近幾十年來(lái)芯片產(chǎn)業(yè)一直關(guān)注硬件——軟件協(xié)同設計,但系統公司通過(guò)定制化微架構優(yōu)先采用這種方法,同時(shí),移動(dòng)設備也力求為了競爭優(yōu)勢而大幅延長(cháng)電池壽命。 Risson表示:“我們進(jìn)行許多調整來(lái)充分提升性能,這是CPU致力于解決的一個(gè)重點(diǎn)問(wèn)題。例如,我們持續改進(jìn)所有預取引擎,以提高準確性并降低下游數據的流量。因此,我們在保持更好覆蓋的同時(shí),減少了互連上的流量! 這僅僅是難題的一部分,我們還需要解決更多方面的問(wèn)題。例如,隨著(zhù)時(shí)間的流逝,介電膜會(huì )逐漸損壞。這種情況會(huì )受到不同工作負載或工作條件的加速,尤其是在充滿(mǎn)芯片片制品的封裝內部。Ansys電子、半導體和光學(xué)事業(yè)部的研究員及首席技術(shù)專(zhuān)家Norman Chang表示:“由于我們需要處理如此眾多的信號和運行在不同電壓下的多邊形網(wǎng)絡(luò ),時(shí)變介電擊穿(TDDB)成為一個(gè)問(wèn)題。如果一個(gè)網(wǎng)絡(luò )與另一個(gè)不同電壓的信號網(wǎng)絡(luò )相鄰,那么介電材料就會(huì )感應到不同的電壓場(chǎng)。隨著(zhù)時(shí)間的推移,會(huì )出現時(shí)變的介電擊穿現象。這是一個(gè)新問(wèn)題,我們需要找到針對它的解決辦法! 不一致性問(wèn)題 熱梯度也是一項挑戰,特別是當它們變化不定且在不同工作負載間有較大差異時(shí)。這個(gè)問(wèn)題在2.5D設計中尤為明顯,可能導致變形。而預期在未來(lái)幾年推出的3D-ICs中也存在同樣問(wèn)題。在這兩種情況下,熱量可能會(huì )被困住,從而產(chǎn)生滾雪球效應。 ![]() 圖2:2.5D 集成電路的熱力學(xué)與力學(xué)分析結果,展示了溫度梯度,包括在245°C時(shí)的翹曲情況 張表示:“在3D-IC中,功耗與溫度有很大的關(guān)系。當溫度升高時(shí),漏電功耗將增加,熱梯度分布成為3D-IC中多物理互動(dòng)的核心。溫度會(huì )影響功耗,同時(shí)也會(huì )影響電阻。當溫度升高時(shí),電阻也會(huì )增加,這也將影響介電常數。這會(huì )對信號完整性和功率完整性產(chǎn)生影響,同時(shí)還會(huì )影響應力。在3D-IC中混合使用數字和模擬時(shí),模擬部分對應力更敏感。你需要知道熱梯度和熱點(diǎn)的位置,以便將模擬元件遠離熱點(diǎn)。如果你看到模擬元件的熱循環(huán),設備的老化速度會(huì )加快,你會(huì )開(kāi)始看到晶體管失配,模擬電路的效率相較于數字邏輯會(huì )迅速下降! 這僅僅只是開(kāi)始。新思科技(Synopsys)的產(chǎn)品管理高級總監Kenneth Larsen指出,將堆疊芯片中各個(gè)元素的位置安排錯誤可能會(huì )產(chǎn)生一些意想不到的問(wèn)題,例如熱交叉干擾,這也可能會(huì )降低整體性能!拔覀円褟膯纹O計轉向基于碎片的設計,這使得各個(gè)設備之間的距離縮小了,它們可以互相影響。當一個(gè)設備堆疊在另一個(gè)設備上時(shí),熱量如何散發(fā)出去?這是一個(gè)巨大的挑戰。對于3D-ICs,第一個(gè)問(wèn)題是能否構建具有結構完整性的系統。同時(shí),你還需關(guān)注其他的機械、熱和功耗問(wèn)題——亟待解決的問(wèn)題實(shí)在太多! 在過(guò)去,處理熱量的最簡(jiǎn)單方法是降低電壓。然而,這種方式已經(jīng)變得不再有效,因為在極低電壓的狀態(tài)下,輕微的異,F象就可能導致問(wèn)題。Fraunhofer IIS自適應系統工程部門(mén)設計方法主管Roland Jancke說(shuō):“對于低功耗技術(shù)(如臨界或亞臨界器件)和高功耗設備來(lái)說(shuō),噪聲是一個(gè)關(guān)鍵話(huà)題。這是一個(gè)難以理解的問(wèn)題,因為在模擬過(guò)程中它通常不會(huì )出現,而是在現實(shí)世界中暴露出來(lái)。當噪聲問(wèn)題在現實(shí)中出現時(shí),你需要了解并應對它! 以交叉耦合為例,在設計階段,其在基底中產(chǎn)生的噪聲并不容易察覺(jué)。Jancke表示:“我們在幾年前就開(kāi)始使用基底模擬器來(lái)研究基底內的交叉耦合狀況。當時(shí)關(guān)注的重點(diǎn)是單個(gè)設備及其周?chē)脑O備。然而,大家往往忽略了通過(guò)基底耦合的、距離較遠的輸入階段的交叉耦合問(wèn)題! 此類(lèi)問(wèn)題也會(huì )導致DRAM中出現問(wèn)題,特別是在比特單元密度增加時(shí),更容易受到噪聲影響。蘇黎世聯(lián)邦理工學(xué)院的計算機科學(xué)教授Onur Mutlu表示,“肯定存在熱噪聲。另外,當你訪(fǎng)問(wèn)一個(gè)單元時(shí),由于導線(xiàn)切換等原因導致的電干擾會(huì )在結構中產(chǎn)生噪聲,或者是訪(fǎng)問(wèn)晶體管。這種激活行為會(huì )產(chǎn)生噪聲,導致可靠性問(wèn)題。我們稱(chēng)之為單元間干擾。行錘問(wèn)題是一個(gè)例子,激活一行時(shí)會(huì )干擾相鄰的行。RowPress是另一個(gè)例子,你長(cháng)時(shí)間保持一行打開(kāi)狀態(tài),這會(huì )影響到相鄰的其他行。隨著(zhù)我們減小每個(gè)單元的大小、縮小單元間距并提高密度,這種單元干擾現象變得越來(lái)越普遍。這可能會(huì )導致無(wú)聲的數據損壞,而這可能正是現實(shí)場(chǎng)景中發(fā)生的情況! 在功耗方面,總會(huì )出現一些意想不到的問(wèn)題。Movellus的功耗架構師Barry Pangrle表示:“不論何種時(shí)鐘頻率,都希望在最低電壓下運行,以便用最少的能量。盡管我們可以建立一定程度的模型,但總會(huì )遇到一些意外情況?梢詫σ粔K芯片在不同環(huán)境下調整電壓和頻率來(lái)測試其在不同負載下的表現?梢岳眠@些數據,若要更為謹慎,可以適當降低設置,留出一定的余量。但是人們不可能針對每個(gè)芯片都這樣做。那么,你是否要對芯片進(jìn)行分類(lèi),比如‘屬于這種類(lèi)別的芯片將在這個(gè)時(shí)鐘和這個(gè)電壓下運行!硗,粒度細節的選擇將取決于銷(xiāo)售該芯片的廠(chǎng)商! 其他問(wèn)題 功耗還涉及到資金方面的問(wèn)題,包括從創(chuàng )建復雜設計所需的資源,到數據中心耗電量的多少。晶體管密度越高,服務(wù)器架啟動(dòng)和降溫所需的能量就越多。在各種類(lèi)型的人工智能應用中,目標是最大限度地提高晶體管利用率,這反過(guò)來(lái)會(huì )消耗更多的能量,產(chǎn)生更多的熱量,同時(shí)需要更多的冷卻。 proteanTecs工程解決方案副總裁Noam Brousard表示:“這些應用需要大量電力,且需求呈指數級上升。高效的電力消耗最終將為數據中心帶來(lái)顯著(zhù)的節省。這是最重要的。此外,我們還要關(guān)注應用對環(huán)境的影響,并希望延長(cháng)電子產(chǎn)品的使用壽命! ![]() 圖3:功耗對芯片的影響 功耗相關(guān)的影響并不僅限于芯片本身。Cadence的Roshandell表示:“在2.5D設計中,熱應力會(huì )導致翹曲,從而增加可能會(huì )破壞連接基板和PCB之間焊球的風(fēng)險。一旦產(chǎn)生裂縫,就會(huì )出現短路,從而導致產(chǎn)品無(wú)法正常工作。因此,如何解決這個(gè)問(wèn)題以及如何建模至關(guān)重要。必須在設計的最早階段提前考慮到這一點(diǎn)并采取相應措施! 在3D-ICs中,問(wèn)題變得更加復雜。再次強調在設計周期早期發(fā)現問(wèn)題的重要性,但在3D-ICs中,存在累加效應。Ansys的張表示:“與SoC相比,動(dòng)態(tài)開(kāi)關(guān)功率在3D-ICs中真的非常棘手。我們必須盡早考慮物理架構,因為如果你在一個(gè)3D-IC中有15個(gè)片上芯片,那么如何在這15個(gè)片上芯片之間分配功率以適應動(dòng)態(tài)工作流和時(shí)間維度呢?在不同的時(shí)刻,某個(gè)片上芯片可能會(huì )有不同的工作負載,這可能會(huì )產(chǎn)生熱點(diǎn)。但如果頂部晶片有局部熱點(diǎn),底部晶片也有局部熱點(diǎn),當兩個(gè)局部熱點(diǎn)在某個(gè)時(shí)間點(diǎn)對齊時(shí),這個(gè)熱點(diǎn)將變成全局熱點(diǎn)。如果其他晶片沒(méi)有切換,全局熱點(diǎn)可能比局部熱點(diǎn)高出10至15攝氏度。這讓3D-IC電路設計師完全措手不及,因為當你對3D-IC中的一個(gè)片上芯片進(jìn)行模擬時(shí),你可能無(wú)法以現實(shí)的工作流程對整個(gè)3D-IC進(jìn)行模擬! 問(wèn)題在于,存在許多相互依賴(lài)的因素,需要在某種背景下理解所有事物。是德科技設計和仿真產(chǎn)品組副總裁兼總經(jīng)理Niels Faché表示:“你無(wú)法獨立優(yōu)化這些設備。你可能會(huì )關(guān)注熱量方面的目標,比如最高溫度、熱量散發(fā),但你需要在機械應力的背景下理解這些問(wèn)題。你必須建立這些獨立物理效應的模型。如果它們之間關(guān)系非常緊密,你需要以聯(lián)合仿真的形式進(jìn)行。舉個(gè)例子,我們采用電熱仿真。所以,當觀(guān)察流經(jīng)晶體管的電流時(shí),它會(huì )對熱量產(chǎn)生影響。接著(zhù),熱量會(huì )影響電氣特性,進(jìn)而改變電氣行為,你需要對這些相互作用建模! 解決方案 對于與功耗相關(guān)的問(wèn)題,沒(méi)有單一、全面的解決方案,但有很多能解決部分問(wèn)題的方案。 解決問(wèn)題的一個(gè)方法,也許是最簡(jiǎn)單的方法,就是限制過(guò)度設計。Rambus研究員和杰出發(fā)明家Steven Woo表示:“一切都始于關(guān)注目標應用場(chǎng)景,以及定義解決這些場(chǎng)景所需的功能。試圖增加各種功能來(lái)滿(mǎn)足其他潛在市場(chǎng)和使用場(chǎng)景的需求可能很誘人,但這往往會(huì )導致芯片面積、功耗和復雜性的增加,從而影響芯片主要應用的性能。我們必須嚴格地審視所有功能,以極具挑戰性地判斷它們是否真正需要整合在芯片中。每一個(gè)新功能都會(huì )影響到PPA(功耗、性能和面積),因此始終關(guān)注目標市場(chǎng)和使用場(chǎng)景是第一步! 這將對整體功耗產(chǎn)生顯著(zhù)影響,特別是在A(yíng)I領(lǐng)域。Woo表示:“在A(yíng)I中有許多因素需要考慮,尤其是對于邊緣設備。一些選擇包括芯片供電方式、散熱限制、是否需要支持訓練和/或推理、精度要求、芯片將被部署的環(huán)境以及支持的數字格式等。支持大量功能集意味著(zhù)更大的面積和功耗,以及在功能未使用時(shí)添加禁止的復雜性。由于數據傳輸影響性能并消耗大量能量預算,設計師需要充分了解在開(kāi)發(fā)能夠最大限度地減少邊緣數據傳輸的架構時(shí)需要移動(dòng)多少數據! 另一種方法是對設計進(jìn)行實(shí)際工作負載測試。新思科技的低功耗解決方案產(chǎn)品管理高級總監William Ruby表示:“有些客戶(hù)正在嘗試讓我們運行代表性的工作負載,因為我們不知道還有什么不知道的事! 這就像是功耗覆蓋!拔覀冋J為什么樣的情況是持續的最差情況?我們認為什么樣的空閑負載是好的?” 但他們不知道的是,新的軟件更新可能如何改變整個(gè)活動(dòng)特征。希望這種變化是漸進(jìn)式的,而且他們已經(jīng)為此做了預算,而不是悲觀(guān)地過(guò)于保守。但是如何預測固件更新會(huì )發(fā)生什么變化呢? 背面供電是另一個(gè)選擇,尤其是在最先進(jìn)的節點(diǎn)上!霸谀撤N程度上,你會(huì )遇到收益遞減的問(wèn)題,因為你需要處理從頂層到底層的材料,而頂層往往是供電和接地布線(xiàn),”Movellus的Pangrle表示,“如果你可以從背面實(shí)現供電,而不必穿過(guò)頂部的17個(gè)金屬層,那么你就不需要經(jīng)過(guò)很多層了。能夠繞過(guò)整個(gè)金屬堆棧并從背面接近晶體管,從而不必擔心穿過(guò)所有的過(guò)孔,這就像是制造業(yè)的魔法! 在芯片和封裝內部使用傳感器監測與功耗相關(guān)行為的變化是另一種方法。proteanTecs的Brousard表示:“在現實(shí)應用中,有許多因素會(huì )降低性能,因此我們必須預設電壓保護帶。我們知道會(huì )有噪聲、過(guò)度的工作負載以及芯片的老化現象。所有這些因素迫使我們在最佳情況下應用大于VDDmin的電壓! 此外,銅線(xiàn)可以用于傳導熱量至可以散熱的地方。新思科技的Larsen表示:“你可以采取簡(jiǎn)單措施,比如優(yōu)化堆疊芯片中的TSV布局,也可以使用熱過(guò)孔。這非常復雜,但EDA領(lǐng)域一直在處理指數型問(wèn)題。這是我們需要解決的。但是,當你想緩解某些問(wèn)題時(shí),你需要增加一些東西,雖然可能會(huì )影響到某些你期望得到的價(jià)值,但這是需要解決的。為了可靠性,你可能會(huì )增加冗余,它可能是堆疊中的TSV或混合鍵合! 結論 過(guò)去幾十年來(lái),功耗一直是頭部芯片制造商的一個(gè)問(wèn)題。智能手機會(huì )發(fā)出運行過(guò)熱的警告,并在冷卻下來(lái)之前關(guān)閉。出于同樣的原因,一個(gè)服務(wù)器機架可能會(huì )將負載轉移到另一個(gè)機架。但芯片越來(lái)越多地被分解成各種組件并封裝在一起,隨著(zhù)汽車(chē)等行業(yè)開(kāi)始開(kāi)發(fā)5納米及以下的芯片,功耗問(wèn)題將在更多領(lǐng)域出現。 架構、布局布線(xiàn)、信號完整性、發(fā)熱、可靠性、可制造性和老化都與功耗緊密相關(guān)。隨著(zhù)芯片行業(yè)繼續以獨特的方式以及不同的功能來(lái)應對獨特的市場(chǎng),整個(gè)行業(yè)都需要學(xué)習如何處理或解決與功耗相關(guān)的影響。在過(guò)去,只有產(chǎn)量最高的芯片制造商才關(guān)心功耗,而現在變得不同的是可以忽略功耗設計的制造商越來(lái)越少。 |