作者:Altera公司總編輯Ron Wilson DRAM控制器藏在您的系統核心芯片系統(SoC)中——可能有兩個(gè),甚至是四個(gè)。有一些精心制作的邏輯小模塊,用于連接SoC內部和外部DRAM,它們并沒(méi)有引起系統設計人員的注意。它們有可能造成很大的問(wèn)題,浪費帶寬,占用太多的能耗,甚至導致數據被破壞。 DRAM控制器能否正常工作會(huì )使得系統有很大的不同,有的系統能夠滿(mǎn)足其設計要求,而有的系統則運行緩慢,過(guò)熱,甚至失敗。不論哪種情況,最終是由系統設計團隊承擔責任,他們一般很少掌握控制器的信息。 成功還是失敗都源自我們要求DRAM控制器所做的工作。模塊不僅僅是一個(gè)接口。在高級系統設計中,DRAM控制器必須很好的處理SoC體系結構復雜而又難以預測的存儲器申請,以及一側的系統軟件申請,還有另一側DRAM芯片設計復雜的時(shí)序和約束要求。能否處理好這些關(guān)系會(huì )在多個(gè)方面影響DRAM吞吐量:這很容易在系統性能上體現出來(lái)。 為解釋這些問(wèn)題——以及系統設計人員能夠對此做什么,我們需要回答三個(gè)主要問(wèn)題。首先,我們應檢查DRAM芯片提出的要求。然后,需要討論SoC體系結構對存儲器訪(fǎng)問(wèn)模式的影響,第三,研究一個(gè)高級DRAM控制器的結構和功能。通過(guò)這三部分,我們得出系統設計的一些結論。 DRAM需要什么 系統規劃對外部存儲器的要求是確定性隨機訪(fǎng)問(wèn):任何時(shí)候來(lái)自任何位置的任意字,具有固定延時(shí)。但是,確定性隨機訪(fǎng)問(wèn)恰恰是現代DDR3 DRAM所不能提供的。 相反,DRAM提供任何您需要的字,但是具有復雜的時(shí)序約束,因此,很難知道數據究竟什么時(shí)候出現。 圖1中“簡(jiǎn)化的”狀態(tài)轉換圖簡(jiǎn)單解釋了為什么會(huì )這么復雜。這種復雜度也意味著(zhù),命令到達DRAM芯片的順序會(huì )對時(shí)序以及帶寬有很大的影響。要理解這一點(diǎn),我們需要深入了解DDR3 DRAM。 ![]() 圖1.DDR DRAM芯片“簡(jiǎn)化的”狀態(tài)圖顯示了控制器設計人員所面臨的復雜問(wèn)題。 DRAM芯片將數據存儲在電容陣列中。當您讀寫(xiě)數據時(shí),您并不會(huì )直接訪(fǎng)問(wèn)陣列。而是在讀寫(xiě)之前,您激活陣列中的某一行。激活命令使得DRAM讀取該行中的所有列的所有比特,將其送入傳感放大器塊,它實(shí)際上用作該行的本地寄存器文件。然后,您可以對傳感放大器上的數據發(fā)出讀寫(xiě)命令。通過(guò)這種方式,能夠非?斓淖x寫(xiě)已經(jīng)激活的行:一般是三到五個(gè)時(shí)鐘來(lái)開(kāi)始一次突發(fā)傳送,然后,在突發(fā)期間傳送每個(gè)字節需要一個(gè)時(shí)鐘。例如,這種時(shí)序安排使得DDR3 DRAM非常適合L2高速緩存數據交換。 但是,如果您不使用已經(jīng)激活的行,那么會(huì )非常復雜。改變行時(shí),即使是一個(gè)字節,您也必須對當前行去激活,然后激活一個(gè)新行。這一過(guò)程需要確定已經(jīng)在一段時(shí)間內激活了當前行。由于讀取DRAM單元是破壞性的,因此需要最小延時(shí):您激活了一行后,DRAM實(shí)際上是將最新到達傳感放大器上的數據復制回比特單元陣列中,然后刷新行。您可以在此期間讀寫(xiě)當前行,但是,要確定在您改變行之前完成了這一過(guò)程。 即使滿(mǎn)足了這一要求,也還有其他問(wèn)題。您必須對陣列預充電。預充電命令使得傳感放大器中的數據無(wú)效,提升陣列和傳感放大器輸入之間導線(xiàn)上的電壓,使得電壓值位于邏輯0和邏輯1電平之間。這種準備是必要的,比特單元電容上很小的電荷都會(huì )傳送到導線(xiàn)上,以某種方式提示傳感放大器。 對導線(xiàn)進(jìn)行預充電之后,您必須向新行發(fā)送一個(gè)激活命令,等待操作完成,然后,您最終可以發(fā)送一個(gè)讀操作新命令。加上所有涉及到的延時(shí)后,即,讀取字節序列的最差情況,每一字節都來(lái)自不同的行,這要比讀取來(lái)自一個(gè)新行連續位置相同數量字節的時(shí)間慢十倍。 這種不同還只是部分問(wèn)題。如圖2 所示,DDR DRAM有多個(gè)塊:與比特單元無(wú)關(guān)的陣列。DDR3 DRAM中有八個(gè)塊,每一塊都有自己排列成行的傳感放大器。因此,原理上,您可以通過(guò)激活每一個(gè)塊中的一行,讀寫(xiě)較長(cháng)的突發(fā),然后,對每一激活后的行進(jìn)行讀寫(xiě)操作——實(shí)際上是對塊進(jìn)行間插操作。唯一增加的延時(shí)是連接每一塊的傳感放大器和芯片內部總線(xiàn)的緩沖的切換時(shí)間。這一延時(shí)要比對相同塊中一個(gè)新行進(jìn)行預充電和激活的時(shí)間短得多。 ![]() 圖2.一個(gè)典型的DDR DRAM結構圖。一個(gè)DDR3器件會(huì )有8個(gè)塊,而不是4個(gè)。 這就是原理。實(shí)際中,您可以對塊進(jìn)行間插處理,但是有一個(gè)限制,不是基于DRAM邏輯,而是芯片能夠承受的熱量。這種限制可以通過(guò)著(zhù)名的“滾動(dòng)四塊訪(fǎng)問(wèn)窗口”,即,tRAW來(lái)表達:您一次能夠有四個(gè)激活塊的最長(cháng)時(shí)間。這一規則實(shí)際上有例外,只要您從一個(gè)塊轉向下一塊之前,在一個(gè)塊上保持一定的時(shí)間,那么,您可以有連續激活的8個(gè)塊。但是您應該知道:這比較復雜。 建立一個(gè)控制器 與前面所述不同的是DRAM時(shí)序非常復雜,接近混沌。從DRAM芯片設計人員的角度看,這非常合理,但是,很難滿(mǎn)足多核SoC的需求。DRAM序列或者時(shí)序命令上看起來(lái)無(wú)關(guān)緊要的小改動(dòng)會(huì )導致您訪(fǎng)問(wèn)存儲器的帶寬的巨大變化。由于存儲器帶寬通常是關(guān)鍵任務(wù)的瓶頸所在,因此,帶寬的變化很快就會(huì )影響系統性能。然而,命令序列和時(shí)序來(lái)自應用程序和系統軟件之間,以及系統硬件各種單元之間復雜的交互——包括緩存控制器、存儲器管理器、直接存儲器訪(fǎng)問(wèn)(DMA)控制器和加速器,以及DRAM控制器。 SoC的功能越來(lái)越強大,這種情況會(huì )更加復雜。目前,一個(gè)多核系統級IC會(huì )有同時(shí)運行的兩個(gè)甚至更多的多線(xiàn)程CPU,導致共享L2高速緩存來(lái)讀取指令線(xiàn),隨機對數據線(xiàn)進(jìn)行讀寫(xiě)操作。同時(shí),計算加速器以自己的方式遍歷數據結構。一個(gè)器件可以處理流視頻,另一個(gè)用于矩陣乘法預讀取,第三個(gè)執行路由表的隨機訪(fǎng)問(wèn)。增加一個(gè)散射收集DMA控制器,處理光纖接口、硬盤(pán)和顯示器之間的數據,結果是,在DRAM控制器的系統側會(huì )有些不協(xié)調。 如果DRAM控制器只是按照系統接收順序進(jìn)行操作,那么,優(yōu)化DRAM操作的工作會(huì )同等落在規劃人員、設計人員和軟件開(kāi)發(fā)人員上——這是很難做到的。Altera公司戰略市場(chǎng)經(jīng)理Argy Krikelis提醒說(shuō):“特別是多核設計,規劃人員遇到定位和性能問(wèn)題!必熑温湓贒RAM控制器上,那么,盡可能利用其信息消除這種不協(xié)調,轉換為經(jīng)過(guò)優(yōu)化的命令流。 深入了解DRAM控制器就會(huì )知道,這些模塊的設計人員怎樣處理這些難題。您可以認為一個(gè)現代DRAM控制器有三個(gè)主要模塊——物理接口、命令處理器以及事物處理器——如圖3 所示。 ![]() 圖3.一個(gè)現代DRAM控制器涉及到事物處理器、命令處理器和物理接口。 物理接口連接DRAM芯片或者存儲器模塊。它讀取來(lái)自命令處理器的一個(gè)命令流,將具有正確時(shí)序的命令發(fā)送至DRAM芯片,管理相關(guān)的數據字節流。接口收發(fā)器、命令和數據同步緩沖,以及產(chǎn)生正確命令和數據時(shí)序的狀態(tài)機都含在這一模塊中。而且,還有用于進(jìn)行復雜的初始化操作的狀態(tài)機,校準DDR3 DRAM規范設定的序列,如圖1所示。此外,某些應用的物理接口還會(huì )包括自測試、診斷和誤碼探測以及糾錯硬件。當您改變DRAM的容量或者速率等級時(shí),必須調整物理接口。 物理接口的上游是命令處理器。這一模塊跟蹤DRAM的狀態(tài),將到達總線(xiàn)讀寫(xiě)周期轉換為相應的DRAM命令序列。例如,命令處理器會(huì )找到通過(guò)其輸入隊列散射連續字的總線(xiàn)讀序列,然后,向其輸出隊列發(fā)出預充電,激活,以及模塊讀命令。對此,命令處理器必須知道當發(fā)出新命令后,將打開(kāi)哪一芯片的哪一塊的哪一行。在某些設計中,命令處理器還處理地址重新映射,在多個(gè)塊上擴展一個(gè)連續的數據結構。 隨著(zhù)對帶寬需求的增長(cháng),命令處理器的復雜度也在不斷提高。例如,處理器會(huì )提前處理其輸入隊列,重新安排操作,盡可能保持在激活的行上,重疊預充電讀操作,或者對塊進(jìn)行間插操作。最重要的是,處理器會(huì )盡量避免一個(gè)塊的行之間出現乒乓效應。必須確定所有這些調整,并且隨時(shí)能夠進(jìn)行調整。 這方面的努力會(huì )有其回報。Krikelis說(shuō):“我們看到在某些應用中,分組和重新排序能夠實(shí)現92%的理論最大DRAM帶寬! 最后,事物處理器位于命令處理器和SoC的其他部分之間。一般有一些通道連接至SoC的高速中心交換結構上。事物處理器的主要工作是將到達的各種通道的讀寫(xiě)數據流進(jìn)行組合,加上優(yōu)先級,這樣,每一通道得到了所需的延時(shí)和帶寬——因此,每一高速緩存控制器、DMA引擎或者這些通道另一端的加速器也得到了所需的延時(shí)和帶寬。 在動(dòng)態(tài)環(huán)境中選擇這種優(yōu)先級方案并不容易。如果您不能精確的預測每一通道的數據流特性,那么,這會(huì )非常困難。理想情況下,工作負荷是固定的,因此,您可以為其優(yōu)化優(yōu)先級方案;蛘,會(huì )有一些清晰的訪(fǎng)問(wèn)模式,隨著(zhù)數據流的變化而提供動(dòng)態(tài)調整優(yōu)先級。Krikelis說(shuō),系統規劃人員和控制器設計人員研究了這一問(wèn)題,使用了從表格到商用DRAM仿真工具的所有工具。但,還是無(wú)法讓工作更簡(jiǎn)單一些。 在某些情況下,應用的特征很明顯,事物處理器會(huì )承擔更多的工作。Krikelis說(shuō),可以對最近的DRAM行進(jìn)行高速緩存操作,或者控制器中經(jīng)常被激活的行進(jìn)行高速緩存操作。而且,在某些情況下,設計人員可以針對某些通道進(jìn)行一些特定任務(wù)的重新排序或者某些讀寫(xiě)操作。 高級DRAM控制器中的三個(gè)主要模塊協(xié)同工作,能夠使復雜多核SoC盡可能接近最大理論DRAM帶寬。但是提高帶寬可能需要犧牲延時(shí),最高優(yōu)先級線(xiàn)程除外。某些控制器設計會(huì )有32或者64深命令序列,意味著(zhù),低優(yōu)先級訪(fǎng)問(wèn)會(huì )長(cháng)時(shí)間停留在序列中。一般而言,DRAM控制器能夠進(jìn)行的工作越多,它處理的SoC體系結構和組合任務(wù)就越具體。這就把難題留給了系統設計人員。 回到系統級 您可能會(huì )說(shuō):“很有趣。對此,我應該做什么?”正如我們在開(kāi)始所闡述的,軟件、系統硬件以及控制器之間的交互會(huì )決定您從DRAM那里能夠得到的實(shí)際帶寬。作為一名系統設計人員,您的確有一定的自由度。 最好的方法一般是采用SoC供應商的參考設計。參考設計團隊完成了他們的工作。理想情況下,您完全按照設計人員所希望的方式來(lái)使用SoC。Krikelis提醒說(shuō):“如果您購買(mǎi)了ASSP,那就沒(méi)有太多的選擇。DRAM控制器和芯片中的其他模塊會(huì )針對特定的應用進(jìn)行整體優(yōu)化! 參考設計中的這些軟件也是在知道了這些優(yōu)化后才編寫(xiě)的。例如,經(jīng)驗豐富的編程人員會(huì )盡可能保持存儲器參考位于行中,可以同時(shí)打開(kāi),以便減少高速緩存未命中和DRAM行未命中等問(wèn)題。他們能夠熟練的在塊上分配數據結構,采用間插操作。他們可以安排CPU內核、加速器和DMA的工作,避免控制器可能解決不了的沖突問(wèn)題。他們知道,對于控制器中未處理器的命令,DRAM、高速緩存以及命令隊列中的數據,數據一致性是他們要解決的關(guān)鍵問(wèn)題。采用這類(lèi)參考設計的系統設計人員的工作是盡量不打破這種一致性。 但是有些時(shí)候,系統設計人員會(huì )有更大的自由度。Krikelis指出,如果DRAM物理接口是可配置的,您可以通過(guò)簡(jiǎn)單的使用更大的DRAM來(lái)提高存儲器的有效帶寬。在某些情況下,可以調整一些DRAM控制器的內部參數,例如,分配給通道的優(yōu)先級、重新排序算法,以及命令隊列的深度等。 但是,在某些情況下,僅僅進(jìn)行調整是不夠的。Krikelis提醒說(shuō):“沒(méi)有一個(gè)簡(jiǎn)單的答案來(lái)滿(mǎn)足所有人的規劃需求。有時(shí)候您需要建立自己的訪(fǎng)問(wèn)抽象層! 對于資金雄厚的有影響的設計團隊,這意味著(zhù),與ASSP供應商合作,修改事物處理器,甚至是命令處理器。對于其他規模較大的工程,DRAM帶寬需求會(huì )滿(mǎn)足開(kāi)發(fā)ASIC的要求。對于不能滿(mǎn)足ASIC前端成本的設計,替代方案是系統級FPGA。通過(guò)這些方法,系統設計人員在控制器的某些部分采用現有的知識產(chǎn)權(IP),設計盡可能多的定制操作和命令處理操作,以滿(mǎn)足其需求。 即使系統團隊選擇不去修改DRAM控制器,他們理解其功能也很重要。很多選擇都能夠實(shí)現與DRAM控制器的互操作,從DRAM芯片選擇到數據怎樣在系統中輸入輸出,線(xiàn)程怎樣分配給處理器,應用程序怎樣將數據結構映射到物理存儲器中等。難點(diǎn)是怎樣高效的使用DARM帶寬,最終目的是提高整個(gè)系統的性能和能效。 |