|
Cache是高性能CPU解決總線(xiàn)訪(fǎng)問(wèn)速度瓶頸的方法,然而它的使用卻是需要權衡的,因為緩存本身的動(dòng)作,如塊拷貝和替換等,也是很消耗CPU時(shí)間的。MMU的重要性勿庸置疑,ARM920T(和ARM720T)集成了MMU是其最大的賣(mài)點(diǎn);有了MMU,高級的操作系統(虛擬地址空間,平面地址,進(jìn)程保護等)才得以實(shí)現。二者都挺復雜,并且在920T中又高度耦合,相互配合操作,所以需要結合起來(lái)研究。同時(shí),二者的操作對象都是內存,內存的使用是使用MMU/Cache的關(guān)鍵。另外,MMU和Cache的控制寄存器不占用地址空間,CP15是操縱MMU/Cache的唯一途徑。
Cache/Write Buffer的功
Cache通過(guò)預測CPU即將要訪(fǎng)問(wèn)的內存地址(一般都是順序的),預先讀取大塊內存供CPU訪(fǎng)問(wèn),來(lái)減少后續的內存總線(xiàn)上的讀寫(xiě)操作,以提高速度。然而,如果程序中長(cháng)跳轉的次數很多,Cache的命中率就會(huì )顯著(zhù)降低,隨之而來(lái),大量的替換操作發(fā)生,于是,過(guò)多的內存操作反而降低了程序的性能。
ARM920T內部采用哈佛結構,將內部指令總線(xiàn)和數據總線(xiàn)分開(kāi),分別連接到ICache和DCache,再通過(guò)AMBA(高級微控制器總線(xiàn)結構)總線(xiàn)接口連接到ASB總線(xiàn)上去訪(fǎng)問(wèn)內存。Cache由Line組成,Line是Cache進(jìn)行塊讀取和替換的單位。
Writer Buffer是和DCache相逆過(guò)程的一塊硬件,目的也是通過(guò)減少memory bus的訪(fǎng)問(wèn)來(lái)提高性能。
MMU的功能
在內存中維護一張或幾張表,就看你怎么給內存劃分page和section了。通過(guò)CP15指定好轉換表的位置,920T的硬件會(huì )自動(dòng)將轉換表的一部分讀到TLB中。CPU每次進(jìn)行內存讀寫(xiě)時(shí),發(fā)出虛擬地址,參照TLB中的轉換表轉換到物理地址,并讀取相應entry中的信息,以決定是否可以有權限讀寫(xiě)和緩存。
mmugen這個(gè)工具就是幫你構造這個(gè)表的,省的自己寫(xiě)程序了。
操作MMU,實(shí)際上就是如何分配和使用你的內存,并記錄在translationtable里。
ARM920T中,MMU的每條entry包括Cachable和Buffable位來(lái)指定相應的內存是否可以用Cache緩存。此處就是MMU與Cache的交互作用處。
實(shí)際上,MMU和Cache的使用是操作系統設計者根據系統軟硬件配置而考慮的事情。操作系統針對分配給應用程序的地址空間作內存保護和緩存優(yōu)化。在沒(méi)有操作系統的情況下,就需要我們自己來(lái)掌控它們了。其中,主要是合理分配內存。
我認為,以下幾點(diǎn)需要著(zhù)重考慮:
1) 安全第一! -- 避免MMU和Cache的副作用。
當你在無(wú)OS的裸機上開(kāi)發(fā)程序時(shí),初始化運行環(huán)境的代碼很重要,比如:各種模式堆棧指針的初始化;將代碼和RW data從ROM拷貝到RAM;初始化.bss段(zero initialized)空間等。此時(shí)會(huì )有大量的內存操作,如果你enable了Cache,那么在拷貝完代碼之后,一定要invalidate ICache和flush DCache。否則將會(huì )出現緩存中的代碼或數據與內存中的不一致,程序跑飛。
另外,有時(shí)候我們需要自己作loader來(lái)直接運行ELF文件,情況也是一樣,拷貝完代碼后一定要刷新Cache,以免不測。
還有,對硬件的操作要小心。很多寄存器值都是被硬件改變的,讀寫(xiě)時(shí),要保證確實(shí)訪(fǎng)問(wèn)到它的地址。首先,在C語(yǔ)言代碼中聲明為volatile變量,以防止內存讀寫(xiě)被編譯器優(yōu)化掉;另外,設置好TLB,使得寄存器映射的地址空間不被緩存。
總之,緩存和內存中代碼的不一致,是一定要避免的。
2) 弄巧成拙! -- 只對頻繁訪(fǎng)問(wèn)的地址空間進(jìn)行Cache優(yōu)化。
我們很清楚自己的程序中,那里有大量的運算,哪里有無(wú)數的循環(huán)或遞歸,而這正是Cache的用武之地,我們將這些空間進(jìn)行緩存將大大提高運行速度。但是,很多函數或子程序往往僅僅運行很少幾次,若是對它們也緩存,只會(huì )撿了芝麻丟了西瓜,造成不必要的緩存和替換操作,反而增加了系統負擔,降低了整體性能。
3) 斷點(diǎn)哪兒去了? -- 如何調試“加速”了的代碼?
據我所知,一般,debugger都是通過(guò)掃描地址總線(xiàn),在斷點(diǎn)處暫停CPU。ARM9TDMI中集成的JTAG調試口,也是這樣。
當我們調試使用Cache的代碼時(shí),將會(huì )出現問(wèn)題。比如:CPU訪(fǎng)問(wèn)某斷點(diǎn)所在地址之前的地址時(shí),發(fā)生緩存操作,斷點(diǎn)處代碼被提前讀入Cache,此時(shí)地址總線(xiàn)上出現了斷點(diǎn)地址,CPU被debugger暫停,并且斷點(diǎn)之后的指令也被Cache緩存。于是,當你從斷點(diǎn)處step時(shí),程序卻停不了了,因為地址總線(xiàn)上不再出現斷點(diǎn)之后的下一個(gè)地址了。
再舉個(gè)例子:
int i,a;
for (i=0; i<100; i++) {
-> a++; /* set breakpoints */
}
當地址總線(xiàn)上第一次出現斷點(diǎn)地址時(shí),CPU暫停;之后,就再也不會(huì )停了。因為,之后CPU會(huì )從cache中直接去代碼了。(當然,后來(lái),Cache的代碼有可能會(huì )被替換掉,斷點(diǎn)又可到達。) 所幸的是,我用的debugger提供JTAG Monitor,允許斷點(diǎn)跟蹤使用cache的程序。
以下課程可免費試聽(tīng)C語(yǔ)言、電子、PCB、STM32、Linux、FPGA、JAVA、安卓等。
想學(xué)習的你和我聯(lián)系預約就可以免費聽(tīng)課了。
宋工企鵝號:3524-6590-88 Tel/WX:173--1795--1908
|
|