STM32的代碼,跑在RAM里快?還是跑在Flash里快?

發(fā)布時(shí)間:2009-11-25 18:04    發(fā)布者:STM32
關(guān)鍵詞: Flash , RAM , 代碼
這肯定是很多人關(guān)心的問(wèn)題,下面通過(guò)一個(gè)例子看看會(huì )有什么樣的結論:

測試手段如下:

主循環(huán)一直在做一個(gè)變量的自加(sum1++),當然前提保證不會(huì )溢出。

Cortex-M3內部的Systick計數,以一秒鐘為限,這個(gè)sum1的數值大小,可以判斷哪種方式比較快。為了嚴密,我們觀(guān)察第一秒到第二秒之間的計數效果;而不是從第0秒到第1秒(因為使能Systick到真正開(kāi)始執行sum1++可能有間隙)。在第一次進(jìn)入Systick的ISR時(shí),記錄下sum1的值;第二次進(jìn)入Systick的ISR時(shí),再次記錄sum1的值,兩次值之差即為一秒鐘間隔中sum1執行了多少次自加。由此看出哪種方式比較快。

同樣的測試前提:Prefetch Buffer Enable + Flash Latenty="2" (根據Flash Programming Manual中要求的那樣,當48MHz
測試結果如下:

不對代碼優(yōu)化,在RAM中執行程序:sum1計數69467/秒
不對代碼優(yōu)化,在FLASH中執行程序:sum1計數43274/秒 (Flash里跑得慢)

/***********循環(huán)體內代碼為N個(gè)以下的block*************/
(1)LDR R0,[PC, #0x154]
(2)LDR R1,[PC, #0x154]

(3)LDR R1,[R1,#0]
(4)ADDS R1, R1,#0x1

(5)STR R1,[R0, #0]

    ......
/****************************************************/

打開(kāi)速度優(yōu)化開(kāi)關(guān),在RAM中執行程序:sum1計數98993/秒
打開(kāi)速度優(yōu)化開(kāi)關(guān),在FLASH中執行程序:sum1計數115334/秒 (Flash里跑得快)

/***********循環(huán)體內代碼為N個(gè)以下的block*************/
(1)LDR R1,[R1,#4]
(2)ADDS R1, R1,#0x1
(3)STR R1,[R0, #0]
    ......
/****************************************************/

結論就是:

1)程序運行在RAM里速度快還是運行在Flash里速度快,不是絕對的一概而論的,取決于代碼;

2)就以上兩種具體的代碼情況來(lái)說(shuō),我覺(jué)得無(wú)優(yōu)化時(shí),如果在Flash里執行:(1)(2)的取指(讀flash)->譯碼->執行 (讀flash);取指和執行階段flash的目標地址不是連續的,因此是non-sequencial access,所以會(huì )很慢;
打開(kāi)優(yōu)化時(shí),(1)(2)(3)都不會(huì )造成flash的non-sequential access,所以在flash里的優(yōu)勢(取指和取數據走不同的總線(xiàn)ICode和DCode以及Prefetch)就體現出來(lái)了。

再進(jìn)一步的分析,又有這樣一些結論:

沒(méi)有優(yōu)化時(shí),指令執行時(shí)要到Flash中取常數,結果造成指令預取隊列的取指中斷,取完常數后需要重新填充指令預取隊列,而Flash訪(fǎng)問(wèn)需要插入等待周期,當然時(shí)間就比較長(cháng)了。

經(jīng)過(guò)代碼優(yōu)化后,指令執行時(shí)不用再到Flash中取常數,指令預取隊列不會(huì )被打斷,而Flash訪(fǎng)問(wèn)需要插入等待周期的效應被下面貼子中介紹的取指緩沖區抵消,所以自然速度就快了;而這個(gè)時(shí)候在RAM中執行反而慢了是因為RAM不在ICode總線(xiàn)上,從RAM取指需要繞一圈,當然要比在ICode總線(xiàn)上的Flash慢了。

關(guān)于Flash的性能,請看我的另一篇分析:【分析】STM32從Flash中運行程序的時(shí)序分析

另外,STR9與STM32的總線(xiàn)架構是一樣的,這里有一個(gè)在STR9上實(shí)現的FFT函數的實(shí)測數據,可以進(jìn)一步說(shuō)明在Flash中運行代碼可以比在RAM中快!

在ST的網(wǎng)站上有一個(gè)DSP的函數庫,這是它的文檔《STR91x DSP library (DSPLIB)》,在這篇文檔中有一節討論FFT運算速度的,那里給出了實(shí)際的運算時(shí)間比較,摘錄如下:

Radix-4
Complex FFT     Operation Mode     Cycle Count     Microseconds
64 Point     Program in Flash & Data in SRAM     2701     28.135
64 Point     Program & Data in SRAM     3432     35.75
64 Point     Program & Data in Flash     3705     38.594
256 Point     Program in Flash & Data in SRAM     13740     143.125
256 Point     Program & Data in SRAM     18079     188.323
256 Point     Program & Data in Flash     19908     207.375

最初發(fā)表日期:2008-8-28
本文地址:http://selenalain.com/thread-5774-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页