1 引言 建立芯片模型是在早期進(jìn)行芯片架構決策的有效方法,通過(guò)建模不僅可以對芯片的性能做出分析,還可以在硬件沒(méi)有完成之前開(kāi)發(fā)軟件,不僅提高了產(chǎn)品成功率,而且縮短了研發(fā)周期。設計人員早期采用C/C++語(yǔ)言進(jìn)行硬件建模。但是隨著(zhù)軟硬件復雜度的提高,C/C++語(yǔ)言難以再滿(mǎn)足要求。OSCI適時(shí)推出了SystemC語(yǔ)言來(lái)適應新的需求。如今SystemC已經(jīng)被廣泛應用于SoC軟硬件建模中。 目前大部分SystemC建模方面的文獻是作者對自己所設計芯片整體模型的描述,這種針對特定芯片設計的文獻雖然都有參考價(jià)值,但是其模型本身借鑒性有限。另一方面,構成SoC硬件的基本組件因為可重用的緣故,其模型設計具有更好的可借鑒性。這方面的研究成果相對較少,而且集中在總線(xiàn)建模方面,也可以看到多核設計方面的建模方法。 除了上述總線(xiàn)、CPU 架構外,片內或片外存儲器同樣是系統關(guān)鍵模塊,對系統性能有著(zhù)至關(guān)重要的影響。文獻[6]對SystemClick框架做了擴展,從而通過(guò)存儲器模型能夠分析共享存儲器對性能的影響。文獻[7]針對多通道DRAM 做了建模,并且分析了不同的配置和使用情況對性能的影響。這兩篇文獻都對所設計的模型做了詳盡的分析,具有很好的參考價(jià)值,但是兩者的通用性欠佳。本文提出了一個(gè)可配置的通用存儲器SystemC模型。 2 SystemC SystemC可被視作C++硬件建模和仿真的擴展庫,特別適合集成電路的建模,但它事實(shí)上可以用來(lái)描述更多的系統。SystemC通過(guò)確定仿真核心(simulation kernel)算法定義了處理并行事件和仿真時(shí)間的機制。SystemC還定義了模塊、端口、接口、通道等概念來(lái)組成一個(gè)復雜SoC的連接關(guān)系和層次結構。因此,它解決了標準C++語(yǔ)言用于復雜硬件建模時(shí)的難題。 3 存儲器的建模 3.1 存儲器模型概述 為了能幫助設計人員分析系統性能并選擇最合適的存儲器構造,存儲器模型需要反映出對性能造成影響的關(guān)鍵參數,即帶寬、延時(shí)和仲裁機制。而這些參數又是由存儲器的結構以及其它參數決定的。另一方面,本文希望提出一個(gè)通用的存儲器模型,因此會(huì )有更多的參數用于配置存儲器以模擬某種特定類(lèi)型的存儲器特征,比如多端口SRAM。 圖1給出了所設計的存儲器模型的結構。它包括三個(gè)部分:一是模型接口;二是端口及bank可配置的存儲器;三是由讀寫(xiě)通路及仲裁機制構成的存儲器控制器。接口部分采用了事務(wù)級建模,而內部模塊采用了時(shí)鐘精準的建模,這樣在保證時(shí)間精度的同時(shí),方便了接口連接以及提高了仿真速度。 圖1 可配置存儲器模型結構 3.2 存儲器接口 基于SystemC的存儲器模型接口,由SystemC定義的接口基類(lèi)派生而來(lái)。整個(gè)存儲器模型是一個(gè)SystemC模塊,由于實(shí)現了所定義的存儲器模型接口,它成為SystemC概念中的hierarchal channel。因此,該存儲器模型將如同其它SystemC定義的通道,比如FIFO,一樣作為基本組件來(lái)連接其它的模塊從而構造出SoC硬件系統。所設計存儲器具有如下所述事務(wù)級SystemC接口。 阻塞讀接口:該接口用來(lái)讀取給定地址的給定大小的數據,當數據沒(méi)有讀出時(shí),調用這個(gè)接口的模塊線(xiàn)程將被堵塞,直到數據讀出為止。除了地址和數據,該接口還包含調用者的標志信息。 非阻塞讀接口:與阻塞讀接口不同的是,如果在調用時(shí)讀指令不能被接受,則返回失敗。否則,不等待數據返回便成功退出。這樣調用接口的模塊線(xiàn)程可以在等待時(shí)間做其它事情。調用者通過(guò)監聽(tīng)存儲器模型廣播的當前讀出數據多對應調用者標記來(lái)在之后讀出數據。 阻塞寫(xiě)接口:該接口用來(lái)向存儲器給定地址寫(xiě)入給定大小的數據。當指令或寫(xiě)數據不能被存儲器模型接收時(shí),調用的線(xiàn)程被堵塞直到接受為止。除了地址和數據,該接口還包含調用者的標志信息。 非阻塞寫(xiě)接口:與阻塞寫(xiě)接口不同的是,當指令或數據不能被接受時(shí),返回失敗而不等待。否則返回成功。 復位接口:用于復位存儲器模型。 為了不強制要求外部提供存儲器模型需要的時(shí)鐘,存儲器模型接口中不包含時(shí)鐘輸入。模型內部有一個(gè)專(zhuān)門(mén)的時(shí)鐘產(chǎn)生線(xiàn)程。 3.3 存儲器實(shí)體 存儲器模型中的存儲器實(shí)體可以由多個(gè)bank組成,并構成一個(gè)子模塊。根據bank的數量和種類(lèi),該存儲器子模塊具有不同數量的只讀端口、只寫(xiě)端口和讀寫(xiě)端口。為了能盡可能模擬不同的存儲器類(lèi)型,存儲器子模塊可配置參數如表1所示。 表1 存儲器配置參數 3.4 存儲器控制器 存儲器控制器由指令隊列、數據緩存、以及仲裁器構成。這一部分對系統的性能有重要影響。讀指令隊列和寫(xiě)指令隊列用來(lái)分別緩存讀寫(xiě)指令。當它們寫(xiě)滿(mǎn)時(shí),新的讀寫(xiě)操作將失敗或堵塞。指令隊列的數量取決于訪(fǎng)問(wèn)存儲器模型的模塊有幾個(gè)優(yōu)先級。相同優(yōu)先級的指令會(huì )被放到同一個(gè)隊列。讀仲裁器和寫(xiě)仲裁器分別根據隊列中的讀地址和寫(xiě)地址,讀寫(xiě)數據緩存器的狀態(tài),以及指令優(yōu)先級來(lái)決定發(fā)送哪個(gè)指令到哪個(gè)端口。而如果讀指令和寫(xiě)指令指向了相同的讀寫(xiě)端口,讀寫(xiě)仲裁器將再一次做出仲裁。這里的每個(gè)仲裁器除了上述功能外,具體的仲裁機制以虛函數的形式由具體的實(shí)現來(lái)決定。在該存儲器模型中實(shí)現了默認的基于優(yōu)先級的輪詢(xún)算法。存儲器控制器的配置參數如表2所示。 表2 存儲器控制器的配置參數 3.5 參數配置 存儲器模型的眾多參數需要在構造函數中配置完成。在運行階段,不能再更改配置。運行階段的配置更改將是我們下一步的研究?jì)热?可以用于類(lèi)似于文獻[8]的自演化系統。 4 應用實(shí)例 圖2所示為一個(gè)H.264解碼器模塊框圖。該解碼器共包括四個(gè)模塊以流水線(xiàn)方式工作在宏塊級別。其中熵解碼產(chǎn)生運動(dòng)矢量,變換系數等信息。殘差恢復模塊通過(guò)反量化、反變換操作得到殘差。宏塊預測模塊進(jìn)行幀內或幀間預測并和殘差一起重建出宏塊數據。去快效應模塊實(shí)現H.264去塊效應濾波。這四個(gè)模塊通過(guò)一個(gè)共享的SRAM 來(lái)交換數據。RTL設計人員根據設計指標率先完成了各模塊微架構的設計,平均解碼每個(gè)模塊所需時(shí)間在指標范圍內。 圖2 H.264解碼器使用共享存儲器在解碼模塊間交換數據 為了確定共享SRAM 引入的性能損失和確定SRAM 的設計,采用本文存儲器模型進(jìn)行分析。存儲器的大部分參數已經(jīng)被確定,需要決定采用幾個(gè)bank(每個(gè)bank是一個(gè)單端口SRAM)。另一方面,各模塊讀寫(xiě)存儲器的時(shí)間也基本確定從而有了可靠地負載模型。通過(guò)改變存儲器模型的bank數,得到結果如圖3所示。 圖3 不同bank數所對應的單個(gè)宏塊平均解碼時(shí)間占允許時(shí)間的比例 由于bank的增加可以減少訪(fǎng)問(wèn)存儲器的沖突,模型仿真得到的處理時(shí)間隨bank數量的增加而減少。但是可以看到bank數量對所消耗的時(shí)間影響不大,這說(shuō)明各解碼模塊訪(fǎng)問(wèn)存儲器的時(shí)間分布已經(jīng)比較均勻。由于一個(gè)bank的情況已經(jīng)可以滿(mǎn)足要求,所以最后確定bank數為1。RTL全部完成后的仿真結果所消耗的時(shí)間比模型所給出的略少一些,原因是RTL設計對訪(fǎng)問(wèn)共享SRAM 的時(shí)間安排做了進(jìn)一步細化的工作。 5 結束語(yǔ) 本文提出了一個(gè)通用的存儲器SystemC模型,該模型采用統一的事務(wù)級接口,和可配置的時(shí)鐘精準的內部控制邏輯以及存儲器構成。通過(guò)一系列的參數配置,該模型能夠幫助設計人員快速實(shí)現系統建模并在存儲器設計和選擇上做出合理判斷。借助其通用性,它還可以幫助保持一致性和減少重復勞動(dòng)。該模型被應用于視頻解碼案例中,成功預測了共享SRAM 的bank數對性能的影響,證明了其有效性。 參考文獻: [1] Ghosh A.System modeling with SystemC[C]∥ ASIC,2001.Proceedings.4th International Conference on.China:Shanghai,2001:18-20. [2] Mahfuzul S M,Tran J M D.Modeling for performance:SystemC model of a communication bus in a distributed network[C]∥International Conference on Information and Communication Technology.Dhaka,2007:231-234. [3] Srinivasan S,Li L,Ruggiero M,.Dnaka,et al.Exploring architectural solutions for energy optimizationsin bus-based system-on-chip[J].Computers &Digital Techniques,IET,2008,2(5):347-354. [4] Chen Lin,Sun Wanzhong,Wang Zhixin,et al.A SystemC-based transaction level modeling of on-chipbus[C]∥International Conference on Computer Science and Software Engineering.China:Wuhan,2008:146-149. [5] 奚杰,陳杰,朱玥.利用SystemC實(shí)現多核系統的快速建模[J].微電子學(xué)與計算機,2010,27(7):220-223. [6] Loeb H P,Sauer C.Exploration of embedded memomemories in SoCs using SystemC-based functional performance models[C]∥Forum on Specification & DesignLanguages.Sophia Antipolis,2009:1-6. [7] Nikara J,Aho E,Tuominen P A,et al.Performanceanalysis of multi-channel memories in mobile devices.System-on-Chip.Tampere,2009:128-131. [8] 王曉艷,姚睿.使用SystemC設計片上自演化系統[J].微電子學(xué)與計算機,2011,28(6):28-31. [9] 鐘輝捷,雷航.基于Petri網(wǎng)和systemC的SoC系統描述[J].計算機應用,2007,27(2):147-149. |