前言 按照相對論的理論,時(shí)間也是可以被拉長(cháng)縮短的,只不過(guò)需要巨大的能量支撐著(zhù)您達到一個(gè)和光速可比擬的高速度而已。這話(huà)說(shuō)著(zhù)輕松,你我心里都明白,估計咱們的有生之年是看不到這樣的情景的…… 回到可編程邏輯器件領(lǐng)域,隨著(zhù)65nm、40nm,乃至目前的28nm深亞微米工藝的采用,廠(chǎng)家生產(chǎn)出了越來(lái)越大,也越來(lái)越復雜的FPGA器件。而用戶(hù)們在為FPGA不斷增強的功能和不斷下降的單位成本而欣喜不已的同時(shí),也在為相關(guān)EDA軟件的性能滯后所帶來(lái)的開(kāi)發(fā)效率相對降低而苦惱不已,尤其是對大容量FPGA芯片動(dòng)輒10到20個(gè)小時(shí)的編譯時(shí)間可謂怨氣沖天。筆者在許多次面對一線(xiàn)的FPGA工程師時(shí),都聽(tīng)到了這樣類(lèi)似的話(huà):要是編譯時(shí)間能壓一壓就好了! Altera不能真的壓縮時(shí)間,但我們能改變“速度”!從數年前的版本開(kāi)始,Quartus2軟件中就整合了一種新技術(shù),或者說(shuō)一種新的設計流程:增量式編譯(Incremental Compilation)。它是ALTERA為解決大容量FPGA設計編譯時(shí)間太長(cháng)的問(wèn)題給出的一個(gè)新式工具!您,了解它嗎? 增量式編譯原理及流程 增量式編譯QIC的原理很容易理解:對一個(gè)復雜的設計而言,肯定是需要做一定的功能劃分,由不同的子功能模塊來(lái)實(shí)現。那么在設計進(jìn)入后期比較成熟的時(shí)候,前后兩次編譯的設計版本中,會(huì )有很大部分的電路邏輯都是相同的(沒(méi)有修改),如果能在后一次編譯中,重復利用前一次編譯中未改變部分的編譯結果,也就是相應部分的布局布線(xiàn)信息,那么就能把這部分邏輯所消耗的布局布線(xiàn)時(shí)間節約下來(lái),從而在很大程度上縮短整個(gè)設計的編譯時(shí)間。當然,聰明的讀者都能想到,這樣的編譯方式,除了能縮短編譯時(shí)間,還能支持許多別的用途,比如IP設計交付、團隊開(kāi)發(fā)、不改變正常設計結果插入調試接口等。這些確實(shí)都是ALTERA 增量式編譯能夠實(shí)現的功能,但在本文中我們只闡述QIC在縮短編譯時(shí)間方面的作用。 增量式編譯原理雖然簡(jiǎn)單,但要在FPGA的EDA軟件中實(shí)現,卻是一個(gè)復雜的系統工程。它不是簡(jiǎn)單地在軟件中增加一個(gè)功能模塊,而是對編譯處理流程多方面的改變和增強!請比較圖1和圖2兩幅附圖:圖1是傳統的FPGA編譯流程(Altera名稱(chēng):Flat compilation),圖2則是增量式編譯流程的示意圖。我們很容易發(fā)現增量式編譯流程復雜了許多,不僅引入了一些新的概念,比如設計分區(partition)、分區綜合后網(wǎng)表、分區布局/布線(xiàn)后網(wǎng)表等,同時(shí)加入了新的處理階段——分區合并(partition merging),而且對分析綜合(Analysis&Synthesis)和布局布線(xiàn)(fitter)階段進(jìn)行了改進(jìn),增加了許多針對分區的具體操作。 ![]() 圖1 Flat Compilation 流程 ![]() 圖2 QIC增量式編譯流程 經(jīng)過(guò)幾年的研究與實(shí)踐,QuartusII的增量式編譯已逐步完善,無(wú)論是在可操作性、穩健性方面,還是在縮短編譯時(shí)間的效果方面,都十分出色。筆者參與的幾個(gè)客戶(hù)項目中,通過(guò)QIC的實(shí)施,都得到了50%左右的編譯時(shí)間節約,極大提高了客戶(hù)的開(kāi)發(fā)效率。下面,我將結合這些實(shí)際項目中的經(jīng)驗,介紹如何實(shí)踐利用QIC來(lái)高效的縮短設計編譯時(shí)間。 QIC實(shí)踐 QIC的效果評估 在討論具體如何使用QIC之前,先考慮一個(gè)問(wèn)題:如果讀者在您的工作中使用了增量式編譯QIC,怎么評估它的效能呢? 您需要至少做3輪實(shí)驗,才能看到QIC節約編譯時(shí)間的效果。首先,需要把您的設計用傳統編譯流程Flat Compilation進(jìn)行編譯,記錄下各階段所花費的時(shí)間。然后,創(chuàng )建合理的設計分區,指定分區網(wǎng)表性質(zhì),進(jìn)行第二次編譯,得到QIC各個(gè)分區的初始網(wǎng)表,并請記錄下操作時(shí)間。第三次編譯,您可以選擇修改設計中的某一個(gè)分區,然后再編譯一次,記錄下操作花費的時(shí)間。將第三次的編譯時(shí)間和第一次相比,正常的話(huà)應當看到非常明顯的時(shí)間節約,這才是QIC增量式編譯在編譯時(shí)間節約方面的體現。 值得注意的是,第二次編譯中已經(jīng)使用了QIC,但往往花費時(shí)間和第一次編譯差不多,有時(shí)還有增長(cháng)。許多人為此懷疑QIC的性能,認為QIC沒(méi)有效果甚至惡化了編譯時(shí)間。這其實(shí)是一種誤解!為什么呢?回到圖2,我們可以看到,QIC流程在A(yíng)nalysis&Synthesis和fitter之間增加了一個(gè)新的處理階段——分區合并,它是需要額外花費在第一次Flat Compilation中不存在的時(shí)間。而且,由于這是創(chuàng )建分區后的第一次編譯,所有分區的網(wǎng)表都是空白的,也就是說(shuō)整個(gè)設計都需要被編譯、分析、綜合、布局布線(xiàn)等的工作量和第一次編譯是類(lèi)似的,因此這部分花費的時(shí)間也是差不多。把這兩部分時(shí)間加起來(lái),自然第2次編譯時(shí)間有可能會(huì )比第一次長(cháng)了。只有當進(jìn)行第3次編譯的時(shí)候,各個(gè)分區都有可重用的網(wǎng)表了,才有可能將那些沒(méi)有設計改變的分區的網(wǎng)表重用,從而節約綜合和布局布線(xiàn)階段的時(shí)間,達到整體編譯時(shí)間的節約。 圖3是筆者支持的一個(gè)客戶(hù)所進(jìn)行的QIC增量式編譯性能評估的結果總結?蛻(hù)的設計是高端路由器中的包處理應用,使用了ALTERA公司的Stratix4GX530器件,邏輯利用率大約是60%?蛻(hù)的編譯硬件是一臺高性能服務(wù)器:、 ![]() 圖3 Z客戶(hù)增量式編譯評估實(shí)驗效果 • CPU:16core Intel(R) Xeon(R) CPU E7420 @2.13GHz • Memory:64GB 即使是如此,在不使用QIC的情況下,客戶(hù)的每次編譯都需要12到13個(gè)小時(shí)。而在使用QIC并根據QIC指導原則進(jìn)行了必要的設計優(yōu)化后,最好的實(shí)驗結果是可以在6個(gè)小時(shí)左右(大約350分鐘)完成一次編譯,節約了接近55%的總編譯時(shí)間!從圖3中很容易看出前面文字描述的幾個(gè)特點(diǎn): 1. 第一次編譯和第二次編譯的總時(shí)間差不多(750 VS 730) 2. 第三次編譯中,Analysis&Synthesis操作的時(shí)間,fitter操作得時(shí)間都比第一次編譯有非常明顯的降低; 3. 從原理上看,QIC的網(wǎng)表重用對Assembly和時(shí)序分析沒(méi)有直接影響。因此三次編譯中,Assembler和時(shí)序分析所花費的時(shí)間是差不多的。 QIC指導原則 合理創(chuàng )建分區 Quartus中的“分區”是和設計層次緊密關(guān)聯(lián)的。任何設計,無(wú)論簡(jiǎn)單還是復雜,都會(huì )有一個(gè)頂層模塊(top-level module),Quartus自動(dòng)將它設置為一個(gè)默認分區(命名為top),不需要用戶(hù)設定。而別的分區,需要用戶(hù)手動(dòng)創(chuàng )建。創(chuàng )建分區的方法很簡(jiǎn)單,在Quartus GUI界面左上角的Hierarchy窗口,選擇想創(chuàng )建分區的實(shí)體,右鍵喚出的菜單中選擇“Design Partition”,然后在下一級菜單中選擇”Setting as Design Partition”,分區就創(chuàng )建成功了。 從圖2可以看出,分區(Partition)是增量式編譯中的一個(gè)關(guān)鍵概念。Altera規定:只要是有完整設計邊界的設計實(shí)體,無(wú)論它在設計的哪一層次,都可以用它來(lái)創(chuàng )建設計分區。也就是說(shuō),Quartus II中,設計中任何層次中的任何一個(gè)設計模塊,可以作為一個(gè)設計分區;一個(gè)設計中也可以包含不止一個(gè)設計分區;即使是在設計的同一層次,也可有多個(gè)分區。同時(shí),請注意:分區之間沒(méi)有層次關(guān)系,任何邏輯只能歸屬于某一個(gè)分區。以圖5為例,A模塊由A1、B1、C1三個(gè)子模塊組成。如果A模塊被設置為分區,Quartus會(huì )用模塊名來(lái)為此分區命名:A分區。那么,A分區中就會(huì )包含A1、B1、C1三個(gè)子模塊的所有邏輯。但如果把B1子模塊也創(chuàng )建為分區,那么,A分區中就只包含A1、C1兩個(gè)子模塊的邏輯,B1子模塊的邏輯只屬于新的B1分區了。 ![]() 圖4 在Quartus GUI中創(chuàng )建分區示意 ![]() 圖5 分區與邏輯歸屬變化 ![]() 圖6 分區合并報告 ![]() 圖7 分區綜合后資源使用統計 ![]() 圖8 Design partition window ![]() 圖9 Design partition window 從前面分區的性質(zhì)和特點(diǎn)可以看出,對包含多個(gè)功能模塊的多層次復雜設計,可以有許多種設置分區的方案。但需要注意的是:不是任何一種分區方案都能帶來(lái)編譯時(shí)間的節約,惡劣的設計分區甚至能夠導致編譯失!如何得到高效合理的設計分區呢?我們需要遵從以下原則: a. 不要創(chuàng )建太多的分區,一般性的設計建議分區的數量控制在4~8個(gè)之間; b. 不要創(chuàng )建太小的分區,一般建議不要小于1000個(gè)LE或者ALM; c. 外設接口邏輯和內核處理邏輯放到不同的設計分區; d. 相同或相近功能的外設接口,如果管腳位置相鄰,可以放在同一個(gè)分區,否則創(chuàng )建不同的設計分區; e. 不同的分區方案中,分區之間的聯(lián)接少的方案更優(yōu)。 針對QIC優(yōu)化代碼 除了分區方案,設計代碼也對QIC的性能有直接的影響,需要設計者針對QIC做一些特定的代碼優(yōu)化。優(yōu)化主要有兩方面,一方面是升級所使用的Megacore IP到最新的版本;另一方面則是一些更嚴格的編碼規則。 之所以建議升級Megacore IP到最新的版本,這是由于QIC增量式編譯常常需要調用Megacore IP的一些特性來(lái)支持一些特定操作,而這些特性通常在較新的版本中才能得到比較好的支持,而且隨著(zhù)QIC的成熟不斷改進(jìn)。筆者就曾經(jīng)在一個(gè)嘗試使用QIC的項目中,發(fā)現客戶(hù)的設計繼承了一部分老項目中的代碼,其中包含好幾個(gè)Quartus 9.1版本的DDR EMIF控制器,占了整個(gè)設計使用資源的20%左右。當說(shuō)服客戶(hù)把這幾個(gè)控制器升級到當時(shí)最新的Quartus 11版本,發(fā)現QIC所能節約的編譯時(shí)間增加了近1個(gè)小時(shí),大約15%的整體編譯時(shí)間。 之所以QIC要求遵從更嚴格的編碼規則,這是由于Quartus在有分區存在的時(shí)候,是不對跨越分區邊界的邏輯進(jìn)行綜合優(yōu)化,一些在Flat compilation中可以被軟件優(yōu)化掉的不良代碼,在QIC的流程中會(huì )造成嚴重的影響。這些嚴格的編碼規則包括: a. 不要在底層分區邊界上使用三態(tài)信號和雙向端口; Altera器件中,只有在器件的輸出管腳上才能實(shí)現真正的三態(tài)信號,在器件內部,三態(tài)驅動(dòng)是依靠多路器邏輯模擬實(shí)現,這兩點(diǎn)往往要求跨層的編譯優(yōu)化,而這在增量式編譯流程中是做不到的,會(huì )導致編譯失敗。只有一種情形例外,就是內部三態(tài)邏輯所涉及的所有信號都在同一個(gè)底層分區中,Quartus可以依靠多路器邏輯模擬此三態(tài)邏輯。雙向端口也類(lèi)似,只有在此雙向邏輯所涉及的所有信號都在一個(gè)底層分區中,QIC才能正常進(jìn)行。 b. 分區的輸入輸出最好都通過(guò)寄存器實(shí)現,資源有限的情況下至少保證跨分區的連接中的一端是寄存器(reg-in或者reg-out); 雖然這一規則有一定的實(shí)現難度,但它可以避免在使用增量式編譯流程的時(shí)候,那些跨分區邊界的信號的延遲出現大的惡化。如果不能實(shí)現這一規則,跨分區連接的兩端有可能都是組合邏輯。在Flat Compilation中,這兩組組合邏輯會(huì )被綜合優(yōu)化到一起來(lái)布局布線(xiàn),時(shí)序容易滿(mǎn)足;但在是增量式編譯中,由于不能跨區優(yōu)化,這2組組合邏輯的分別布局布線(xiàn),那穿過(guò)這兩組邏輯的路徑延遲將有可能變得很長(cháng),出現時(shí)序違背。 c. 避免不包含任何處理邏輯的信號環(huán)路穿越分區邊界; 也是由于不能跨區優(yōu)化,這樣的信號環(huán)在Flat Compilation中可以被優(yōu)化消除掉,在增量式編譯中就不能消除,浪費資源。 d. 避免跨分區的常量信號 類(lèi)似C,跨區的常量信號不能在目的端分區中直接實(shí)現(“0”連接地層,“1”連接電源層),而必須占用走線(xiàn)資源實(shí)現。 關(guān)注相關(guān)報告信息 使用QIC時(shí),Quartus中會(huì )產(chǎn)生很多QIC專(zhuān)有的消息,因此在編譯報告中也增加一些新的章節。這些報告章節,對我們了解QIC的運行情況有直接的幫助,尤其是當一些異常情況出現,往往需要我們通過(guò)閱讀這些報告章節來(lái)進(jìn)行調試。比較重要的報告有: a. Partition Merge report 分區合并的報告章節如下圖所示,分別提供在這個(gè)階段網(wǎng)表的使用情況(netlist Types Used),各個(gè)分區的綜合警告信息(Partition Warning)和綜合后各類(lèi)資源使用情況(Partition Statistics)。 b. Incremental compilation section in Fitter report 在Fitter報告中,也增加了增量式編譯的章節。其中,Incremental Compilation Preservation Summary匯總了設計中被保留的布局和布線(xiàn)比例;Incremental Compilation Partition setting 說(shuō)明了設計中所有分區的創(chuàng )建方式和網(wǎng)表的保留級別(Preservation level);Incremental Compilation Placement Preservation給出了每一個(gè)分區中節點(diǎn)保留的信息;Incremental Compilation Routing Preservation則是每個(gè)分區中布線(xiàn)保留的信息。 c. Design partition window 這個(gè)窗口默認是不在Quartus 界面中顯示的,用戶(hù)需要通過(guò)Quartus菜單欄“Assignments”->”Design partition window”打開(kāi)這個(gè)窗口。這個(gè)窗口給出可配置分區的當前設置及各個(gè)網(wǎng)表文件的時(shí)間戳信息,并且可以在此窗口中快速修改分區使用的網(wǎng)表類(lèi)型(Netlist Type)和Fitter網(wǎng)表的保留級別(Fitter Preservation Level)。 結束語(yǔ) 在本文中,向大家介紹了增量式編譯的原理、過(guò)程和一些性能表現,同時(shí)給出了使用QIC需要注意的一些指導原則。華為、中興等客戶(hù)的多個(gè)項目實(shí)踐已經(jīng)證明QIC是一個(gè)可以用來(lái)解決大容量FPGA設計編譯時(shí)間太長(cháng)的有效手段。增量式編譯QIC,值得您去嘗試! 作者李毅信息:Altera亞太區高級設計專(zhuān)家 |