作者:Achronix資深應用工程師 黃侖 1. 概述 為了適應未來(lái)硬件加速、網(wǎng)絡(luò )加速對片外存儲器的帶寬需求,目前市面上的高端FPGA主要采用了兩種解決方法。第一種最常見(jiàn)的就是HBM2高帶寬存儲器,2016年1月,HBM的第二代技術(shù)HBM2正式成為工業(yè)標準。集成了HBM2存儲器的高端FPGA可以提供高達460GB/s的帶寬,但是因為HBM2技術(shù)工藝要求高,目前芯片的良率和產(chǎn)量都會(huì )受到很大的影響,所以集成HBM2的高端FPGA成本一直居高不下。第二種是GDDR6存儲器,2018年,GDDR6發(fā)布,數據速率達到了16Gbps。Achronix看中了GDDR6在數據存儲中的帶寬優(yōu)勢,在新一代7nm工藝的Speedster7t FPGA集成了GDDR6硬核控制器,最高可支持高達512GB/s的帶寬,同時(shí)可以有效地控制使用成本。 2. Speedster7t FPGA中的GDDR6控制器 Achronix的Speedster7t FPGA集成了8個(gè)GDDR6的硬核,如圖1所示。 ![]() 圖1 Speedster7t FPGA架構 每個(gè)GDDR6的硬核支持雙通道?偟膸捠16Gbps x 16(位寬) x 2(通道) x 8(控制器)/8 = 512 GB/s,每個(gè)控制器有兩個(gè)獨立的訪(fǎng)問(wèn)通道,每個(gè)通道的數據位寬為16位。這些GDDR6 控制器和PHY都是硬IP,無(wú)需消耗FPGA中的可編程邏輯資源,也無(wú)需面對布局布線(xiàn)所帶來(lái)的時(shí)序收斂挑戰。這些特征共同使GDDR6方案成為當前高端FPGA性能和成本兼顧的絕佳選擇。 3. GDDR6子系統概述 Achronix Speedster7t GDDR6子系統包括GDDR6 PHY和GDDR6控制器,全部采用了硬核設計。整個(gè)子系統包括GDDR6 PHY IP、GDDR6控制器IP、時(shí)鐘和復位模塊,APB接口和AXI4用戶(hù)接口可以連接到二維片上網(wǎng)絡(luò )(2D NoC)或者內部編程邏輯,如圖2所示。 ![]() 圖2 Speedster7t GDDR6子系統框圖 時(shí)鐘和復位模塊用來(lái)產(chǎn)生支持GDDR6 PHY和GDDR6控制器的時(shí)鐘以及所需的復位信號,它的輸入時(shí)鐘來(lái)自于FPGA片上的PLL。對于數據速率為16Gbps的GDDR6,控制器時(shí)鐘為1GHz,PHY時(shí)鐘為500MHz,命令地址時(shí)鐘跑在2GHz,word clk也就是WCLK運行在8GHz,其他速率需要的時(shí)鐘如表1所示。 GDDR6控制器IP支持兩個(gè)通道,每個(gè)通道為16bit位寬。兩個(gè)通道獨立訪(fǎng)問(wèn)不同的GDDR6空間?刂破鞯挠脩(hù)接口為標準的AXI協(xié)議,可以連接到二維片上網(wǎng)絡(luò )上或者直接連到內部的可編程邏輯。在另外一邊,控制器和PHY的接口為DFI4.0接口。 表1 GDDR6支持的時(shí)鐘頻率模式 ![]() PHY IP用來(lái)連接器件外圍的高速GDDR6顆粒,它會(huì )像其他DRAM PHY一樣產(chǎn)生PRECHARGE、ACTIVE和REFRESH等命令。 APB全稱(chēng)Advanced Peripheral Bus,字面上是先進(jìn)外圍總線(xiàn)的意思,該總線(xiàn)協(xié)議是ARM公司提出的AMBA總線(xiàn)結構之一,已成為一種標準的片上總線(xiàn)結構。APB總線(xiàn)接口工作在250MHz,用來(lái)配置GDDR6子系統的寄存器,Speedster7t FPGA的配置電路FCU可以在啟動(dòng)的時(shí)候通過(guò)APB總線(xiàn)接口配置GDDR6子系統的寄存器,用戶(hù)邏輯模塊也可以在FPGA運行的時(shí)候通過(guò)APB總線(xiàn)接口動(dòng)態(tài)配置GDDR6子系統的寄存器。 4. GDDR6控制器結構 GDDR6控制器模塊的詳細結構如圖3所示。它包括主控部分和其他的一些子模塊,比如Multi-port front-end模塊,Reorder模塊,Read modify Write模塊,內存測試模塊和內存測試分析模塊。 MPFE模塊是前端多端口模塊,Speedster7t上的GDDR6控制器為每個(gè)通道提供了兩個(gè)MPFE端口,它們支持AXI4協(xié)議,每個(gè)端口能夠提供最大256Gbps的帶寬;其中一個(gè)AXI端口用于連接到二維片上網(wǎng)絡(luò )上,位寬為256位,時(shí)鐘是1GHz。另一個(gè)AXI端口用于直接連接到FPGA內部的可編程邏輯資源,位寬為512位,時(shí)鐘是500MHz。 Reorder模塊用來(lái)調整發(fā)給GDDR6控制器的用戶(hù)請求的順序。Reorder模塊里有一個(gè)深度為64的隊列,用于緩存用戶(hù)請求,只要隊列不滿(mǎn)就可以接收新的用戶(hù)請求。在接收到用戶(hù)請求以后,Reorder模塊可以調整用戶(hù)請求的順序,進(jìn)而可以大大提高DRAM的訪(fǎng)問(wèn)效率。用戶(hù)可以通過(guò)設置不同的參數來(lái)調整reorder的標準,同時(shí)這個(gè)模塊也可以bypass掉,維持用戶(hù)請求的原來(lái)順序。 RMW模塊是讀-修改-寫(xiě)的模塊,先讀出內存中的數據內容,然后修改單個(gè)或者多個(gè)bit以后再整體寫(xiě)回。有了這個(gè)模塊,GDDR6控制器支持將地址mask的功能。 Mem Test和Mem Test Analyzer是用于內存測試的模塊,Mem Test內存測試模塊支持生成不同的數據類(lèi)型去寫(xiě)入GDDR6;Mem Test Analyzer內存測試分析模塊將讀到的數據與期望的數據進(jìn)行比較,從而驗證GDDR6的硬件接口和讀寫(xiě)功能是否正常。 ![]() 圖3 Speedster7t GDDR6控制器框圖 GDDR6控制器支持兩種模式,正常x16模式和Clamshell x8模式。在x16模式下,控制器提供了每通道16位的雙通道接口,可以連接一個(gè)GDDR6顆粒。在Clamshell x8模式下,如圖4所示,控制器提供了每通道8位的雙通道接口,可以連接兩個(gè)GDDR6顆粒。Clamshell模式提供了一種在不改變控制器帶寬的情況下,通過(guò)在兩個(gè)GDDR6顆粒間share地址和命令總線(xiàn)將容量加倍的一種方法。 ![]() 圖4 GDDR6 Clamshell模式 后面我們還會(huì )繼續深入了解Speedster 7t FPGA上的一些其他特性,以及這些特性如何運用在數據加速和網(wǎng)絡(luò )加速應用中,敬請期待。如需更多信息或者有任何疑問(wèn)您可以通過(guò)Achronix公眾號里聯(lián)系方式聯(lián)系我們,也可訪(fǎng)問(wèn)Achronix公司官方網(wǎng)站http://www.achronix.com 參考文獻: 1. Micron 8Gb/16Gb GDDR6 Product Brief 2. Achronix website www.achronix.com |