Tensilica今天宣布以其面向密集計算數據平面和DSP(數據信號處理器)如成像、視頻、網(wǎng)絡(luò )和有線(xiàn)/無(wú)線(xiàn)基帶通信的處理器IP鞏固了其在IP內核領(lǐng)域的領(lǐng)導者地位,任何需要龐大數據處理的應用都將極大都受益于這些突破性功能――通過(guò)內建Tensilica面向SOC的Xtensa LX4數據平面處理器(DPU)可以將這些應用數據帶寬提高4倍。 新的Xtensa LX4 DPU支持更高的本地數據存儲位寬,最高到每周期1024比特,支持更寬的128位VLIW(超長(cháng)指令字)指令,從而提高指令并行度。新增的高速緩存預取功能,可以在片外存儲器延時(shí)很高的情況下幫助提升系統性能,Tensilica已經(jīng)將這些技術(shù)應用到最新發(fā)布的用于LTE通信的ConnX BBE64 DSP上。 針對高帶寬應用有更寬的數據存取能力 與Tensilica的Xtensa LX3 DPU相比, Xtensa LX4 DPU有4倍本地存儲器帶寬,每個(gè)周期最多可以完成2個(gè)512位的存取操作,設計師現在可以輕易實(shí)現超寬SIMD(單指令多數據)DSP,它可以將更多數據同時(shí)送給MAC(乘加運算),使每個(gè)時(shí)鐘周期性能大大提升,這使得Xtensa LX4 DPU特別適合于有線(xiàn)和無(wú)線(xiàn)基帶處理、視頻前處理和后處理、圖像信號處理和各種網(wǎng)絡(luò )包處理應用。 除了上述本地存儲器帶寬的增強,Tensilica 已有的可定制本地端口和隊列可以提供近乎無(wú)限的點(diǎn)對點(diǎn)數據和控制信號帶寬。Tensilica現在既可以提供在Xtensa DPU和其他系統模塊如RTL 模塊之間建立內部互連的端口和隊列,也可以提供新的超高帶寬本地存儲器接口。 提供更寬的指令增強并行處理能力 有了Xtensa LX4, Tensilica可以讓其FLIX(靈活長(cháng)度指令擴展)指令的指令長(cháng)度翻番,從64位擴展到128位,這使得每個(gè)時(shí)鐘周期可以完成的操作數量翻番,FLIX指令可以和Xtensa基本指令集無(wú)縫混合,所以在用到FLIX的時(shí)候不用很麻煩地去切換模式。 Xtensa LX4 DPU的FLIX指令與傳統的VLIW DSP相比,可以在提供超高性能的同時(shí)減小代碼體積,Tensilica的Xtensa C/C++編譯器可以從源代碼中推斷出并行性,并自動(dòng)將多個(gè)不同操作并行化為一條FLIX指令。一個(gè)帶有FLIX指令的Xtensa LX4 DPU能以很低的時(shí)鐘頻率運行并行操作,它提供的性能可以與時(shí)鐘頻率更高體積更大的非VLIW 內核相媲美,而在完成相同任務(wù)時(shí)它的功耗更低! 預存取減少周期數 新的數據預取操作因在數據使用前就提前取到了數據,所以可以減少高延遲系統中執行周期的數量,這樣一來(lái),當應用代碼需要的時(shí)候,數據已經(jīng)準備好了,在 DPU必須等待數據時(shí),可以減少時(shí)鐘周期的浪費。當數據流是來(lái)自相鄰存儲地址的時(shí)候這樣的好處就更突出,相比增加一個(gè)獨立的DMA(直接存儲器訪(fǎng)問(wèn))引擎來(lái)說(shuō),這是一種更為簡(jiǎn)易的優(yōu)化存儲器訪(fǎng)問(wèn)的方法。它不需要額外的軟件編程和應用代碼調整。 成功的關(guān)鍵:自動(dòng)化 利用Tensilica的開(kāi)發(fā)工具,不僅可以自動(dòng)生成DPU硬件,還可以生成相匹配的復雜軟件工具鏈,因為所有的Xtensa處理器都包括了一套相同的基本指令集,所以基于這套基本指令集的的第三方應用軟件可以運行在所有Xtensa處理器上,甚至是深度定制后的Xtensa DPU。 可定制Xtensa DPU與主流操作系統、DEBUG和ICE(在線(xiàn)仿真器)方案都兼容,每個(gè)XtensaDPU都有自動(dòng)生成的完整的軟件工具鏈,包括一個(gè)基于 Eclipse框架的高級集成開(kāi)發(fā)環(huán)境,一個(gè)世界級編譯器,一個(gè)周期精確且兼容SystemC的指令集仿真器以及完整的工業(yè)標準GNU工具鏈。 隨同發(fā)布的還有Tensilica的矢量化輔助工具,這是一個(gè)首創(chuàng )的工具,它給開(kāi)發(fā)者提供建議來(lái)改善他們運行于SIMD(單指令多數據)DSP上的 C代碼的編程風(fēng)格,這個(gè)矢量化輔助工具可以指出哪些代碼妨礙了編譯器進(jìn)行矢量化,所以軟件可發(fā)者能改善C源代碼,從而發(fā)揮DPU并行執行的優(yōu)勢。 供貨和性能 Tensilica 現就可以提供Xtensa LX4 DPU IP,在45nm工藝下基本型Xtensa LX4 DPU時(shí)鐘頻率可以超過(guò)1 GHz,而大小只有0.044 mm2。 |