TMS320C6000嵌入式系統優(yōu)化編程的研究

發(fā)布時(shí)間:2009-4-8 10:45    發(fā)布者:李寬
本文分析了TMS320C6000的硬件設計和指令系統的特點(diǎn),結合應用開(kāi)發(fā)過(guò)程中遇到的問(wèn)題,對這種高速并行DSP器件的開(kāi)發(fā)方法進(jìn)行了總結。

1 TMS320C6000的硬件設計和指令系統

TMS320C6000系列DSP(數字信號處理器)是TI公司最新推出的一種并行處理的數字信號處理器。它是基于TI的VLIW技術(shù)的,其中 TMS320C62xx是定點(diǎn)處理器,TMS320C67xx是浮點(diǎn)處理器。本文主要討論TMS320C6201。該處理器的工作頻率最高可以采用 50MHz,經(jīng)內部4倍頻后升至200MHz,每個(gè)時(shí)鐘周期最多可以并行執行8條指令,從而可以實(shí)現1600MIPS的定點(diǎn)運算能力,而且完成1024定點(diǎn)FFT的時(shí)間只需70μs。

1.1 TMS320C6000的硬件結構

圖1是TMS320C6000 CPU的結構圖。



TMS320C6000的CPU有兩個(gè)數據通道A和B,每個(gè)通道有16個(gè)32位字長(cháng)的寄存器(A0~A15,B0~B15),四個(gè)功能單元 (L,S,M,D),每個(gè)功能單元負責完成一定的算術(shù)或者邏輯運算。A、B兩通道的寄存器并不是完全共享,只能通過(guò)TMS320C6000提供的兩個(gè)交換數據通道1X、2X,才能實(shí)現處理單元從不同通道的寄存器堆那里獲取32位字長(cháng)的操作數。

TMS320C6000的地址線(xiàn)為32位,存儲器尋址空間是4G。C6201片內集成有1Mbit SRAM——512Kbit的程序存儲器(根據需要可全部配置成Cache)和512Kbit的數據存儲器。通過(guò)片內的程序存儲空間控制器,CPU一次可以取出256bit,即一次最多可以取出8條32位指令。

C6201有32位的外部存儲接口EMIF為CPU訪(fǎng)問(wèn)外圍設備提供了無(wú)縫接口。外圍設備可以是同步動(dòng)態(tài)存儲器(SDRAM)、同步突發(fā)靜態(tài)存儲器(SBSRAM)、靜態(tài)存儲器(SRAM)、只讀存儲器(ROM),也可以是FIFO寄存器。

為了便于進(jìn)行多信道數字信號處理,TMS320C6000配備了多信道帶緩沖能力的串口McBSP。McBSP的功能非常強大,除具有一般 DSP串口功能之外,還可以支持T1/E1、ST-BUS、IOM2、SPI、IIS等不同標準。McBSP最多支持128個(gè)信道;支持多種數據格式(8 /12/16/20/24/32bit)的傳輸;可自動(dòng)進(jìn)行u律、A律壓擴。其工作速率可達到1/2時(shí)鐘速率。

TMS320C6000提供的16位主機接口(HPI)使得主機設備可以直接訪(fǎng)問(wèn)DSP的存儲空間。通過(guò)內部或外部存儲空間,主機和DSP可以交換信息。主機也可以利用HPI直接訪(fǎng)問(wèn)映射進(jìn)存儲空間的外圍設備。

DSP器件一般都帶有DMA控制器,可以在CPU操作的后臺進(jìn)行數據傳輸。TMS320C6201的DMA控制器有4個(gè)獨立的可編程通道,可以同時(shí)進(jìn)行四個(gè)不同的DMA操作,每個(gè)通道的優(yōu)先級可以通過(guò)編程設定。每個(gè)通道可以根據需要傳輸8/16/32bit的數據,并且DMA控制器可以訪(fǎng)問(wèn)全部 32位的地址空間。此外,還有一個(gè)輔助通道允許DMA控制器響應主機通過(guò)HPI口發(fā)來(lái)的請求。

1.2 指令系統

C62xx和C67xx共享同一個(gè)指令集。C67xx可以使用所有的C62xx指令,但因為C67xx是浮點(diǎn)芯片,所以C67xx的指令集中有一些指令只能用于浮點(diǎn)運算。TMS320C6201CPU的設計采用了類(lèi)似于RISC的結構,指令集簡(jiǎn)單、運算速度快。8個(gè)功能單元負責不同功能的運算, 指令和功能單元之間存在一個(gè)映射關(guān)系。其中,L單元有23條指令,M單元有20條指令,S單元29有條指令,D單元有26條指令。

TMS320C6201的大部分指令都可在單周期內完成,都可以直接對8/16/32bit數據進(jìn)行操作。同時(shí),TMS320C6201指令集針對數字信號處理算法提供了一些特殊指令:為復雜計算提供的40bit的特殊操作的加法運算;有效的溢出處理和歸一化處理;簡(jiǎn)潔的位操作功能等。 TMS320C6201中最多可以有8條指令同時(shí)并行執行;所有指令均可條件執行。以上所有特點(diǎn)提高了指令的執行效率、減小了代碼長(cháng)度、大大減少了因跳轉引起的開(kāi)銷(xiāo)、提高了編碼效率。

流水線(xiàn)操作是DSP實(shí)現高速度、高效率的關(guān)鍵技術(shù)之一。TMS320C6000只有在流水線(xiàn)充分發(fā)揮作用的情況下,才能達到1600MIPS的速度。C6000的流水線(xiàn)分為三個(gè)階段:取指、解碼、執行,總共11級。和以前的C3x、C54x相比,有非常大的優(yōu)勢,主要表現在:簡(jiǎn)化了流水線(xiàn)的控制以消除流水線(xiàn)互鎖;增加流水線(xiàn)的深度以消除傳統流水線(xiàn)結構在取指、數據訪(fǎng)問(wèn)和乘法操作上的瓶頸。其中取指、數據訪(fǎng)問(wèn)分為多個(gè)階段,使得C6000可以高速地訪(fǎng)問(wèn)存儲空間。

2 優(yōu)化編程的幾個(gè)方法

使用TMS320C6000進(jìn)行程序設計時(shí),首先的感覺(jué)是匯編指令集太小了。C6000在設計時(shí)采用了一種類(lèi)RISC機的結構,運算速度特別快,但是指令集卻非常簡(jiǎn)單。象DSP算法中常用的乘加指令、循環(huán)操作指令等,在C54x和C3x中兩條指令就可以完成的功能,而在C6000中卻需要一個(gè)循環(huán)體,所以它的程序設計一般比較復雜。要想充分發(fā)揮C6000的運算能力,必須從它的硬件結構出發(fā),最大限度地利用八個(gè)功能單元,使用軟件流水線(xiàn),盡量讓程序無(wú)沖突的并行執行。

并行處理的長(cháng)處在于,在處理彼此之間沒(méi)有承接關(guān)系的運算時(shí),在CPU資源允許的情況下可以并行完成。但對于前后有承接關(guān)系或者判斷、跳轉頻繁的情況,就無(wú)法發(fā)揮并行的優(yōu)勢。一般循環(huán)體都滿(mǎn)足并行處理的條件,并且循環(huán)體往往是程序中耗時(shí)最長(cháng)的地方。因此進(jìn)行C6000應用開(kāi)發(fā)時(shí)應將優(yōu)化重點(diǎn)放在循環(huán)體上。為了降低開(kāi)發(fā)難度,C6000提供了很多在高級語(yǔ)言(如ANSI C)一級對程序進(jìn)行優(yōu)化的方法。在應用滿(mǎn)足實(shí)時(shí)性處理要求時(shí),應盡量采用這種方法。但是這種方法的效率比較低,C語(yǔ)言優(yōu)化最好的例子是點(diǎn)乘,這種循環(huán)使用 C語(yǔ)言進(jìn)行優(yōu)化可以百分之百地的利用CPU資源,程序的并行性達到最好。但是我們在做20點(diǎn)的點(diǎn)乘時(shí)發(fā)現它的耗時(shí)是匯編語(yǔ)言程序的3倍。所以如果系統的實(shí)時(shí)性要求比較高,就不能使用這種優(yōu)化方法了。

這時(shí)可以考慮使用線(xiàn)性匯編語(yǔ)言進(jìn)行開(kāi)發(fā)。線(xiàn)性匯編語(yǔ)言是TMS320C6000中獨有的一種編程語(yǔ)言,介于高級語(yǔ)言和低級語(yǔ)言之間。因為在用手寫(xiě)匯編語(yǔ)言進(jìn)行應用開(kāi)發(fā)時(shí),開(kāi)發(fā)者除了要精通C6000的指令系統之外,還必須為指令分配功能單元、考慮指令的延遲和功能單元之間的配合以及合理分配使用 32個(gè)寄存器,才能寫(xiě)出高效的并行指令,發(fā)揮C6000的威力。上面任何一個(gè)方面出現問(wèn)題,都會(huì )嚴重影響算法的效率。

線(xiàn)性匯編語(yǔ)言的指令系統和匯編語(yǔ)言的指令系統完全相同,但是它有自己的匯編優(yōu)化器指令系統,用于和匯編優(yōu)化器配合使用。與匯編語(yǔ)言的最大區別在于,編寫(xiě)線(xiàn)性匯編語(yǔ)言時(shí)不需要考慮指令的延時(shí)、寄存器的使用和功能單元的分配,完全可以按照高級語(yǔ)言的方式進(jìn)行編寫(xiě)。當然由于它不是高級語(yǔ)言,有許多編程的限制。例如,在優(yōu)化循環(huán)體時(shí),不能使用跳轉到循環(huán)體之外的跳轉指令;另外計數器只能使用減計數,如果使用加計數,優(yōu)化器將不能工作等等。但總的說(shuō)來(lái),它的代碼效率遠遠高于高級語(yǔ)言,而且開(kāi)發(fā)難度和開(kāi)發(fā)周期比匯編語(yǔ)言要小得多。

在實(shí)際開(kāi)發(fā)過(guò)程中需要具體情況具體分析,選擇一種高效、快捷的開(kāi)發(fā)方法。以下結合應用開(kāi)發(fā)中的幾個(gè)模塊來(lái)簡(jiǎn)述我們使用的優(yōu)化方法。

2.1 使用匯編語(yǔ)言

使用匯編語(yǔ)言進(jìn)行并行編程難度比較大。但在有些情況下,程序中數據有非常強的承接關(guān)系,并且該程序體邏輯關(guān)系清楚,使用的寄存器不超過(guò)32個(gè), 這時(shí)直接使用匯編語(yǔ)言實(shí)現,效率會(huì )更高。另外,有些使用C語(yǔ)言比較難實(shí)現的運算函數,在C6000的匯編指令集中可能有專(zhuān)用DSP指令,這時(shí)就可以直接使用匯編語(yǔ)言實(shí)現。

使用匯編語(yǔ)言進(jìn)行編程時(shí)特別需要注意的是C6000指令的延遲情況,有些指令并不是立刻就能得到結果。C6000指令集中有延遲的指令如表1所示。



例1 32位歸一化函數norm_l()

  short  norm_l(long L_var1)

    {short var_out;

    if (L_var1 == 0L) {

    var_out = (short)0;

    }

  else {

     if (L_var1 == (long)0xffffffffL) {

           var_out = (short)31;

          }

    else {

         if (L_var1 < 0L) {

             L_var1 = *L_var1;

             }

             for(var_out=(short)0;L_var1<(long)0x40000000L;

                var_out++) {

             L_var1 <<= 1L;

    }}}

    return(var_out);

    }

使用匯編語(yǔ)言進(jìn)行優(yōu)化:

          .global _norm_l

_norm_l:

          B      B3

          CMPEQ  0,A4,B0

[!B0]     NORM   A4,A4

          NOP    3

消耗時(shí)間(時(shí)鐘周期):C語(yǔ)言norm_l()為723;匯編語(yǔ)言為11。

2.2 使用線(xiàn)性匯編語(yǔ)言重寫(xiě)整個(gè)函數

對于某些以循環(huán)體為主的函數可以使用線(xiàn)性匯編語(yǔ)言重寫(xiě)整個(gè)函數。使用匯編優(yōu)化器進(jìn)行優(yōu)化之后,效率是非常高的。

下面例子是算法中計算幀能量的函數,其中包含兩個(gè)單循環(huán)體。進(jìn)行優(yōu)化時(shí),首先要確定循環(huán)的次數。對于循環(huán)次數是變量的情況,優(yōu)化器不進(jìn)行并行優(yōu)化; 其次盡量減少數據存取次數,例如以32位存取指令對16位數據進(jìn)行存取,可以節省一半的存取周期。仔細觀(guān)察C代碼,會(huì )發(fā)現兩次循環(huán)次數相同。第二個(gè)循環(huán)要用到第一個(gè)循環(huán)的結果,因此可以將兩個(gè)循環(huán)合并在一起,這樣就避免了在第二個(gè)循環(huán)中再從存儲器中取結果,減少了一半的Load操作。

  long   Comp_En( short *Dpnt)

    {  int   i ;

      long   Rez ;

      short   Temp[60] ;                  

      for ( i = 0 ; i < 60 ; i ++)

          Temp[ i] = shr( Dpnt[ i], (short) 2) ;

      Rez=(long) 0 ;

      for (i=0; i <60; i ++)

         Rez=L_mac(Rez, Temp[ i], Temp[ i]);

      return Rez ;

  }

相應的線(xiàn)性匯編程序如下:

  .global _Comp_En          ;函數名定義,對c變量前加__Comp_En .cproc  Dpnt;函數頭定義,Dpnt是參數

  .reg Rez,Rez1,Rez2,I   ;寄存器定義,不必考慮實(shí)際的寄存器分配

  .reg t1,t2,x1,c1,m1,m2

    zero Rez

    zero Rez1

    zero Rez2

    mv  Dpnt,c1

    mvk 30,i                 ;確定循環(huán)次數。因為用LDW代替LDH,循環(huán)次數減少一半。

loop1 .trip 30   

      ldw *c1++,x1

      shl x1,16,t1

      shr t1,2,t1

      shr x1,2,t2           ;將兩個(gè)循環(huán)合在一起,又減少了一半的從內存取數據的時(shí)間。

      smpyh t1,t1,m1

      smpyh t2,t2,m2

      sadd Rez1,m1,Rez1

      sadd Rez2,m2,Rez2

      [ i] sub i,1,i         ;循環(huán)計數器從30遞減

      [ i] b loop1               

      sadd Rez1,Rez2,Rez

    .return Rez

    .endproc        

消耗時(shí)間(時(shí)鐘周期):C語(yǔ)言為32971;線(xiàn)性匯編語(yǔ)言為93。

2.3 使用線(xiàn)性匯編改寫(xiě)復雜函數中的循環(huán)體

當函數的邏輯關(guān)系復雜,判斷、跳轉、函數調用情況特別多時(shí),上面方法的效果就會(huì )大打折扣。這時(shí)可以使用線(xiàn)性匯編將其中的循環(huán)部分改寫(xiě)成一個(gè)函數,以?xún)?yōu)化后的函數調用代替循環(huán)部分,而不是優(yōu)化整個(gè)復雜函數。

高速數字信號處理器件的應用范圍越來(lái)越廣,特別是在移動(dòng)通信領(lǐng)域中,軟件無(wú)線(xiàn)電、智能天線(xiàn)等新技術(shù)的實(shí)現都需要強大的實(shí)時(shí)數字信號處理的支持。 TMS320C6000系列DSP完全可以滿(mǎn)足此類(lèi)要求。但目前對于并行DSP技術(shù)的軟硬件開(kāi)發(fā)還處在摸索階段,如何充分利用高速DSP的資源,是這方面的研究重點(diǎn)。本文研究了最新推出的TMS320C6000的優(yōu)化策略,從工程和系統的角度總結出一套既能滿(mǎn)足實(shí)時(shí)性又能保證開(kāi)發(fā)時(shí)效性的實(shí)用的優(yōu)化編程方法,以供分饗。
本文地址:http://selenalain.com/thread-3020-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
yuhuikeji 發(fā)表于 2015-6-30 00:29:30
謝謝分享。。。。。。!
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页