為了人臉識別的相關(guān)算法能快速運行,選擇了TI公司的DSP處理器,另附加鍵盤(pán)模塊和PAL制式輸出模塊,可以脫離PC獨立對PAL視頻信號進(jìn)行采集和處理,并獨立運行人臉的定位,特征抽取以及人臉的識別。硬件方面,系統采用了存儲器切換系統,使得圖像數據緩存和讀取分別由CPLD和DSP獨立且同時(shí)執行,縮短了數據的處理周期,保證了系統的實(shí)時(shí)運行。軟件設計包括了:人臉定位、人眼定位、樣本存儲以及人臉識別。其中樣本由DSP自動(dòng)選取,根據人眼定位和人臉標記方框的大小共同決定,選取一部分大小相等且眼距相同的圖片作為訓練樣本以及待識別樣本。在主分量分析過(guò)程中,提取出主分量構成特征臉空間,將原樣本投影到該空間內一點(diǎn),再輸送到KNN分類(lèi)器中進(jìn)行分類(lèi)。該設備攜帶方便,功耗低并可通過(guò)軟件設計將其應用到其他領(lǐng)域,如運動(dòng)識別、動(dòng)態(tài)跟蹤等。 1 人臉檢測的算法 人臉檢測系統可以分為人臉檢測和人臉識別模塊,這兩大模塊又進(jìn)一步可劃分為人臉檢測與定位、規范化、特征提取和人臉識別4個(gè)模塊。其詳細結構,如圖1所示。 1.1 人臉的定位 通過(guò)已獲得的樣本來(lái)判斷人臉的位置,選取合適的人臉,截取出做樣本是重要的步驟。人臉特征定位與特征提取質(zhì)量的好壞對于人臉圖像識別效果有直接的影響。首先確定人眼的坐標(x1,y1)和(x2,y2),由此可間接得到正方形人臉的左上頂點(diǎn)和右下頂點(diǎn)的坐標,設其分別為(X1,Y1)和(X2,Y2),其詳細計算方法如下所示 式中,RH和RV均為經(jīng)驗常數,在設計過(guò)程中將其分別取值為2.0和3.5。如此可在原圖中得到人臉的區域座標,其尺寸隨眼距Widtheyes的大小而變化,但是作為PCA的輸入,要求輸入樣本的維數相同,所以必須對圖片進(jìn)行歸一化處理。在設計中將所得人臉區域樣本均縮放至24×24。此外還需要對圖片進(jìn)行對比度調節和直方圖均衡等操作,以提高識別的準確性。 1.2 人臉特征提取 在設計人臉識別分類(lèi)器時(shí),通常將一幅圖片看成一個(gè)一維向量。雖然這與傳統的將圖片看成矩陣形式有差別,但是卻能為采用主分量分析(PCA)進(jìn)行特征臉提取創(chuàng )造有利條件。 特征臉?lè )诸?lèi)的方法是將一幅圖像投影到一個(gè)特定“臉空間”的一個(gè)點(diǎn)。這個(gè)“臉空間”由一股互相正交的向量組成。這些向量便是表征各個(gè)人臉聚類(lèi)的重要組成部分。不同人臉的圖片在此空間的相差較遠,相同人臉的不同圖片在此空間上的投影相距較近。因此可以使用PCA的方法為整個(gè)人臉識別系統打下基礎。 第一步,采集到N個(gè)樣本用作訓練集X,求出樣本平均值m,如式(1)所示 其中,xi∈樣本訓練集X=(x1,x2,…,xN)。 第二步,求出散布矩陣S,如式(2)所示 根據PCA的基本原理,必須求出散布矩陣的特征值λi和對應的特征向量ei。其中,ei便是主分量,且其對應的特征值的大小代表它包含信息的多少。所以需要將特征值從大到小依次排列λ1,λ2,…。如圖2所示,左邊是由λ1對應的特征向量重建的人臉圖像,基本能分辨出人臉的輪廓,右邊是由λ100對應的特征向量重建的圖像,看起來(lái)更像是噪聲,如果將其應用到系統中,對識別是不利的。 假設取出p個(gè)值,λ1,λ2,…,λp可以確定出臉空間E=(e1,e2,…,eP),在此臉空間上,訓練樣本X中,每個(gè)元素投影到該空間的點(diǎn)可以由式(3)得到 由上式得到的是將原向量經(jīng)過(guò)PCA降維后的p維向量,下一步便是將其輸入KNN分類(lèi)器進(jìn)行分類(lèi)。 1.3 KNN分類(lèi)器的構建 KNN的實(shí)現分訓練和識別兩步。訓練時(shí),把每類(lèi)樣本降維后的結果作為KNN的輸入。K近鄰算法將一個(gè)測試點(diǎn)x分類(lèi)為與它最接近的K個(gè)近鄰中出現最多的那個(gè)類(lèi)別,從測試樣本點(diǎn)開(kāi)始生長(cháng),不斷擴大區域,直到包含進(jìn)K個(gè)訓練樣本點(diǎn)為止,并且把測試樣本點(diǎn)的類(lèi)別歸為這最近K個(gè)訓練樣本點(diǎn)中出現頻率最大的類(lèi)別。如圖3所示,圓圈表示待識別數據所處的位置,選擇K值為3時(shí),選中實(shí)線(xiàn)圓中的3個(gè)數據,識別結果為三角形代表的類(lèi);選擇K值為5時(shí),選中虛線(xiàn)圓中的5個(gè)數據,識別結果為正方形代表的類(lèi)。所以選取恰當的K值對分類(lèi)的結果有很大影響。如果K值選取過(guò)大時(shí),可能能較正確地分類(lèi),但是同時(shí)犧牲了性能,提高了計算復雜度。如果K值選取過(guò)小,則大大降低了計算復雜度,但是可能會(huì )影響分類(lèi)的準確性。 2 系統硬件設計 系統設計時(shí)選用TMS320C6713,這是TI公司生產(chǎn)的C6000系列的浮點(diǎn)處理器,其采用了VLIW體系結構,指令運行的等效周期數較低,運行速度較快。圖像的采集采用了PAL制式輸出的普通攝像頭加上TI公司生產(chǎn)的圖像編碼芯片TVP5147,該芯片支持多種制式,多種接口輸入,并可以輸出YUV格式的視頻數據,同時(shí)提供行同步信號和垂直同步信號等。數據暫存使用CPLD和SRAM實(shí)現。設計系統構成,如圖4所示。 2.1 TVP5147芯片 系統上電時(shí),TMS320C6713首先對TVP5147初始化,其通過(guò)I2C總線(xiàn)實(shí)現,DSP自帶I2C總線(xiàn)控制器。芯片I2C地址是由芯片引腳I2CA的電平控制的,如該引腳接高電平,則I2C寫(xiě)地址為0xB8,否則為OxBB。 假如系統初始化為從Y[9..O]端口輸出10位的YUV混合視頻數據,則可知道其輸出符合以下時(shí)序,如圖5所示。 圖中第一行為DATACLK信號,其為T(mén)VP5147芯片提供的數據時(shí)鐘信號,第二行為數據Y[9…0],當每一行圖像開(kāi)始之前,會(huì )有4個(gè)SAV信號,同樣,結束之后也有4個(gè)EAV信號,如圖5所示,數據是YCbCr格式,每個(gè)像素點(diǎn)的數據為4個(gè)數據組成,一次為Cb,Y,Cr,Y。而由圖5中可以看出AVID信號為高電平時(shí),表明當前的數據為有效數據。這為CPLD采集有效數據提供了參考信號。同時(shí)TVP5147芯片還輸出FID信號,該信號為奇偶場(chǎng)指示信號。 2.2 CPLD讀寫(xiě)SRAM 存儲器選擇了DS1265AB,它是SRAM存儲器,具有存儲速度快的優(yōu)點(diǎn),并能夠在系統掉電時(shí)保存數據10年。DS1265具有1 MB的容量,20根地址線(xiàn),8根數據線(xiàn),另有WE,OE,CE信號輸入端。 CPLD選用EPM7128具有價(jià)格便宜、計數頻率高等優(yōu)點(diǎn)。將存儲器SRAM接到CPLD的IO引腳上,配合時(shí)序便能達到對SRAM讀寫(xiě)的要求,原理圖,如圖6所示。 編寫(xiě)CPLD程序使得輸出時(shí)序滿(mǎn)足SRAM的存儲要求,當然對于設計的具體要求,利用兩片SRAM分別存儲奇偶場(chǎng)的數據,SRAM的切換是由奇偶場(chǎng)信號FID控制多片74HC245實(shí)現的,詳細過(guò)程,如圖7所示。當FID處于高電平時(shí),此時(shí)M1和M4使能,此時(shí)CPLD將地址信號CPLDaddr輸入SRAM1中,DSP將地址信號DSPaddr輸入至SRAM2中,同時(shí)M6和M8使能,由圖中可以看出,此時(shí)CPLD正向SRAM1寫(xiě)入數據,而DSP正從SRAM2中讀取數據,同時(shí)M10使能,CPLD的信號CPLDctl控制SRAM1的讀寫(xiě),而DSP的信號DSPctl控制SRAM2的讀寫(xiě),當FID轉為低電平時(shí),正好將SRAM1和SRAM2實(shí)現了交換。以這種方式構建的系統,能同時(shí)將視頻的兩場(chǎng)數據同時(shí)記錄下來(lái),實(shí)現了CPLD和DSP的有機結合。至此CPLD的任務(wù)就是將有效的圖像數據存儲到對應的SRAM中,當TVP5147芯片AVID引腳上升沿時(shí),置地址為初始值00h,即從首地址依次往后寫(xiě)入。每一個(gè)數據時(shí)鐘信號DATACLK上升沿時(shí)將TVP5147輸出的Y[9…2]存儲到當前地址單元,Y0和Y1位舍棄,因為所選擇的SRAM數據位為8位,當放棄Y0和Y1位后,降低了圖像數據的精度,但對識別效果的影響卻很小,然后隨著(zhù)DATACLK每次上升沿的來(lái)臨,CPLD將地址單元加1,這樣實(shí)現每一場(chǎng)數據的寫(xiě)入。當切換至另一場(chǎng)數據時(shí),執行的過(guò)程相同,只是存儲的對象被74HC245強制更改,如此循環(huán),便可將每場(chǎng)數據記錄下來(lái)。 2.3 圖像輸出系統的設計 系統設計時(shí)為了減輕負擔,采用電視監控的方法,將小型電視機通過(guò)TI公司的視頻編碼芯片THS8135連接至DSP總線(xiàn),將得到的YUV數據通過(guò)THS8135直接輸出至電視AV的視頻接收端,并且通過(guò)DSP可以將一些信息顯示到電視屏幕上,這樣使得識別的過(guò)程更加人性化。 3 系統軟件設計 系統硬件調試成功后,需要提供一定的軟件算法等,以實(shí)現軟件和硬件的結合,在此設計中,SRAM是擴展在DSP處理器EMIF上的,DSP處理器通過(guò)讀信號的觸發(fā)將有效奇偶場(chǎng)數據分別存儲為兩個(gè)一維數組,以供處理。 3.1 DSP的圖像預處理 TVP5147芯片輸出的圖像數據并非RGB格式,而是以YUV格式輸出的。需要通過(guò)DSP處理器轉換成RGB格式,才能進(jìn)行圖像的預處理,轉換公式如式(4)所示 DSP將圖像數據讀入內存空間,然后對其進(jìn)行運算,將得到的RGB分別放到對應的存儲單元,并算出灰度值Gray,運算公式如式(5)所示 將最后得到的灰度值存放到對應的數組當中。每張圖片由兩場(chǎng)圖片構成,所以完整的圖片分辨率為720×576。但是對于系統本身無(wú)需對其每一個(gè)像素都進(jìn)行轉換,所以截取其中320×240進(jìn)行存儲,這樣每場(chǎng)的分辨率為320×120,大大降低了由YUV到灰度圖像預處理和臉部定位的時(shí)間,提高了系統的性能。 3.2 人臉判別流程 將得到的320×240的圖片經(jīng)過(guò)人臉的檢測后,將截取人臉的部分作為人臉樣本。設計時(shí),人臉的所有樣本都將在顯示器上顯示出來(lái),降低了人臉錯誤檢測的可能,一定程度上提高系統的準確性。 人臉的樣本分辨率為24×24,作為576維的一維向量輸入至PCA。圖8(a)為計算PCA投影矩陣的流程圖,圖8(b)為KNN分類(lèi)器的工作流程圖,其中訓練樣本經(jīng)過(guò)PCA投影后的數值,不需要在每次識別中重新計算,可以作為初始化時(shí)的計算,也可存儲于掉電非易失介質(zhì)中,如Flash存儲器中,可以提高設備的運行效率,降低運算量。 如圖8所示,KNN分類(lèi)器可以判斷最接近的分類(lèi),但是并不能拒絕分類(lèi),于是產(chǎn)生了任何人的臉都將被分到內置樣本集的一類(lèi)中。這樣的分類(lèi)方式是不可取的,所以必須加入是否拒絕的判定,流程圖如圖9所示。 如流程圖中顯示,當樣本點(diǎn)經(jīng)過(guò)PCA降維后,輸送至KNN分類(lèi)器進(jìn)行分類(lèi),所得到的結果一定可以判定為第K類(lèi),此時(shí)不能急于定論,先求出待測點(diǎn)與K類(lèi)標號的樣本點(diǎn)的歐氏距離之和sum。定義兩個(gè)閾值a和b,如果sum<a值則判定為第一類(lèi);如果sum>b值則判定為拒絕類(lèi);如果sum介于a和b值之間,則引入精度控制量accuracy,計算出sum與a的差值,如若小于精度控制量accuracy,則判定為第K類(lèi),否則拒絕分類(lèi)。由這樣的過(guò)程,間接解決了樣本錯分和無(wú)法判否的問(wèn)題。 4 試驗結果 該實(shí)驗中,選定a的值為12 400,b的值為16 200,這兩個(gè)值的確定需要進(jìn)行大量的實(shí)驗,從中找出規律。x的值的大小直接影響識別的效果,文中分別選取x=4和x=5進(jìn)行了測試。 (1)x=4時(shí):程序在測試可識別庫中的分屬12個(gè)人的36幅人臉圖像時(shí),正確識別出其中的33幅,其余3幅圖像均被判否,0個(gè)判錯。程序在測試不可識別庫中的分屬3個(gè)人的33幅人臉圖像時(shí),22幅圖像被成功判否,11幅被誤判; (2)x=5時(shí):程序在測試可識別庫中的分屬12個(gè)人的36幅人臉圖像時(shí),正確識別出其中的25幅,其余ll幅圖像均被判否,O幅判錯。程序在測試不可識別庫中的分屬3個(gè)人的33幅人臉圖像時(shí),28幅圖像被成功判否,5幅被誤判。 分析上面的實(shí)驗數據可知,x=4時(shí),可識別庫的識別率為91.6%,不可識別庫的判否率為66.7%。x=5時(shí),可識別庫的識別率為69.4-%,不可識別庫的判否率為84.8%。因此,應用于不同的場(chǎng)合時(shí),應選擇不同的x值,當要求盡可能拒絕外來(lái)人臉時(shí),可選x值為5,當要求盡量識別已知人臉時(shí),可選x值為4。 5 結束語(yǔ) 此人臉識別系統的構建,充分考慮了其推廣性,未采用USB攝像頭作為圖像采集設備,而以通用視頻標準的模擬攝像頭取而代之,因此用戶(hù)在攝像頭選擇的時(shí)候,可以更加自由。同時(shí)該設備支持多種接口輸入,除了普通的R-jack口之外,還提供了Svideo,YPbPr和RGB等輸入方式。該設備的識別精度可達90%以上,基本滿(mǎn)足了識別要求。系統實(shí)時(shí)性好、攜帶方便,可以通過(guò)程序的修改推廣到動(dòng)態(tài)圖像跟蹤、運動(dòng)檢測等領(lǐng)域。 |