視覺(jué)是人類(lèi)最重要的感覺(jué),也是人類(lèi)獲取信息的主要來(lái)源。據統計,人類(lèi)從外界獲取的信息中,75%來(lái)自視覺(jué)。與其他的信息形式相比,視頻信息具有直觀(guān)、具體、生動(dòng)等諸多顯著(zhù)優(yōu)點(diǎn),并且所包含的信息量很大!鞍俾劜蝗缫灰(jiàn)”、“一圖值千言”等成語(yǔ)都說(shuō)明了這一點(diǎn)。因此,各種視頻信號處理技術(shù)的研究和應用一直吸引著(zhù)國內外廣大科技人員的關(guān)注。20世紀90年代,計算機技術(shù)、信息技術(shù)、網(wǎng)絡(luò )技術(shù)及其他各種相關(guān)技術(shù)的發(fā)展,進(jìn)入了信息的數字化時(shí)代。在此階段,視頻信號處理技術(shù)得到了快速發(fā)展,特別是視頻、音頻和多媒體通信等方面的國際標準不斷推出,有力促進(jìn)了視頻信號處理技術(shù)逐步進(jìn)入實(shí)用化階段,如視頻會(huì )議、可視電話(huà)、數字電視等應用的出現。以視頻信息處理為主的多媒體技術(shù)已經(jīng)成為21世紀最具有時(shí)代特征和最富有活力的研究和應用領(lǐng)域之一。 視頻信號處理主要包括視頻信號的采集、處理、編碼和傳輸。近年來(lái)的研究熱點(diǎn)主要集中在視頻信號的高效壓縮編碼、智能視頻處理、三維立體視頻信號的高效傳輸與重建等。 視頻信號處理的相關(guān)概念 視頻是一組在時(shí)間軸上有序排列的圖像,是二維圖像在一維時(shí)間軸上構成的圖像序列,又稱(chēng)為動(dòng)態(tài)圖像。它不僅包含靜止圖像所包含的內容,還包含場(chǎng)景中目標運動(dòng)信息和客觀(guān)世界隨時(shí)間變化的信息。早期的視頻主要是模擬的視頻信號,隨著(zhù)各種電子技術(shù)的發(fā)展以及全球數字化進(jìn)程的推進(jìn),數字化技術(shù)以其易存儲、易傳輸、無(wú)誤碼積累等特點(diǎn)大大促進(jìn)了圖像和視頻的發(fā)展與應用。 模擬視頻信號由視頻模擬數據和視頻同步數據構成,用于監視器正確地顯示圖像,圖像的細節取決于所應用的視頻標準或制式。模擬視頻主要有三種制式:NTSC(National Television StandardsCommittee)、PAL(Phase Alternation Line)和SECAM(Sequential Couleur AvecMemoire)等,這三種制式皆屬兼容制,其共同點(diǎn)是都采用能與黑白電視兼容的亮度信號和兩個(gè)色差信號作為傳輸信號,其不同點(diǎn)是兩個(gè)色差信號對副載波采用不同的調制方式。三種視頻制式的主要參數如表1所示。 為了在不同的應用和產(chǎn)品之間交換數字視頻,需要數字視頻格式標準。為了便于國際節目交換以及PAL制系統與NTSC制系統之間兼容,這就導致了通用數字視頻標準的出現。通用數字視頻標準主要包括國際無(wú)線(xiàn)電通信咨詢(xún)委員會(huì )(CCIR)所制定的數字分量視頻標準CCIR-601及CCIR-656。CCIR-601定義了對應于525行和625行電視系統的電視演播數字視頻標準,建立在帶有一個(gè)亮度(Y)和兩個(gè)色差(Cr和Cb)信號的分量視頻的基礎上,在525行和625行系統中,采樣頻率均選擇水平掃描頻率的整數倍。CCIR-656是在CCIR-601的基礎上發(fā)展的一種新數字視頻標準,使用27MHz的時(shí)鐘對視頻信號進(jìn)行采樣,其中亮度(Y)信號采樣頻率為13.5MHz,色差(U和V)采樣頻率為6.75MHz,量化比特為8bit或10bit。由于CCIR-656視頻數據流采用8根信號線(xiàn)(傳統方式需要19根信號線(xiàn))就可以傳輸所有的圖像信息和行同步、場(chǎng)同步、偶同步信息,因此采用CCIR-656方式進(jìn)行接口設計時(shí),便于實(shí)時(shí)數字圖像處理硬件平臺以功能單元為單位進(jìn)行模塊化設計。 嵌入式視頻信號處理技術(shù)面臨的挑戰 視頻信號傳輸的帶寬需求 視頻信號數字化后的數據量非常龐大,如一路PAL制的數字電視的數據速率高達216Mb/s,這無(wú)疑給存儲器的存儲容量、通信線(xiàn)路的信道傳輸率以及計算機的計算速度都帶來(lái)了極大的壓力。同時(shí),這也是制約多媒體技術(shù)發(fā)展的一個(gè)瓶頸問(wèn)題。解決這一問(wèn)題,單純通過(guò)擴大存儲器容量、增加通信線(xiàn)路的傳輸率是不現實(shí)的,因此需要對視頻數據進(jìn)行壓縮編碼。近年來(lái),國際標準化組織ISO、國際電工委員會(huì )IEC、國際電信聯(lián)盟ITU-T以及中國音視頻編碼標準化工作組相繼制定了一系列數字視頻圖像編碼的國際標準。 視頻信號處理對計算能力的需求 在嵌入式應用中,視頻信號處理主要包括視頻編碼應用等,新一代視頻編碼標準H.264以實(shí)現視頻的高壓縮比、高圖像質(zhì)量、良好的網(wǎng)絡(luò )適應性等優(yōu)點(diǎn),為廣大視頻應用產(chǎn)業(yè)所接納。相對于傳統視頻標準MPEG-2、MPEG-4而言,H.264在碼率壓縮效率上具有無(wú)可比擬的優(yōu)勢,在相同畫(huà)面質(zhì)量的情況下,H.264需要的帶寬只有MPEG-4的1/2、MPEG-2的1/8。但是,H.264算法非常復雜,其編解碼的實(shí)時(shí)性難以保證,通常只能實(shí)現對中低分辨率視頻的實(shí)時(shí)編碼。 視頻信號處理對能量的需求 作為便攜式系統的移動(dòng)視頻終端,通常使用電池進(jìn)行供電,其供能系統的容量受到很大的限制。因為視頻業(yè)務(wù)的處理算法相對復雜,并且用戶(hù)在享受業(yè)務(wù)時(shí)需要長(cháng)時(shí)間開(kāi)啟終端屏幕,所以必然會(huì )消耗大量的能量。這一問(wèn)題大大制約了移動(dòng)視頻通信業(yè)務(wù)的發(fā)展,因而需要設計低能耗的視頻信號處理算法,減少視頻終端的能量消耗。 視頻數據對傳輸質(zhì)量的要求 隨著(zhù)無(wú)線(xiàn)網(wǎng)絡(luò )的飛速發(fā)展,無(wú)線(xiàn)視頻應用越來(lái)越普及。但是由于無(wú)線(xiàn)信道受多徑影響,誤碼率高,時(shí)變性強,而實(shí)時(shí)視頻在無(wú)線(xiàn)網(wǎng)絡(luò )傳輸中容易受誤碼、抖動(dòng)等影響,直接導致終端數據流信息無(wú)法完整回放,因此如何保證視頻傳輸服務(wù)質(zhì)量顯得異常重要。 多媒體應用中視頻信號處理技術(shù)的發(fā)展情況 視頻壓縮編碼技術(shù) 視頻壓縮編碼技術(shù)是視頻信號處理的核心技術(shù)之一,理論和應用領(lǐng)域都致力于該技術(shù)的研究,并且制定了一系列國際標準。目前影響最大并被廣泛應用的是ISO的MPEG系列、ITU-T的H.26x系列和中國自主制定的AVS系列標準(參見(jiàn)圖1)。 AVS視頻編碼標準是由我國“數字音視頻編解碼技術(shù)標準工作組”自主制定的,相比于第一代標準MPEG-2,編碼效率提高2~3倍,實(shí)現方案簡(jiǎn)潔。AVS視頻標準可以廣泛應用于IPTV、數字電視廣播等。AVS與MPEG-4/H.264采用的技術(shù)方案比較如表2。 交互式三維視頻 交互式三維視頻是近年來(lái)興起的一種新型媒體,在傳統的二維視頻的基礎上,它增加了視覺(jué)的現實(shí)感和逼真感,用戶(hù)在欣賞節目的同時(shí),能夠自由的選擇視點(diǎn)與視角,交互性是這種媒體的重要特征。根據不用的應用場(chǎng)景,交互式三維視頻主要分為交互式全方位視頻、交互式立體視頻、交互式多視角視頻等幾種類(lèi)型。 (1)交互式全方位視頻 交互式全方位視頻(Interactive Omnidirectional Video)也被稱(chēng)為沉浸式視頻(ImmersiveVideo)。觀(guān)察者視點(diǎn)不變,改變觀(guān)察方向能夠觀(guān)察到周?chē)娜繄?chǎng)景,普通的二維視頻只反應了全方位視頻的某個(gè)局部,難以使人產(chǎn)生身臨其境的沉浸感,利用全方位視頻可以建立起供用戶(hù)觀(guān)察的虛擬環(huán)境,用戶(hù)通過(guò)在其中的漫游,能夠交互地從不同觀(guān)察點(diǎn)和方向了解環(huán)境。全方位視頻攝像機的示意圖如圖2所示,由多個(gè)攝像機對同一視點(diǎn)周?chē)膱?chǎng)景進(jìn)行采集處理,任何一個(gè)視角的二維場(chǎng)景都可以由這些采集的圖像繪制出來(lái)。全方位視頻可以應用于廣播、存儲和交互式的在線(xiàn)應用等。 (2)交互式立體視頻 交互式立體視頻利用人眼的雙目視差原理,雙目各自獨立地接收來(lái)自同一場(chǎng)景、特定攝像點(diǎn)的左右圖像,從而獲得具有深度感的立體圖像。立體視頻由于能獲得景物的深度信息而具有強烈的真實(shí)感和逼真度。立體視頻的采集設備如圖3所示,攝像頭并行排列在一條直線(xiàn)上,模擬在水平位置上分開(kāi)的人眼,為了能夠使觀(guān)察者體驗到視角的變化,有時(shí)需要多個(gè)攝像機同時(shí)采集多個(gè)不同位置的圖像。 (3)交互式多視角視頻 交互式多視角視頻也被稱(chēng)為任意視角視頻(FreeViewpointVideo),用戶(hù)可以從不同的視點(diǎn)以任意的視角進(jìn)行觀(guān)察,中間視角的視頻圖像可以根據左右兩個(gè)視角的原始視頻圖像來(lái)插值生成。它是交互式視頻更一般的定義,上述的交互式全方位視頻和交互式立體視頻都是交互式多視角視頻的一個(gè)特例。這種視頻數據的采集設備如圖4所示,除了采集視頻信號之外,還可能需要攝像機的校正參數(包括一些內置參數和外置參數)、場(chǎng)景的幾何信息等,當然這些參數和幾何信息也可以用合適的算法從采集的圖像中估計出來(lái)。 隨著(zhù)交互式三維視頻采集和繪制技術(shù)的發(fā)展,編碼技術(shù)也就成為推廣交互式三維視頻應用的一個(gè)關(guān)鍵因素。與普通的二維視頻相比,三維視頻要處理的數據量非常大,所以必須充分利用空間、時(shí)間和視角之間的信息冗余,采用運動(dòng)補償預測、視差補償預測技術(shù),對三維視頻進(jìn)行有效的存儲和傳輸。 智能視頻技術(shù) 智能視頻技術(shù)是計算機視覺(jué)和模式識別技術(shù)在視頻中的應用,它對視頻圖像中的目標進(jìn)行自動(dòng)檢測、跟蹤和分析,從而過(guò)濾掉用戶(hù)不關(guān)心的信息,通過(guò)分析理解視頻畫(huà)面中的內容,提供有用的關(guān)鍵信息。其中運動(dòng)目標檢測、運動(dòng)目標分類(lèi)和運動(dòng)目標跟蹤是智能視頻處理中的低級和中級處理部分,而行為理解和描述則屬于高級處理部分。 (1)運動(dòng)目標檢測 運動(dòng)目標檢測是從視頻序列中將變化區域從背景圖像中提取出來(lái)。運動(dòng)區域的有效分割對于目標分類(lèi)、跟蹤和行為理解等后期處理是非常重要的,因為以后的處理過(guò)程僅僅考慮圖像中對應于運動(dòng)區域的像素。然而,由于背景動(dòng)態(tài)變化,如天氣、光照、影子及混亂干擾等的影響,使得運動(dòng)檢測成為一項相當困難的工作。目前幾種常用的方法有:背景減除、時(shí)間差分、光流、擴展的EM算法、能量運動(dòng)檢測、基于數學(xué)形態(tài)學(xué)的場(chǎng)景變化檢測等。 (2)運動(dòng)目標分類(lèi) 目標分類(lèi)是識別運動(dòng)目標所屬的類(lèi)別,不同的運動(dòng)區域可能對應于不同的運動(dòng)目標,比如交通道路上監控攝像機所捕捉的視頻序列中可能包含行人、車(chē)輛及其他諸如飛鳥(niǎo)、流云、搖動(dòng)的樹(shù)枝等運動(dòng)物體,為了便于進(jìn)一步對行人進(jìn)行跟蹤和行為分析,運動(dòng)目標的正確分類(lèi)是完全必要的。目前的分類(lèi)方法主要有:基于形狀信息的分類(lèi)、基于運動(dòng)特征的分類(lèi)以及時(shí)間共生矩陣進(jìn)行分層分類(lèi)的方法等。 (3)運動(dòng)目標跟蹤 對目標進(jìn)行分類(lèi)和分割之后,在連續視頻幀中將相同的目標對應起來(lái),實(shí)現目標的連續跟蹤。人體的跟蹤有兩層含義,一是在二維圖像坐標系下的跟蹤,二是在三維空間坐標系下的跟蹤。前者的實(shí)質(zhì)是指在二維圖像中,建立運動(dòng)區域和運動(dòng)人體(或人體的某部分)的對應關(guān)系,并在一個(gè)連續的視頻序列中維持這個(gè)對應關(guān)系。從運動(dòng)檢測得到的一般是人的投影,要進(jìn)行跟蹤就首先要給需要跟蹤的對象建立一個(gè)模型。對象模型可以是整個(gè)人體,這時(shí),形狀、顏色、位置、速度、步態(tài)等等都是可以利用的信息;也可以是人體的一部分,如上臂、頭部或手掌等,這時(shí)需要對這些部分單獨進(jìn)行建模。之后,將運動(dòng)檢測到的投影匹配到這個(gè)模型上去。一旦匹配工作完成,就得到了最終有用的人體信息了。常用的數學(xué)工具有卡爾曼濾波(Kalman Filtering)、Condensation算法及動(dòng)態(tài)貝葉斯網(wǎng)絡(luò )等。 (4)行為理解與描述 行為理解與描述是近年來(lái)被廣泛關(guān)注的研究熱點(diǎn)。它是指對運動(dòng)模式進(jìn)行分析和識別,并用自然語(yǔ)言等加以描述。行為理解可以簡(jiǎn)單地被認為是時(shí)變數據的分類(lèi)問(wèn)題,即將測試序列與預先標定的代表典型行為的參考序列進(jìn)行匹配。行為理解的關(guān)鍵問(wèn)題是如何從樣本學(xué)習中獲取行為序列,并且學(xué)習和匹配行為序列能夠處理在相似的運動(dòng)模式類(lèi)別中空間和時(shí)間尺度上輕微的特征變化。對于人的行為識別而言,目前主要有模板匹配方法與狀態(tài)空間方法。采用模板匹配技術(shù)的行為識別方法首先將圖像序列轉換為一組靜態(tài)形狀模式,然后在識別過(guò)程中與預先存儲的行為標本相比較;跔顟B(tài)空間模型方法是定義每個(gè)靜態(tài)姿勢作為一個(gè)狀態(tài),這些狀態(tài)之間通過(guò)某種概率聯(lián)系起來(lái)。任何運動(dòng)序列可以看作這些靜態(tài)姿勢的不同狀態(tài)之間的一次遍歷過(guò)程,在這些遍歷期間計算聯(lián)合概率,其最大值被定義為分類(lèi)行為的標準。目前,狀態(tài)空間模型已經(jīng)被廣泛地應用于時(shí)間序列的預測、估計和檢測。 總之,智能化是視頻應用發(fā)展的必然趨勢,國際上很多科研機構對智能視頻技術(shù)的研發(fā)和應用部署已有多年,特別是“911”事件之后,出于反恐、國家公共安全和社會(huì )安定等多方面的需要,智能化視頻監控和預警技術(shù)已經(jīng)成為國際上最被關(guān)注的前沿研究領(lǐng)域。 應用案例 (1)智能視頻監控 視頻監控系統是安全防范系統的組成部分,它是一種防范能力較強的綜合系統。視頻監控以其直觀(guān)、方便、信息內容豐富而被廣泛應用于許多場(chǎng)合。近年來(lái),隨著(zhù)計算機、網(wǎng)絡(luò )以及圖像處理、傳輸技術(shù)的飛速發(fā)展,視頻監控技術(shù)也有長(cháng)足的發(fā)展。同時(shí),隨著(zhù)智能技術(shù)特別是模式識別技術(shù)在理論和實(shí)踐上的逐漸成熟,將機器智能概念引入常規視頻監控系統成為該領(lǐng)域的重要突破點(diǎn)。 我們設計的智能視頻監控系統采用ARM微處理器為主控芯片,同時(shí)以TITMS320C642為視頻處理的協(xié)處理器,充分發(fā)揮了ARM的控制優(yōu)勢和DSP的信號處理優(yōu)勢。系統結構如圖5所示。DM642主要負責視頻數據的采集、編碼和智能分析,通過(guò)HPI和ARM進(jìn)行通訊,ARM可以通過(guò)網(wǎng)絡(luò )與監控中心相連,同時(shí)也可以進(jìn)行對視頻數據存盤(pán)處理。 (2)嵌入式WEB視頻服務(wù)器 嵌入式WEB視頻服務(wù)器利用MPEG-4專(zhuān)用芯片采集壓縮視頻信號,經(jīng)過(guò)服務(wù)器網(wǎng)絡(luò )接口傳送到監控中心,服務(wù)器同時(shí)可以接收監控中心發(fā)送的控制信號。視頻服務(wù)器硬件結構如圖6所示。服務(wù)器上電后,系統被加載到與ARM相連的SDRAM中運行,ARM通過(guò)串口控制云臺,轉動(dòng)攝像機獲取視頻信號,經(jīng)過(guò)SAA7114采樣芯片實(shí)現A/D轉換,轉換后的數字視頻數據傳給視頻壓縮芯片,完成視頻壓縮,壓縮后的數據緩存在一個(gè)FIFO中,當FIFO達到一定的數據量時(shí),觸發(fā)ARM中斷,由處理器的中斷服務(wù)子程序獲取該數據并存放于系統緩沖區中,等待發(fā)送程序讀取。當服務(wù)器監聽(tīng)到監控端的視頻請求時(shí),服務(wù)器將視頻數據打包并以流媒體的形式傳輸到監控端上去。 (3)基于SIP的可視電話(huà)終端 可視電話(huà)終端由于使用方便、安裝方便等優(yōu)點(diǎn),是目前國內外的研究熱點(diǎn)。實(shí)現方案也有很多種,如采用DSP、ARM或者專(zhuān)用的會(huì )議電視芯片等。這里采用的方案是:使用TI公司的通用DSO芯片TMS320DM642,利用純軟件方式實(shí)現音視頻編解碼,用三星公司的ARM9芯片S3C2410實(shí)現各種接口,嵌入式操作系統和傳輸控制協(xié)議等。這樣既不存在芯片成本過(guò)高的問(wèn)題,又能保證很高的性能,可以通過(guò)簡(jiǎn)單的程序下載實(shí)現軟件升級或者增加新的編解碼標準。系統的硬件結構框架如圖7所示。其中,TMS320DM643完成音頻壓縮編解碼G.711/G.729/G.723.1和視頻壓縮編解碼H.264,S3C2410完成SIP協(xié)議和嵌入式OS及各種接口。 |