智慧社區的安全 當人們談?wù)撐磥?lái)的生活時(shí),智慧社區一直是繞不開(kāi)的話(huà)題。2020年5月,中國《2020年國務(wù)院政府工作報告》提出,要重點(diǎn)支持“兩新一重” (新型基礎設施建設,新型城鎮化建設,交通、水利等重大工程建設),其中前兩項“新基建”和“新城建”,都會(huì )把智慧社區作為一個(gè)關(guān)注點(diǎn)。 智慧社區包含大量新鮮技術(shù),可以方便人們的生活。除了社區的自動(dòng)售貨超市,典型的應用還有家里的智能家居系統、樓下的自動(dòng)停車(chē)系統。眾多應用中,以社區安保系統最為關(guān)鍵。小到進(jìn)入社區和住宅樓的門(mén)禁系統,大到整個(gè)社區的攝像頭網(wǎng)絡(luò ),智能系統可以代替保安進(jìn)行身份驗證、巡邏、危險預警等工作。 美劇《疑犯追蹤》(Person of Interest)就描述了由高級人工智能支持和具有強大功能的安保系統。遍布在城市內的攝像頭網(wǎng)絡(luò )負責記錄全方位的信息,包括身份、行為甚至人與人的關(guān)系,這些相關(guān)的信息由中央大腦進(jìn)行分析,從而判斷威脅甚至對潛在威脅做出預測。當然,劇中近乎上帝一般的人工智能身上存在相當多科幻色彩,但其描繪的智能安保系統如今正在慢慢變成現實(shí)。在智慧社區和智能城市中,智能安保系統是實(shí)施安全防范控制的重要技術(shù)手段,它結合了人臉識別 (Face Recognition)、行為識別 (Action Recognition)、身份識別 (Person Re-identification) 的人工智能系統。 人臉識別技術(shù) 基于計算機的人臉識別技術(shù)研究發(fā)軔于20世紀中期,最早是模式識別 (Pattern Recognition) 的一個(gè)分支,后來(lái)逐漸發(fā)展完善了人臉檢測、人臉配準、人臉屬性識別、人臉驗證和識別等多種算法,F在這些技術(shù)已經(jīng)廣泛應用在日常生活中,包括手機和相機的人臉捕捉功能、上班自動(dòng)人臉識別打卡,一些新型住宅小區已經(jīng)加入了具有人臉識別功能的門(mén)禁系統。 人臉檢測 人臉識別算法的第一步就是確定當前圖像和視頻中是否有人臉的存在,并且把對應的人臉?lè )秶Χǔ鰜?lái)。2001年,Paul Viola與Michael Jones共同發(fā)明了著(zhù)名的Viola-Jones目標檢測方法,這是后來(lái)人臉檢測算法的基礎。 Viola-Jones算法包括特征和分類(lèi)器兩部分。算法利用了人臉的Haar特征,也就是由黑白矩形形成的、可以模擬目標的不同部分之間明暗關(guān)系的特征。這些特征可以用來(lái)尋找正面人臉上存在的一些明暗對比的區域,比如鼻梁部分比眼睛更亮、嘴巴部分一般會(huì )比其他區域更暗等等。這些特征可以匹配圖像中一些候選框,再用這些候選框經(jīng)過(guò)AdaBoost分類(lèi)器,輸出“是人臉”或“非人臉”的標記。值得指出的是,在Viola-Jones算法中,多個(gè)分類(lèi)器級聯(lián)形成一個(gè)集成分類(lèi)器。這樣的好處是逐級減少候選框的數量,提高了算法的計算速度。 后續的一些研究也立足于特征和分類(lèi)器兩個(gè)方面。在特征方面,現在的安保系統傾向于使用一些相對復雜的特征替代Haar特征,一方面可以提高系統的檢測率,另一方面可以更好地解決非正面臉部帶來(lái)的檢測失敗問(wèn)題。在分類(lèi)器方面,非極大值抑制 (NMS,Non-Maximum Suppression) 方法可以組合位置和大小相近的候選框,從而大規模地減少候選框的數量;深度神經(jīng)網(wǎng)絡(luò )可以利用顯卡來(lái)進(jìn)行大部分運算,極大提升運算速度。 人臉配準 由于標準的人臉可以讓人臉識別等算法的結果更加穩定,因此一個(gè)關(guān)鍵步驟就是將不同角度、不同分辨率的人臉經(jīng)過(guò)算法匹配到標準的位置,這就是人臉配準 (Facial Alignment)。從這個(gè)角度上說(shuō),所有人的臉都可以看做是標準人臉經(jīng)過(guò)仿射變換 (縮放、旋轉、平移) 之后的結果,而人臉配準算法的目標就是根據人臉的特征點(diǎn)還原這個(gè)變換過(guò)程。 計算機科學(xué)家首先定義了人臉的68個(gè)特征點(diǎn),可以勾勒出人臉的主要特征。一個(gè)經(jīng)典的算法思路就是讓計算機學(xué)習標準的人臉圖像在這些特征點(diǎn)上是如何一步一步變換成真實(shí)圖像的。它通過(guò)訓練級聯(lián)的回歸器,讓每一個(gè)回歸器都學(xué)習一部分變換的信息,從而在真實(shí)人臉圖像上找到了標準人臉圖像的映射。 人臉屬性識別 人臉的屬性包括性別、種族、年齡、表情等,對于這些屬性的精準區分可以更好地判斷當前人物的喜好和心理狀態(tài)等。如果完成了人臉的檢測和配準,人臉屬性識別相對簡(jiǎn)單,其實(shí)質(zhì)就是一個(gè)在大數據幫助下的圖片分類(lèi)和回歸問(wèn)題。 2015年,微軟開(kāi)發(fā)了一款預測年齡的應用 (how-old.net),根據用戶(hù)上傳的圖片給出圖中人物年齡的預測。在這個(gè)系統中,人臉先被圈出,然后提取出的特征向量會(huì )經(jīng)過(guò)分類(lèi)器給出性別的標簽,再經(jīng)過(guò)年齡的回歸分析器得到相應的年齡數字。如果利用深度神經(jīng)網(wǎng)絡(luò ),特征提取和分類(lèi)回歸就可以集成在一個(gè)算法中,同時(shí)實(shí)現多個(gè)屬性的實(shí)時(shí)預測。類(lèi)似地,對人臉表情也可以實(shí)現相應的分類(lèi)和回歸,這可以用在一些智能家居和安保系統的控制系統中,遇到危險時(shí),可能僅僅眨眨眼就可以把報警信息傳遞出去。 人臉驗證與識別 基于上述算法,就可以判斷兩張圖片是否是同一個(gè)人,這就是人臉驗證。推而廣之,對于輸入的任意一張人臉圖像,計算機可以從數據庫中匹配到相關(guān)人員,并輸出其身份信息和屬性信息,這個(gè)過(guò)程就是人臉識別。 由于要進(jìn)行輸入圖片和數據庫內大量圖片的對比,算法的速度對用戶(hù)的體驗至關(guān)重要。一個(gè)解決的方案就是從圖片中提取特征。一個(gè)方法是主成分分析 (Principal Component Analysis),也就是從檢測出來(lái)的人臉選框中獲得其特異性特征,然后通過(guò)相關(guān)性分析獲得最一致的人員信息。另一個(gè)重要的特征是SIFT (Scale-Invariant Feature Transform,即尺度不變特征變換),即使圖像有旋轉、尺度變化甚至分辨率的變化或者使用不同的相機,都可以從圖像中匹配特征點(diǎn),準確率很高。 人臉在不同光照、不同媒介中的樣子是不同的,直接的特征提取方法可能無(wú)法滿(mǎn)足所有人臉識別場(chǎng)景的需求,因此就需要把人臉的特征跟光照等信息完成去耦合。經(jīng)典算法LBP (Local Binary Patterns,即局部二值模式) 所做的就是去掉光照信息。在LBP算法中,每一個(gè)像素會(huì )跟相鄰像素作比較,然后保留整張圖片中像素之間的大小關(guān)系,但去掉了其具體的數值。這樣一來(lái)面部特征仍然得到保留,但光照或紋理造成的像素值偏移就會(huì )被去掉。近幾年發(fā)展的去耦合表示法 (Disentangled Representation) 使用了類(lèi)似的想法,把深度神經(jīng)網(wǎng)絡(luò )提取出來(lái)的人臉特征分成形狀 (Shape) 和外觀(guān) (Appearance) 兩部分,可以更好地保留人臉圖像的特征,提升了識別準確率。 行為識別和身份識別技術(shù) 除了人臉識別技術(shù)之外,對于行為和身份的識別也是智能安保系統的重要組成部分。其中行為識別就是對視頻中的人物行為進(jìn)行分類(lèi),而身份識別是指從攝像頭網(wǎng)絡(luò )中發(fā)現同一個(gè)個(gè)體,進(jìn)而獲得其行動(dòng)軌跡并判斷其行進(jìn)目標和可疑與否。把身份識別和行為識別相結合,可以更好地判斷視頻中人物的行動(dòng)狀態(tài)。 行為識別 最早的行為識別只是圖像分類(lèi)的一個(gè)分支,只不過(guò)分類(lèi)的對象從圖像轉變?yōu)橐曨l,分出的類(lèi)別也從物品、人臉變成了動(dòng)作。視頻作為智能安保系統的主要存儲內容,可以看做是多個(gè)圖像的組合,因此圖像分類(lèi)的方法 (如深度學(xué)習算法等) 可以直接用于行為識別中。但是,由于行為本身具有時(shí)序性,相關(guān)的時(shí)序特征也可以用來(lái)提升準確率。光流 (Optical Flow) 就是一個(gè)適用于視頻的特征,它標記了連續兩幀圖像之間相應的點(diǎn)的變化軌跡。當把連續多幀的對應點(diǎn)以及其周邊的像素信息編碼成一個(gè)特征,就形成了一個(gè)視頻軌跡 (Trajectory),多個(gè)軌跡的組合就可以很好地表示行為信息。 近年來(lái)深度學(xué)習算法在行為識別中取得了很大進(jìn)展。由香港中文大學(xué)的計算機科學(xué)家提出的TSN (Temporal Segment Network) 算法提高了行為識別的水平。在TSN算法中,原始的視頻和其光流圖像被同時(shí)用來(lái)訓練深度神經(jīng)網(wǎng)絡(luò ),這使得同一個(gè)模型同時(shí)編碼了外觀(guān)信息和動(dòng)態(tài)信息。另外,同一個(gè)視頻被隨機采樣成多種組合,使同一動(dòng)作的不同速度也都可以被識別。除了以TSN為代表的算法之外,新加坡南洋理工大學(xué)還標記了大型的行為識別數據庫NTU RGB+D,其中包含一些醫院和養老院中常見(jiàn)的動(dòng)作 (比如坐下、躺下、跌倒等)。用這些算法和數據訓練出來(lái)的行為識別系統可以很好地進(jìn)行重點(diǎn)人員、重點(diǎn)地區的監控。 身份識別 身份識別用到的特征可以是全方位的,包括面部特征、肢體特征、姿態(tài)特征、動(dòng)作特征、衣著(zhù)特征等。由于攝像頭的分辨率限制,面部特征的使用只能作為輔助,而較大的特征如體態(tài)、動(dòng)作、衣著(zhù)等會(huì )作為主要特征,其中衣著(zhù)特征占有較大比重,這與人眼的識別過(guò)程是類(lèi)似的。因此,身份識別算法的核心在于如何用好多種特征。 深度學(xué)習算法依然起著(zhù)重要作用,因為它可以通過(guò)輸入大量數據,讓深度神經(jīng)網(wǎng)絡(luò )自動(dòng)提取特征并分配不同的權重給不同的特征,并訓練多個(gè)分類(lèi)器從不同維度進(jìn)行判斷。具體來(lái)說(shuō),身份識別的算法會(huì )綜合考慮幾個(gè)目標,包括外觀(guān)分類(lèi) (衣著(zhù)、背包、掛飾等)、體態(tài)分類(lèi) (男女、身高等)、部件分類(lèi) (手臂、腿、軀干等),最終的識別結果是多個(gè)分類(lèi)器的加權綜合。近年來(lái),為了同時(shí)擴大不同個(gè)體的區別和減小同一個(gè)體不同場(chǎng)景下的區別,三樣本損失函數 (Triplet loss) 被引入深度學(xué)習算法中,對一組三個(gè)樣本進(jìn)行訓練和區分,獲得了不錯的效果。 技術(shù)難點(diǎn)與展望 無(wú)論是人臉識別還是身份和行為識別,在安保系統中都具有很大的優(yōu)勢。首先,計算機的參與可以完成人類(lèi)所無(wú)法完成的全方位24小時(shí)監督,覆蓋度的增加也就提升了安保系統的安全系數。第二,強大的計算機可以快速處理海量數據,極大提高了發(fā)現安全隱患的速度。但是,盡管具有上述功能的智能攝像頭已經(jīng)開(kāi)始在一些公共場(chǎng)所和社區內落地,大規模的部署還需要解決一些技術(shù)難點(diǎn)。 系統的魯棒性 人臉識別中,臉部會(huì )經(jīng)常被眼鏡、墨鏡、口罩等遮蓋;行為識別和身份識別中,也存在肢體被遮蓋的情況,這些都給算法帶來(lái)不小的考驗。雖然一些光照問(wèn)題可以通過(guò)解耦算法部分解決,但是一些特殊需求如黑暗條件、分辨率不同的攝像頭等,仍然會(huì )影響算法精度。另外,長(cháng)相相似的人臉、穿著(zhù)和動(dòng)作相似的人物、隨著(zhù)時(shí)間改變而造成人臉和動(dòng)作特征的變化,都會(huì )造成識別的不準確。 數據規模和反饋速度 理論上,數據量越大就可以讓計算機獲得越全面的學(xué)習。但實(shí)際情況下,人臉、行為和身份識別的數據集均可以達到上億量級,而只有這些數據被人工標記之后才可以被用作機器學(xué)習算法的訓練。因此,僅標記這一個(gè)工作就需要大量人力的投入。另一方面,安保系統部署之后,每一秒鐘計算機都需要處理海量的新數據,這會(huì )拖慢計算機的反饋速度。在安保系統中,計算機還需要從數據中提取關(guān)鍵的特征和信息,并綜合分析這些信息得到更復雜的結果,F階段算法還只是基于某一個(gè)具體的任務(wù),比如人臉檢測、行為識別等。未來(lái)當數據規模和算力達到一定水平之后,還需要新的算法來(lái)綜合考慮多個(gè)維度的信息并快速反饋給安全管理人員。 數據和算法的安全 安保系統本身的安全性能是一個(gè)重要的評價(jià)標準。而在互聯(lián)網(wǎng)時(shí)代,數據的安全性遭受巨大考驗。由于社交媒體的普及,幾乎每個(gè)人的人臉數據和身份信息都可以從網(wǎng)上獲得。這些信息一旦與成像技術(shù)乃至3D打印技術(shù)相結合,人臉識別系統就很可能被攻破。比如,現在一些研究就集中在如何在人臉識別系統中加入真假人臉的識別,正是為了防范這樣的潛在安全威脅。 其他算法也在不斷升級,給現有的識別技術(shù)帶來(lái)新的挑戰。比如近年來(lái)的生成對抗網(wǎng)絡(luò )已經(jīng)可以生成真假難辨的人臉圖像,甚至自動(dòng)換臉的視頻也已經(jīng)司空見(jiàn)慣。這些生成的人臉甚至可以通過(guò)現有的人臉識別系統。另外,最近的一篇論文指出,如果對身份識別系統加入一個(gè)干擾,算法的身份匹配結果與真實(shí)結果之間可能南轅北轍,不法分子甚至可以通過(guò)干擾算法來(lái)逃過(guò)攝像頭的追蹤。 總結 由此可見(jiàn),新算法的提出仍然是實(shí)現智慧社區智能安保系統的基礎。除了提高現有算法的魯棒性,對大規模數據的處理能力,還需要逐步引入新型的數據和算法保護機制,來(lái)應對新的挑戰和需求。計算機科學(xué)家也一直在試圖攻克這些困難;谙∈璞磉_的人臉識別系統可以很好地識別不同遮蓋條件下的人臉,從而提高人臉識別算法對特殊環(huán)境數據的處理能力。在訓練識別算法的同時(shí),引入生成對抗網(wǎng)絡(luò )和遷移學(xué)習等學(xué)習機制,在部署的時(shí)候利用容器技術(shù)和聯(lián)邦學(xué)習,不僅可以讓算法完成識別的任務(wù),還可以讓算法分辨數據來(lái)源以及惡意攻擊,從而更好地保護數據和算法。在未來(lái),隨著(zhù)算法在這些方面的不斷迭代,更先進(jìn)的自動(dòng)識別技術(shù)會(huì )成為智慧社區和智慧城市不可或缺的組成部分。 文章來(lái)源:貿澤電子 作者簡(jiǎn)介:王東昂是悉尼大學(xué)在讀博士。他的研究領(lǐng)域涉及了醫學(xué)圖像、人工智能、神經(jīng)科學(xué)、視頻分析等多個(gè)領(lǐng)域,并致力于在實(shí)際系統中應用人工智能技術(shù)。他曾在CVPR、ECCV等國際會(huì )議中發(fā)表過(guò)論文,并受邀長(cháng)期為IEEE Transactions on Circuits and Systems for Video Technology、IEEE Transactions on Multimedia等學(xué)術(shù)雜志和ICML、AAAI等國際會(huì )議審稿。他在機器學(xué)習和計算機視覺(jué)領(lǐng)域有超過(guò)5年的開(kāi)發(fā)經(jīng)驗,曾與中國、美國、澳大利亞的多家公司和機構合作開(kāi)發(fā)項目,其中包括多角度視頻中的行為識別、基于道路監控的路況預測和自動(dòng)化腦CT篩查系統。 |