芯片、傳感器和AI算法融合 打造嵌入式語(yǔ)音交互優(yōu)質(zhì)體驗

發(fā)布時(shí)間:2019-4-28 13:54    發(fā)布者:eechina
關(guān)鍵詞: 芯片 , 傳感器 , AI算法 , 語(yǔ)音交互
        2019年4月26日,由意法半導體主辦的2019年STM32中國峰會(huì )在深圳舉行,出門(mén)問(wèn)問(wèn)工程VP李勤受邀出席大會(huì )AIoT沙龍,并在人工智能與計算分會(huì )場(chǎng)發(fā)表了演講,分享了出門(mén)問(wèn)問(wèn)在嵌入式系統上的智能語(yǔ)音交互方案和經(jīng)驗。

  深耕萬(wàn)億級的AIoT市場(chǎng)

  在上午主會(huì )場(chǎng)的AIoT沙龍環(huán)節,李勤與微軟首席技術(shù)顧問(wèn)管震、移遠通信高級副總裁張棟、意法半導體大中華暨南亞區AMS市場(chǎng)及應用高級總監吳衛東共同探討了對于人工智能物聯(lián)網(wǎng)的看法。


  李勤表示,中國的AIoT市場(chǎng)是一個(gè)萬(wàn)億級的市場(chǎng)。而其中,AI可穿戴將是重要的增長(cháng)極,將在未來(lái)5年保持高速的增長(cháng)態(tài)勢。按照公開(kāi)數據,預計在未來(lái)5年內,全球Wearable IoT的市場(chǎng)規模會(huì )達到424億美元,達到平均每年30%的復合增長(cháng)率。

  芯片、算法和傳感器的深度集成是AIoT核心的技術(shù)之一。未來(lái),算法和芯片的深度融合是一大挑戰,即算法去為芯片優(yōu)化,芯片為算法優(yōu)化。這也是出門(mén)問(wèn)問(wèn)的優(yōu)勢所在,可以發(fā)揮全棧式的AI語(yǔ)音交互算法能力,以及芯片、算法、產(chǎn)品端的深度整合和系統集成能力,賦能給其他合作伙伴。

  將芯片、傳感器和AI算法深度集成

  在下午的人工智能與計算分會(huì )場(chǎng)上,李勤深入地分析了出門(mén)問(wèn)問(wèn)作為一家AI技術(shù)公司是如何做嵌入式系統上的智能語(yǔ)音交互方案的。

  李勤指出,AI可穿戴技術(shù)的核心是人機交互的過(guò)程,而人機交互涉及到多種傳感器融合技術(shù)以及語(yǔ)音交互技術(shù)。多種傳感器融合技術(shù)包括拾音麥克風(fēng)、運動(dòng)傳感器(例如加速度器,陀螺儀)、骨傳導麥克風(fēng)、心率傳感器、觸摸及反饋等,只有把多種傳感器融合在一起,才能給用戶(hù)提供更好的體驗。

  而語(yǔ)音交互是所有人機交互方式中最重要的一個(gè),在合適的場(chǎng)景下極為高效。它有著(zhù)不可替代的優(yōu)勢,例如解放雙手和雙眼;指向明確,語(yǔ)義直達目標,縮短整個(gè)的使用路徑;自然語(yǔ)言交互,簡(jiǎn)單人性化,學(xué)習成本低,不用記固定命令詞;對設備的大小沒(méi)有特別要求。但當然,語(yǔ)音交互也面臨一些挑戰,例如受環(huán)境影響比較大,前端信號處理的挑戰大,受硬件和結構的限制,返回結果的展示形式單一等。

  未來(lái)3年,AI可穿戴市場(chǎng)將迎來(lái)高速發(fā)展,整體規模預計達到10億設備量級,保持30%的高年均增長(cháng)速度。相應的,未來(lái)市場(chǎng)對芯片和傳感器的需求都會(huì )大量增加。

  在高速增長(cháng)的過(guò)程中,AI可穿戴同樣面臨許多迭代技術(shù)挑戰,包括設備的小型化設計、低功耗優(yōu)化等等,在算法上需要大量針對性的優(yōu)化支持。例如,在地鐵嘈雜環(huán)境下使用耳機通話(huà),要利用算法實(shí)現環(huán)境降噪處理;為實(shí)現設備更低功耗,需要提高代碼效率并對芯片進(jìn)行優(yōu)化;協(xié)調運動(dòng)、心率等大量傳感器為用戶(hù)提供有用的信息,也需要算法優(yōu)化來(lái)攻克。

  發(fā)言中,李勤還指出AIoT的產(chǎn)品一定是設備端到云端的整體系統。而出門(mén)問(wèn)問(wèn)采用將芯片、傳感器和AI算法結合的整體戰略,發(fā)揮端到端的完整技術(shù)棧,將端上和云上的計算融合,以及產(chǎn)品和系統集成經(jīng)驗的競爭優(yōu)勢。另外,出門(mén)問(wèn)問(wèn)還在開(kāi)展與芯片廠(chǎng)商的深度合作,實(shí)現算法根據使用場(chǎng)景做優(yōu)化,算法針對芯片的代碼優(yōu)化,結合系統集成和產(chǎn)品驗證,提供整套技術(shù)方案。這意味著(zhù)產(chǎn)品廠(chǎng)商不用在算法開(kāi)發(fā)和系統集成工作上消耗企業(yè)資源,可以集中精力定義和開(kāi)發(fā)產(chǎn)品。

  智能手表AI運動(dòng)算法TicMotion

  在TicWatch智能手表上,出門(mén)問(wèn)問(wèn)研發(fā)了AI運動(dòng)算法TicMotion,自動(dòng)識別和記錄用戶(hù)健走、跑步、騎行、游泳時(shí)的各項運動(dòng)數據。該算法基于深度學(xué)習的算法架構,支持手勢姿態(tài)識別、睡眠健康等功能,可運行在MCU、DSP或AP芯片上。在意法半導體的STM32F412芯片上,實(shí)現16MHz時(shí)鐘頻率下的0.13 MIPS執行效率。



  智能手表語(yǔ)音交互算法

  針對智能手表的語(yǔ)音交互,出門(mén)問(wèn)問(wèn)研發(fā)了基于深度神經(jīng)網(wǎng)絡(luò )的AI語(yǔ)音算法,旗下的出門(mén)問(wèn)問(wèn)語(yǔ)音助手是谷歌Wear OS官方合作的中文語(yǔ)音助手。



  出門(mén)問(wèn)問(wèn)在智能手表上,擁有單麥和雙麥的音頻降噪算法,語(yǔ)音信號壓縮和BLE語(yǔ)音傳輸,支持語(yǔ)音喚醒詞,支持直接命令詞的識別。這些算法也是基于深度學(xué)習,但卻是超低功耗的,只需要超低的內存需求和計算力便可以運行。例如,喚醒詞和命令詞模型只有20KB,只需占用50KB左右的內存,在意法半導體的STM32F469芯片上實(shí)現了36MIPS的執行效率。

  智能耳機交互算法TicHear

  針對智能耳機的交互,出門(mén)問(wèn)問(wèn)自主研發(fā)了TicHear語(yǔ)音交互算法,能夠有效地屏蔽和抑制環(huán)境噪音和干擾,實(shí)現小型可穿戴設備語(yǔ)音喚醒及直接命令詞控制。



  而之所以開(kāi)發(fā)TicHear,是因為出門(mén)問(wèn)問(wèn)發(fā)現在TWS智能耳機上還有很多技術(shù)難點(diǎn)沒(méi)有解決。

  一是耳機面向的是復雜的需求和使用場(chǎng)景。在需求上,人們需要用耳機聽(tīng)音樂(lè )、打電話(huà)、做語(yǔ)音交互。在使用場(chǎng)景上,耳機的使用環(huán)境非常復雜多變,基本是走到哪兒戴到哪兒,即使是在地鐵、馬路邊、商場(chǎng)等嘈雜環(huán)境,耳機也要能夠穩定可靠的工作。這些都對算法地性能提出了極高的要求。

  二是耳機的快捷智能控制。對于智能耳機來(lái)說(shuō),需要有一些常用的直接語(yǔ)音控制命令,尤其在雙手都不方便的時(shí)候,能夠快捷地用語(yǔ)音來(lái)實(shí)現接聽(tīng)電話(huà)、控制音量、切換下一首歌等功能。

  三是如何對耳機“說(shuō)”清楚。過(guò)去兩年,主動(dòng)降噪耳機在市場(chǎng)上熱銷(xiāo),但它解決的只是“聽(tīng)”清楚的問(wèn)題,在你聽(tīng)音樂(lè )的時(shí)候/做飛機的時(shí)候,有效實(shí)現周?chē)h(huán)境噪音的屏蔽效果。但在實(shí)際的使用中,如何讓你打電話(huà)、做語(yǔ)音交互的時(shí)候,實(shí)現更清晰的聲音傳遞,還是一個(gè)有待解決地問(wèn)題。

  另外,智能耳機也面臨諸多的技術(shù)挑戰,例如佩戴舒適性、體積大小,與電池容量、待機時(shí)間之間不可調和的矛盾,對芯片和算法低功耗的要求高;系統集成、算法開(kāi)發(fā)的高復雜度;內存空間和算力的資源限制等。

  面對用戶(hù)痛點(diǎn)和技術(shù)挑戰,出門(mén)問(wèn)問(wèn)選擇創(chuàng )造性的解決問(wèn)題,采取將硬件結構設計和算法設計相結合;與芯片、系統供應商深度合作;把核心算法的代碼用匯編重寫(xiě)以提高運行效率等措施,給客戶(hù)提供一套完整的解決方案。

  具體來(lái)說(shuō),在音頻信號處理上,TicHear算法進(jìn)行了雙麥的波束成形,做定向拾音和降噪的深度優(yōu)化,可以抑制最高20dB的環(huán)境噪音,僅占用20KB的內存,并在高通QCC5100系列芯片上實(shí)現15MIPS的執行效率。

  在語(yǔ)音交互算法上,TicHear支持語(yǔ)音喚醒詞,支持10個(gè)左右直接命令詞的識別,并且基于深度學(xué)習的算法,實(shí)現了超低功耗和超低內存占用。將喚醒詞和命令詞做到大約20KB的模型大小和50KB總的內存占用,在高通QCC5100系列芯片上實(shí)現10MIPS的執行效率。同時(shí),TicHear可和手機軟件配合開(kāi)發(fā),支持二次喚醒驗證、內容和服務(wù)的查詢(xún)、喚醒詞和語(yǔ)音查詢(xún)一起說(shuō)出等功能,提供更好的用戶(hù)體驗。



  李勤向現場(chǎng)觀(guān)眾展示了出門(mén)問(wèn)問(wèn)雙麥信號處理算法,該算法能夠有效地屏蔽環(huán)境噪音和干擾,清晰采集語(yǔ)音信號。如圖所示,上方的聲音波形圖是在馬路邊場(chǎng)景所采集的原始聲音信號,下方的聲音波形圖是經(jīng)過(guò)出門(mén)問(wèn)問(wèn)雙麥信號處理算法處理后的聲音信號,可以清晰的看到已將環(huán)境噪音降低20db左右,幾乎可以忽略不計,經(jīng)過(guò)算法處理后的聲音信號,極大地提高了語(yǔ)音識別的準確率和喚醒率。
本文地址:http://selenalain.com/thread-562915-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)在線(xiàn)工具

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页