你是否曾經(jīng)幻想過(guò)這些場(chǎng)景:回到家,對著(zhù)電視說(shuō)想看的節目,電視會(huì )自動(dòng)開(kāi)啟并切換至目標頻道?或者對著(zhù)爐子說(shuō)開(kāi)始小火慢燉,晚餐會(huì )以恰當的火候自動(dòng)烹飪?現如今,家用電器的確可以實(shí)現諸如此類(lèi)的功能,通過(guò)語(yǔ)音控制,疲憊一天的你不用親力親為,坐在沙發(fā)上對著(zhù)各種電器發(fā)出指令,它們便會(huì )聽(tīng)話(huà)地完成你的各種需求。 實(shí)際上,家用電器能說(shuō)會(huì )聽(tīng)是物聯(lián)網(wǎng)的產(chǎn)物。物聯(lián)網(wǎng)架構復雜,涉及方面廣,越來(lái)越多的企業(yè)選擇云上托管物聯(lián)網(wǎng)設備體系,因為云端架構安全便捷,基于人工智能(比如,自然語(yǔ)言處理)模型,訓練和部署等過(guò)程都通過(guò)簡(jiǎn)單的點(diǎn)擊即可完成,功能強大,可以極大程度地為公司節約人力和物力。云端物聯(lián)網(wǎng)通常包括一個(gè)安置在家庭中的傳感器設備,通過(guò)Wi-Fi連接到網(wǎng)絡(luò ),用于接受數據,將數據傳給云端數據庫,在云環(huán)境中進(jìn)行分析處理。 隨著(zhù)人工智能和物聯(lián)網(wǎng)的發(fā)展,人機交互給人們帶來(lái)越來(lái)越高端的體驗。語(yǔ)音控制技術(shù)應用最為廣泛,也是當今的熱門(mén)研究課題。令人耳目一新的是在家用電器方面的應用,摒棄了傳統的遙控器裝備,通過(guò)口令讓家用電器完成各項功能。語(yǔ)音控制家電技術(shù)圍繞人工智能,機器學(xué)習語(yǔ)義識別,物聯(lián)網(wǎng)(IoT),云計算(cloud computing)而展開(kāi)。 本文以云端架構為框架,為大家介紹語(yǔ)音控制技術(shù)是如何讓家用電器能說(shuō)會(huì )聽(tīng)的。主要內容將圍繞以下幾個(gè)方面展開(kāi): Azure云端語(yǔ)音控制和識別技術(shù) 云端物聯(lián)網(wǎng) 云端語(yǔ)音控制技術(shù)基本解決方案步驟 相關(guān)主要技術(shù)說(shuō)明 Universal Windows Platform(UWP) Cognitive service 的語(yǔ)音識別APIs & SDK Language Understanding Intelligent Service (LUIS) 運行Windows 10 IoT核心版的Raspberry Pi 3 語(yǔ)音控制技術(shù)如何應用于家電 核心技術(shù) 架構 功能 解決方案 總結 Azure云端語(yǔ)音控制和識別技術(shù) 語(yǔ)音控制系統包括了語(yǔ)音識別、自然語(yǔ)音理解、對話(huà)管理、自然語(yǔ)言生成、語(yǔ)音合成。 ![]() 來(lái)源:https://zhuanlan.zhihu.com/p/53639416 1) 云端物聯(lián)網(wǎng) 語(yǔ)音識別是指語(yǔ)音到文本的轉化。Azure 平臺的TTS(text to speech)采用Universal language模型,該模型對Microsoft已有數據進(jìn)行了訓練,并部署在云端,也可以創(chuàng )建和訓練自定義的語(yǔ)言模型,根據需要選擇特定的詞匯并將其加入訓練數據中。 自然語(yǔ)言分析/自然語(yǔ)言處理,是機器學(xué)習的一部分,設計模型并進(jìn)行訓練。 對話(huà)管理的任務(wù)主要有下三點(diǎn): 預測用戶(hù)意圖 對話(huà)內容進(jìn)行分析,機器學(xué)習模型預測,確定下一步做什么。 作為接口與后端/任務(wù)模型進(jìn)行交互 作為應用程序接口與服務(wù)器端或模型進(jìn)行請求交互,獲取反饋結果,生成文字結果。 提供語(yǔ)義分析結果的期望值 根據用戶(hù)的提問(wèn),通過(guò)一系列的語(yǔ)義解析,做出滿(mǎn)足用戶(hù)期望的回應。 語(yǔ)言答案的文本生成是通過(guò)模型分析用戶(hù)的指令并作出文字回應。 語(yǔ)音合成技術(shù)主要作用是將文本轉化成擬人化語(yǔ)音的需求,基礎的Azure 云端語(yǔ)音合成使用語(yǔ)音SDK或REST API使用標準(詳細說(shuō)明見(jiàn)下文),神經(jīng)或自定義語(yǔ)音實(shí)現文本轉語(yǔ)音的過(guò)程。 家用電器中,對話(huà)模式的情感要求會(huì )低一些,因為用戶(hù)發(fā)出的大多是功能請求,比如:開(kāi)機,詢(xún)問(wèn)溫度或濕度等等。 (以上內容參考自:https://zhuanlan.zhihu.com/p/53639416) 2) 云端語(yǔ)音控制技術(shù)基本解決方案步驟 對話(huà)模式 對話(huà)模式是人機語(yǔ)言交互的核心,所有模式圍繞其展開(kāi)。當用戶(hù)發(fā)出指令,系統便切換到了對話(huà)模式。Azure上使用UWP 應用平臺,開(kāi)發(fā)一個(gè)界面,用于監測人聲觸發(fā)(例如:對平臺說(shuō): ‘Hi, cloud!‘)成功與否。 聽(tīng)寫(xiě)模式 使用者說(shuō)出一段較長(cháng)的語(yǔ)音,然后等待語(yǔ)音識別的結果。當‘Hi, cloud!‘指令發(fā)起后,用戶(hù)正式發(fā)出指令(說(shuō)出想對機器說(shuō)的話(huà)),這時(shí)語(yǔ)音便傳到了語(yǔ)義分析系統(Azure LUIS),內容傳入語(yǔ)義分析系統,Azure上的實(shí)時(shí)語(yǔ)音轉文本服務(wù)使用初始化Universal Language模型,通過(guò)REST API/Speech software development kit (SDK)完成。 交互模式 使用者發(fā)出簡(jiǎn)短的請求, 并期望應用程序執行響應,交互模式主要是指將語(yǔ)音識別和文字到語(yǔ)音的轉換過(guò)程嵌入到應用程序中去。本文例子中,Azure云端部署語(yǔ)音控制系統的交互模式體現在與用戶(hù)交互的Universal Windows Platform(UWP)應用。在UWP上開(kāi)發(fā)一個(gè)簡(jiǎn)單的界面供用戶(hù)操控,或供開(kāi)發(fā)者測試使用。 相關(guān)主要技術(shù)說(shuō)明 1) Universal Windows Platform(UWP) Windows通用應用平臺,同一個(gè)API可以在電腦端,手機端,或其他windows10設備通用。換句話(huà)說(shuō),同樣的代碼可以在不同的終端運行,不必為不同的平臺寫(xiě)不同的代碼。 2) Cognitive service 的語(yǔ)音識別REST APIs & SDK 以語(yǔ)音識別為例:REST API 需要提前獲取密鑰,然后向服務(wù)器發(fā)送HTTP請求,經(jīng)過(guò)身份驗證后,服務(wù)器將轉換后的音頻返回至本地。 下面通過(guò)圖示說(shuō)明云上的REST APIS: ![]() 圖片來(lái)源:https://gunnarpeipman.com/wp-con ... est-api-adapter.png 這是Rest client應用于A(yíng)pplication(應用程序)并在其中創(chuàng )建rest client的實(shí)例,然后在A(yíng)pplication上調用一些方法。當調用Rest client方法時(shí),該方法將輸入轉換為http請求,并將請求發(fā)送到Rest api。來(lái)自端點(diǎn)的響應是http響應,Rest client將其轉換為Application可識別的類(lèi)型,并返回給Application端。 由于我們不想向我們的Application(應用程序)公開(kāi)Rest client的詳細信息,可以添加Adapter(適配器)用來(lái)與外部服務(wù)通信。適配器接受Application(應用程序)中已知類(lèi)型的參數,并且返回值也是Application(應用程序)中已知類(lèi)型的參數。 SDK即為可以調用的庫,支持Python,C#, C++, Java, JavaScript, Objective-C/Swift. 官方文獻明確指出: “作為語(yǔ)音 SDK 的一種替代方法,語(yǔ)音服務(wù)允許使用 REST API 將語(yǔ)音轉換為文本。 每個(gè)可訪(fǎng)問(wèn)的終結點(diǎn)都與某個(gè)區域相關(guān)聯(lián)。 應用程序需要所用終結點(diǎn)的訂閱密鑰。 REST API 非常有限,只應在語(yǔ)音 SDK 不能使用的情況下使用! 引用來(lái)源:https://docs.microsoft.com/zh-cn ... gions-and-endpoints 有關(guān)SDK 和REST API 可以參考以下連接: SDK Rest API 3) Language Understanding Intelligent Service (LUIS) Azure的LUIS是基于云的對話(huà)式AI服務(wù),作用是使機器理解人的語(yǔ)言。 運行方式可用一句話(huà)概括為:客戶(hù)端通過(guò)應用程序直接發(fā)送語(yǔ)音請求到 LUIS, LUIS中的自然語(yǔ)言處理功能將命令轉換為JSON格式,分析后答案同樣以JSON的形式返回。LUIS平臺為用戶(hù)提供了訓練模型的服務(wù),并且模型具備“不斷學(xué)習的功能”,通過(guò)使用模型去回應客戶(hù)請求,模型會(huì )不斷自動(dòng)修正以提高準確度。 https://dzone.com/articles/luis- ... intelligent-service ![]() 圖片來(lái)源:https://docs.microsoft.com/zh-cn ... s/luis/what-is-luis 自然語(yǔ)言處理離不開(kāi)以下幾個(gè)方面: (例如:用戶(hù)向家用檢測濕度系統發(fā)出”檢查濕度?”的指令。) 目的性(動(dòng)詞)- “檢查”就是一個(gè)動(dòng)詞, LUIS模型最大接受80個(gè)目的性詞匯。 完整的語(yǔ)言?xún)热?- 用戶(hù)發(fā)出的完整指令,LUIS模型最多接受500字的語(yǔ)音請求。 實(shí)體(名詞)- 濕度是一個(gè)名詞。LUIS模型最多接受30個(gè)實(shí)體名詞。 LUIS定義特征,意思就是當你的模型很難識別某一個(gè)或幾個(gè)單詞的時(shí)候,可以自動(dòng)加進(jìn)數據中進(jìn)行再訓練。 運行Windows 10 IoT核心版的Raspberry Pi 3 Raspberry Pi 是一個(gè)開(kāi)發(fā)板,可以連接到不同類(lèi)型的傳感器。Raspberry Pi可以被用作Web服務(wù)器,該服務(wù)器接收不同的解釋命令并發(fā)送電信號,以控制安裝在Smart Home中的家用電器。 語(yǔ)音控制技術(shù)如何應用于家電 語(yǔ)音控制使家庭環(huán)境更智能,實(shí)現家電的自動(dòng)化。我們可以將其定義為:通過(guò)提供如健康,多媒體,娛樂(lè )和能源相關(guān)應用的不同服務(wù),通過(guò)引入技術(shù)改善居住者的生活質(zhì)量。 應用舉例:智能濕度計---云端部署 ![]() 圖片來(lái)源:https://www.iotnewsportal.com/iot-images/1512640413.png 1) 核心技術(shù) 在Raspberry Pi 3上運行的Universal Windows Platform(UWP)應用,使用語(yǔ)音識別API與傳感器與用戶(hù)進(jìn)行交互, LUIS 進(jìn)行語(yǔ)義分析,經(jīng)由Raspberry pi 3 將用戶(hù)的問(wèn)題傳入,最后通過(guò)Cognitive service 的語(yǔ)音識別APIs 技術(shù)給出答案。 2) 架構 ![]() 圖片來(lái)源:https://azure.microsoft.com/en-i ... zure-iot-subsystems 3) 功能 存儲數據,通過(guò)傳感器搜集數據并存儲在云端。 語(yǔ)音到文本和文本到語(yǔ)音的API,用于識別用戶(hù)提出的問(wèn)題,并使用語(yǔ)音提供答案。 LUIS語(yǔ)音識別,語(yǔ)義分析,通過(guò)預先訓練的模型預測答案,以準確響應客戶(hù)的指令。 通過(guò)Raspberry Pi 3傳入語(yǔ)音,和Cognitive Services的語(yǔ)音識別API,讓家電可以回答用戶(hù)提出的問(wèn)題。 4) 解決方案 以下內容參考:https://microsoft.github.io/tech ... 7/06/02/Iomote.html 數據到云端 從傳感器到云端數據庫的數據傳輸過(guò)程已經(jīng)可以通過(guò)完善的架構實(shí)現,客戶(hù)可以直接使用不同類(lèi)型的數據庫,以滿(mǎn)足不同的需求。 開(kāi)展語(yǔ)音對話(huà):UWP應用 例如:用戶(hù)希望了解家里的濕度,‘Hey, cloud !’ ’ What is the humidity in the room now? ’通過(guò)UWP平臺進(jìn)行文本輸出顯示,UWP應用將在中安裝的Raspberry Pi 3上運行,該應用程序將能夠與所有傳感器和執行器進(jìn)行通信, 系統被觸發(fā)后,問(wèn)題會(huì )被傳到LUIS中進(jìn)行語(yǔ)義分析。 問(wèn)題分析,與LUIS連接 LUIS 用于了解從Raspberry Pi 3接收的命令。經(jīng)過(guò)對模型的訓練,應用程序能夠識別意圖:檢索室內濕度。之后,將LUIS API添加到UWP應用程序中,用戶(hù)觸發(fā)命令 “Hey, cloud ! ” 之后,所有內容通過(guò)API發(fā)送到LUIS進(jìn)行分析。LUIS在UWP內被調用,接收輸入并分析意圖。根據預測意圖的置信度向用戶(hù)提供正確答案,將命令發(fā)送到IoT中心以獲取傳感器的溫度。 開(kāi)發(fā)網(wǎng)頁(yè)端應用 開(kāi)發(fā)一個(gè)網(wǎng)頁(yè)端應用程序用于設備管理。該程序可以顯示連接到IoT中心的所有傳感器,使管理設備變得更加容易,實(shí)現重新啟動(dòng),固件更新等功能。 人機交互 UWP應用與網(wǎng)頁(yè)端應用進(jìn)行交互給客戶(hù)進(jìn)行響應,網(wǎng)頁(yè)端應用負責將指令發(fā)送到指定的傳感器,從特定的傳感器檢索當前室內的空氣濕度,回答用戶(hù)問(wèn)題,最后通過(guò) “文本到語(yǔ)音” API向用戶(hù)提供當前室內的濕度值。 總結 語(yǔ)音交互為用戶(hù)提供了一種全新的家居控制方式,使家用電器能說(shuō)會(huì )聽(tīng),與此同時(shí),當下語(yǔ)言識別面臨的困難也不同忽視,主要包括以下幾點(diǎn): 中文方言的識別/不同國家英語(yǔ)口音的識別。 模型預測準確度: 想要使語(yǔ)音識別達到一個(gè)近似于人大腦的效果,必須結合語(yǔ)言學(xué)、心理學(xué)及生理學(xué)等領(lǐng)域知識達到與人近似的情感分析。此外,預測模型是不可能達到百分之百準確的,總會(huì )有新的指令,新的詞匯出現,這時(shí),模型的不斷迭代訓練變得尤為重要。 排除噪聲干擾:讓語(yǔ)音控制系統精準定位到與其交互的用戶(hù)聲音,而不是其他較高音量的噪音。 作者認為,想要讓機器像人一樣思考問(wèn)題,最大的挑戰是機器學(xué)習/人工智能技術(shù)與醫學(xué)(生理和心理學(xué))的結合,因為當今科學(xué)界懂得醫學(xué)知識的人工智能科學(xué)家寥寥無(wú)幾。家用電器的人機對話(huà)可以大大減輕用戶(hù)的勞動(dòng)力,機器有了情感以后,便可以增加聊天功能,機器會(huì )像朋友一樣在回答問(wèn)題之余閑聊幾句,增添生活的樂(lè )趣。此外,機器對溫度等數據的把控度極為精準,這是人類(lèi)無(wú)法達到的。 綜上所述,語(yǔ)音控制技術(shù)應用于家用電器是非常有前景的項目,未來(lái)會(huì )說(shuō)話(huà)的家用電器會(huì )普及所有家庭。將來(lái)希望大量科學(xué)家進(jìn)入這個(gè)領(lǐng)域,致力于不斷創(chuàng )新與研發(fā),使這一目標早日實(shí)現。 參考文獻及網(wǎng)站 https://zhuanlan.zhihu.com/p/53639416 https://docs.microsoft.com/zh-cn ... s/luis/what-is-luis https://docs.microsoft.com/en-ie ... vice/speech-to-text https://www.cnblogs.com/sparkdev/p/8969238.html https://docs.microsoft.com/en-ie ... view#reference-docs https://docs.microsoft.com/zh-cn ... tion-platform-guide https://zhuanlan.zhihu.com/p/40974083 https://blog.csdn.net/yushuzhen2008/article/details/104152122 https://blog.csdn.net/Clovera/ar ... ai2-3.channel_param https://dzone.com/articles/why-a ... prepare-for-using-t 文章來(lái)源:貿澤電子 作者簡(jiǎn)介:王晶是一名機器學(xué)習算法工程師,目前在汽車(chē)檢測領(lǐng)域工作。熱衷于技術(shù)文章的創(chuàng )作。 她希望她的文章能引起讀者們對人工智能的興趣,以激勵更多的專(zhuān)業(yè)人員致力于這個(gè)領(lǐng)域,將AI與云技術(shù)和大數據結合起來(lái),以使人們的生活更加安全便捷。 |