機器學(xué)習步驟詳解,一文了解全過(guò)程!

發(fā)布時(shí)間:2021-8-11 15:39    發(fā)布者:eechina
關(guān)鍵詞: 機器學(xué)習
引言

部署機器學(xué)習的過(guò)程涉及多個(gè)步驟。首先選擇一個(gè)模型,針對特定任務(wù)加以訓練,用測試數據進(jìn)行驗證,然后,將該模型部署到實(shí)際系統中并進(jìn)行監控。在本文中,我們將討論這些步驟,將每個(gè)步驟拆分講解來(lái)介紹機器學(xué)習。

機器學(xué)習是指在沒(méi)有明確指令的情況下能夠學(xué)習和加以改進(jìn)的系統。這些系統從數據中學(xué)習,用于執行特定的任務(wù)或功能。在某些情況下,學(xué)習,或者更具體地說(shuō),訓練,是在受監督的方式下進(jìn)行,當輸出不正確時(shí)對模型加以調整,使其生成正確的輸出。在其他情況下,則實(shí)行無(wú)監督學(xué)習,由系統負責梳理數據來(lái)發(fā)現以前未知的模式。大多數機器學(xué)習模型都是遵循這兩種范式(監督學(xué)習與無(wú)監督學(xué)習)。

現在,讓我們深入研究“模型”的含義,然后探究數據如何成為機器學(xué)習的燃料。

機器學(xué)習模型

模型是機器學(xué)習解決方案的抽象化表述。模型定義架構,架構經(jīng)過(guò)訓練變成產(chǎn)品實(shí)現。所以,我們不是部署模型,而是部署經(jīng)過(guò)數據訓練的模型的實(shí)現(在下一節中有更加詳細的介紹)。模型 + 數據 + 訓練=機器學(xué)習解決方案的實(shí)例(圖1)。


圖1:從機器學(xué)習模型到解決方案。(圖源:作者)

機器學(xué)習解決方案代表一個(gè)系統。它們接受輸入,在網(wǎng)絡(luò )中執行不同類(lèi)型的計算,然后提供輸出。輸入和輸出代表數值型數據,這意味著(zhù),在某些情況下,需要轉譯。例如,將文本數據輸入深度學(xué)習網(wǎng)絡(luò )需要將單詞編碼成數字形式,考慮到可以使用的單詞的多樣性,該數字形式通常是高維向量。同樣,輸出可能需要從數字形式轉譯回文本形式。

機器學(xué)習模型有多種類(lèi)型,如神經(jīng)網(wǎng)絡(luò )模型、貝葉斯 (Bayesian) 模型、回歸模型、聚類(lèi)模型等。您選擇的模型是基于著(zhù)手解決的問(wèn)題。

對于神經(jīng)網(wǎng)絡(luò )來(lái)說(shuō),模型從淺多層網(wǎng)絡(luò )到深度神經(jīng)網(wǎng)絡(luò ),類(lèi)型豐富,而深度神經(jīng)網(wǎng)絡(luò )還包括多層特化神經(jīng)元(處理單元)。深度神經(jīng)網(wǎng)絡(luò )還有一系列基于目標應用的可用模型。例如:

如果您的應用側重于識別圖像中的對象,那么卷積神經(jīng)網(wǎng)絡(luò ) (CNN) 就是理想的模型。CNN已被應用于皮膚癌檢測,效果優(yōu)于皮膚科醫生的平均水平。

如果您的應用涉及預測或生成復雜序列(如人類(lèi)語(yǔ)言句子),那么遞歸神經(jīng)網(wǎng)絡(luò ) (RNN) 或長(cháng)短期記憶網(wǎng)絡(luò ) (LSTM) 是理想模型。LSTM也已經(jīng)應用到人類(lèi)語(yǔ)言的機器翻譯中。

如果您的應用涉及用人類(lèi)語(yǔ)言描述圖像內容,可以使用CNN和LSTM的組合(圖像輸入CNN,CNN的輸出代表LSTM的輸入,后者發(fā)出詞匯序列)。

如果您的應用涉及生成現實(shí)圖像(如風(fēng)景或人臉),那么生成對抗網(wǎng)絡(luò ) (GAN) 是當前最先進(jìn)的模型。

這些模型代表了當今常用的部分深層神經(jīng)網(wǎng)絡(luò )架構。深度神經(jīng)網(wǎng)絡(luò )深受歡迎,因為它們可以接受非結構化數據,如圖像、視頻或音頻信息。網(wǎng)絡(luò )中的各層構成一個(gè)特征層次結構,使它們能夠對非常復雜的信息進(jìn)行分類(lèi)。深度神經(jīng)網(wǎng)絡(luò )已經(jīng)在許多問(wèn)題領(lǐng)域展示出先進(jìn)的性能。但是像其他機器學(xué)習模型一樣,它們的準確性依賴(lài)于數據。接下來(lái)我們就探討一下這個(gè)方面。

數據和訓練

無(wú)論在運算中,還是在通過(guò)模型訓練構建機器學(xué)習解決方案的過(guò)程中,數據皆為驅動(dòng)機器學(xué)習的燃料。對于深度神經(jīng)網(wǎng)絡(luò )的訓練數據,探索數量和質(zhì)量前提下的必要數據至關(guān)重要。

深度神經(jīng)網(wǎng)絡(luò )需要大量數據進(jìn)行訓練;按經(jīng)驗來(lái)說(shuō),圖像分類(lèi)中每類(lèi)需要1,000張圖像。但具體答案顯然取決于模型的復雜度和容錯度。實(shí)際機器學(xué)習解決方案中的一些示例表明,數據集有各種大小。一個(gè)面部檢測和識別系統需要45萬(wàn)張圖像,一個(gè)問(wèn)答聊天機器人需要接受20萬(wàn)個(gè)問(wèn)題和200萬(wàn)個(gè)匹配答案的訓練。根據要解決的問(wèn)題,有時(shí)較小的數據集也足夠。一個(gè)情感分析解決方案(根據書(shū)面文本確定觀(guān)點(diǎn)的極性)只需要數萬(wàn)個(gè)樣本。

數據的質(zhì)量和數量同等重要。鑒于訓練需要大數據集,即使少量的錯誤訓練數據也會(huì )導致糟糕的解決方案。根據所需的數據類(lèi)型,數據可能會(huì )經(jīng)歷一個(gè)清洗過(guò)程。此過(guò)程確保數據集一致、沒(méi)有重復數據且準確、完整(沒(méi)有無(wú)效或不完整數據)。有可以支持此過(guò)程的工具。驗證數據的偏差也很重要,確保數據不會(huì )導致有偏差的機器學(xué)習解決方案。

機器學(xué)習訓練對數值型數據進(jìn)行運算,因此,根據您的解決方案,可能需要預處理步驟。例如,如果數據是人類(lèi)語(yǔ)言,其必須首先轉譯為數字形式才能處理?梢詫D像進(jìn)行預處理以保持一致性。例如,除了其他運算外,輸入深度神經(jīng)網(wǎng)絡(luò )的圖像還需要調整大小和平滑處理,以去除噪聲。

機器學(xué)習中最大的問(wèn)題之一是獲取數據集來(lái)訓練機器學(xué)習解決方案。根據您的具體問(wèn)題,這個(gè)工作量可能非常大,因為可能沒(méi)有現成的數據,需要您另外設法獲取。

最后,應該分割數據集,分別用作訓練數據和測試數據。訓練數據用于訓練模型,在訓練完成后,測試數據用于驗證解決方案的準確性(圖2)。


圖2:分割數據集分別用于訓練和驗證。(圖源:作者)

有工具來(lái)幫助完成這個(gè)過(guò)程,大多數框架都擁有“分割”功能,用于分割訓練和測試數據,F在我們來(lái)看一些簡(jiǎn)化機器學(xué)習解決方案構造的框架。

框架

現在,不再需要從頭開(kāi)始構建機器學(xué)習模型。您可以使用包含這些模型和其他工具的框架來(lái)準備數據和驗證您的解決方案。這些框架還提供用于部署解決方案的環(huán)境。選擇哪個(gè)框架通常取決于您的熟悉程度,但在剛開(kāi)始的時(shí)候可以選擇一個(gè)適合您要使用的應用與模型的框架。

TensorFlow是最好的深度學(xué)習框架。它支持所有流行的模型(CNN、RNN、LSTM等),并允許您使用Python或C++進(jìn)行開(kāi)發(fā)。從高端服務(wù)器到移動(dòng)設備,均可部署TensorFlow解決方案。如果您剛剛上手,TensorFlow是一個(gè)不錯的起點(diǎn),它有教程和豐富的文檔。

CAFFE最初是一個(gè)學(xué)術(shù)項目,但在發(fā)布到開(kāi)源后,已經(jīng)發(fā)展成為一個(gè)流行的深度學(xué)習框架。CAFFE采用C++編寫(xiě),但也支持Python模型開(kāi)發(fā)。同TensorFlow一樣,它也支持廣泛的深度學(xué)習模型。

PyTorch的框架中。PyTorch是另一個(gè)很好的選擇,它基于豐富的可用信息,包括構建不同類(lèi)型解決方案的實(shí)踐教程。

R語(yǔ)言和環(huán)境是機器學(xué)習和數據科學(xué)的流行工具。其為交互式工具,可幫助您逐步構建解決方案的原型,同時(shí)分階段查看結果。有了Keras(一個(gè)開(kāi)源的神經(jīng)網(wǎng)絡(luò )庫),您可以用極少量的開(kāi)發(fā)投入來(lái)構建CNN和RNN。

模型審核

一旦模型經(jīng)過(guò)訓練并滿(mǎn)足了準確性要求,即可部署到生產(chǎn)系統中。但是到了這一步就需要審核解決方案,以確保其符合要求?紤]到?jīng)Q策是由模型來(lái)做以及對人們的影響,這一點(diǎn)尤為重要。

有些機器學(xué)習模型是透明的,可以理解(例如,決策樹(shù))。但深度神經(jīng)網(wǎng)絡(luò )等其他模型被認為是“黑箱”,決策是由數百萬(wàn)個(gè)無(wú)法用模型本身解釋的計算做出的。因此,過(guò)去一度可以接受定期審核,但是,連續審核正在迅速成為這些暗箱情況下的標配,因為錯誤是不可避免的。一旦發(fā)現錯誤,這些信息可以用作調整模型的數據。

另一個(gè)考慮是解決方案的生命周期。模型會(huì )衰退,輸入數據會(huì )發(fā)生變化,從而導致模型性能的變化。因此,必須接受解決方案隨著(zhù)時(shí)間的推移會(huì )變得羸弱,機器學(xué)習解決方案必須隨著(zhù)周?chē)澜绲淖兓粩嘧龀龈淖儭?br />
總結

為了部署機器學(xué)習解決方案,我們從一個(gè)問(wèn)題開(kāi)始,然后考慮可能的解決模型。接下來(lái)是獲取數據,經(jīng)過(guò)正確清理和分割,就可以使用機器學(xué)習框架訓練和驗證模型。并非所有的框架都是相同的,您可以根據您的模型和經(jīng)驗來(lái)選擇和應用。然后,使用該框架部署機器學(xué)習解決方案,通過(guò)適當的審核,解決方案可以在真實(shí)世界中使用實(shí)時(shí)數據進(jìn)行運算。


來(lái)源:貿澤電子
作者:M. Tim Jones
本文地址:http://selenalain.com/thread-772164-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
yanyue 發(fā)表于 2021-8-12 09:35:15
吃瓜群眾路過(guò)
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页