AI助力初創(chuàng )企業(yè):運用機器學(xué)習解決問(wèn)題

發(fā)布時(shí)間:2021-8-11 15:44    發(fā)布者:eechina
關(guān)鍵詞: AI , 機器學(xué)習
簡(jiǎn)介

初創(chuàng )企業(yè)將一些最具創(chuàng )新性的產(chǎn)品和服務(wù)推向市場(chǎng),但通常要少量工具、手動(dòng)操作以及不斷拓展專(zhuān)業(yè)知識的人員。人工智能 (AI),尤其是機器學(xué)習 (ML) 和深度學(xué)習 (DL),正在通過(guò)自動(dòng)化流程和減少工作量,助力初創(chuàng )企業(yè)解決這些難題及其他問(wèn)題。在這類(lèi)初創(chuàng )企業(yè)當中,AI不是產(chǎn)品的一部分,它的實(shí)施最終是為了幫助初創(chuàng )企業(yè)解決業(yè)務(wù)問(wèn)題、改進(jìn)流程和提升企業(yè)的潛在價(jià)值。

有時(shí),自動(dòng)化可以建立在以人為主導的流程的專(zhuān)業(yè)知識之上手動(dòng)執行。但是,當可用數據的數量、復雜性或可變性使得這種方法捉襟見(jiàn)肘時(shí),機器學(xué)習可以帶來(lái)真正的實(shí)惠。本文旨在深度剖析如何確定AI輸入和輸出、使用數據集、探索數據可能性以及最終確定AI模型(圖1)。


圖1:這些步驟強調運用機器學(xué)習解決初創(chuàng )企業(yè)常見(jiàn)問(wèn)題的過(guò)程。(圖源:作者)

第1步:識別輸入、輸出和指標

該過(guò)程的第一步是確定算法的輸入和輸出,以及選擇正確的指標衡量其性能。這些決策應該受到業(yè)務(wù)目標和技術(shù)限制的影響。例如,數據的可用性和數量以及隱私要求會(huì )影響數據輸入,文件格式的一致性和存儲數據的需求也會(huì )帶來(lái)影響。

在大多數情況下,數據輸入淺顯易懂,例如文本、圖像或數字值,在使用前只需進(jìn)行少量的預處理。然而,可能需要對結果數據進(jìn)行預處理,以產(chǎn)生單個(gè)值來(lái)標記每個(gè)輸入數據點(diǎn)。例如,一家企業(yè)可能希望對通過(guò)電子郵件收到的客戶(hù)服務(wù)投訴進(jìn)行分類(lèi),或者可能希望根據買(mǎi)家購物車(chē)中的商品推薦其他商品。無(wú)論哪種情況,結果數據都需要進(jìn)行調整,以標記這些電子郵件投訴的緊急程度,或者識別與產(chǎn)品圖像匹配的產(chǎn)品代碼。

可以基于數據特定結果達到一定準確性的重要性,來(lái)選擇衡量模型成功與否的正確指標(圖2)。盡管追求高精度似乎合乎邏輯,卻并非金標準。例如,在欺詐檢測中,識別潛在的欺詐比正確預測出每個(gè)事件更為重要。根據經(jīng)驗,如果選擇的指標有利于提升一類(lèi)鮮少發(fā)生事件的準確性,許多非事件也可能會(huì )標記出來(lái)。在這種情況下,為避免損害檢測欺詐性交易的能力,人機協(xié)同 (HitL) 最終敲定結果可能會(huì )有所幫助。


圖2:準確性(正確響應的數量)與指標的敏感性和特異性相關(guān)。(圖源:Wordstream博客)

在選擇指標時(shí),值得調查其他人做了什么和推薦什么,以及開(kāi)始數據聚合和清洗過(guò)程。在某些情況下,數據尚未處于您需要的狀態(tài),或者可以調整數據收集,使之更加“適合AI”。

第2步:數據準備工作

通常,AI模型期望數據始終處于特定格式。這一步需要清洗和轉換數據,以滿(mǎn)足AI模型和目標所需的標準,整個(gè)過(guò)程無(wú)比費時(shí),且異常復雜。通常會(huì )請一名數據工程師,處理基礎架構、存儲空間和用于數據提取的管道。

首先,每個(gè)輸入都需要一個(gè)您想要預測的對應標簽或目標。例如,如果有100張狗的圖像,則需要將每張圖像標識為一條狗。這可以通過(guò)簡(jiǎn)單的方法來(lái)實(shí)現,例如,使用CSV文件或將它們存儲在稱(chēng)為“狗”的單獨文件夾中。幾乎所有的分類(lèi)算法都認為預測目標也是數值,二進(jìn)制或離散類(lèi)別!笆腔蚍瘛笔嵌M(jìn)制類(lèi)別的示例,而對象預測中的許多類(lèi)(例如,狗、貓或鳥(niǎo))則是離散類(lèi)別的示例。預測值而不是類(lèi)別(稱(chēng)為回歸),必須將目標標準化為0或1。復雜的AI方法也需要同樣復雜的類(lèi)別,但是無(wú)論如何,所有內容都必須保持一致,且研究相應的數據結構非常重要。

此外,數據點(diǎn)也需要進(jìn)行標準化。對于圖像,這意味著(zhù)它們至少大小相同,且不會(huì )大到無(wú)法用AI模型處理。對于文本,這可能意味著(zhù)縮短或填充短語(yǔ),使它們具有相同的長(cháng)度,也可能意味著(zhù)短語(yǔ)標記化,即,用數字替換每個(gè)單詞。在此階段,考慮分類(lèi)和數據的各種選項以確保在最初選擇的輸入和輸出未能產(chǎn)生有意義的結果或證明噪聲太大的情況下,可以其他方式使用數據。

最后,應該清洗數據集,以確保數據正確、一致和可用。這可能包括識別和糾正數據集的損壞、不完整、重復或不相關(guān)的部分。數據清洗通常比開(kāi)發(fā)新算法要花費更多的時(shí)間,因此,請記住80-20規則:80%的數據需要20%的工作量。在項目的初始階段,應當使數據易于處理,而不必擔心需要強大的系統清洗每一條數據。

第3步:瀏覽數據并確認選擇

探索性數據分析 (EDA) 旨在識別底層模式,發(fā)現異常并檢查數據集中的假設。EDA可以作為數據準備工作的一部分完成;但是,其通常伴隨著(zhù)數據清洗。EDA中最重要的任務(wù)包括分析

數據缺失,這可能影響模型的性能。根據必填字段中缺失的百分比,可能丟棄這些數據點(diǎn),執行值的插值,或者在沒(méi)有足夠有用的信息時(shí)放棄使用該信息。
異常數據:區分異常數據是噪聲還是您想要捕捉的實(shí)際事件至關(guān)重要。例如,將過(guò)高或過(guò)低的錯誤值與數據看起來(lái)也頗為相似的罕見(jiàn)值(如欺詐或機器故障)進(jìn)行比較。

數據標簽噪聲:標簽噪聲來(lái)自錯誤標記的數據點(diǎn),會(huì )妨礙AI學(xué)習數據和目標之間適當相關(guān)性的能力。

根據數據量的不同,或能糾正這些錯誤,但有時(shí)可能需要選擇不同的選項作為預測目標。

第4步:研究算法并準備資源

接下來(lái),需要研究AI本身。始終對可能適合該任務(wù)的可用算法進(jìn)行初步調查(圖3)。借助大量資源,包括預先訓練好的模型和詳細說(shuō)明特定任務(wù)算法的研究文章,可以充分利用現有的資源,而不必重復別人的勞動(dòng)、做無(wú)用功。


圖3: 不同機器學(xué)習目標的算法/方法類(lèi)型的可視化指南。(圖源:Toward Data Science)

此外,根據每一類(lèi)可用的數據量,決定需要機器學(xué)習 (ML) 算法還是深度學(xué)習 (DL) 算法。通常,深度學(xué)習效果最好是每個(gè)類(lèi)標簽有5,000多個(gè)示例。如果每個(gè)類(lèi)的例子較少,該模型可能只會(huì )學(xué)習您的訓練數據,而無(wú)法根據新的真實(shí)世界信息正確預測結果。在DL出現之前,ML已使用了很長(cháng)時(shí)間,且在較小的數據集上產(chǎn)生了非常好的結果;但是,數據點(diǎn)需要更多的人工工作,這個(gè)過(guò)程通常稱(chēng)為特征工程。

根據數據集和每個(gè)數據點(diǎn)的大。ㄕ堄涀,即使是300 × 300像素的圖像也需要花費很長(cháng)時(shí)間進(jìn)行訓練。,您應該投資提升一些算力:通過(guò)現有平臺或添置內部圖形處理器 (GPU)。通常,對于初次接觸的項目,建議使用前者,因為如果項目行不通,您還可以終止訪(fǎng)問(wèn)。鑒于A(yíng)mazon Web Services (AWS)、Google Cloud Platform (GCP) 和Microsoft Azure等平臺上可用的AI服務(wù)的成熟性和完整性,在沒(méi)有專(zhuān)門(mén)的“AI人員”甚至沒(méi)有任何編碼的情況下,也可以渡過(guò)這一階段。它們對特定任務(wù)所產(chǎn)生的效果,將影響您決定是否為項目聘請外援。

第5步:基準測試、迭代和最終確定模型

無(wú)論采用何種機器學(xué)習類(lèi)型(輸入型還是學(xué)習型),Model Zoo、Tensorflow Hub,Google Cloud Platform或AWS等網(wǎng)站都可能有經(jīng)過(guò)預先訓練的解決方案,并已經(jīng)學(xué)會(huì )了根據數據進(jìn)行一些預測。重要的是,還可以通過(guò)微調執行類(lèi)似的任務(wù)(稱(chēng)為轉移學(xué)習)重用這些模型,例如,使用經(jīng)過(guò)訓練的模型預測圖像中的對象,以便在給定較少數據的情況下只預測家具的類(lèi)型,即使它在第一輪訓練中沒(méi)有看到這些物品。轉移學(xué)習是一種非常常見(jiàn)的方法,可以在利用他人工作的同時(shí)獲得巨大的效益,而不需要如此豐富的數據。通常,使用這些解決方案需要掌握Python的基本編程技能,但也需要其他技能。

您還可以在數據特征的子集上使用更簡(jiǎn)單的機器學(xué)習算法,作為確定數據中信號的粗略方法。一旦確定了開(kāi)箱即用方法的工作效果,就可以開(kāi)始迭代過(guò)程。具體是要改進(jìn)嘗試的模型還是嘗試定制模型,取決于初創(chuàng )企業(yè)要求的閾值,以確保此任務(wù)的準確性。

第6步:準備交工!

典型的AI項目流程到此結束。簡(jiǎn)而言之,就是您需要選擇輸入、輸出和性能指標,然后按順序獲取數據并完成探索性數據分析,繼而確認您在第一步中的選擇。 之后,開(kāi)始模型開(kāi)發(fā)和迭代階段。 一旦對模型性能感到滿(mǎn)意,且其得到了所需的結果,初創(chuàng )企業(yè)就可以開(kāi)始付諸生產(chǎn),享受這種新發(fā)現的自動(dòng)化功能所帶來(lái)的利好。

生產(chǎn)本身就是一個(gè)過(guò)程,也需要多個(gè)步驟和流程。您需要確定如何彌合模型性能和所需精度之間的差異,如數據部分所述。其他考慮因素包括加強數據清洗軟件,決定數據集和模型的版本控制過(guò)程或工具。敬請關(guān)注第2部分,深度探秘在生產(chǎn)中交付AI所需的一切!


來(lái)源:貿澤電子
作者:Becks Simpson
本文地址:http://selenalain.com/thread-772168-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
yanyue 發(fā)表于 2021-8-12 09:34:10
吃瓜群眾路過(guò)
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页