不寫(xiě)代碼也能搞機器學(xué)習?! 這是亞馬遜云科技在最近亞馬遜云科技 re:Invent 大會(huì )上公布的新工具,用于實(shí)現無(wú)代碼可視化機器學(xué)習。 亞馬遜云科技 re:Invent 大會(huì )可謂是云計算行業(yè)的“春晚”,IT 技術(shù)領(lǐng)域風(fēng)向標級活動(dòng),連他們自家的西雅圖總部大廈也隨其更名為大會(huì )名,品牌影響之強,可見(jiàn)一斑。 10年來(lái),這一活動(dòng)上誕生了無(wú)數云計算乃至 AI 行業(yè)標桿產(chǎn)品,如 Amazon Mechanical Turk、Amazon Rekognition、Amazon SageMaker 等等。 今年亞馬遜云科技 re:Invent 2021 同樣信息量巨大,最引人關(guān)注的,莫過(guò)亞馬遜云科技的機器學(xué)習平臺服務(wù) Amazon SageMaker 迎來(lái)了一次“大爆發(fā)”。 不只有無(wú)代碼開(kāi)發(fā)機器學(xué)習模型這一道“菜品”,整個(gè) AI 餐桌上,縱向看,亞馬遜云科技的12項產(chǎn)品已經(jīng)覆蓋了整個(gè) AI 產(chǎn)業(yè)鏈—— 再從橫向看,從為個(gè)人開(kāi)發(fā)者準備的入門(mén)免費算力池,到大廠(chǎng)專(zhuān)業(yè)人士所需的 AI 模型優(yōu)化工具,相應發(fā)布也一應俱全。甚至,考慮到 AI 發(fā)展迅猛的中國市場(chǎng)用戶(hù),亞馬遜云科技還在B站提供帶中文字幕的大會(huì )實(shí)錄。 現場(chǎng)演講中,CEO 還專(zhuān)門(mén)強調:「亞馬遜云科技會(huì )提供最廣泛最完整的全棧式機器學(xué)習服務(wù)」。 不妨跟著(zhù)我們一起回顧全程亮點(diǎn),對亞馬遜云科技的 AI 產(chǎn)品脈絡(luò )有一番全面認識。 不用代碼的機器學(xué)習 還是先探探一開(kāi)始提及的無(wú)代碼機器學(xué)習預測服務(wù),看它是否真能讓不懂代碼的人上手。 按官方介紹,這款產(chǎn)品名為 Amazon SageMaker Canvas,面向零機器學(xué)習經(jīng)驗群體,他們中,也許有人是業(yè)務(wù)分析師,也許有人從事人力資源、財務(wù)或營(yíng)銷(xiāo)等工作。 可預見(jiàn),上述群體中,多數人并沒(méi)有機器學(xué)習經(jīng)驗,甚至對代碼也毫無(wú)認知,卻肯定有通過(guò)數據來(lái)衡量當前策略、預測市場(chǎng)趨勢的需求。 Amazon SageMaker Canvas 就是將機器學(xué)習模型的諸多步驟可視化為可交互的 UI,旨在解決他們的業(yè)務(wù)問(wèn)題,號稱(chēng):不寫(xiě)一行代碼,快速生成機器學(xué)習預測模型。 為了證實(shí)其有效性,亞馬遜云科技的 AI/ML 部門(mén)自己分享了一個(gè)案例。 當中,該部門(mén)產(chǎn)品營(yíng)銷(xiāo)經(jīng)理想通過(guò) Amazon SageMaker Canvas 對當前營(yíng)銷(xiāo)活動(dòng)進(jìn)行評估,判斷其是否具有足夠影響力和有效性。 只需打開(kāi) Amazon SageMaker Canvas,上傳數據。該過(guò)程中,平臺還能自動(dòng)糾正上傳數據錯誤,比如補充缺失值或刪除重復的行和列。其技術(shù)不出意外,同樣來(lái)自自家 AI/ML。 接下來(lái),指定模型預測的目標,再點(diǎn)擊「快速生成」,所需模型即可訓練得到。 從結果看,呈現效果確是一個(gè)可視化圖表,模型準確度為93%。 生成模型后,還可共享給數據科學(xué)家等合作伙伴,幫業(yè)務(wù)人員來(lái)進(jìn)一步檢查或者優(yōu)化這些的模型。 看完官方這一案例,該可視化界面的確有兩把刷子—— 那么合作方體驗又如何? 目前,寶馬集團已將亞馬遜云科技 AI/ML 技術(shù)投入實(shí)際業(yè)務(wù)流程中的600多個(gè)應用中,涵蓋生產(chǎn)線(xiàn)到銷(xiāo)售端的多個(gè)場(chǎng)景,此外寶馬還有1500萬(wàn)臺互聯(lián)汽車(chē)介入其中,一天產(chǎn)生數以百萬(wàn)公里數據均交由 Amazon SageMaker Canvas 分析預測。 西門(mén)子能源也是上手吃螃蟹者之一。他們將 Amazon SageMaker Canvas 作為自家機器學(xué)習工具包的補充,一位應用部門(mén)的數據科學(xué)組組長(cháng)表示:Canvas 讓我們能與數據科學(xué)團隊共享協(xié)作,有助于生產(chǎn)更多機器學(xué)習模型,并確保模型符合質(zhì)量標準和規范。 還有很多名不見(jiàn)經(jīng)傳的巨頭也是 Canvas 體驗者,比如全球最大的非上市公司科赫集團的子公司英威達,也已經(jīng)用 Amazon SageMaker Canvas 來(lái)輔助處理業(yè)務(wù)流程中的數據科學(xué)問(wèn)題。 多方評價(jià)及直觀(guān)展示結果看完,大致可以判斷,此次 Amazon SageMaker Canvas 確實(shí)值得期待。畢竟圖形界面相比代碼釋放生產(chǎn)力創(chuàng )造價(jià)值的定律在過(guò)去已被反復證明。 免費的線(xiàn)上 AI 實(shí)驗室 前文提及,在年度重磅發(fā)布會(huì )亞馬遜云科技放下豪言:提供最廣泛最完整的全棧式機器學(xué)習服務(wù),既然是「最廣泛最完整」,僅靠一個(gè) Amazon SageMaker Canvas 的發(fā)布當然不夠—— 對廣大學(xué)研機構、AI 愛(ài)好者們,前沿技術(shù)巨人也需要對得起自己的口號。 總結下來(lái),三個(gè)字,降門(mén)檻。 最直觀(guān)的,提供算力資源。 近年來(lái),高昂的硬件價(jià)格、復雜軟件配置一直阻礙初學(xué)者入門(mén) AI 的腳步,也是限制行業(yè)發(fā)展,為更多人認知熟悉的巨大障礙。 亞馬遜云科技發(fā)布功能 Amazon Sagemaker Studio Lab 提供一大團可薅的「羊毛」。無(wú)需額外環(huán)境配置、無(wú)需注冊賬戶(hù)、直接用電子郵件就能登錄進(jìn)去的線(xiàn)上實(shí)驗室。 在這一環(huán)境中,任何人創(chuàng )建的項目,都能直接擁有12個(gè)小時(shí)的 CPU 計算時(shí)間、4小時(shí)的 GPU 計算時(shí)間,以及15GB的存儲空間: 這樣的配置縱觀(guān)整個(gè)行業(yè),確實(shí)到位。 要知道,在使用 Pandas 或 XGBoost 進(jìn)行經(jīng)典 ML 算法訓練的數據預處理時(shí),12小時(shí) CPU 時(shí)間基本足夠。對于深度學(xué)習訓練,也可選擇 GPU 后端獲得4小時(shí)計算時(shí)間,足以在較小的數據集上進(jìn)行訓練或微調模型。 換句話(huà)說(shuō),對初學(xué)者階段 AI 模型,拿著(zhù)上述資源基本都能免費訓練完成。 同時(shí),當下最流行的機器學(xué)習工具、框架和庫也被預先打包進(jìn)去,提供給注冊者,能自定義 Conda 環(huán)境,也可安裝開(kāi)源的 JupyterLab 和 Jupyter Server 擴展。上述實(shí)驗環(huán)境與 GitHub 緊密集成,使得創(chuàng )建的項目能夠被輕松地復制和保存。 除免費“線(xiàn)上實(shí)驗室”及算力資源,另一部分「羊毛」更直觀(guān)——獎學(xué)金。 此番亞馬遜云科技共拿出了1000萬(wàn)美金,推出一項亞馬遜云科技 AI&ML 獎學(xué)金計劃,旨在幫助16歲以上的高中、大學(xué)生,幫助他們鋪平通往機器學(xué)習相關(guān)職業(yè)之路。 除此之外,亞馬遜云科技的1:18比例自動(dòng)駕駛賽車(chē) Amazon DeepRacer 也在面向自動(dòng)駕駛、機器學(xué)習愛(ài)好者們,提供一種更有趣、門(mén)檻更低的方式幫助他們入門(mén)機器學(xué)習,訓練出可自己的強化學(xué)習模型。 Amazon DeepRacer 由強化學(xué)習驅動(dòng),并能將算法部署于云端的 3D 賽車(chē)模擬器中,也可以通過(guò)實(shí)體小車(chē)體驗在真實(shí)世界中賽車(chē)的刺激感。 當然,表現優(yōu)異者同樣直通獎學(xué)金計劃。 不僅自己發(fā)光發(fā)熱,亞馬遜云科技還拉上英特爾,Udacity 做起聯(lián)名活動(dòng),面向16歲以上的經(jīng)濟困難、殘疾等社會(huì )弱勢群體發(fā)放2500份獎學(xué)金。 獲得經(jīng)濟支持之外,這些弱勢人群們也能得到 Udacity 導師、亞馬遜云科技和英特爾技術(shù)大咖長(cháng)達一年時(shí)間的指導和幫助。 機器學(xué)習“工業(yè)化”重塑 無(wú)論零代碼機器學(xué)習發(fā)布,還是面向更廣人群的普惠,背后還是技術(shù)撐腰。畢竟功能開(kāi)發(fā)需要深刻場(chǎng)景理解及技術(shù)積淀,而「普惠」二字考驗的,還是技術(shù)企業(yè)的降本水平。 相比上述兩者,亞馬遜云科技 re:Invent2021 面向專(zhuān)業(yè)從業(yè)者發(fā)布的 Amazon SageMaker 諸項新功能,更直觀(guān)展現亞馬遜云科技技術(shù)水準,從中,更可見(jiàn)技術(shù)巨頭對 AI/ML 未來(lái)的謀劃。 對于廣大的 MLer 來(lái)說(shuō),一套完整的機器學(xué)習流程,包括數據準備、數據標注、訓練、推理、部署。最終模型推理效果如何,既依賴(lài)于開(kāi)發(fā)者個(gè)人的水平,也會(huì )受架構、算力、數據這些外化因素的影響。 亞馬遜云科技之所以這么做,是想要降低個(gè)人水平影響,用他們的話(huà)說(shuō):讓 AI/ML 從手工作坊走向工業(yè)化。 具體來(lái)看,為一攬子解決問(wèn)題,Amazon SageMaker 給出一套組合拳,涵蓋機器學(xué)習全流程: 在數據準備階段,數據工程師常常需要離開(kāi)當前開(kāi)發(fā)環(huán)境,手動(dòng)配置一個(gè)滿(mǎn)足正在運行的模型或分析要求的集群。 為此,Amazon SageMaker Studio 與 Amazon EMR 進(jìn)行了集成,可直接從 Amazon SageMaker Studio Notebook中使用 SparkUI 來(lái)監視和調試運行在 Amazon ECR 集群上的 Spark 作業(yè)。 鑒于無(wú)論執行數據預處理、開(kāi)發(fā)還是模型部署,都不必離開(kāi)這個(gè)環(huán)境,上述動(dòng)作無(wú)疑向一個(gè)理想的完全集成開(kāi)發(fā)環(huán)境邁進(jìn)了一步。 數據標注階段也在告別勞動(dòng)密集型,避免人工屈從于人工智能: 這一工作以前需要人力手動(dòng)標注,或通過(guò)數據標注程序處理,但現在,在給出原始數據和需求之后,Amazon SageMaker Ground Truth Plus 會(huì )結合機器學(xué)習協(xié)助的預標記,輔助人類(lèi)專(zhuān)家進(jìn)行標記。 這種方式能降低錯誤率,同時(shí)將標注的成本降低40%,做到更高效地檢測錯誤,避免低質(zhì)量標簽的出現。 訓練階段的提升更為關(guān)鍵。 強如業(yè)界經(jīng)典的深度學(xué)習模型 BERT ,數以十億級參數的復雜神經(jīng)網(wǎng)絡(luò ),需要用 GPU 訓練數千小時(shí),即使調參優(yōu)化,也仍然需要幾天的時(shí)間訓練。 但現在,亞馬遜云科技提供的機器學(xué)習模型優(yōu)化編譯器 Amazon SageMaker Training Compiler,實(shí)現無(wú)需增加太多代碼,即可提升 GPU 實(shí)例訓練速度。 借助該編譯器,包括 BERT-base-cased、BERT-base-uncased、distilBERT-base-uncased 在內的諸多經(jīng)典深度學(xué)習模型,訓練速度都能直接提升50%。
最后是推理階段方面的提升。亞馬遜云科技拿出了之前一舉成名的「無(wú)服務(wù)器」概念,提供了一套無(wú)服務(wù)器推理功能的 Serverless Inference。 該功能針對數據計算量波動(dòng)性較強的情況,能夠將資源分配交給云端,享受一個(gè)彈性資源空間服務(wù)。讓程序員關(guān)注高級語(yǔ)言,而不用去關(guān)注底層硬件,讓專(zhuān)業(yè)人士專(zhuān)注擅長(cháng)方向。 考慮到現實(shí)中,很多客戶(hù)有專(zhuān)項需求,但很難判斷多少計算資源合適,另一功能 Amazon SageMaker Inference Recommender 則提供推理階段中的配置和實(shí)際運行參數推薦,在成本和速度之間找到最佳平衡點(diǎn)。 從數據準備到推理階段,上述各個(gè)流程產(chǎn)品功能發(fā)布為全機器學(xué)習周期服務(wù),而非單點(diǎn)拼湊而成,其目的在于:幫助企業(yè)實(shí)現機器學(xué)習的大規模運用,點(diǎn)連成線(xiàn),打通了一條 AI/ML 工業(yè)化規模應用流程。 那么這套組合拳的效果如何? 可見(jiàn)案例中,美國最大基金管理公司之一 Vanguard 部署時(shí)間壓縮96%,醫藥巨頭阿斯利康在5分鐘內即可完成機器學(xué)習環(huán)境部署,理財企業(yè) NerdWallet 在原有訓練需求增加前提下,成本反降75%。 除此之外,更多元的落地場(chǎng)景,也能看出亞馬遜云科技對 AI/ML 的縱深挖掘。 比如 DevOps Guru for RDS 可以用來(lái)幫助開(kāi)發(fā)者檢測、診斷和解決 Amazon Aurora 中的性能和操作問(wèn)題。 比如 CodeGuru Reviewer 來(lái)識別源代碼中的密碼、 API 密鑰、 SSH 密鑰和訪(fǎng)問(wèn) token,提高代碼審查的效率,幫助傳統軟件行業(yè)提升效能。 有趣的是,亞馬遜云科技 re:Invent 2021 大會(huì )舉辦期間,CTO Werner Vogels 還忙里偷閑發(fā)表的一篇博客,文中暴露了這位技術(shù)男對 AI/ML 產(chǎn)業(yè)的高期待:
最后硬件上,亞馬遜云科技還發(fā)布了自研芯片,而且還是一口氣推出了三款。 其中,CPU 芯片 Graviton3 就以機器學(xué)習為主打特征。 更有機器學(xué)習定制訓練芯片 Trainium,支持 Trn1 實(shí)例,能夠為用戶(hù)在云中訓練深度學(xué)習模型提供更高性?xún)r(jià)比和更快速度。 無(wú)論是打通 AI/ML 工業(yè)化規模應用流程,還是硬件自研芯片發(fā)布,更宏觀(guān)層面看—— 上述發(fā)布動(dòng)作昭示了亞馬遜云科技在 AI/ML 業(yè)務(wù)肉眼可見(jiàn)的延伸。 亞馬遜云科技正在拓展 AI 疆界 根據 IDC 的數據,從2013年至2020年的7年內,全球 AI/ML 年支出規模從0迅速擴大到約500億美元,該增速幾乎是亞馬遜云科技老本行云計算的2倍。 正是看見(jiàn)這一趨勢,亞馬遜云科技多路出擊似乎也是必然。 從無(wú)代碼機器學(xué)習、無(wú)服務(wù)器應用深入 AI/ML,到底層算力繼續升級,乃至諸多普惠計劃…令人眼花繚亂的發(fā)布無(wú)不昭示亞馬遜云科技正在重新劃定機器學(xué)習的全新的疆界。 盡管上述發(fā)布還未落地結果,其展現出的價(jià)值普通大眾一時(shí)未必肉眼可見(jiàn),但從另一個(gè)視角看,所謂追求長(cháng)期價(jià)值,所謂看重基礎設施布局,不就顯而易見(jiàn)地寫(xiě)在亞馬遜云科技 DNA 里么? 回想1997年,貝索斯發(fā)布了那封廣為人知的「致股東一封信」。 彼時(shí)初代互聯(lián)網(wǎng)泡沫正在累積,「快錢(qián)」之于很多人尚且是全新概念,當時(shí)的 Amazon 就提出客戶(hù)、銷(xiāo)售和品牌增長(cháng)無(wú)不為了長(cháng)期價(jià)值服務(wù),同樣為長(cháng)期價(jià)值,貝索斯強調了對「系統及其它基礎設施」的持續投入。 此后,Amazon Web Services 獨立運作,將云計算從「概念」變成實(shí)實(shí)在在的一個(gè)行業(yè),更有 Amazon Redshift、Amazon Lambda 帶出云原生數倉、無(wú)服務(wù)器路線(xiàn)發(fā)展… 一切的一切,似乎都早早寫(xiě)下序章。 現在亞馬遜云科技帶著(zhù)同樣心態(tài)持續押注 AI/ML 領(lǐng)域,本身也就不令人意外了。 這既是身為技術(shù)巨頭的責任所在,也的確讓人有所期待,正呼應今年亞馬遜云科技 re:Invent 2021 的 Slogan :引領(lǐng)風(fēng)向,重塑未來(lái)。 我們已能看到,AI/ML 領(lǐng)域人群覆蓋在擴大,其行業(yè)場(chǎng)景在延伸,其技術(shù)也相應繼續深探,這一過(guò)程還在被行業(yè)技術(shù)探路者們持續推進(jìn)。 未來(lái),AI/ML 的疆域究竟有多大?亞馬遜云科技正在一點(diǎn)點(diǎn)劃定新的輪廓。 |