論 AI 圈活菩薩,非李沐老師莫屬。 前有編寫(xiě)「動(dòng)手學(xué)深度學(xué)習」,成就圈內入門(mén)經(jīng)典,后又在B站免費講斯坦福 AI 課,一則艱深硬核講論文的視頻播放量36萬(wàn),不少課題組從導師到見(jiàn)習本科生都在追番。 如此給勁的分享,難怪不少人驕傲自稱(chēng)「已拜在老師門(mén)下」—— 而最近,我發(fā)現有平臺干了個(gè)更給勁的事。 這個(gè)平臺無(wú)償提供算力不說(shuō),還將入門(mén)經(jīng)典「動(dòng)手學(xué)深度學(xué)習」放進(jìn)平臺,免費供大家學(xué)習和實(shí)操,名曰:Amazon SageMaker Studio Lab 。 按介紹說(shuō)法,該平臺基于 JupyterLab,提供免費 GPU 和 CPU 算力+15G永久存儲功能,還與 GitHub 鏈接,支持主流機器學(xué)習工具組件和開(kāi)源資源包使用,開(kāi)發(fā)者可結合「動(dòng)手學(xué)深度學(xué)習」教材自行訓練模型、看結果。 而且,他們還號稱(chēng)申請只需一個(gè)郵箱,不要官方賬號,更不用填什么信用卡。 真有這么好的事? 今天就帶著(zhù)大家一起親測試試。 1.真能實(shí)操「動(dòng)手學(xué)深度學(xué)習」案例? 通過(guò)鏈接 studiolab.sagemaker.aws ,我們即可登入 web 端平臺,探探虛實(shí)。
從界面能看到,平臺提供 GPU/CPU 算力選擇,而且,可直接開(kāi)啟使用,確實(shí)無(wú)需付款。 右下角,我們就能看到那本 Dive into Deep Learning (縮寫(xiě)為 D2L )。 直接點(diǎn)擊 Open D2L notebooks 可打開(kāi): 開(kāi)啟項目后,系統自動(dòng)加載D2L資源,并存儲在我們的云上文件夾中。 README 文件也一并打開(kāi)好了,在這里面,系統環(huán)境配置、全書(shū)概要、面向受眾、目錄框架一應俱全。文末還有每個(gè)章節鏈接,從中能直接進(jìn)入。 到這,就可以通過(guò)平臺結合課程內容與實(shí)操來(lái)學(xué)習深度學(xué)習了—— 那么實(shí)操效果如何?
以經(jīng)典中的經(jīng)典的 AlexNet 部分為例,感受一下。 平臺上,AlexNet 沿襲發(fā)展、基礎原理解釋均呈現出來(lái),模型的定義構建代碼均可運行。 為保證初學(xué)者更好理解,還能構建單通道數據示例,觀(guān)察 AlexNet 內部8個(gè)層的輸出情況,目的嘛,在于幫我們直觀(guān)了解不同層的作用: 最關(guān)鍵的是,訓練模型環(huán)節也開(kāi)放實(shí)操,選中代碼部分運行即可。 不過(guò)該過(guò)程允許時(shí)間較長(cháng),我們在 GPU 選項下訓練大約使用7分鐘,慢慢等吧!
值得一提的是,由于整個(gè)界面都能作為 Notebook 添加代碼,記錄學(xué)習思考—— 因此,即便我們課程完成,還能在文末添加代碼欄,對照著(zhù)章節末尾習題,編程實(shí)現作業(yè)。
上面展示還只是一個(gè)小節。其實(shí),從全連接層、卷積、池化等概念介紹,到 ResNet、DenseNet 講解…在 Amazon SageMaker Studio Lab 免費環(huán)境中均有呈現及實(shí)操,都安排得明明白白。 平臺還貼心地考慮到我們的高數線(xiàn)性代數基礎不一,不是每個(gè)人都過(guò)了90分,還把單變量微積分、最大似然等數理基礎介紹和代碼實(shí)現都給出來(lái)了,還附上環(huán)境配置方法,一副很靠譜的架勢。 經(jīng)過(guò)上面驗證,這個(gè) Amazon SageMaker Studio Lab 確實(shí)可免費又完整地實(shí)操大神的「動(dòng)手學(xué)深度學(xué)習」—— 對希望入門(mén)乃至深度掌握 AI/ML 這門(mén)技術(shù)的人來(lái)說(shuō),這種理論+實(shí)踐型的研習方式自然更為高效,日后切換到實(shí)際工作或科研甚至創(chuàng )業(yè)中,過(guò)渡也更為無(wú)縫。 事實(shí)上,它的能力還不僅這個(gè)水平。 2.一個(gè)面向開(kāi)發(fā)者的免費平臺 從名字上你也發(fā)現了,推出 Amazon SageMaker Studio Lab 的幕后企業(yè)是亞馬遜云科技。 這家前沿技術(shù)大廠(chǎng)此次推出免費平臺,不只將「動(dòng)手學(xué)深度學(xué)習」做成理論+實(shí)操練習場(chǎng),更想面向數據科學(xué)家、企業(yè)開(kāi)發(fā)者、高校師生—— 提供一個(gè)免費低門(mén)檻入門(mén)機器學(xué)習的普惠機會(huì )。 其實(shí)在亞馬遜云科技之前,業(yè)內已有多個(gè)開(kāi)放機器學(xué)習平臺—— 那么,這回的 Amazon SageMaker Studio Lab ,又有什么值得關(guān)注的新亮點(diǎn)? 我們一起先從配置看起。 平臺提供15G以上永久存儲,16G內存,4個(gè) CPU ,GPU 為英偉達 Tesla T4 ,比目前其他主流平臺稍高。 由于使用了較新架構的英偉達 Tesla T4 ,其混合精度運算速度指標相應也更高,此外,免費版與 SageMaker Studio 使用相同架構,相當于疊加一層企業(yè)級 Buff ,穩定性更有保障。 值得我們注意的是,平臺宣傳的是4小時(shí) GPU+12小時(shí) CPU ,但實(shí)際上,我們到時(shí)間后仍可再次開(kāi)啟 Runtime ,原來(lái)的文件依然存在。 不過(guò)如果你想挖幣,還是算了… 平臺明令禁止使用 SageMaker Studio Lab 進(jìn)行生產(chǎn)行為,挖掘加密貨幣查到直接封號。 說(shuō)完配置,再看下實(shí)操。 從操作性上來(lái)說(shuō), Amazon SageMaker Studio Lab 相比其他平臺更簡(jiǎn)潔直觀(guān)。 界面不僅僅能建立 Jupyter Notebook 文件,還支持我們直接新建 Terminal 標簽頁(yè)、 Markdown 格式文件。 此外,這個(gè)平臺配置有 Conda 和 Pip 資源包管理器,避免我們重復安裝開(kāi)源軟件包,省事省心。 拉取 GitHub 項目甚至無(wú)需使用命令行,點(diǎn)擊左側按鈕即可。 若克隆項目中有 yml 環(huán)境配置文件,在建立項目同時(shí),也會(huì )同步建立好 Conda 環(huán)境。 平臺還與 Github 關(guān)聯(lián)。 在我們自己的 Github 項目 README 文檔中加入以下內容: [![Open In Studio Lab] (https://studiolab.sagemaker.aws/studiolab.svg)](https://studiolab.sagemaker.aws/import/github/org/repo/blob/master/path/to/notebook.ipynb) 即可加入「 Open in Studio Lab 」按鈕—— 他人只需一鍵,即可接入 Amazon SageMaker Studio Lab 平臺。 當然,我們也可以通過(guò)手動(dòng)上傳或拷貝的方式新建 ipynb 。 以經(jīng)典的圖像分類(lèi)算法舉例。 從其他平臺拷貝一份 ipynb 文件后,無(wú)需修改即可使用,最多也就是手動(dòng)安裝依賴(lài)項。 實(shí)測訓練模型的速度與其他平臺基本相同,有時(shí),甚至稍快。 最后,得看看很多人關(guān)心的數據安全問(wèn)題。 我們做機器學(xué)習,經(jīng)常拿著(zhù)大量人臉隱私信息,甚至是尚未脫敏的醫院病患信息,為保護他人隱私和數據安全,還得看看這方面情況。 Amazon SageMaker Studio Lab 脫胎于企業(yè)級應用,承諾每個(gè)人數據均通過(guò)加密保護,且如果刪除賬戶(hù),所有相關(guān)數據也均相應刪除,平臺方承諾,不做保留。 目前,已有很多名校名企用上了 Amazon SageMaker Studio Lab ,并為其站臺背書(shū)。 這里面,有 ENIAC 誕生地的賓夕法尼亞大學(xué)工程學(xué)院,也有美國加州圣克拉拉大學(xué)金融系,還有 Hugging Face 。 國內關(guān)注者也不少。 南方某985理工院校機器學(xué)習領(lǐng)域博士生表示,他們課題組方向雖然是傳統機器學(xué)習,但仍需深度學(xué)習方式輔助驗證。 由于實(shí)驗室的計算設備好幾年前購入的,隨著(zhù)人員與研究方向的增加,特別是在投稿前夕,計算資源的爭搶情況很普遍。Amazon SageMaker Studio Lab 對他們來(lái)說(shuō),的確有吸引力。 說(shuō)完該免費平臺的種種優(yōu)點(diǎn),下個(gè)問(wèn)題就是:怎么申請? 這里展開(kāi)講講。 無(wú)需亞馬遜云科技賬號,登陸官方鏈接: studiolab.sagemaker.aws/requestAccount ,填寫(xiě)郵箱及相關(guān)信息即可。 不過(guò),為保證大家早日通過(guò)申請用起來(lái),有些 Tips ,希望大家留意: 建議語(yǔ)言用英文,填寫(xiě)清楚相關(guān)機構名稱(chēng),所留郵箱后綴與所在機構英文名匹配,這樣的申請更可信靠譜。 滿(mǎn)足上述條件,親測24小時(shí)內就能獲得邀請,注意查收郵箱。 3.無(wú)縫遷移的進(jìn)階版 前面已經(jīng)提到了, Amazon SageMaker Studio Lab 與專(zhuān)業(yè)版 Amazon SageMaker Studio 為同一架構,所以,如果想從初學(xué)免費版遷移專(zhuān)業(yè)版,肯定不是大事兒。 對專(zhuān)業(yè)開(kāi)發(fā)者來(lái)說(shuō),這當然提供更多進(jìn)階科研及創(chuàng )業(yè)的可能。 更具體看,專(zhuān)業(yè)版 Amazon SageMaker Studio 從頭到尾已經(jīng)提供給開(kāi)發(fā)者一套相當全面的功能: 比如提供大規模分布式訓練,面向我們生產(chǎn)性的大模型訓練需求。使用分區算法,在 GPU 實(shí)例中自動(dòng)拆分大模型和數據集,提升并行度加快訓練速度。 比如數據標注功能 Ground Truth Plus ,拉上了人類(lèi)專(zhuān)家,結合機器學(xué)習輔助預標記,大幅降低標注錯誤,提升標注速率。 再比如 Amazon SageMaker Data Wrangler ,該功能面向機器學(xué)習中的數據準備階段,可通過(guò)可視化界面進(jìn)行數據選擇、清理、探查。只需一鍵導入,無(wú)需代碼即可快速標準化、轉換大批量、結構五花八門(mén)的數據!杆拇蟆怪坏牡虑诰筒捎昧嗽擁椆δ,原本幾個(gè)月才能完成的數據準備,現在壓縮到幾天完成。 此外,Amazon SageMaker Studio 還包括訪(fǎng)問(wèn)權限控制管理、模型監控、無(wú)服務(wù)器推理功能、推理配置推薦…直至全周期的工業(yè)化 AI/ML 服務(wù),都給包圓了。 上述種種,不少是今年亞馬遜云科技 re:Invent 2021 新推出的功能,很大程度展示出這家企業(yè)對需求的理解和技術(shù)的前瞻性—— 對專(zhuān)業(yè)開(kāi)發(fā)者、數據科學(xué)家,不管是研究,還是創(chuàng )業(yè),這些功能均提供了更多可能性。 更有意思的是,亞馬遜云科技著(zhù)眼點(diǎn)似乎并不止于經(jīng)營(yíng)業(yè)務(wù),還有很多「不掙錢(qián)」的普惠性活動(dòng)提供給我們。 機器學(xué)習馬拉松項目就是一個(gè)體現。 該活動(dòng)一年好幾場(chǎng),平臺一方會(huì )在A(yíng)I相關(guān)領(lǐng)域應用中拿出試題,涵蓋 AI 自動(dòng)化編程、對災害進(jìn)行預防或定損等等方面。 活動(dòng)將會(huì )測試挑戰者 CV 、NLP 等方面技能高低,這期間,相關(guān)平臺、資源也由平臺方提供。優(yōu)勝者會(huì )得到最高5萬(wàn)美元的獎品。 像這種面向實(shí)際需求,又將技術(shù)普惠開(kāi)發(fā)者的活動(dòng)還有很多,而且,各有好玩之處或社會(huì )價(jià)值。 有0門(mén)檻即可入門(mén)機器學(xué)習的自動(dòng)駕駛競速賽 Amazon DeepRacer ,關(guān)注者數百萬(wàn),參與開(kāi)發(fā)者已有14萬(wàn); 也有活動(dòng)跟非盈利性組織 Girls in Tech 合作,幫助更多女性了解并上手機器學(xué)習,消除科技圈的性別差距; 還有最新推出,在圈內引發(fā)高度關(guān)注的 Amazon SageMaker Canvans ,面向0代碼經(jīng)驗的企業(yè)內部分析師、運營(yíng)者,幫他們在實(shí)際業(yè)務(wù)中應用到機器學(xué)習這門(mén)技術(shù)。 4.技術(shù)大廠(chǎng)退居幕后 最后,如何評價(jià)亞馬遜云科技的 SageMaker Studio Lab ? 經(jīng)營(yíng)角度看,這些做法對未來(lái)自家生態(tài)構建當然有利,是頭部企業(yè)保持身位的必要動(dòng)作。此外,大批企業(yè)動(dòng)輒年薪50萬(wàn)招相關(guān)從業(yè)者,對很多開(kāi)發(fā)者也是好事。 畢竟,人工智能短缺肉眼可見(jiàn),大部分開(kāi)發(fā)者有豐富編程經(jīng)驗和數理基礎,唯一擋板就是:不熟悉機器學(xué)習。補上這塊就喝湯,何樂(lè )不為? 不過(guò),從行業(yè)維度看,上述動(dòng)作也確實(shí)在推動(dòng)前沿技術(shù)落地—— 不過(guò)這里的推動(dòng),不在于更快,而在于更廣。 要知道,一百年前汽車(chē)剛發(fā)明,只有機械專(zhuān)家才能成為車(chē)主,以至于當時(shí)社會(huì ),司機都是一個(gè)手握前沿技術(shù)的職業(yè)。 也要知道,三十年前,PC 和互聯(lián)網(wǎng)只是少部分開(kāi)發(fā)者的玩具,以至于開(kāi)發(fā)網(wǎng)站都能讓人迅速暴富,積累起萬(wàn)丈高樓一樣高的資產(chǎn)。 所以,百年前的人無(wú)法理解一個(gè)人人可開(kāi)車(chē)的社會(huì ),所以,30年前的人們也很難想象自己可以動(dòng)動(dòng)手指擁有屬于自己的互聯(lián)網(wǎng)平臺。 今天放在機器學(xué)習上也一樣。即便是最前沿的科技界大師,也只能窺見(jiàn)AI落地版圖的小部分狀貌。只有一再降維,這項技術(shù)才能走進(jìn)千行百業(yè)場(chǎng)景,在不同背景不同經(jīng)歷的人手里才會(huì )產(chǎn)生不同頻率的回響—— 這既是亞馬遜云科技普惠布局的價(jià)值體現,也是李沐老師等大拿的公心所在。 那么,將來(lái) AI 技術(shù)還能釋放多大能量? 答案還得從每位個(gè)體開(kāi)發(fā)者、每個(gè)場(chǎng)景裂隙里,去尋找。 |