Graphcore公布最新MLPerf訓練結果:AI性能再刷新高

發(fā)布時(shí)間:2021-12-2 15:35    發(fā)布者:eechina
關(guān)鍵詞: Graphcore , IPU , MLPerf , 機器學(xué)習
今日,Graphcore(擬未)正式公布其參與MLPerf測試的最新結果。結果顯示,與首次提交的MLPerf訓練結果相比,對于ResNet-50模型,Graphcore通過(guò)軟件優(yōu)化,在IPU-POD16上實(shí)現了24%的性能提升,在IPU-POD64上實(shí)現了41%的性能提升;對于自然語(yǔ)言處理(NLP)模型BERT來(lái)說(shuō),在IPU-POD16上實(shí)現了5%的性能提升,在IPU-POD64上實(shí)現了12%的性能提升。此次MLPerf測試結果證明了Graphcore的IPU系統越來(lái)越強大、高效,軟件日益成熟且更快、更易使用。

MLPerf還對比了市面上的Graphcore與NVIDIA的產(chǎn)品,通過(guò)在GPU占據優(yōu)勢的模型ResNet-50上進(jìn)行測試,結果表明Graphcore的IPU-POD16在計算機視覺(jué)模型ResNet-50方面的表現優(yōu)于NVIDIA的DGX A100。在DGX A100上訓練ResNet-50需要29.1分鐘,而IPU-POD16僅耗時(shí)28.3分鐘,這是自Graphcore首次提交以來(lái)僅通過(guò)軟件實(shí)現的性能提升。其中,IPU-POD16對ResNet-50的軟件驅動(dòng)性能提高了24%,在IPU-POD64上對ResNet-50的軟件驅動(dòng)性能提升甚至更高,達到41%,對于Graphcore具有里程碑式的意義。



Graphcore最近發(fā)布的IPU-POD128和IPU-POD256橫向擴展系統也得出了結果,與上一輪MLPerf訓練相比,Graphcore的IPU-POD16的BERT性能提高了5%,IPU-POD64的BERT性能提高了12%。

•        對于Graphcore較大的旗艦系統,在IPU-POD128上訓練ResNet-50的時(shí)間為5.67分鐘,在IPU-POD256上為3.79分鐘。
•        對于自然語(yǔ)言處理(NLP)模型BERT,Graphcore在開(kāi)放和封閉類(lèi)別分別提交了IPU-POD16、IPU-POD64和IPU-POD128的結果,在新的IPU-POD128上的訓練時(shí)間為5.78分鐘。

MLPerf的封閉分區嚴格要求提交者使用完全相同的模型實(shí)施和優(yōu)化器方法,其中包括定義超參數狀態(tài)和訓練時(shí)期。開(kāi)放分區旨在通過(guò)在模型實(shí)施中提供更大的靈活性來(lái)促進(jìn)創(chuàng )新,同時(shí)確保達到與封閉分區完全相同的模型準確性和質(zhì)量。通過(guò)在開(kāi)放分區展示BERT訓練的結果,Graphcore能夠讓客戶(hù)了解產(chǎn)品在實(shí)際運行中的性能,從而讓他們更傾向于使用此類(lèi)優(yōu)化。



新模型在大規模系統上的巨大優(yōu)勢

MLPerf及其組織機構MLCommons作為第三方驗證機構,在幫助客戶(hù)獨立評估人工智能計算系統的能力和不同公司提供的軟件棧的成熟度方面發(fā)揮著(zhù)重要作用。當然,客戶(hù)繼續在生產(chǎn)中使用ResNet和BERT等模型的同時(shí),也在探索創(chuàng )新的新模型,并期待Graphcore更大的旗艦系統實(shí)現大規模機器智能。例如,在Graphcore的旗艦產(chǎn)品IPU-POD256上,創(chuàng )新的計算機視覺(jué)EfficientNet-B4僅用1.8小時(shí)便可完成訓練,盡管這并非Graphcore本次向MLPerf提交的內容,但在實(shí)際應用中的確有更強的性能優(yōu)勢。



此外,在絕對吞吐量性能以及擴展到更大的IPU-POD系統方面,Graphcore在MLPerf之外的一系列模型中也得到了一系列令人印象深刻的結果,包括用于自然語(yǔ)言處理的GPT類(lèi)模型和用于計算機視覺(jué)的ViT(Transformer視覺(jué)模型)。



通過(guò)設計實(shí)現大規模高效

在本輪或任何一輪MLPerf原始數據中,每個(gè)制造商系統相關(guān)的主機處理器數量都十分驚人,一些參與者甚至指定要求每?jì)蓚(gè)人工智能處理器配有一個(gè)CPU。而Graphcore的主機處理器與IPU的比率始終是最低的。與其他產(chǎn)品不同,IPU僅使用主機服務(wù)器進(jìn)行數據移動(dòng),無(wú)需主機服務(wù)器在運行時(shí)分派代碼。因此,IPU系統需要的主機服務(wù)器更少,從而實(shí)現了更靈活、更高效的橫向擴展系統。

對于BERT-Large這一類(lèi)自然語(yǔ)言處理模型,IPU-POD64只需要一個(gè)雙CPU的主機服務(wù)器。ResNet-50需要更多的主機處理器來(lái)支持圖像預處理,因此Graphcore為每個(gè)IPU-POD64指定了四個(gè)雙核服務(wù)器。1比8的比例仍然低于其他所有MLPerf參與者。事實(shí)上,在本輪MLPerf 1.1訓練中,Graphcore為BERT提供了最快的單服務(wù)器訓練時(shí)間結果,為10.6分鐘。

Graphcore大中華區總裁兼全球首席營(yíng)收官盧濤表示:“自2021年初首次提交MLPerf測試以來(lái),Graphcore取得了巨大進(jìn)步,這與Graphcore不懈創(chuàng )新的企業(yè)精神是分不開(kāi)的。無(wú)論是設計系統、選擇架構之初,還是至少每三個(gè)月推出一次重大軟件更新,都是Graphcore創(chuàng )新精神的體現。同時(shí),Graphcore不懈創(chuàng )新的熱情也感染和吸引了眾多軟硬件合作伙伴——從Hugging Face和PyTorch Lightning到VMware和Docker Hub,它們都積極支持Graphcore不斷創(chuàng )新,以助力AI開(kāi)發(fā)者在易于使用的系統上獲得絕佳的人工智能計算性能!

本文地址:http://selenalain.com/thread-779883-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页