Arm 計算平臺加持,全新 Llama 3.2 LLM實(shí)現AI 推理的全面加速和擴展

發(fā)布時(shí)間:2024-9-26 18:21    發(fā)布者:eechina
關(guān)鍵詞: Llama , AI推理
人工智能 (AI) 的迅猛發(fā)展意味著(zhù)大語(yǔ)言模型 (LLM) 的新版本不斷推陳出新。要充分發(fā)揮 AI 的潛力并抓住其帶來(lái)的機遇,需要實(shí)現 LLM 從云端到邊緣側的廣泛部署,而這也伴隨著(zhù)對計算和能源需求的大幅增長(cháng)。整個(gè)生態(tài)系統正攜手尋找應對這一挑戰的解決方案,不斷推出新的更加高效的開(kāi)源 LLM,以便大規模實(shí)現各種 AI 推理工作負載,加快為用戶(hù)帶來(lái)全新、快速的 AI 體驗。

為此,Arm與Meta 展開(kāi)緊密合作,在 Arm CPU 上啟用新的Llama 3.2 LLM,集成開(kāi)源創(chuàng )新與 Arm 計算平臺的優(yōu)勢,顯著(zhù)推進(jìn)了解決AI挑戰的進(jìn)程。得益于A(yíng)rm 的持續投資及與新型LLM 的合作, Arm CPU運行 AI 的優(yōu)勢在生態(tài)系統中脫穎而出,使Arm成為 AI 推理開(kāi)發(fā)者的首選平臺。

加速云到邊緣側的 AI 性能

小型 LLM(如 Llama 3.2 1B 和 3B)能夠支持基于文本的基礎生成式 AI 工作負載,對于大規模 AI 推理的實(shí)現至關(guān)重要。通過(guò) Arm CPU 優(yōu)化內核在 Arm 技術(shù)驅動(dòng)的移動(dòng)設備上運行新的 Llama 3.2 3B LLM,可讓提示詞處理速度提高五倍,詞元 (token) 生成速度提高三倍,在生成階段實(shí)現每秒 19.92 個(gè)詞元。這將直接減少了在設備上處理 AI 工作負載的延遲,大大提升了用戶(hù)整體體驗。此外,當邊緣側能處理的 AI 工作負載越多,往返云端傳輸數據所節省的電量就越多,進(jìn)而節省了能源和成本。

除了在邊緣側運行小型模型,Arm CPU同樣支持在云端運行更大的模型(如 Llama 3.2 11B 和 90B)。11B 和 90B 的模型非常適合云端基于 CPU 的推理工作負載,可生成文本和圖像,其中,在 Arm Neoverse V2 上的測試結果展現出了更大的性能提升。在基于 Arm 架構的 AWS Graviton4 上運行 11B 的圖像和文本模型,可以在生成階段實(shí)現每秒 29.3 個(gè)詞元的表現,遠遠超出了人類(lèi)大約每秒閱讀五個(gè)詞元的速度。

AI 將通過(guò)開(kāi)源創(chuàng )新和生態(tài)系統協(xié)作迅速擴展

能公開(kāi)獲取新的 LLMs(如Llama 3.2)至關(guān)重要。開(kāi)源創(chuàng )新正以迅猛速度發(fā)展,在之前的版本中,開(kāi)源社區在不到 24 小時(shí)的時(shí)間內便能在 Arm 上部署并運行新的 LLM。

Arm將通過(guò) Arm Kleidi 進(jìn)一步支持軟件社區,讓整個(gè) AI 技術(shù)棧能夠充分發(fā)揮這一優(yōu)化的 CPU 性能。Kleidi 可在任何 AI 框架上解鎖 Arm Cortex 和 Neoverse CPU 的 AI 功能和性能,無(wú)需應用程序開(kāi)發(fā)者進(jìn)行額外的集成工作。

通過(guò)最近的 Kleidi 與 PyTorch 集成以及正在推進(jìn)的與 ExecuTorch 集成,Arm正在為基于 Arm CPU的開(kāi)發(fā)者提供從云端到邊緣側的無(wú)縫 AI 性能。得益于Kleidi 與 PyTorch 的集成,在基于 Arm 架構的 AWS Graviton 處理器上運行 Llama 3 LLM 的詞元首次響應時(shí)間加快了 2.5 倍。

同時(shí),在端側,與參考實(shí)現相比,在 KleidiAI 庫的加持下,使用 llama.cpp庫在新的 Arm Cortex-X925 CPU 上運行 Llama 3 的詞元首次響應時(shí)間加快了 190%。

構建 AI 的未來(lái)

Arm 與 Meta 的合作成為了行業(yè)合作的新標桿,匯聚了 Arm 計算平臺的靈活性、普及性和 AI 功能,以及 Meta 等行業(yè)巨頭的技術(shù)專(zhuān)長(cháng),共同解鎖AI 廣泛應用的新機遇。無(wú)論是利用端側 LLM 滿(mǎn)足用戶(hù)的個(gè)性化需求,如根據用戶(hù)所處的位置、日程和偏好來(lái)執行任務(wù),還是通過(guò)企業(yè)級應用來(lái)優(yōu)化工作效率,讓用戶(hù)能夠更專(zhuān)注于戰略性任務(wù),Arm 技術(shù)的集成都為未來(lái)奠定了基礎。未來(lái),設備不再只是命令和控制工具,更是能在提升用戶(hù)整體體驗方面扮演積極的作用。

在 Arm CPU 上運行 Meta 最新 Llama 3.2 版本,其AI 性能實(shí)現了顯著(zhù)提升。這類(lèi)開(kāi)放式合作是實(shí)現無(wú)處不在的 AI 創(chuàng )新、促進(jìn) AI 可持續發(fā)展的最佳途徑。通過(guò)新的 LLM、開(kāi)源社區和 Arm 的計算平臺,Arm 正在構建 AI 的未來(lái), 到 2025 年,將有 1000 多億臺基于 Arm 架構的設備支持 AI。

本文地址:http://selenalain.com/thread-872598-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页