采用創(chuàng )新的FPGA 器件來(lái)實(shí)現更經(jīng)濟且更高能效的大模型推理解決方案

發(fā)布時(shí)間：2024-6-11 19:05 發(fā)布者：eechina

關(guān)鍵詞：大模型 , LLM , FPGA , Speedster7t

作者：Bob Siller，Achronix半導體產(chǎn)品營(yíng)銷(xiāo)總監

摘要：本文根據完整的基準測試，將Achronix Semiconductor公司推出的Speedster7t FPGA與GPU解決方案進(jìn)行比較，在運行同一個(gè)Llama2 70B參數模型時(shí)，該項基于FPGA的解決方案實(shí)現了超越性的LLM推理處理。

采用 FPGA 器件來(lái)加速LLM 性能，在運行 Llama2 70B 參數模型時(shí)，Speedster7t FPGA 如何與 GPU 解決方案相媲美？證據是令人信服的——Achronix Speedster7t FPGA通過(guò)提供計算能力、內存帶寬和卓越能效的最佳組合，在處理大型語(yǔ)言模型（LLM）方面表現出色，這是當今LLM復雜需求的基本要求。

像 Llama2 這樣的 LLM 的快速發(fā)展正在為自然語(yǔ)言處理（NLP）開(kāi)辟一條新路線(xiàn)，有望提供比以往任何時(shí)候都更像人類(lèi)的交互和理解。這些復雜的 LLM 是創(chuàng )新的催化劑，推動(dòng)了對先進(jìn)硬件解決方案的需求，以滿(mǎn)足其密集處理需求。

我們的基準測試突出了 Speedster7t 系列處理 Llama2 70B 模型復雜性的能力，重點(diǎn)關(guān)注 FPGA 和 LLM 性能。這些測試（可根據要求提供結果）顯示了Achronix FPGA對于希望將LLM的強大功能用于其N(xiāo)LP應用程序的開(kāi)發(fā)人員和企業(yè)的潛力。這些基準測試展示了 Speedster7t FPGA 如何超越市場(chǎng)，提供無(wú)與倫比的性能，同時(shí)降低運營(yíng)成本和環(huán)境影響。

Llama2 70B LLM 運行在 Speedster7t FPGA 上

2023 年 7 月，Microsoft 和 Meta 推出了他們的開(kāi)源 LLM，Llama2 開(kāi)創(chuàng )了 AI 驅動(dòng)語(yǔ)言處理的新先例。Llama2 采用多種配置設計，以滿(mǎn)足各種計算需求，包括 700 億、130 億和 700 億個(gè)參數，使其處于 LLM 創(chuàng )新的最前沿。Achronix和我們的合作伙伴 Myrtle.ai 對700億參數的Llama2模型進(jìn)行了深入的基準分析，展示了使用Speedster7t FPGA進(jìn)行LLM加速的優(yōu)勢。

基準測試結果：Speedster7t FPGA 與業(yè)界領(lǐng)先的 GPU 對比

我們在 Speedster7t FPGA 上測試了 Llama2 70B 模型的推理性能，并將其與領(lǐng)先的 GPU 進(jìn)行了比較。該基準測試是通過(guò)對輸入、輸出序列長(cháng)度（1,128）和批處理大小 =1 進(jìn)行建模來(lái)完成的。結果表明，Speedster7t AC7t1500在LLM處理中的有效性。

FPGA 成本基于由 Speedster7t FPGA 提供支持的 VectorPath 加速卡的標價(jià)。同樣，我們在此分析中使用了可比GPU卡的標價(jià)。使用這些成本信息和每秒產(chǎn)生的輸出令牌數量，我們計算出基于 FPGA 的解決方案的 $/token 提高了 200%。除了成本優(yōu)勢外，在比較 FPGA 和 GPU 卡的相對功耗時(shí)，我們觀(guān)察到與基于 GPU 的解決方案相比，產(chǎn)生的 kWh/token 提高了 200%。這些優(yōu)勢表明 FPGA 如何成為一種經(jīng)濟且能效高效的 LLM 解決方案。

面向 LLM 的 FPGA：Speedster7t 的優(yōu)勢

Achronix Speedster7t系列FPGA旨在優(yōu)化LLM操作，平衡LLM硬件的關(guān)鍵要求，包括：
高性能計算 – 具有高性能計算能力的尖端硬件對于管理 LLM 推理核心的復雜矩陣計算至關(guān)重要。
高帶寬內存 – 高效的 LLM 推理依賴(lài)于高帶寬內存，通過(guò)模型的網(wǎng)絡(luò )參數快速饋送數據，而不會(huì )出現瓶頸。
擴展和適應能力 – 現代 LLM 推理需要能夠隨著(zhù)模型規模的增長(cháng)而擴展并靈活適應 LLM 架構的持續進(jìn)步的硬件。
高能效處理 – 可持續的 LLM 推理需要硬件能夠最大限度地提高計算輸出，同時(shí)最大限度地降低能耗，從而降低運營(yíng)成本和環(huán)境影響。

Speedster7t FPGA 提供以下功能，以應對實(shí)施現代 LLM 處理解決方案的挑戰：
計算性能 – 通過(guò)其靈活的機器學(xué)習處理器（MLP）模塊支持復雜的 LLM 任務(wù)。
高 GDDR6 DRAM 帶寬 – 確保以 4 Tbps 的內存帶寬快速處理大型 LLM 數據集。
大量的 GDDR6 DRAM 容量 – 可容納 Llama2 等擴展的 LLM，每個(gè) FPGA 的容量為 32 GB。
用于 LLM 的集成 SRAM – 提供低延遲、高帶寬的存儲，具有 190 Mb 的 SRAM，非常適合存儲激活和模型權重。
多種本機數字格式 – 適應 LLM 需求，支持塊浮點(diǎn) （BFP）、FP16、bfloat16 等。
高效的片上數據傳輸 – 2D NoC 超過(guò) 20 Tbps，簡(jiǎn)化片上數據流量。
擴展橫向擴展帶寬 – 支持多達32個(gè)112 Gbps SerDes 滿(mǎn)足 LLM 需求，增強連接性。
自適應邏輯級可編程性 – 使用 690K 6 輸入 LUT 為 LLM 的快速發(fā)展做好準備。

針對 LLM 推理優(yōu)化的 FPGA

在快速變化的人工智能和自然語(yǔ)言處理領(lǐng)域，使用 FPGA 而不是 GPU 來(lái)加速 LLM 是一個(gè)相當新的想法。該基準測試展示了設計人員如何從使用Achronix的FPGA技術(shù)中受益。Achronix Speedster7t系列FPGA是這一變化的關(guān)鍵技術(shù)，在高性能、高帶寬存儲器、易于擴展和電源效率之間實(shí)現了出色的平衡。

基于詳細的基準分析，將 Speedster7t FPGA 與領(lǐng)先的 GPU 在處理 Llama2 70B 模型方面的能力進(jìn)行比較，結果表明 Speedster7t FPGA 能夠提供高水平的性能，同時(shí)大大降低運營(yíng)成本和環(huán)境影響，突出了它在未來(lái) LLM 創(chuàng )建和使用中的重要作用。

如果希望進(jìn)一步了解如何使用FPGA器件來(lái)加速您的LLM程序，以及 FPGA 加速 LLM 解決方案的未來(lái)發(fā)展機遇，請聯(lián)系Achronix，獲取詳細的基準測試結果，并幫助您確定Achronix FPGA技術(shù)如何加速您的LLM設計。

本文地址：http://selenalain.com/thread-860372-1-1.html 【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布，目的在于傳遞和分享信息，并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問(wèn)題，我們將根據著(zhù)作權人的要求，第一時(shí)間更正或刪除。

相關(guān)文章

網(wǎng)友評論

貿澤電子有獎問(wèn)答視頻，答對領(lǐng)10元微信紅包

白皮書(shū)下載：測量系統構建完整指南

廠(chǎng)商推薦

相關(guān)視頻

關(guān)于我們 - 服務(wù)條款 - 使用指南 - 站點(diǎn)地圖 - 友情鏈接 - 聯(lián)系我們
電子工程網(wǎng) © 版權所有京ICP備16069177號 | 京公網(wǎng)安備11010502021702

快速回復 返回頂部 返回列表

午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页