摩爾線(xiàn)程宣布正式開(kāi)源高性能線(xiàn)性代數模板庫MUTLASS 加速?lài)a(chǎn)GPU開(kāi)發(fā)

發(fā)布時(shí)間：2024-11-13 08:29 發(fā)布者：eechina

關(guān)鍵詞：摩爾線(xiàn)程 , MUTLASS , GPU

近日，摩爾線(xiàn)程宣布正式開(kāi)源高性能線(xiàn)性代數模板庫MUTLASS，這一舉措旨在幫助開(kāi)發(fā)者更高效地針對摩爾線(xiàn)程GPU的MUSA Core及Tensor Core等單元進(jìn)行編程，從而加速基于國產(chǎn)GPU的算子開(kāi)發(fā)以及算法創(chuàng )新。MUTLASS的開(kāi)源地址為：https://github.com/MooreThreads/mutlass。

作為摩爾線(xiàn)程專(zhuān)為自研MUSA架構優(yōu)化的高性能計算庫，MUTLASS（MUSA Templates for Linear Algebra Subroutines）是基于開(kāi)源模板庫CUTLASS進(jìn)行的MUSA適配和定制化開(kāi)發(fā)、優(yōu)化。在數值計算和深度學(xué)習領(lǐng)域，矩陣乘法（GEMM）及其變種（如FlashAttention、Convolution）是構建復雜上層應用的基石。然而，為了追求更高的算子融合效率或更創(chuàng )新的算法，開(kāi)發(fā)者們往往需要超越標準化計算接口的限制，如標準BLAS接口以及芯片廠(chǎng)商的計算庫接口，以實(shí)現高性能的定制化算子。MUTLASS正是為滿(mǎn)足這一需求而設計。

針對矩陣乘法及相關(guān)變種，MUTLASS提供了一系列高性能的C++模板組件，并采用了與muDNN庫類(lèi)似的分層分解及數據搬運策略，以確保性能的充分發(fā)揮。在本次開(kāi)源的版本中，摩爾線(xiàn)程適配了CuTe后端庫，為其增加了第三代MUSA架構的MMA計算原語(yǔ)，支持TF32/FP16/BF16/INT8等多種數據精度。以此為基礎，初步實(shí)現了矩陣乘法、默認實(shí)例庫、性能測試器及相關(guān)工具包的支持。

借助MUTLASS，開(kāi)發(fā)者們既可以靈活復用不同層級的模板組件，也可以按需修改各種模板組件的實(shí)現細節，以較低的開(kāi)發(fā)成本實(shí)現定制化的高性能算子。這將在摩爾線(xiàn)程全功能GPU上充分釋放性能，并鼓勵開(kāi)發(fā)者嘗試更多的算法創(chuàng )新。摩爾線(xiàn)程表示，將持續優(yōu)化MUTLASS的性能，并不斷引入新的功能。

摩爾線(xiàn)程的這一開(kāi)源舉措，不僅為開(kāi)發(fā)者提供了更為便捷和高效的工具，同時(shí)也展示了摩爾線(xiàn)程在推動(dòng)國產(chǎn)GPU生態(tài)建設方面的堅定決心。此前，摩爾線(xiàn)程已經(jīng)相繼開(kāi)源了OpenCV-MUSA計算機視覺(jué)庫、MooER音頻理解大模型以及vLLM-MUSA大語(yǔ)言模型高速推理框架，這些開(kāi)源項目都在不同程度上促進(jìn)了基于摩爾線(xiàn)程GPU的應用開(kāi)發(fā)和算法創(chuàng )新。

本文地址：http://selenalain.com/thread-876492-1-1.html 【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布，目的在于傳遞和分享信息，并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問(wèn)題，我們將根據著(zhù)作權人的要求，第一時(shí)間更正或刪除。

相關(guān)文章

網(wǎng)友評論

貿澤電子有獎問(wèn)答視頻，答對領(lǐng)10元微信紅包

廠(chǎng)商推薦

關(guān)于我們 - 服務(wù)條款 - 使用指南 - 站點(diǎn)地圖 - 友情鏈接 - 聯(lián)系我們
電子工程網(wǎng) © 版權所有京ICP備16069177號 | 京公網(wǎng)安備11010502021702

快速回復 返回頂部 返回列表

午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页