当前位置：网站首页长能攻略原生FP8！摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM

原生FP8！摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM

来源：互联网发布时间： 2025-02-27 11:54:35

快科技2月26日消息，DeepSeek启动“开源周”以来，已经陆续开源了三个代码库，而作为国产GPU的代表，摩尔线程已经快速完成对FlashMLA、DeepGEMM的适配。

摩尔线程GPU基于全新的MUSA Compute Capability 3.1计算架构，可提供原生的FP8精度计算能力，同时升级了高性能线性代数模板库MUTLASS，快速支持FlashMLA。

不仅如此，摩尔线程还基于MUTLASS，在全新GPU架构上优化实现了FP8矩阵乘法，支持DeepGEMM的相应功能。

FlashMLA是一款高效的MLA推理内核开源仓库，可以加速MLA机制的计算，特别适用于DeepSeek系列模型，包括DeepSeek-V2、V3、R1。

DeepGEMM是一个支持密集矩阵与混合专家（MoE）矩阵乘法的FP8 GEMM库，可以为V3/R1的训练与推理提供强大动力。

这两个重要的开源仓库，都基于高性能通用矩阵乘法（GEMM）的C++模板库进行开发。

摩尔线程基于新一代计算架构MUSA Compute Capability 3.1的全功能GPU，具备全新的Tensor计算引擎及数据搬运引擎，能够提供原生FP8计算能力。

升级的MUTLASS高性能线性代数模板库，支持MUSA Compute Capability 3.1的全新特性，并提供了若干算子的优化参考实现，包括基于FlashAttention3思想实现的FlashMLA以及FP8矩阵乘算子，特别支持DeepSeek训练所需的Groupwise Scaling FP8矩阵乘法内核函数。

得益于全新的Tensor计算引擎，FP8计算具有足够高的累加精度，无需额外的二次精度修正，为前沿算法的探索打下了坚实基础。

借助MUTLASS 0.2.0，摩尔线程发布了开源仓库MT-FlashMLA，能够快速对DeepSeek FlashMLA进行兼容部署。

同时，摩尔线程MUTLASS提供了一个全新的参考实现，充分汲取FlashAttention3的先进算法思想，针对摩尔线程GPU设计了全新的计算流水线。

这一设计能够有效掩藏数据搬运的延迟和Softmax计算的开销，充分发挥摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。

▼ MT-FlashMLA开源地址：

https://github.com/MooreThreads/MT-flashMLA

▼ MUTLASS FlashAttention3地址：

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

▼ MUTLASS FP8 GEMM地址：

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

相关攻略

海底捞副业大扩张，能否成自救良方？海底捞副业大扩张，能否成自救良方？
2025-02-27
原神申鹤天赋升级顺序详解在热门游戏《原神》中，申鹤作为一个重要的角色，其天赋升级顺序对于玩家来说至关重要，正确的升级顺序能够有效提升申鹤的战斗能力，使其在战斗中发挥更大的作用，本文将详
2025-02-27
儿子出国，儿媳妇留在家里，如何应对这一情况？随着全球化的发展，越来越多的年轻人选择出国留学或者工作。而作为父母，在送走儿子出国的同时，儿媳妇可能会留在家里，这对于家庭关系、日常生活等方面可能会带来一些新的挑战。如何平衡这段特殊时期的家庭关系，既
2025-02-27

产业资讯

近期热点 +

最新资讯 +

02-27

逆水寒卜算天机攻略详解，解锁天机，轻松掌握游戏命运在逆水寒这款游戏中，卜算天机是一项神秘而又重要的技能，掌握卜算天机，可以帮助玩家更好地预测游戏走向，规避潜在风险，提高游戏胜率，本文将详细介绍如何获得卜算天机技
02-27

五千小说无删减版app下载安装-五千小说(无乱码章节错乱情况)无删减版下载v1.0.2 五千小说无删减版app下载安装-五千小说(无乱码章节错乱情况)无删减版下载v1 0 2
02-27

金铲铲之战，未元变异阵容玩法攻略详解在金铲铲之战这款游戏中，选择合适的阵容是取得胜利的关键，本文将为大家详细介绍未元变异阵容的玩法攻略，帮助玩家更好地理解和运用这一阵容，提升游戏胜率。阵容组成未元
02-27

浙江新闻app下载_浙江新闻手机版下载v6.1.2 浙江新闻app下载_浙江新闻手机版下载v6 1 2
02-27

魔兽世界影钢护腕图纸获取攻略详解前言概述在魔兽世界这款经典的网络游戏中，影钢护腕图纸是许多玩家追求的珍贵物品，作为高级装备的一部分，影钢护腕图纸能帮助玩家提升角色的防御能力和生存能力，本文将详
02-27

烟雨江湖屋山探险攻略，如何顺利进入屋山秘境在烟雨江湖这个充满神秘与冒险的武侠世界里，屋山作为一个隐秘的地点，隐藏着许多未知的秘密和宝藏，本文将详细介绍如何进入屋山，以及探险过程中需要注意的事项，帮助玩家
02-27

坎公骑冠剑修炼房第三个卡槽解锁攻略详解在坎公骑冠剑这款游戏中，修炼房是玩家们提升角色实力的重要场所，第三个卡槽的解锁对于玩家来说尤为关键，因为这关系到角色战斗力的进一步提升，本文将围绕坎公骑冠剑修炼
02-27

魔兽世界塞纳里奥议会声望刷取攻略，快速晋升的秘诀魔兽世界中的塞纳里奥议会是一个重要的声望组织，为玩家提供了独特的奖励和特权，本文将详细介绍如何快速刷取塞纳里奥议会声望，帮助玩家在游戏中更好地发展。塞纳里奥议会