MLa - 搜索 News

3 天

昇腾赋能 TransMLA：无需重训突破架构壁垒，助力主流大模型高效适配 MLA

MLA（Multi-headLatent Attention多头潜在注意力架构）凭借低秩压缩 ...

把MLA和稀疏激活带到端侧！港科大广州和伦敦大学学院团队联合发布 ...

本文由 PLM 团队撰写，PLM 团队是由香港科技大学（广州）的校长倪明选教授，伦敦大学学院（UCL）AI 中心汪军教授，香港科技大学（广州）信息枢纽院长陈雷教授联合指导。第一作者邓程是香港科技大学（广州）的研究助理，研究方向为端侧大模型和高效模型 ...

新浪网

DeepSeek的MLA，任意大模型都能轻松迁移了

复旦 NLP 实验室博士后纪焘是这篇文章的第一作者，研究方向为大模型高效推理、多模态大模型，近期代表工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouSi，发表ACL、ICLR、EMNLP等顶会顶刊论文 20 余篇。 DeepSeek-R1 作为 AI 产业颠覆式创新 ...

来自MSN

DeepSeek开源FlashMLA，意味着什么？

国产AI公司深度求索（DeepSeek）开源周正式启动，并公布首个开源代码。 2月24日，DeepSeek宣布启动“开源周”，首个开源的代码库为FlashMLA，这是针对Hopper GPU优化的高效MLA解码内核，针对可变长度序列作了优化，目前已投入生产。此前2月21日午间，DeepSeek宣布，从 ...

来自MSN

Deepseek 宣布开源代码库，为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA

品玩2月24日讯，DeepSeek 今天宣布开始逐步开源多个代码库，首先开源的是一个针对针对 Hopper GPU 优化的高效 MLA 解码内核FlashMLA。 DeepSeek 表示，该代码库针对可变长度序列进行了优化，目前已投入生产。它专门针对多层注意力机制进行了优化，能够加速 LLM 的解码 ...

当前正在显示可能无法访问的结果。

隐藏无法访问的结果