MLA(Multi-headLatent Attention多头潜在注意力架构)凭借低秩 压缩 ...
本文由 PLM 团队撰写,PLM 团队是由香港科技大学(广州)的校长倪明选教授,伦敦大学学院(UCL)AI 中心汪军教授,香港科技大学(广州)信息枢纽院长陈雷教授联合指导。第一作者邓程是香港科技大学(广州)的研究助理,研究方向为端侧大模型和高效模型 ...
复旦 NLP 实验室博士后纪焘是这篇文章的第一作者,研究方向为大模型高效推理、多模态大模型,近期代表工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouSi,发表ACL、ICLR、EMNLP等顶会顶刊论文 20 余篇。 DeepSeek-R1 作为 AI 产业颠覆式创新 ...
国产AI公司深度求索(DeepSeek)开源周正式启动,并公布首个开源代码。 2月24日,DeepSeek宣布启动“开源周”,首个开源的代码库为FlashMLA,这是针对Hopper GPU优化的高效MLA解码内核,针对可变长度序列作了优化,目前已投入生产。 此前2月21日午间,DeepSeek宣布,从 ...
品玩2月24日讯,DeepSeek 今天宣布开始逐步开源多个代码库,首先开源的是一个针对针对 Hopper GPU 优化的高效 MLA 解码内核FlashMLA。 DeepSeek 表示,该代码库针对可变长度序列进行了优化,目前已投入生产。它专门针对多层注意力机制进行了优化,能够加速 LLM 的解码 ...