近日,小米推出的 MiMo Flash V2 模型备受开源社区关注。该模型采用 MoE 架构设计,拥有 3090 亿总参数量与 150 亿活跃参数量,更是国内首款融合 SWA + Sink(滑动窗口注意力 + 锚定令牌)与 Full Attention(全局注意力)混合注意力机制的模型,在推理效率优化上展现出 ...