F-NaF Mod Making Tutorial

ICLR 2025 | 阿里等提出LLaVA-MoD，用MoE+蒸馏训练轻量化多模态大模型

本文提出轻量化多模态大模型 LLaVA-MoD，通过集成稀疏的专家混合（MoE）架构，优化小模型的网络结构，并提出 Dense-to-Sparse 蒸馏框架，结合两阶段蒸馏策略（模仿蒸馏+偏好蒸馏），实现全面的知识迁移。该方案仅用 0.3% 数据和 23% 激活参数，即实现 2B 小模型 ...

一些您可能无法访问的结果已被隐去。