zzllrr Mather(an offline tool for Math learning, education and research)小乐数学,离线可用的数学学习(自学或教学)、研究辅助工具。计划覆盖数学全部学科的解题、作图、演示、探索工具箱。目前是演示Demo版(抛转引玉),但已经支持数学公式编辑显示,部分作图功能,部分学科,如线性代数、离散数学的 ...
完美不是在没有什么可添加的时候,而是在没有什么可以去掉的时候。 ——法国作家安托万·德·圣-埃克苏佩里 清华大学,伊利诺伊大学,上海AI实验室团队提出JustRL架构,仅用单阶段训练和固定超参数,在DeepSeek-R1-Distill-Qwen-1.5B与Nemotron-1.5B模型上的性能刷新了 ...
他们将此视为基线的一部分,而不是附加技术。 他们使用veRL在两个15亿推理模型上训练了这个配方:DeepSeek-R1-Distill-Qwen-1.5B和OpenMath-Nemotron-1.5B,每个都使用32个A800-80GB GPU训练约15天。 相同的参数对两者都有效,无需逐模型调优,并在整个训练过程中保持固定。
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! 完美不是在没有什么可添加的时候,而是在没有什么可以去掉的时候。 ——法国作家安托万·德·圣-埃克 ...
近年来,针对大语言模型的强化学习研究越来越复杂:多阶段训练管道、动态超参数调度、课程学习策略层出不穷。论文提出了一个根本性问题:这些复杂性真的必要吗? 背景与动机 自DeepSeek-R1发布以来,社区在小语言模型数学推理的强化学习领域取得了快速 ...
这项由清华大学何丙祥、曲泽凯、刘泽远等研究团队联合伊利诺伊大学香槟分校钱程以及上海人工智能实验室崔赣渠共同完成的研究发表于2025年12月,展现了一个令人惊讶的发现:在人工智能训练领域,有时候最简单的方法反而能取得最好的效果。这项名为"JustRL ...
这项由清华大学何丙祥、曲泽凯、刘泽远等研究团队联合伊利诺伊大学香槟分校钱程以及上海人工智能实验室崔赣渠共同完成的研究发表于2025年12月,展现了一个令人惊讶的发现:在人工智能训练领域,有时候最简单的方法反而能取得最好的效果。这项名为"JustRL ...
BroRL 57.50% 36.88%-6.8×10⁸k JustRL-DeepSeek 52.60% 38.75% 54.87% 1.4×10⁸k JustRL在九个数学基准测试上平均准确率达到54.87%(DeepSeek backbone)和64.32%(Nemotron backbone),用了不到一半的计算量,超过了那些用了各种高级技巧的复杂方法。 你知道最离谱的是什么吗? 他们什么都 ...