这项由复旦大学、上海齐冀智风科技有限公司和上海创新研究院联合完成的研究发表于2026年1月,论文编号为arXiv:2601.11077v1。研究团队开发了名为ABC-Bench的全新评估基准,专门测试AI代码智能体在真实后端开发场景中的综合能力。
研究团队发现,这种交互式的工作方式带来了显著的性能提升。在多项测试中,经过强化学习训练的MiroThinker版本比基础版本平均提高了8到10个百分点。更重要的是,这种提升是可预测和稳定的:交互次数越多,推理越深入,最终结果就越准确。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果