Test Layouter - 搜索 News

4 天

红杉xbench发布AgentIF评测集，聚焦Agent全场景长时复杂任务解决能力

红杉xbench发布AgentIF评测集，聚焦Agent全场景长时复杂任务解决能力,评测,agent,工作流,范例 ...

4 天

红杉中国，10天发两篇Paper

导读：上周，红杉中国联合UniPat AI发布了评估大模型纯视觉理解能力的评测集BabyVision。作为红杉xbench基准测试中AGI Tracking的一部分，BabyVision揭开了世界模型和视觉多模态的未来还有巨大的发展潜力。

AgentIF-OneDay发布，评估全场景长时复杂任务

随着大模型在单点推理上日益逼近PhD水平，Agent领域迎来了新的分水岭：短程任务表现惊艳，长程任务却显乏力。为精准评估大模型的多模态理解与复杂问题解决能力，红杉中国在两周内连续发布两篇论文，旨在通过构建更科学的评估基准，预判技术演进的未来方向。xb ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果