摘要 随着 Anthropic 开源 skills 仓库,"Code Interpreter"(代码解释器)模式成为 Agent 开发的热门方向。许多开发者试图采取激进路线:赋予 LLM 联网和 Python 执行权限,让其现场编写代码来解决一切问题 ...
在 600 万至 1100 万 Token 规模的 BrowseComp-Plus(1K)多文档推理任务中,RLM(GPT-5)的正确率高达 91.33%,大幅超越其他长文本处理方案; ...