“榜单 SOTA”是不是真的有用? 很多开发者都在问。 我们来看看“实战考题”。 测评场景: SWE-Bench-Verified 官方 187 个真实工程任务。 为啥是它? 业内公认的“硬骨头”。 不是“算法题”,全是“工程题”。 覆盖 Python, Java, Go... 依赖修复、接口调试、逻辑补全 ...