Scale Ruler Math - 搜索 News

DeepSeek 新论文或「泄密」V4 杀手锏：一招突破瓶颈，居然把 CPU 当 GPU ...

代码和数学领域同样显著，HumanEval 提升 3.0 分，MATH 提升 2.4 分，GSM8K 提升 2.2 分。长文本能力的提升同样惊人。在 32k 上下文窗口的 RULER 基准测试中，Engram-27B 在多查询 Needle-in-a-Haystack 任务上的准确率从 84.2% 跃升至 97.0%，变量追踪任务从 77.0% 提升到 89.0%。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

DeepSeek 新论文或「泄密」V4 杀手锏：一招突破瓶颈，居然把 CPU 当 GPU ...

今日热点