代码和数学领域同样显著,HumanEval 提升 3.0 分,MATH 提升 2.4 分,GSM8K 提升 2.2 分。 长文本能力的提升同样惊人。 在 32k 上下文窗口的 RULER 基准测试中,Engram-27B 在多查询 Needle-in-a-Haystack 任务上的准确率从 84.2% 跃升至 97.0%,变量追踪任务从 77.0% 提升到 89.0%。