GeoBench(深度诊断):为了精准定位模型推理短板,提出了基于分层能力评估的基准测试。它将几何推理拆解为视觉感知、目标规划、定理应用、自我反思四个层级,并引入了 “无关条件过滤” 与 “逻辑纠错” 等高阶任务,揭示了推理模型在复杂任务中的逻辑局限性。