Self Refection - 搜索 News

20 小时

从平面几何出发：形式化验证如何驱动MLLM的推理

GeoBench（深度诊断）：为了精准定位模型推理短板，提出了基于分层能力评估的基准测试。它将几何推理拆解为视觉感知、目标规划、定理应用、自我反思四个层级，并引入了 “无关条件过滤” 与 “逻辑纠错” 等高阶任务，揭示了推理模型在复杂任务中的逻辑局限性。

一些您可能无法访问的结果已被隐去。