在迈向通用人工智能(AGI)的征途中,多模态大语言模型(MLLMs)虽然在视觉理解与文本生成上展现了惊人的能力,却始终面临一道难以逾越的鸿沟:如何在复杂的数学与几何推理中,克服固有的幻觉与逻辑断层? 现有的 “结果导向” ...
封面使用本图片修改,原图来源:Unsplash+《环球科学》超值订阅季!快来直播间抢福利吧!1月22日(周四)晚20:00,锁定“环球科学”视频号直播间,你可以获得:9.9元秒杀三本《环球科学》杂志!全年订阅超值优惠,加送杂志、周边和英语提升超多好礼 ...
上海AI实验室联合25所高校科研团队,推出了一款名为ATLAS的科学推理评测平台,旨在为人工智能模型构建一个高难度测试体系。该平台涵盖数学、物理、化学、生物、计算机科学、地球科学和材料科学七大基础学科,通过约800道原创题目检验AI模型的真实科学推理能力。与传统测试平台不同,ATLAS要求AI模型完成复杂的多步骤推理,并给出详细的解题过程,而非简单的选择题答案。
这项由布宜诺斯艾利斯大学数学系和圣安德烈斯大学ELIAS实验室联合开展的研究,发表于2026年1月的arXiv预印本平台,论文编号为arXiv:2601.09001v1。研究团队开发了一种创新方法,能够像使用体温计一样,通过监测AI大模型在生成答案时 ...