2026 年开年,国内量化私募九坤投资创始团队旗下的至知研究院(IQuest Research)发布了首代开源代码大模型系列 IQuest-Coder-V1。 这家研究机构声称,其 40B 参数的旗舰模型在 SWE-bench Verified 基准测试中拿下了 81.4%的成绩,超越了 Claude Sonnet 4.5 的 77.2%和 GPT-5.1 的 76.3%。模型已在 GitHub ...
新年刚至,陈天桥携手代季峰率先打响开源大模型的第一枪,正式发布其自研的旗舰版搜索智能体模型—— MiroThinker 1.5 ,堪称智能体模型领域的最强“小钢炮”。最直观的体现来自基准测试的性能评测:面对GPT‑5‑High、Gemini‑3‑Pro、DeepSeek‑V3.2等一系列国内外顶尖模型,MiroThinker ...
科技行者 on MSN
DeepSeek推出V3.2:开源模型数学竞赛表现媲美GPT-5
DeepSeek-V3.2在各项评测中展现出了令人瞩目的性能表现,特别是在推理能力和智能体任务方面取得了突破性进展。这些评测结果不仅证明了模型的技术实力,也为开源AI在与商业模型竞争中建立了新的标杆。
这项由复旦大学、上海齐冀智风科技有限公司和上海创新研究院联合完成的研究发表于2026年1月,论文编号为arXiv:2601.11077v1。研究团队开发了名为ABC-Bench的全新评估基准,专门测试AI代码智能体在真实后端开发场景中的综合能力。
当 RK3576 的强劲 “ 大脑 ” (四核 A72+ 四核 A53 )与强大的 GPU 、 VPU 、 NPU 加速模块相遇,一场高性价比的机器人开发革命正在悄然发生。我们成功将完整的 Ubuntu 22.04 与 ROS2 Humble ...
什么值得买社区频道 on MSN
PyTorch Docker 容器化部署与生产运行实践
概述PyTorch是一款以Python为首要设计理念的深度学习框架,凭借简洁易用的Python接口、动态计算图机制及强大的灵活性,广泛应用于学术研究 ...
人民网 on MSN
“AI数学家”会不会让数学研究“变天”?
本报记者李相如近期,全球数学界正悄然上演一场变革,几大标志性事件引发学界的持续关注和热议国产大模型DeepSeek-V3.2-Speciale在国际数学奥林匹克竞赛(IMO)、国际信息学奥林匹克竞赛(IOI)等顶级赛事中斩获金牌级成绩;菲尔兹奖得主陶哲轩借升级后的谷歌Gemini。
数据公开后,以及《Nature》为此专门撰写的社论,标志着DeepSeek在学术严谨性和技术原创性上获得了国际最高认可,彻底洗刷了外界对于中国大模型“套壳”或“跟随”的刻板印象。
是一个用于构建和部署由大语言模型(LLMs)驱动的 AI Agent 和逻辑流程(Workflows)的可视化工具。它不仅提供了类似积木搭建式的可视化界面来快速创建Agent,还提供一套完整的API系统,使每个Agent都能轻松集成进任意技术栈的应用中。你可以将它看作是 AI 世界的 ...
科技行者 on MSN
浙江大学团队全球首创AI创新能力测试:让机器人也能当“发明家”
A:InnoGym是由浙江大学团队开发的全球首个专门测试AI创新能力的评估框架。它不仅检查AI能否解决问题,更重要的是评估AI能否想出前人未曾想到的新方法,包含18个来自真实科学竞赛的挑战性任务。
DeepSeek-V4的技术亮点体现在对数据模式的理解能力上。以“数草莓中字母r的数量”这一经典问题为例,上一代模型因无法理解“计数”概念,只能依赖训练数据中的错误答案,导致频繁出错。而新模型通过改进训练机制,能够真正理解任务本质,避免此类低级错误。团队还攻克了“灾难性遗忘”问题——在模型复杂度提升的过程中,V4保持了性能稳定性,未出现能力退化现象,这为构建编程Agent奠定了基础。
虎嗅APP on MSN
DeepSeek准备第二次震惊全世界
去年7月,由于DeepSeek下载量从高峰期的8000多万暴跌至2000多万,下滑72.2%,“DeepSeek跌落神坛”就成为了当时互联网最热门的话题。 根据DeepSeek内部的基准测试,V4在编程任务上的表现超过了目前市场上的主流竞品,包括Anthropic的Claude和OpenAI的GPT系列。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果