Transformer曾是AI革命的巅峰之作,但其发明者Llion Jones警告:它并非终点。就像RNN被取代一样,当前无数微调研究可能只是局部优化,而真正的AGI突破或藏在生物启发的全新架构中。
站在 2026 年的开端回望,LLM 的架构之争似乎进入了一个新的微妙阶段。过去几年,Transformer 架构以绝对的统治力横扫了人工智能领域,但随着算力成本的博弈和对推理效率的极致追求,挑战者们从未停止过脚步。
【新智元导读】深夜,梁文锋署名的DeepSeek新论文又来了。这一次,他们提出全新的Engram模块,解决了Transformer的记忆难题,让模型容量不再靠堆参数!
2017年,Google发表了那篇改变AI格局的论文“Attention is All You ...
基于NL的观点,谷歌团队使用反向传播和梯度下降训练深度神经网络,本质上是一个压缩与优化问题,其目标是训练一种联想记忆(associative memory),以将各层的输入映射到其预测中对应的局部误差。
近日,一家叫etched的AI芯片公司宣布推出Transformer架构模型专用的ASIC芯片——Sohu,他们的模拟结果显示这款芯片每美元性能是传统GPU的140倍。 与新芯片同时宣布的是它获得Primary Venture ...
在NIAH任务评估中,DroPE模型的召回率高达74.92%,大幅超越了传统的RoPE缩放方法。 即使在大规模的Llama2-7B模型上,仅使用0.5%的预训练预算进行重新校准,DroPE也能在长上下文问答和总结任务中展现出卓越的性能。
Transformer 很成功,更一般而言,我们甚至可以将(仅编码器)Transformer 视为学习可交换数据的通用引擎。由于大多数经典的统计学任务都是基于独立同分布(iid)采用假设构建的,因此很自然可以尝试将 Transformer 用于它们。 针对经典统计问题训练 Transformer 的 ...
导语:非 Transformer 面临的共同考验依然是证明自己的天花板有多高。 【雷峰网(公众号:雷峰网)】2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经,此后席卷全球的人工智能热潮都可以直接追溯到 Transformer 的发明。 Transformer 由于其 ...
近日,腾讯混元正式发布并开源其全新文生3D 动作大模型 ——HY-Motion1.0。这一模型以其十亿参数量级和基于 Diffusion Transformer (DiT) 的架构,标志着3D 角色动画生成领域的重大突破。HY-Motion1.0旨在提供高质量、标准化的骨骼动画,助力游戏开发者、动画师以及科研人员提升创作效率,并降低3D 动画制作的门槛,让更多个人创作者能够实现其创意。