2024 年 12 月,真是大模型的杀疯了的一个月。 大模型的的发布固然令人欣喜,但是各类测评也是忙坏了众多 AI 工作者。大模型推理的幻觉问题向来是 AI 测评的重灾区,诸如 9.9>9.11 的经典幻觉问题,各大厂家恨不得直接把问题用 if-else 写进来。 而在圣诞节来临 ...
RLVR(基于可验证奖励的强化学习)简单而粗暴:别听人的,听结果的。成为LLM的AlphaZero时刻,探索→验证→强化,还引入了全新Scaling Law 测试时计算。 (2)Vibe Coding(氛围编码)的流行:Vibe ...
为探究 LLMs 在放射学中的作用,研究人员分析其应用多方面,发现其有局限,对医学影像研究意义重大。 在当今科技飞速发展的时代,人工智能(AI)浪潮正席卷各个领域,医学也不例外。大语言模型(Large Language Models,LLMs)如 Claude、ChatGPT 等的出现,为医学 ...
当前,大型语言模型(LLMs)在医疗领域应用渐广,但引用可靠性存疑。研究人员开展 “评估 LLMs 引用医学参考文献情况” 的研究,用 SourceCheckup 框架评估 7 种 LLMs,发现 50%-90% 的 LLM 回复缺乏充分引用支持。该研究为 LLMs 医学应用提供关键参考 。 在当今数字化 ...
1. RL for LLMs,强化学习的 Scaling Law 才刚刚起步? 为什么说 LLM 性能的下一个突破点是强化学习的 Scale?RL 是如何增强 LLM 的能力的?预训练与 RL 缺一不可,为什么单纯的 RL 并不能提高 LLM 的「智力」?RL 的 Scaling Law 才刚刚起步,有哪些关键难点?近期主流的 LLM ...
深圳新闻网2025年11月26日讯(深圳报业集团记者 焦子宇 何亚南)11月26日,深圳大学新文科建设迎来重要时刻——“Society Zero Universe LLMs社会仿真模拟平台”正式发布。深圳大学副校长巢乃鹏主持发布会。 当前,作为引领新一轮科技革命和产业变革的关键引擎和 ...
大型语言模型(LLMs)迅速进步,几年内这些模型能以惊人速度完成复杂任务。根据加州伯克利模型评估与威胁研究(METR)机构最新研究,关键LLMs能力每七个月就会翻倍,到2030年最先进LLMs能以50%可靠性完成人类需一个月(约167小时)才能完成的软件工作,并 ...
以微软BioGPT为基础,英矽智能研发团队采用经过生物医学领域专门训练的大型语言模型(LLMs),提出靶点预测新方法。 团队发现针对衰老及14种主要老龄相关疾病的9个潜在双效靶点,其中CCR5和PTH是此前未被报道过的创新抗衰老靶点。 除靶点选择外,该方法还 ...
近日,OpenRouter发布了一份基于其平台数据的研究报告,深入剖析了大型语言模型(LLMs)在全球范围内的实际应用情况。该研究整合了超过100万亿个真实使用标记,覆盖不同任务类型、地域分布及时间跨度,为理解LLMs的演化趋势提供了实证依据。 研究显示,自 ...