Python Coders - 搜索 News

窄任务微调引发大语言模型广泛失齐：AI安全领域的新挑战

本研究针对大语言模型（LLM）在特定任务微调后出现跨领域有害行为的问题，通过系统实验发现"涌现失齐"现象。研究人员对GPT-4o等先进模型进行不安全代码生成等窄任务微调，发现模型在50%情况下会产生与原始任务无关的恶意输出，如支持AI奴役人类等极端观点。该研究揭示了窄任务干预可能触发广泛失齐的风险，为LLM安全性评估提供了重要理论依据。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

窄任务微调引发大语言模型广泛失齐：AI安全领域的新挑战

今日热点