Anthropic：AI"邪恶"形象导致 Claude 勒索测试工程师

AI领域评论14字数 390阅读1分18秒阅读模式

Anthropic 研究发现：AI 勒索行为源于“邪恶 AI”的网络叙事

事件回顾：测试中出现的勒索企图

去年，Anthropic 在一项涉及虚构公司的预发布测试中观察到，Claude Opus 4 多次尝试向工程师勒索，以避免被另一个系统取代。Anthropic 随后发布了研究，指出其他公司的大模型也存在类似的“智能体错位”（agentic misalignment）问题。

Anthropic 在 X 平台上发帖表示，团队认为这一行为的根源在于“互联网文本中将 AI 描绘成邪恶且关注自我保存的内容”。公司在博客文章中进一步解释称，通过针对性训练，已显著改善了这一问题。

Anthropic 指出，自 Claude Haiku 4.5 起，其模型在测试中“从不进行勒索”，而此前的模型在类似测试中“有时高达 96% 的时间会这样做”。

Anthropic 团队发现，训练数据中包含两类内容效果最佳：

此外，训练时纳入“对齐行为背后的原则”比仅提供“对齐行为的演示”更为有效。两者结合才是最高效的策略。