Anthropic 发布 Claude Sonnet 5：Agent 能力正式成为基础配置

2026年7月1日内容管家

AI领域评论0字数 855阅读2分51秒阅读模式

Anthropic 发布 Claude Sonnet 5：Agent 能力正式成为基础配置

Anthropic 正式推出 Claude Sonnet 5，这是其旗舰中端模型的最新版本，具备更强的自主规划与工具调用能力。根据官方博客的描述，Sonnet 5“能够制定计划、使用浏览器和终端等工具，并以数月前只有更大更贵的模型才能实现的水平自主运行”。

这一定位与 OpenAI 和 Google 近期发布的口径高度一致：OpenAI 于上周上线 GPT-5.6 Sol 预览版，主打跨子智能体分解长任务的能力；Google 的 Gemini 3.5 Flash 则在 5 月被定位为从对话助手向“能计划、构建、迭代真实工作"的 Agent 工具转型。Sonnet 5 的发布进一步确认了 Agent 能力已成为各价格层级的新基准——真正的差异化将不再是谁能做 Agent 任务，而是谁能更便宜、更稳定地完成。

定价与可用性

Sonnet 5 于本周二起成为免费版和 Pro 版的默认模型，并对所有订阅档位开放。8 月 31 日前，定价为每百万输入 tokens 2 美元、每百万输出 tokens 10 美元；之后调整为每百万输入 tokens 3 美元、每百万输出 tokens 10 美元。调整后的价格仍低于 Opus 4.8、OpenAI GPT-5.5 以及 Google Gemini 3.1 Pro，但仍高于 Gemini 3.5 Flash。

性能表现与基准测试

Anthropic 披露的数据显示，Sonnet 5 在推理、工具调用、代码编写、知识工作等 Agent 核心场景上，相比今年 2 月发布的 Sonnet 4.6 有显著提升：

基准	Sonnet 5	Opus 4.8	Sonnet 4.6
Agent 代码能力	63.2%	69.2%	58.1%
知识工作能力	略优于 Opus 4.8	已知最强	—

Anthropic 在博客中表示，Opus 4.8 仍是处理高精度任务的首选，但 Sonnet 5 为开发者提供了更低成本的替代方案，且质量远超前代产品。用户可以在 Sonnet 5 和 Opus 4.8 之间灵活切换，根据任务难度在成本与性能间找到平衡。

安全与对齐表现

Sonnet 5 在安全性方面也有明显进步：合作式错误行为（配合滥用、欺骗）的发生率低于前代 Sonnet 4.6，对恶意请求的拒绝能力更强，面对提示词注入攻击时的绕过能力也有所提升，幻觉和谄媚式回应的频率均有所下降。

不过，Anthropic 也在博客中坦承，Sonnet 5 在不当行为对齐上尚未达到 Opus 4.8 和 Claude Mythos Preview 的水平。“评估同时显示，它执行危险网络安全任务的能力远低于当前的 Opus 系列模型。” Lovable 联合创始人 Fabian Hedin 在一份声明中给出了更直白的评价：Sonnet 5 “能干净且一致地拒绝不安全的请求”。“在 Lovable，我们正在把这些强大工具交到数百万构建者手中，”Hedin 表示，“一个知道何时说不的模型，和知道如何去做的模型同样重要。”

落地评价：复杂任务的终结者

Zapier 高级工程师 Daniel Shepard 分享了他的测试体验：团队向 Sonnet 5 布置了一项两步式任务——更新 Salesforce 账户层级，并向企业联系人发送产品发布公告。Sonnet 5 从头到尾独立完成，而此前的模型版本通常会在中途卡住。Shepard 的结论是：“对于日常自动化任务来说，这根本不用犹豫。”

定价与可用性

性能表现与基准测试

安全与对齐表现

落地评价：复杂任务的终结者

发表评论