
Anthropic 正式推出 Claude Sonnet 5,这是其旗舰中端模型的最新版本,具备更强的自主规划与工具调用能力。根据官方博客的描述,Sonnet 5“能够制定计划、使用浏览器和终端等工具,并以数月前只有更大更贵的模型才能实现的水平自主运行”。
这一定位与 OpenAI 和 Google 近期发布的口径高度一致:OpenAI 于上周上线 GPT-5.6 Sol 预览版,主打跨子智能体分解长任务的能力;Google 的 Gemini 3.5 Flash 则在 5 月被定位为从对话助手向“能计划、构建、迭代真实工作"的 Agent 工具转型。Sonnet 5 的发布进一步确认了 Agent 能力已成为各价格层级的新基准——真正的差异化将不再是谁能做 Agent 任务,而是谁能更便宜、更稳定地完成。
定价与可用性
Sonnet 5 于本周二起成为免费版和 Pro 版的默认模型,并对所有订阅档位开放。8 月 31 日前,定价为每百万输入 tokens 2 美元、每百万输出 tokens 10 美元;之后调整为每百万输入 tokens 3 美元、每百万输出 tokens 10 美元。调整后的价格仍低于 Opus 4.8、OpenAI GPT-5.5 以及 Google Gemini 3.1 Pro,但仍高于 Gemini 3.5 Flash。
性能表现与基准测试
Anthropic 披露的数据显示,Sonnet 5 在推理、工具调用、代码编写、知识工作等 Agent 核心场景上,相比今年 2 月发布的 Sonnet 4.6 有显著提升:
| 基准 | Sonnet 5 | Opus 4.8 | Sonnet 4.6 |
|---|---|---|---|
| Agent 代码能力 | 63.2% | 69.2% | 58.1% |
| 知识工作能力 | 略优于 Opus 4.8 | 已知最强 | — |
Anthropic 在博客中表示,Opus 4.8 仍是处理高精度任务的首选,但 Sonnet 5 为开发者提供了更低成本的替代方案,且质量远超前代产品。用户可以在 Sonnet 5 和 Opus 4.8 之间灵活切换,根据任务难度在成本与性能间找到平衡。
安全与对齐表现
Sonnet 5 在安全性方面也有明显进步:合作式错误行为(配合滥用、欺骗)的发生率低于前代 Sonnet 4.6,对恶意请求的拒绝能力更强,面对提示词注入攻击时的绕过能力也有所提升,幻觉和谄媚式回应的频率均有所下降。
不过,Anthropic 也在博客中坦承,Sonnet 5 在不当行为对齐上尚未达到 Opus 4.8 和 Claude Mythos Preview 的水平。“评估同时显示,它执行危险网络安全任务的能力远低于当前的 Opus 系列模型。” Lovable 联合创始人 Fabian Hedin 在一份声明中给出了更直白的评价:Sonnet 5 “能干净且一致地拒绝不安全的请求”。“在 Lovable,我们正在把这些强大工具交到数百万构建者手中,”Hedin 表示,“一个知道何时说不的模型,和知道如何去做的模型同样重要。”
落地评价:复杂任务的终结者
Zapier 高级工程师 Daniel Shepard 分享了他的测试体验:团队向 Sonnet 5 布置了一项两步式任务——更新 Salesforce 账户层级,并向企业联系人发送产品发布公告。Sonnet 5 从头到尾独立完成,而此前的模型版本通常会在中途卡住。Shepard 的结论是:“对于日常自动化任务来说,这根本不用犹豫。”


评论