
AI Agent 评估,正在成为一门新生意。
大模型厂商和 AI 应用开发者都面临同一个困境:传统基准测试分数再高,也无法证明模型能在真实环境中独立完成多步骤复杂任务——比如替用户订一场行程,或执行一项金融分析。
Patronus AI 正是看准了这个缺口,于 2023 年在旧金山成立,创始人 Anand Kannappan 和 Rebecca Qian 均为 Meta AI 前研究员。
核心产品:数字世界模型
Patronus AI 构建了一套名为"数字世界模型"(Digital World Models)的仿真系统,完整复刻网站和内部系统的数字副本。AI Agent 在这些仿真环境中接受压力测试,基于强化学习机制——任务完成成功则获得奖励,出现错误则被惩罚——持续迭代优化。
这种思路与 Waymo 早期训练自动驾驶汽车的策略如出一辙:先在模拟极端场景中反复演练罕见状况(如暴雨天气、孩童突然冲出),再将模型部署到真实路面。
市场反馈与融资进展
需求之旺盛,从融资节奏可见一斑。Patronus AI 近日宣布完成 5000 万美元 B 轮融资,由 Greenfield Partners 领投,Notable Capital、Lightspeed、Datadog、Samsung 等跟投;累计融资总额达到 7000 万美元。过去一年,公司收入增长了 15 倍,几乎所有前沿 AI 实验室和大量新兴 AI 创业公司都已成为其客户。
技术护城河与竞争定位
创始人在接受采访时提到,Agent 在执行任务时往往会"走捷径",看似完成、实则未正确达成目标。Patronus AI 的核心优势恰恰在于能够识别这类"作弊行为",确保模型对任务结果真正负责。
当前产品主要覆盖软件工程和金融两个可验证(verifiable)领域。创始人表示,下一步计划向"难以验证"的更复杂场景拓展——包括支持持续运行 10 小时、10 天乃至 10 周的长周期 Agent 任务。
竞争格局上,Patronus AI 认为自己主要对手并非市面上的第三方评估工具,而是各 AI 实验室自建的人工评估团队——这些内部团队往往需要大量人力介入,而 Patronus AI 的方案完全不依赖人工判断。


评论