
Anthropic 测试 AI 代理交易市场:69 名员工、186 笔真实交易
Anthropic 近期完成了一个名为 Project Deal 的实验性项目:创建一个由 AI 代理代替人类进行买卖的分类市场。最终,69 名 Anthropic 员工参与了测试,每人获得 100 美元预算(以礼品卡形式发放),可从同事处购买真实商品。实验共产成 186 笔交易,总价值超过 4000 美元。
Anthropic 坦承,这只是一次"小规模试点实验,参与者均为自愿加入的公司员工",不代表 AI 代理已在真实消费场景中具备完整能力。但公司同时表示,"项目运行效果令人惊讶"。
四种模型市场并行测试
Anthropic 实际运行了 四套不同的市场模型:
- 一套"真实"市场:所有用户均由公司最先进模型代理,交易在实验结束后正式兑现。
- 另外三套市场:用于对照研究,模型配置和规则各不相同。
通过对比发现,使用更先进模型的用户,获得了客观上更好的交易结果。然而,用户本身对此并无感知——这意味着存在"代理质量差距"风险:使用较弱模型的一方,可能在不知不觉中处于劣势。
指令对成交影响甚微
实验还测试了初始代理指令是否影响成交概率和议价结果。结论是:初期指令几乎未见影响,代理在实际谈判中表现出的策略,与收到何种初始提示关系不大。


评论