AI 进入"验证季"：从实验到证明价值

2026年4月27日内容管家

AI领域评论14字数 3011阅读10分2秒阅读模式

在 2025 年 1 月的首届 HumanX 大会上，"AI 智能体"还是个模糊的前沿概念，很多人第一次听到 MCP 这个词。彼时的热议集中在推理能力、幻觉问题和 RAG（检索增强生成），技术圈子里弥漫着新鲜感——Theory Ventures 的 Tomasz Tunguz 甚至形容当时的状态是"第一局的下半场"。几乎每家公司都在忙着跑 AI 实验。

一年过去，行业已经打了好几局。Traversal CEO Anish Agarwal 告诉我们："更多公司已经和客户共同经历了一轮产品迭代，大家逐渐搞清楚了拿下订单真正需要什么。"大语言模型不再只是简单的一问一答聊天机器人。企业为它接入了工具链、实现了自动化、部署了评估体系，并正式将其称为"智能体"——名字里通常带个"Agent"。这些智能体和它们的客户都需要用实际成果来解释不断膨胀的 Token 消耗账单。

笔者开始用"验收阶段"来描述当下的 AI 状态：实验期已过，接下来必须产生真实价值。HumanX 大会印证了这个判断——几乎每位受访者都提到了"拐点""AI 第二阶段""对话正在转向"。以下正是对话转向的几个方向。

实用化：AI 正在走出玩具阶段

早期 AI 圈子里，大家聊的都是 AI"能做什么酷炫的事"。涌现行为（Emergent Behavior）是热门话题，比如让 AI 根据表情猜电影、画一只独角兽。那时候的技术让人惊喜，也让人意外，确实够酷。

但随着 AI 的前景被看好，大型企业开始认真研究如何将 AI 嵌入软件和业务流程。医疗、法律、能源这些行业出错的代价是真实的，不是闹着玩的。 iMerit CEO 兼创始人 Radha Basu 指出："在这些环境下，错误不只是技术问题——还可能致命。这从根本上改变了做事方式，迫使我们以更审慎、更目的驱动的方式去构建和部署系统。" 过去两年，AI 的故事一直是"更大模型 + 更多数据"。但 Better Auth 创始运营负责人 Ravindra Mistri 认为："下一阶段 AI 落地不会受模型性能限制，而会受信任制约。"

HumanX CEO Stefan Weitz 在开场演讲中说："没有信任，我们就是在搭一座高科技纸牌屋，希望没人用力咳嗽。" 要让 AI 获得信任，可靠性是前提。 Scaled Cognition 联合创始人兼 CTO Dan Klein 说得直白："模型智能在快速进步，但可靠性没有跟上。要自信地部署这些系统，必须达到极高的可靠性门槛。总不能交付一个随意编造政策或隐瞒账户余额的系统。" 这种转变很大程度上源于 AI 的使用方式已经不同。

聊天机器人还能让用户反驳它的输出，但在智能体模式下，这些"小马"会一路跑到比赛结束。智能体自主将问题拆解为多个步骤、调用大量工具来达成目标——希望整个过程中不会把你的数据库删了，或者凭空编造信息。 Radha Basu 说："AI 正从静态答案转向在复杂、模糊的环境中采取正确行动。这个转变要求问责制、判断力，以及尊重质疑模型的文化。" 关于如何解决信任和可靠性问题，行业讨论主要集中在三个方向：

信息是真的吗？ 幻觉问题依然普遍，尽管大家都在跑 RAG。新方案包括更好的上下文窗口、智能体记忆系统，以及其他推理时数据访问方案。
智能体有权限做这件事吗？ 不少人从身份认证和用户访问的角度看待信任，包括将智能体操作绑定到真实用户身份、即时临时认证控制、零信任权限体系等。但这里还冒出了一个新问题：智能体掌握了那么多数据，谁来保证它不会泄露？
能证明和审计吗？ 信任，但要验证，而且要规模化验证。很多人试图通过可视化和数据来建立智能体信任。可观测性公司和 AI SRE 公司到处都是。这也延伸到了活动日志、自动与人工结合的评估体系，以及可追溯性等话题。

算账：Token 消耗成了新账单

在这种级别的大会上，卖产品的自然少不了。大部分人都身处 AI 生态，既是提供商，也是消费者。会场里能看到不少熟悉的 Logo——正如开篇提到的"迭代周期"所示，人们开始用商业眼光审视这项技术：如何多赚钱、如何省点钱？

Metronome CTO Cosmo Wolf 分享了他的观察："我聊过的每个人都在想怎么改变自己的变现模式、如何用 AI 产品赚钱。目前还没有人真正搞定这件事。" 很多人直言，Token 消耗已经成了新的云服务器账单。Corey Quinn 的"Cloud Genie 笑话"需要补上第五条戒律：你不能拿它去买 AI Token。以前的 DevOps 工程师会讲周末因 SQS 配置错误烧掉六位数的故事，如今越来越多人发现自己的 Token 消耗正在随使用量暴涨。同时，Token 单价在不到三年内下降了约 200 倍，开源和小模型表现越来越好，竞争也在加剧。

成本真相：Token 消耗比想象中更烧钱

上下文窗口的隐形成本

Token 费用不仅是模型输出的问题，输入端同样在悄悄吃掉预算。企业和开发者为了弥补 AI 不可靠的输出质量，倾向于往上下文窗口里塞更多参考资料和历史对话——这直接导致每次请求的 Token 用量飙升。

一位行业人士透露，大型企业在 AI 辅助开发或客服场景下，每位 AI Agent 每会话的上下文成本高达 1 美元。如果部署规模大、并发高，这笔开销会在季度末给财务团队一个"惊喜"。雪上加霜的是，上下文窗口有上限，想要调整策略就得重新发送整段内容，又是新一轮的 Token 消耗。

Agent 集群：成本翻倍的加速器

单个 Agent 的 Token 消耗已经高于传统问答式 Chatbot——它需要分解任务、调用工具、读取返回、再跑评估和循环。但真正的成本倍增器是多 Agent 协作（即所谓"Agent Swarm"）。

Oracle AI 集团副总裁 Miranda Nash 在"工作的未来"演讲中描述了这一趋势：多个 Agent 与人协同工作，这个未来已经在部分场景落地。问题在于，这些 Agent 就像在 Chuck E. Cheese 游乐场里失控撒钱的孩子，Token 消耗毫无节制。一些 Agent 任务甚至通宵运行，把大量 Token 花在复杂（且往往不透明）的推理过程上。

代码生成的"免费幻觉"与运维成本真相

业界有人宣称 AI 编程 Agent 让代码变得"本质上免费"——但实际并非如此。代码生成端或许成本降低了，审核&查验、安全检查和生产运行的负担却在显著上升。

Resolve.ai 创始人兼 CEO Spiros Xanthos 一针见血地指出："团队生成和发布代码的速度，与代码进入生产后的运维质量之间，差距正在扩大。是自建、购买还是观望？这些问题并不新鲜，但 AI 把它们放大到了难以'等等看'、且决策失误代价更高的程度。" 至于整个行业的盈利前景，连 Anthropic 和 OpenAI 两大巨头都预计分别要到 2028 年和 2030 年才能实现盈利。

AI 从业者的焦虑：技术狂奔与社会影响的碰撞

优化"此刻喜欢"而非"长期福祉"

技术能力在加速，但人类评估其影响的框架明显跟不上。这是本次大会私下讨论最多的议题之一。mpathic 联合创始人兼首席商务官 Dr. Danielle Schlosser 直言： "如今大多数 AI 的优化目标是人类偏好信号——人们当下喜欢什么——而非真正有利于长期福祉的东西。围绕参与度和验证感做优化，可能带来意想不到的后果，比如强化偏见，或削弱人们的批判性思维。"

经济冲击：失业与升级并行

对于 AI 的经济影响，业界普遍认同：AI 会提升人类能力，而非取代人类工作。但具体到软件行业本身，情况要复杂得多。

有从业者对 Anthropic 的生态主导地位感到不安——"有人为此兴奋，觉得能借此改进自己的产品；也有人担心自己会被它吃掉。"这还是 Anthropic 宣布 Mythos 及安全漏洞问题之前的声音。那次披露发现，几乎所有支撑互联网底层运转的软件都存在安全缺陷。

硬件领域的人士则预期，数据中心需求持续攀升背景下，电力和硬件价格将继续上涨。

行业共识：人本主义 AI 不是口号

尽管展位上不乏激进标语，大多数人认同：人类自主性和繁荣发展才是根本。Dr. Schlosser 总结道："围绕负责任 AI，真正有意义的思考正在形成，但从理论到实践还有距离。对我来说，以人为本的 AI 不能只是'对齐偏好'——它必须意味着：持续评估影响、理解心理效应，最终回答一个问题——这项技术是否让人过得更好？"

跟不上的节奏：技术栈正在实时位移

如果感觉自己跟不上行业节奏，这种焦虑是普遍的。会上每个人都有一个共同感受：自己在追赶行业前进的方向，而行业本身也在快速移动。

技术栈在实时重构，模型仍然会让整个行业措手不及，Agent 不断获得新技能。上下文管理与多 Agent 编排正在成为焦点议题，同时暗流涌动的还有世界模型、推理专用芯片、科学垂直模型等方向——没人知道下一个爆点会在哪里出现。

行业回归商业本质

这波 AI 热潮正在完成一次关键转向：技术光环褪去，务实成为新标签。无论是大厂还是创业团队，都在回答同一个问题——如何真正获客、留客，同时控制烧钱节奏。

行业里确实还弥漫着"草莽气息"，但格局已变。真正跑通的团队，早已不是那些靠融资烧出来的"独狼"，而是更像专业铁路公司——把精力花在供应链和履约能力上，在合规框架内稳定运转。

落地建议

优先验证商业闭环：技术 demo 只能证明"能跑"，先验证用户愿意付费
控制规模冲动：扩团队、扩品类之前，先确认单位经济模型是否健康
基础设施投入不可省：别被"轻资产"概念误导，稳定的后端和风控体系才是护城河