在 2025 年 1 月的首届 HumanX 大会上,"AI 智能体"还是个模糊的前沿概念,很多人第一次听到 MCP 这个词。彼时的热议集中在推理能力、幻觉问题和 RAG(检索增强生成),技术圈子里弥漫着新鲜感——Theory Ventures 的 Tomasz Tunguz 甚至形容当时的状态是"第一局的下半场"。几乎每家公司都在忙着跑 AI 实验。
一年过去,行业已经打了好几局。Traversal CEO Anish Agarwal 告诉我们:"更多公司已经和客户共同经历了一轮产品迭代,大家逐渐搞清楚了拿下订单真正需要什么。"大语言模型不再只是简单的一问一答聊天机器人。企业为它接入了工具链、实现了自动化、部署了评估体系,并正式将其称为"智能体"——名字里通常带个"Agent"。这些智能体和它们的客户都需要用实际成果来解释不断膨胀的 Token 消耗账单。
笔者开始用"验收阶段"来描述当下的 AI 状态:实验期已过,接下来必须产生真实价值。HumanX 大会印证了这个判断——几乎每位受访者都提到了"拐点""AI 第二阶段""对话正在转向"。以下正是对话转向的几个方向。
实用化:AI 正在走出玩具阶段
早期 AI 圈子里,大家聊的都是 AI"能做什么酷炫的事"。涌现行为(Emergent Behavior)是热门话题,比如让 AI 根据表情猜电影、画一只独角兽。那时候的技术让人惊喜,也让人意外,确实够酷。
但随着 AI 的前景被看好,大型企业开始认真研究如何将 AI 嵌入软件和业务流程。 医疗、法律、能源这些行业出错的代价是真实的,不是闹着玩的。 iMerit CEO 兼创始人 Radha Basu 指出:"在这些环境下,错误不只是技术问题——还可能致命。 这从根本上改变了做事方式,迫使我们以更审慎、更目的驱动的方式去构建和部署系统。" 过去两年,AI 的故事一直是"更大模型 + 更多数据"。 但 Better Auth 创始运营负责人 Ravindra Mistri 认为:"下一阶段 AI 落地不会受模型性能限制,而会受信任制约。"
HumanX CEO Stefan Weitz 在开场演讲中说:"没有信任,我们就是在搭一座高科技纸牌屋,希望没人用力咳嗽。" 要让 AI 获得信任,可靠性是前提。 Scaled Cognition 联合创始人兼 CTO Dan Klein 说得直白:"模型智能在快速进步,但可靠性没有跟上。 要自信地部署这些系统,必须达到极高的可靠性门槛。 总不能交付一个随意编造政策或隐瞒账户余额的系统。" 这种转变很大程度上源于 AI 的使用方式已经不同。
聊天机器人还能让用户反驳它的输出,但在智能体模式下,这些"小马"会一路跑到比赛结束。 智能体自主将问题拆解为多个步骤、调用大量工具来达成目标——希望整个过程中不会把你的数据库删了,或者凭空编造信息。 Radha Basu 说:"AI 正从静态答案转向在复杂、模糊的环境中采取正确行动。 这个转变要求问责制、判断力,以及尊重质疑模型的文化。" 关于如何解决信任和可靠性问题,行业讨论主要集中在三个方向:
- 信息是真的吗? 幻觉问题依然普遍,尽管大家都在跑 RAG。新方案包括更好的上下文窗口、智能体记忆系统,以及其他推理时数据访问方案。
- 智能体有权限做这件事吗? 不少人从身份认证和用户访问的角度看待信任,包括将智能体操作绑定到真实用户身份、即时临时认证控制、零信任权限体系等。但这里还冒出了一个新问题:智能体掌握了那么多数据,谁来保证它不会泄露?
- 能证明和审计吗? 信任,但要验证,而且要规模化验证。很多人试图通过可视化和数据来建立智能体信任。可观测性公司和 AI SRE 公司到处都是。这也延伸到了活动日志、自动与人工结合的评估体系,以及可追溯性等话题。
算账:Token 消耗成了新账单
在这种级别的大会上,卖产品的自然少不了。大部分人都身处 AI 生态,既是提供商,也是消费者。会场里能看到不少熟悉的 Logo——正如开篇提到的"迭代周期"所示,人们开始用商业眼光审视这项技术:如何多赚钱、如何省点钱?
Metronome CTO Cosmo Wolf 分享了他的观察:"我聊过的每个人都在想怎么改变自己的变现模式、如何用 AI 产品赚钱。目前还没有人真正搞定这件事。" 很多人直言,Token 消耗已经成了新的云服务器账单。Corey Quinn 的"Cloud Genie 笑话"需要补上第五条戒律:你不能拿它去买 AI Token。以前的 DevOps 工程师会讲周末因 SQS 配置错误烧掉六位数的故事,如今越来越多人发现自己的 Token 消耗正在随使用量暴涨。同时,Token 单价在不到三年内下降了约 200 倍,开源和小模型表现越来越好,竞争也在加剧。
成本真相:Token 消耗比想象中更烧钱
上下文窗口的隐形成本
Token 费用不仅是模型输出的问题,输入端同样在悄悄吃掉预算。企业和开发者为了弥补 AI 不可靠的输出质量,倾向于往上下文窗口里塞更多参考资料和历史对话——这直接导致每次请求的 Token 用量飙升。

一位行业人士透露,大型企业在 AI 辅助开发或客服场景下,每位 AI Agent 每会话的上下文成本高达 1 美元。如果部署规模大、并发高,这笔开销会在季度末给财务团队一个"惊喜"。雪上加霜的是,上下文窗口有上限,想要调整策略就得重新发送整段内容,又是新一轮的 Token 消耗。
Agent 集群:成本翻倍的加速器
单个 Agent 的 Token 消耗已经高于传统问答式 Chatbot——它需要分解任务、调用工具、读取返回、再跑评估和循环。但真正的成本倍增器是多 Agent 协作(即所谓"Agent Swarm")。
Oracle AI 集团副总裁 Miranda Nash 在"工作的未来"演讲中描述了这一趋势:多个 Agent 与人协同工作,这个未来已经在部分场景落地。问题在于,这些 Agent 就像在 Chuck E. Cheese 游乐场里失控撒钱的孩子,Token 消耗毫无节制。一些 Agent 任务甚至通宵运行,把大量 Token 花在复杂(且往往不透明)的推理过程上。
代码生成的"免费幻觉"与运维成本真相
业界有人宣称 AI 编程 Agent 让代码变得"本质上免费"——但实际并非如此。代码生成端或许成本降低了,审核&查验、安全检查和生产运行的负担却在显著上升。
Resolve.ai 创始人兼 CEO Spiros Xanthos 一针见血地指出:"团队生成和发布代码的速度,与代码进入生产后的运维质量之间,差距正在扩大。是自建、购买还是观望?这些问题并不新鲜,但 AI 把它们放大到了难以'等等看'、且决策失误代价更高的程度。" 至于整个行业的盈利前景,连 Anthropic 和 OpenAI 两大巨头都预计分别要到 2028 年和 2030 年才能实现盈利。
AI 从业者的焦虑:技术狂奔与社会影响的碰撞
优化"此刻喜欢"而非"长期福祉"
技术能力在加速,但人类评估其影响的框架明显跟不上。这是本次大会私下讨论最多的议题之一。mpathic 联合创始人兼首席商务官 Dr. Danielle Schlosser 直言: "如今大多数 AI 的优化目标是人类偏好信号——人们当下喜欢什么——而非真正有利于长期福祉的东西。围绕参与度和验证感做优化,可能带来意想不到的后果,比如强化偏见,或削弱人们的批判性思维。"
经济冲击:失业与升级并行
对于 AI 的经济影响,业界普遍认同:AI 会提升人类能力,而非取代人类工作。但具体到软件行业本身,情况要复杂得多。
有从业者对 Anthropic 的生态主导地位感到不安——"有人为此兴奋,觉得能借此改进自己的产品;也有人担心自己会被它吃掉。"这还是 Anthropic 宣布 Mythos 及安全漏洞问题 之前的声音。那次披露发现,几乎所有支撑互联网底层运转的软件都存在安全缺陷。
硬件领域的人士则预期,数据中心需求持续攀升背景下,电力和硬件价格将继续上涨。
行业共识:人本主义 AI 不是口号
尽管展位上不乏激进标语,大多数人认同:人类自主性和繁荣发展才是根本。Dr. Schlosser 总结道:"围绕负责任 AI,真正有意义的思考正在形成,但从理论到实践还有距离。对我来说,以人为本的 AI 不能只是'对齐偏好'——它必须意味着:持续评估影响、理解心理效应,最终回答一个问题——这项技术是否让人过得更好?"
跟不上的节奏:技术栈正在实时位移
如果感觉自己跟不上行业节奏,这种焦虑是普遍的。会上每个人都有一个共同感受:自己在追赶行业前进的方向,而行业本身也在快速移动。
技术栈在实时重构,模型仍然会让整个行业措手不及,Agent 不断获得新技能。上下文管理与多 Agent 编排正在成为焦点议题,同时暗流涌动的还有世界模型、推理专用芯片、科学垂直模型等方向——没人知道下一个爆点会在哪里出现。
行业回归商业本质
这波 AI 热潮正在完成一次关键转向:技术光环褪去,务实成为新标签。无论是大厂还是创业团队,都在回答同一个问题——如何真正获客、留客,同时控制烧钱节奏。
行业里确实还弥漫着"草莽气息",但格局已变。真正跑通的团队,早已不是那些靠融资烧出来的"独狼",而是更像专业铁路公司——把精力花在供应链和履约能力上,在合规框架内稳定运转。
落地建议
- 优先验证商业闭环:技术 demo 只能证明"能跑",先验证用户愿意付费
- 控制规模冲动:扩团队、扩品类之前,先确认单位经济模型是否健康
- 基础设施投入不可省:别被"轻资产"概念误导,稳定的后端和风控体系才是护城河


评论