AI 战略的残酷真相

内容管家 AI领域评论12字数 3646阅读12分9秒阅读模式

企业 AI 落地的「暗面」:Shadow AI 风险与治理路径

Shadow AI 正在侵蚀企业数据边界

Hema Raghavan 指出,当前企业面临一个严峻现实:AI 预算激增,各部门(工程、市场、销售)都被鼓励使用 AI,但这些行为已超出 IT 团队的管控范围。她举例说明,员工可能只是顺手用 AI 工具润色一份销售文案,却无意中将大量敏感数据作为提示词发送给了未获批准的 LLM 服务提供商。

更棘手的是,当企业向 AI 工具开放 CRM 等内部系统的访问权限时,数据流向完全不受监督&管理——公司既无法追踪哪些数据被送出,也无法确认是否会有未经授权的外部访问。Gartner 此前已将 Shadow AI 列为企业首要风险之一。

治理路径一:在可信平台内部署模型

针对数据泄露问题,Hema 观察到几种正在被企业采纳的治理模式。第一种是将 AI 模型直接部署在已获安全团队批准的数据库或数据仓库内部。以 Snowflake 的 Snowpark Container Services 为例,Kumo.ai 通过该服务为客户提供 AI 能力,模型运行全程不离开客户的可信环境。

治理路径二:VPC 部署与流量监控网关

第二种模式是企业自建 VPC 部署或统一网关。所有 AI 调用请求统一经由网关进出,网关负责监控「进了什么、出了什么」。Hema 透露,她的客户中已出现明确诉求:要求 Kumo.ai 的服务必须嵌入客户自有 VPC,若部署在外部则需提供清晰的权限边界说明。

治理路径三:平台级集成

部分企业选择将 AI 能力深度集成至已采购的企业平台(如 Snowflake、Databricks 等数据平台),而非单独采购点解决方案。这样做的好处是数据不必离开已有的安全边界,审计和合规工作也可以复用平台原有的管控机制。

Hema 强调,Kumo.ai 的核心思路正是针对传统机器学习管道(pipeline)的复杂性痛点:用单一基础模型替代过去繁复的特征工程,配合实时数据库查询实现预测,简化端到端流程的同时也降低了数据外泄的暴露面。

Hema Raghavan 进一步指出,AI 本身也能解决数据泄露问题。只要数据通过受控端点流出,AI 就能较好地识别个人身份信息(PII)或企业敏感数据——这类数据模式相当固定,容易被捕捉。

与此同时,另一个思路是控制 AI 一开始能访问哪些数据。在金融科技和医疗健康领域,许多客户倾向选择可精细管控数据访问权限的 AI 部署模式。Hema 以此为例说明:电子健康记录数据仅限特定人员和特定 AI 系统访问,且系统会记录所有数据的进出情况,形成完整的遥测监控。

从数百条流水线到单一基础模型

在被问及能否彻底绕过数据流水线时,Hema 表示这正是她创业前在 LinkedIn 领导 AI 团队时反复思考的问题。当时 LinkedIn 的「你可能认识的人」推荐、通知流、职位推荐等功能背后,是数十个模型和数百条数据流水线在运转。

她举了一个 Gen AI 时代的典型案例:某应用因前端追踪流水线故障,导致用户点击行为数据异常回传,模型输出开始出现怪异结果。幸好团队有完善的治理机制,能够察觉模型评分异常并及时开 war room 排查。然而追踪问题根源却极为痛苦——因为流水线 A → B → C → D 的层层依赖,一旦最上游的流水线出错,整条链路都需要逐一排查。

更棘手的是,随着模型和流水线数量不断膨胀,加上数据科学团队和仓库团队跨越数千名工程师、人员流动带来的流水线无人维护问题,「位衰减」(bit rot)让维护成本急剧攀升。

正因如此,Kumo 的核心设计理念应运而生:能否用单一基础模型取代这数百条流水线?

在线查询替代预训练:上下文学习的新范式

Hema 提到,Gen AI 中已出现一些可借鉴的模式,例如上下文学习(in-context learning)。以职位推荐为例:系统无需预先训练模型,而是实时查询数据库,将「Ryan 在找工作」等上下文信息即时发送给通用基础模型,模型直接返回推荐结果。

这意味着团队只需维护一个基础模型和一套在线查询服务即可。这种架构在可维护性上远超传统流水线方案。

Hema 将其形象地总结为:不再让流水线在数据源之间搬运数据,而是把「流水线」迁移到 AI 模型本身,让模型本身成为数据的另一种形态。

统一数据仓库:架构即治理

针对是否需要区分生产数据库与分析数据库的问题,Hema 认为,统一的数据仓库层能极大简化治理工作。在单一目录层中,团队可以集中决定哪些数据集可供 AI 使用,并内建监控机制——特别是在需要限制 AI 只能访问部分数据的场景下,统一仓库可以让管控在一处完成。

她建议,企业在 analytics 和 AI 场景中应尽可能将 ETL 收敛至单一数据仓库。虽然某些情况下因性能差异难以完全统一,但大多数企业正在朝这个方向演进。

在线服务层的数据困境

在线应用的数据需求与传统数据分析场景截然不同。以电商或新闻网站为例,用户进入页面时需要实时推荐——这类场景对延迟和并发要求极高,传统数据仓库的性能特征难以满足。

Hema 指出,分析层在数据治理方面远比在线服务层更早起步,而各个公司的在线架构差异巨大,彼此之间几乎找不到共同模式,导致在线服务层的数据治理至今缺乏标准化方案。

为什么在线架构难以标准化

Raghavan 在对话中还原了一家初创公司从零起步的典型路径:借助 Claude、Codex 等工具,创始人能在一天内搭建出一个完整的电商网站,后端通常以 Postgres 起步,几乎所有公司最初都沿着这条路走。

这一现实带来一个矛盾:当「快速用 Postgres 起步」变得极其容易时,没人愿意在早期投入精力建立统一的数据工具层。Raghavan 直言:「没有人真正打造出一款工具来统一这一切——让大家只需插入一个 AI API 网关就行。」 Donovan 也观察到类似现象:Shopify 等平台试图让电商数据操作更标准化,但每家公司最终仍在按自己的方式构建在线架构。

Article hero image

数据库层:商品化与专业化并行的张力

当对话转向「当 Postgres 不再够用时,企业是否会像大型云厂商那样重写整个应用以换取 10-15% 的性能提升」时,Raghavan 给出了一个清晰的框架: 数据库核心层已基本商品化。 她认为:「你遇到的每一个扩展问题,买一个现成解决方案的成本,仍然比雇一群数据库专家为你定制开发更低。」这意味着核心关系型数据库不太需要自研,大公司之外很少有人会自己造轮子。

但某些组件开始出现瓶颈:

  • 日志/遥测系统:随着公司规模增长,许多 SaaS 日志服务开始力不从心,成本飙升,企业开始考虑自建
  • 存储层(DISC):S3、ADLS 等已充分商品化,几乎没有公司愿意自建存储基础设施

专业数据库的涌现:越少越好

当公司成长到一定规模,时间序列数据库、向量数据库、键值存储等专业数据库开始登场。Donovan 问出了一个关键问题:「这种专业化分工对公司而言是好事还是新麻烦?」 Raghavan 的回答一针见血:「每当团队提出一个新设计方案,我问的第一个问题永远是:能不能不再增加一个数据库?」 她强调,数据库越多,维护成本和数据同步的复杂度就越高。尤其是向量数据库——当底层 AI 模型发生变化时,嵌入向量极易失效,不同数据源之间的一致性维护会迅速变成噩梦。

因此,她的结论是:数据库越少越好

AI 领域的标准化困局

回到 AI 与数据架构的主题,Raghavan 描述了一个正在形成的问题:不同团队在探索完全不同的 AI 实现路径——

  • 团队 A 全面押注 RAG(检索增强生成)+ 向量数据库
  • 团队 B 认为纯提示工程才是正道,一切数据塞进提示里

这种缺乏标准化的状态正在制造新的问题。但 Raghavan 也承认,这背后存在一个真实的权衡:作为 CTO,她希望团队大胆实验以探索可能性,但一旦探索阶段结束,如何将成果收敛、统一到现有架构中,是一个巨大的挑战。 Donovan 总结了这一困境:「整个行业在过去几年大量实验,但这让工程团队很难做出长期规划、构建一致的系统。」他提问:我们是否正在进入「实验退潮」阶段,还是仍有更多探索要进行?

这正是当前 AI 工程领域最核心的张力:创新速度与架构稳定性之间的持续拉锯

工程卓越的三个北极星指标

Hema Raghavan 指出,很多团队在引入 AI 工具后容易陷入一个陷阱:一味追求开发速度(velocity),却忽视了系统的长期可维护性。她认为真正需要关注的指标有三个:开发速度每个发布周期的 P-zero 严重缺陷数量,以及平均故障恢复时间(MTTR)。这三个指标才是团队的北极星,尤其在 AI 代码生成工具大规模普及的当下,后两者更容易被牺牲。

用架构设计本身做治理

Ryan Donovan 提到,很多团队会因为 AI 工具带来的速度诱惑,主动放弃后两个指标。Hema Raghavan 的解法是把架构约束直接嵌入代码库。她带领的团队开始在代码仓库中插入「由 AI 代理维护的 MD 文件」,这些文件本身就是设计规范的载体——当开发者在 IDE 中使用 coding agent 时,agent 会读取这些规范文件,并自动遵循团队约定的设计模式,从而将治理要求变成工具行为的一部分,而非依赖人工自觉遵守。

资深工程师的双重职责:带人也带 AI

对话还触及了一个深层问题:junior engineer 在 AI 辅助时代面临的独特挑战。Hema Raghavan 分享了一位资深工程师的原话:「我必须确保 AI agent 不会取代我 junior 工程师的思考能力。」在她看来,资深工程师现在同时承担两项指导任务——既要带教 human junior,也要「带教」AI agent。Junior 工程师被要求主动质疑 AI 的决策,例如「为什么你选择同步 API 而非异步 API」——这要求他们快速成长,能够独立评判 AI 输出的设计质量,而不只是接受答案。

招聘流程的根本性重塑

Hema Raghavan 透露,团队已经调整了招聘流程:不再考察「手写算法速度」或白板排序,而是给候选人布置需要使用 AI agent 完成的 take-home 任务,随后在面试中重点考察候选人能否解释 AI 做了什么、为什么做出这样的选择、方案是否合理。这种转变有几个深层原因:

  • take-home 形式本身也更包容——候选人不必现场高压环境下作答
  • 核心筛选标准从「写代码多快」变成「能否读懂代码、理解设计选择、给出充分测试用例验证输出」

她明确表示,「代码写得快」这件事现在由 AI agent 承担,面试要考察的是人独有的判断力。Ryan Donovan 也认同:没人再需要在白板上手写冒泡排序了。

工程团队的数据治理新挑战

在播客后半段,Hema Raghavan 重点谈了 AI 工程团队即将面临的新课题。

API 可视化与数据流向管控 她指出,未来 CIO 和 CISO(首席信息安全官)将需要专门工具来监控 API 调用和数据出口(egress)。这个需求正在从「加分项」演变为「必备项」。她提到,即便在引入新供应商时,也应该明确询问:「我能否查看所有数据的流向?」行业目前参差不齐,但标准化是必然趋势。

成本与治理的双重压力 当前行业处于「高实验阶段」,大量数据和 Token 被送往各处。她预判,接下来工程团队需要更审慎地评估成本——某些场景下,在自有参数范围内部署开源模型可能比调用外部 API 更经济。这将逐渐成为工程设计评审中的常规议题。

拥抱变化,但勿重蹈覆辙 在收尾时,Hema 特别强调:这是工程领域激动人心的时代,必须拥抱变化,但也要从过去的教训中学习。「我们会犯新的错误,但别再重复过去的错误——别在我们高速推进的时候忘记它们。」

 
内容管家

发表评论