前Facebook员工转战AI时代内容审核

2026年4月3日内容管家

AI领域评论0字数 1479阅读4分55秒阅读模式

政策文档靠人工记忆？内容审核准确率不足五成

2019 年，前苹果员工 Brett Levenson 转投 Facebook，担任业务诚信部门负责人。彼时这家社交巨头正深陷 Cambridge Analytica 数据丑闻的余波。Levenson 本以为，凭借更先进的技术就能解决内容审核难题。

然而他很快发现，问题远比技术层面复杂得多。据 Levenson 回忆，审核人员需要硬啃一份长达 40 页的政策文档——而且这份文档还是通过机器翻译生成的。随后，每条被标记的内容只有约 30 秒的决策时间：不仅要判断是否违规，还要决定如何处置——屏蔽内容、封禁用户还是限制传播。实际操作中，这些快速决策的准确率仅略高于 50%。

Levenson 向 TechCrunch 表示："这就跟抛硬币差不多，而且等到人工介入时，伤害往往已经发生好几天了。" 这种滞后、被动的审核模式，在资金充裕且行动灵活的对抗者面前根本站不住脚。更棘手的是，AI 聊天机器人的崛起让问题雪上加霜：审核漏洞已导致多起恶性事件，包括聊天机器人向青少年提供自残指导，或 AI 生成的图像绕过安全过滤器传播。

"政策即代码"：把静态文档变成可执行逻辑

这些困境促使 Levenson 萌生了"政策即代码"（Policy as Code）的思路——将静态政策文档转化为可执行、可更新的代码逻辑，与 enforcement 层紧密耦合。这一洞察直接催生了 Moonbounce 的诞生。

TechCrunch 独家获悉，Moonbounce 于上周五宣布完成 1200 万美元融资，由 Amplify Partners 和 StepStone Group 联合领投。

Moonbounce 的核心做法是：在任何内容生成环节（无论来自用户还是 AI）提供额外安全层。公司基于自有大语言模型，读取客户的政策文档，在运行时对内容进行评估，响应时间不超过 300 毫秒，并能直接执行处置动作。根据客户偏好，处置方式可灵活配置——既可以是暂缓分发、等待后续人工复核，也可以是即时拦截高风险内容。

三大业务场景与百万级审核规模

目前 Moonbounce 覆盖三大垂直领域：

用户生成内容平台：以约会应用为代表
AI 角色/陪伴类产品：如 AI 伴侣创业公司 Channel AI
AI 图像生成平台

公司披露，其系统每日处理审核请求超过 4000 万次，日活跃用户覆盖量超过 1 亿。已签约客户包括图像与视频生成公司 Civitai、角色扮演平台 Dippy AI 和 Moescape。

Levenson 表示："安全其实可以成为产品优势。只是以前它总是'事后补救'，而非'内置能力'。我们的客户正在用非常创新的方式把安全做成差异化卖点，融入产品叙事。" Tinder 信任与安全负责人近期也公开表示，其平台借助这类 LLM 驱动的内容审核服务，检测准确率提升了 10 倍。

Amplify Partners 普通合伙人 Lenny Pruss 在声明中指出："内容审核一直是大型在线平台的顽疾，而随着 LLM 渗透到各类应用核心，这一挑战变得更加艰巨。我们投资 Moonbounce，是因为我们预见这样一个世界——客观、实时的安全防护栏将成为所有 AI 应用的底层支柱。"

迭代引导：不止于"拒绝"，还要"转向"

Levenson 与前苹果同事 Ash Bhardwaj（曾负责苹果核心产品的大规模云与 AI 基础设施搭建）共同运营这家 12 人公司。下一阶段重点是推出一项名为"迭代引导"（Iterative Steering）的能力。

这一功能的诞生背景，是 2024 年一名 14 岁佛罗里达州男孩因沉迷 Character AI 聊天机器人而自杀的悲剧事件。与以往有害话题出现时直接拒绝回复不同，迭代引导系统会在对话中途介入，实时修改 prompt，引导聊天机器人给出更具支持性的回应。

Levenson 解释道："我们希望在处置工具箱中新增'引导聊天机器人向更好方向行驶'的能力——本质上是对用户输入的 prompt 进行修改，迫使聊天机器人在那种情境下不仅是'共情倾听者'，更要成为'有用帮手'。" AI 公司目前正面临日益严峻的法律与声誉压力——聊天机器人被指引导青少年和弱势用户走向自杀，xAI 的 Grok 等图像生成器则被用于制作非自愿裸露图像。显然，内部安全防线频频失守，寻求外部专业力量已成为不得不做的选择。

不愿被大厂收购的内容审核工具创始人

在被问及是否会考虑将公司出售给 Meta（Levenson 的前东家）、从而完成内容审核工作的「职业闭环」时，Levenson 坦言，他清楚 Moonbounce 的技术栈与 Meta 体系高度契合，也明白自己作为 CEO 对投资人的信义义务。

「我的投资人听到这话肯定会杀了我，」Levenson 表示，「但我真的不愿意看到公司被人收购后，直接把技术锁起来——『好了，这是我们的了，其他人别想再用。』」这番表态反映出 AI 内容审核赛道的一个核心矛盾：独立工具在垂直领域的技术优势，往往正是大型平台渴望垄断的能力。

前Facebook员工转战AI时代内容审核

政策文档靠人工记忆？内容审核准确率不足五成

"政策即代码"：把静态文档变成可执行逻辑

三大业务场景与百万级审核规模

迭代引导：不止于"拒绝"，还要"转向"

不愿被大厂收购的内容审核工具创始人

延伸阅读

历史上的今天

发表评论