前Facebook员工转战AI时代内容审核

内容管家 AI领域评论0字数 1479阅读4分55秒阅读模式
前Facebook员工转战AI时代内容审核

政策文档靠人工记忆?内容审核准确率不足五成

2019 年,前苹果员工 Brett Levenson 转投 Facebook,担任业务诚信部门负责人。彼时这家社交巨头正深陷 Cambridge Analytica 数据丑闻的余波。Levenson 本以为,凭借更先进的技术就能解决内容审核难题。

然而他很快发现,问题远比技术层面复杂得多。据 Levenson 回忆,审核人员需要硬啃一份长达 40 页的政策文档——而且这份文档还是通过机器翻译生成的。随后,每条被标记的内容只有约 30 秒的决策时间:不仅要判断是否违规,还要决定如何处置——屏蔽内容、封禁用户还是限制传播。实际操作中,这些快速决策的准确率仅略高于 50%。

Levenson 向 TechCrunch 表示:"这就跟抛硬币差不多,而且等到人工介入时,伤害往往已经发生好几天了。" 这种滞后、被动的审核模式,在资金充裕且行动灵活的对抗者面前根本站不住脚。更棘手的是,AI 聊天机器人的崛起让问题雪上加霜:审核漏洞已导致多起恶性事件,包括聊天机器人向青少年提供自残指导,或 AI 生成的图像绕过安全过滤器传播。

"政策即代码":把静态文档变成可执行逻辑

这些困境促使 Levenson 萌生了"政策即代码"(Policy as Code)的思路——将静态政策文档转化为可执行、可更新的代码逻辑,与 enforcement 层紧密耦合。这一洞察直接催生了 Moonbounce 的诞生。

TechCrunch 独家获悉,Moonbounce 于上周五宣布完成 1200 万美元融资,由 Amplify Partners 和 StepStone Group 联合领投。

Moonbounce 的核心做法是:在任何内容生成环节(无论来自用户还是 AI)提供额外安全层。公司基于自有大语言模型,读取客户的政策文档,在运行时对内容进行评估,响应时间不超过 300 毫秒,并能直接执行处置动作。根据客户偏好,处置方式可灵活配置——既可以是暂缓分发、等待后续人工复核,也可以是即时拦截高风险内容。

三大业务场景与百万级审核规模

目前 Moonbounce 覆盖三大垂直领域:

  • 用户生成内容平台:以约会应用为代表
  • AI 角色/陪伴类产品:如 AI 伴侣创业公司 Channel AI
  • AI 图像生成平台

公司披露,其系统每日处理审核请求超过 4000 万次,日活跃用户覆盖量超过 1 亿。已签约客户包括图像与视频生成公司 Civitai、角色扮演平台 Dippy AI 和 Moescape。

Levenson 表示:"安全其实可以成为产品优势。只是以前它总是'事后补救',而非'内置能力'。我们的客户正在用非常创新的方式把安全做成差异化卖点,融入产品叙事。" Tinder 信任与安全负责人近期也公开表示,其平台借助这类 LLM 驱动的内容审核服务,检测准确率提升了 10 倍。

Amplify Partners 普通合伙人 Lenny Pruss 在声明中指出:"内容审核一直是大型在线平台的顽疾,而随着 LLM 渗透到各类应用核心,这一挑战变得更加艰巨。我们投资 Moonbounce,是因为我们预见这样一个世界——客观、实时的安全防护栏将成为所有 AI 应用的底层支柱。"

迭代引导:不止于"拒绝",还要"转向"

Levenson 与前苹果同事 Ash Bhardwaj(曾负责苹果核心产品的大规模云与 AI 基础设施搭建)共同运营这家 12 人公司。下一阶段重点是推出一项名为"迭代引导"(Iterative Steering)的能力。

这一功能的诞生背景,是 2024 年一名 14 岁佛罗里达州男孩因沉迷 Character AI 聊天机器人而自杀的悲剧事件。与以往有害话题出现时直接拒绝回复不同,迭代引导系统会在对话中途介入,实时修改 prompt,引导聊天机器人给出更具支持性的回应。

Levenson 解释道:"我们希望在处置工具箱中新增'引导聊天机器人向更好方向行驶'的能力——本质上是对用户输入的 prompt 进行修改,迫使聊天机器人在那种情境下不仅是'共情倾听者',更要成为'有用帮手'。" AI 公司目前正面临日益严峻的法律与声誉压力——聊天机器人被指引导青少年和弱势用户走向自杀,xAI 的 Grok 等图像生成器则被用于制作非自愿裸露图像。显然,内部安全防线频频失守,寻求外部专业力量已成为不得不做的选择。

不愿被大厂收购的内容审核工具创始人

在被问及是否会考虑将公司出售给 Meta(Levenson 的前东家)、从而完成内容审核工作的「职业闭环」时,Levenson 坦言,他清楚 Moonbounce 的技术栈与 Meta 体系高度契合,也明白自己作为 CEO 对投资人的信义义务。

「我的投资人听到这话肯定会杀了我,」Levenson 表示,「但我真的不愿意看到公司被人收购后,直接把技术锁起来——『好了,这是我们的了,其他人别想再用。』」 这番表态反映出 AI 内容审核赛道的一个核心矛盾:独立工具在垂直领域的技术优势,往往正是大型平台渴望垄断的能力。

延伸阅读

 
内容管家

发表评论