
导语:AI 训练数据的新金矿
随着 AI 开始与物理世界交互,行业对「世界模型」的需求急剧攀升——这类模型可以驱动机器人操作,或在虚拟空间中模拟真实物体。然而与大语言模型不同,世界模型的训练数据缺乏现成来源,让许多实验室头疼不已。
一家名为 Origin Lab 的初创公司正在尝试解决这个难题,而他们的数据来源出乎意料:电子游戏行业。
Origin Lab 的商业模式
Origin Lab 刚刚完成了 800 万美元种子轮融资,由 Lightspeed Ventures 领投,SV Angel、Eniac、Seven Stars、FPV 跟投,Kevin Lin(Twitch 联合创始人)和 Kyle Vogt(Cruise 创始人)则以天使投资人身份参与。
联合创始人兼联席 CEO Anne-Margot Rodde 解释道:「现在构建的 AI 系统需要理解物理世界的运作方式和物体运动规律,这些数据本质上存在于电子游戏中。」 具体来说,Origin Lab 构建的是一个交易市场:一端是需要高质量训练数据的实验室(如 Yann LeCun 的 AMI Labs、Fei-Fei Li 的 World Labs),另一端是拥有大量数字资产却未能充分利用的电子游戏公司。Origin Lab 负责将游戏资产转化为可用于 AI 训练的格式——这个过程可能只是简单的渲染运行,也可能是自动化生成数小时的攻略视频素材。
「电子游戏行业掌握着极具价值的数据,但此前并没有真正的基础设施来连接 AI 实验室和游戏公司,」Rodde 表示,「所以我们搭建了那座桥梁。」
为什么是现在
实验室很早就盯上了游戏视频素材作为训练数据来源,但版权问题和数据质量一直是拦路虎。2024 年 12 月,OpenAI 的 Sora 视频生成模型初版被曝光似乎使用了热门游戏和 Twitch 主播的素材进行训练,引发小规模争议。亚马逊则公开表示对利用 Twitch 素材训练模型抱有浓厚兴趣。
Lightspeed 合伙人 Faraz Fatemi 指出,Scale.AI 等数据供应商的成功让这个市场机会再也无法被忽视:「我们看到,服务主要实验室的数据供应商收入增长非常迅猛。这些都是资本充足的企业,而他们的共同瓶颈就是数据。」 Origin Lab 本轮融资的成功,某种程度上印证了这个细分市场的增长潜力——不仅是对训练数据的需求,更是围绕 AI 实验室供应链的初创企业价值。


评论