
Physical Intelligence(PI)这家成立两年的旧金山机器人 AI 创业公司,于本周四发布了 π0.7 模型研究论文,展示了一个令内部研究人员都感到意外的能力:机器人可以在从未被明确训练过的任务上执行指令。
从"死记硬背"到"融会贯通"
此前,机器人训练的标准范式几乎是机械式的"死记硬背":针对特定任务收集数据,训练专用模型,再为下一个任务重复这一过程。π0.7 打破了这一模式——它展现的是"组合泛化"能力,即将从不同场景中习得的技能重新组合,用于解决从未见过的问题。
Physical Intelligence 联合创始人、加州大学伯克利分校 AI 机器人学教授 Sergey Levine 如此描述这一转折点:"一旦跨越了那个阈值——从只能做你收集过数据的那些事,到真正能够以新的方式重组组合——能力的增长就会超过线性增长。这种更有利的 scaling 特性,我们之前在语言和视觉领域见过。"
空气炸锅实验:两个片段拼出完整任务
论文中最引人注目的演示围绕一台在训练数据中几乎从未出现过的空气炸锅展开。研究团队追溯发现,整个训练数据集中只有两段相关记录:一段是另一台机器人仅将空气炸锅推关闭;另一段来自开源数据集,描述的是另一台机器人在人类指令下将塑料瓶放入空气炸锅。π0.7 凭借这两块碎片,加上更广泛的网页预训练数据,竟然构建出了对这台电器的功能理解。
Physical Intelligence 研究科学家、斯坦福大学计算机科学博士生 Ashwin Balakrishna 承认:"很难追踪知识究竟从哪里来,也很难预测它会在哪里成功或失败。"然而,在没有任何指导的情况下,模型成功完成了用空气炸锅烹饪红薯的尝试。当人类以逐步口头指令引导机器人——就像向新员工解释工作流程一样——成功率更高。
这一"教练"能力意义重大:机器人可以在全新环境中部署,并通过实时对话优化表现,无需额外收集数据或重新训练模型。
提示词工程:研究团队自省
Balakrishna 指出了一个耐人寻味的现象:"有时失败不在机器人或模型本身,而在我们自己——不擅长提示词工程。"他描述了一次早期空气炸锅实验:初始成功率仅为 5%,团队花费约半小时优化对模型的指令描述后,成功率跃升至 95%。
然而,π0.7 目前仍无法从单一高级命令自主执行复杂多步骤任务。"你不能直接告诉它'去给我做点吐司',"Levine 说道,"但如果你逐步引导它——'对于这台烤面包机,打开这个部分,按那个按钮,做这个'——它通常能运行得相当好。"
对标自测:通用模型匹敌专用系统
研究团队坦承,机器人领域的标准化基准测试几乎不存在,这让外部验证其声明变得困难。因此,他们选择让 π0.7 与自身此前的专用模型对比——即针对单一任务精心构建的系统。结果显示,通用模型在制作咖啡、叠衣服、组装盒子等一系列复杂任务中,与专用系统的表现相当。
"我被真正惊到了"
这项研究最值得注意的,或许不是任何一个具体演示,而是结果对研究人员自身的冲击程度——这些人本应完全掌握训练数据内容,因而能准确预判模型能力边界。
Balakrishna 表示:"我的经验一直是,当我深度了解数据内容时,我基本能猜出模型能做到什么。但过去几个月是我第一次真正感到惊讶——我随机买了一套齿轮,问机器人'你能旋转这个齿轮吗?'它直接就做到了。" Levine 则回忆起研究团队首次遭遇 GPT-2 生成"安第斯山脉独角兽"故事时的情形:"它从哪里学到秘鲁独角兽的?这真是个奇怪的组合。我认为在机器人领域看到类似现象,是非常特别的。"
批评与反驳
批评者自然会指出一个不对称性:语言模型拥有整个互联网可供学习,而机器人没有——再精巧的提示词也无法完全弥合这一差距。但当被问及预期中的质疑声音时,Levine 将矛头指向了别处:"对任何机器人泛化演示的标准批评,总是说任务太无聊、机器人没有后空翻。"他反驳称,这种框架本身就是个陷阱——精心编排的杂技与真正能泛化的机器人系统,恰恰是两种完全不同的目标。泛化看起来永远不如杂技表演那样引人注目,但它远比后者有用。
论文通篇使用谨慎的措辞,将 π0.7 定性为展现泛化"早期迹象"和"初步演示"的研究成果。Physical Intelligence 从一开始就对商业化时间表保持克制——这些是研究结果,而非已部署产品。
估值翻倍在即:Physical Intelligence 正洽谈新融资
据知情人士透露,Physical Intelligence 目前正与投资方洽谈新一轮融资,估值有望从 550 亿美元翻近一倍至 1100 亿美元。公司团队拒绝对此置评。
明星投资人背书
Lachy Groom 是这轮投资热潮的关键人物。在创办 Physical Intelligence 之前,他曾是硅谷最受尊重的天使投资人之一,曾投资 Figma、Notion、Ramp 等明星公司。被问及为何最终选择亲自下场创办 Physical Intelligence 时,Groom 表示这正是他一直在寻找的公司。这层背景使得该公司即便拒绝向投资者提供商业化时间表,仍能持续吸引大型机构资金注入。
资金规模与估值
公司累计融资已超过 10 亿美元,最近一次估值约 56 亿美元。此轮新融资若达成,估值将逼近 1100 亿美元,意味着在不到一年内完成又一次跨越式上涨。
PI 联合创始人 Alex Levine 也坦言,虽然团队对技术进展持乐观态度,但无法给出具象的落地时间表——通用机器人系统真正进入现实世界,仍有相当距离。


评论