英伟达开源Ψ₀：人形机器人通用大模型开启"小数据、高智能"新范式 VLA

简单总结

英伟达 Physical Superintelligence (PSI) Lab 发布开源基座模型 Ψ₀ (Psi-Zero)，为人形机器人领域带来突破性进展。该模型通过创新的"解耦学习"策略，仅用 800 小时人类视频 和 30 小时真实机器人轨迹数据，就在任务成功率上超越使用 10 倍以上数据量的基准模型，整体成功率提升约 40%。

核心资源链接：

项目主页：https://psi-lab.ai/Psi0/
论文：https://arxiv.org/pdf/2603.12263
数据集：https://huggingface.co/datasets/USC-PSI-Lab/psi-data/tree/main

核心方法

解耦学习（Decoupled Learning）

Ψ₀ 的核心理念是：既然人类和机器人"长得不一样"，那就不要强行让它们在同一个阶段学习。

两阶段训练范式

第一步：自回归预训练

在大规模第一视角（Egocentric）人类视频中，让模型先学懂"人类是如何与世界交互的"。这一步赋予了模型强大的视觉常识和任务逻辑。

第二步：流式动作专家后训练

专门在高质量的人形机器人数据上，打磨精密的关节控制能力。

三系统架构

Ψ₀ 模仿人类神经系统，将复杂的控制逻辑拆分为三个协同工作的系统：

系统	组件	功能
System-2（决策中枢）	Qwen3-VL-2B-Instruct	机器人的"眼睛"和"逻辑大脑"，负责看懂环境、理解指令，将视觉信息转化为高层语义特征
System-1（动作专家）	5亿参数多模态扩散Transformer (MM-DiT)	像"小脑"一样精准预测全身动作轨迹（Action Chunks）
System-0（执行末梢）	强化学习（RL）控制器	将指令转化为真实物理运动，驱动机器人下肢8个自由度

三阶段进化方案

第一阶段：博览群书（看片学艺）

利用 EgoDex 数据集（约 830 小时），机器人通过人类第一视角视频学习操作常识。同时同步观察机器人视角，消除"人眼"与"机眼"的视觉差距。

第二阶段：知行合一（实操练习）

在 Humanoid Everyday 数据集（约 31 小时）上进行后训练，将视觉经验落地到真实机器人关节控制。

第三阶段：快速通关（专项突击）

针对特定任务，只需极少量真人遥操作数据微调，快速学会长距离、高难度复杂任务。

关键技术突破

单人遥操作框架

研发团队设计了可穿戴遥操作框架，只需一名操作员就能同时指挥机器人的上肢精细操作和下肢移动。

实时动作分块（RTC）

针对 25 亿参数模型约 160ms 的推理延迟，Ψ₀ 采用实时动作分块技术：在执行当前动作的同时，异步计算下一组动作，确保动作连贯流畅。

问题背景

"大力出奇迹"的困境

在具身智能（Embodied AI）领域，研究者们正疯狂地将数万小时的人类视频与各类机器人的杂乱数据"喂"给模型。然而存在一个根本性问题：

人与机器人的身体构造、运动学特性有着本质的差异。

这种差异导致简单的"混合训练"效率极低：

模型空有海量的互联网视频记忆
却无法精准控制机器人的每一个关节
数据量翻了十倍，性能提升微乎其微

核心矛盾

问题	表现
本体差异	人类与机器人身体构造不同
视觉差异	"人眼"与"机眼"视角不同
控制差异	关节数量、运动范围不同
数据效率	混合训练效率极低

思路拆解

为什么解耦学习有效？

1. 分层处理不同层次的问题

视觉理解层：学习"做什么"——从人类视频中理解任务语义
动作执行层：学习"怎么做"——在机器人本体数据上学习精确控制

2. 数据质量优于数量

Ψ₀ 的成功证明：高质量的"数据配方"远比无脑堆砌互联网噪声视频更重要。

传统方法：海量数据 → 低效学习 → 微小提升
Ψ₀方法：精准配方 → 高效学习 → 显著突破

架构设计的深层逻辑

System-2 → System-1 → System-0 的信息流

视觉输入 → Qwen3-VL语义理解 → MM-DiT动作预测 → RL控制器执行
   ↓              ↓                  ↓               ↓
  感知          认知               规划             执行

这种分层设计使得：

高层决策可以充分利用大规模预训练的视觉语言模型
底层控制专注于机器人本体的运动学特性
各层独立优化，降低整体训练难度

RTC技术的工作原理

python

# 伪代码示意
while task_not_complete:
    current_action = action_queue.pop()
    execute(current_action)
    
    # 异步预计算下一组动作
    if action_queue.empty():
        async_compute_next_actions()

这种流水线设计确保了：

动作执行的连续性
计算资源的充分利用
实时响应的流畅性

实验结果

任务成功率对比

在 8 项涵盖移动、全身协作及精细操作的长程任务测试中：

对比项	结果
对比模型	ACT、Pi0.5、GR00T 等
数据使用	仅约 30 小时真实机器人数据
性能提升	整体成功率提升约 40%

消融实验结论

1. 预训练数据的规模效应

当 EgoDex 数据量减少至 10% 时，模型在复杂任务中表现显著下降，证明大规模视觉操作先验是理解物理世界的关键。

2. 后训练的必要性

仅依靠人类视频预训练而不进行机器人本体数据对齐，模型无法完成精细的闭环控制。

3. RTC技术的性能保障

不采用 RTC 技术时，机器人因动作不连贯导致失败率上升。

泛化能力与局限

优势：

处理未见过的长程任务时表现出较强适应性
通过少量目标任务数据微调可快速掌握新技能

局限：

目前单任务微调效果仍优于多任务同时微调
多任务训练可能导致学习目标分散，出现欠拟合现象

总结与展望

核心贡献

Ψ₀ 的成功为具身智能领域提供了重要启示：

范式转变：从"数据堆砌"转向"精准配方"
架构创新：解耦学习有效解决人机本体差异问题
效率突破：小数据实现高性能，降低训练成本

未来方向

多任务统一：解决当前多任务学习的欠拟合问题
更广泛的本体适配：扩展到更多人形机器人平台
实时性优化：进一步降低推理延迟
数据效率提升：探索更少数据下的学习策略

Ψ₀ 的开源将为社区提供宝贵的研究基础，推动人形机器人从实验室走向实际应用场景。

英伟达开源Ψ₀：人形机器人通用大模型开启"小数据、高智能"新范式 VLA ​

简单总结 ​

核心方法 ​

解耦学习（Decoupled Learning） ​

两阶段训练范式 ​

三系统架构 ​

三阶段进化方案 ​

关键技术突破 ​

问题背景 ​

"大力出奇迹"的困境 ​

核心矛盾 ​

思路拆解 ​

为什么解耦学习有效？ ​

架构设计的深层逻辑 ​

RTC技术的工作原理 ​

实验结果 ​

任务成功率对比 ​

消融实验结论 ​

泛化能力与局限 ​

总结与展望 ​

核心贡献 ​

未来方向 ​