主题
英伟达开源Ψ₀:人形机器人通用大模型开启"小数据、高智能"新范式 VLA
简单总结
英伟达 Physical Superintelligence (PSI) Lab 发布开源基座模型 Ψ₀ (Psi-Zero),为人形机器人领域带来突破性进展。该模型通过创新的"解耦学习"策略,仅用 800 小时人类视频 和 30 小时真实机器人轨迹数据,就在任务成功率上超越使用 10 倍以上数据量的基准模型,整体成功率提升约 40%。
核心资源链接:
- 项目主页:https://psi-lab.ai/Psi0/
- 论文:https://arxiv.org/pdf/2603.12263
- 数据集:https://huggingface.co/datasets/USC-PSI-Lab/psi-data/tree/main
核心方法
解耦学习(Decoupled Learning)
Ψ₀ 的核心理念是:既然人类和机器人"长得不一样",那就不要强行让它们在同一个阶段学习。
两阶段训练范式
第一步:自回归预训练
在大规模第一视角(Egocentric)人类视频中,让模型先学懂"人类是如何与世界交互的"。这一步赋予了模型强大的视觉常识和任务逻辑。
第二步:流式动作专家后训练
专门在高质量的人形机器人数据上,打磨精密的关节控制能力。
三系统架构
Ψ₀ 模仿人类神经系统,将复杂的控制逻辑拆分为三个协同工作的系统:
| 系统 | 组件 | 功能 |
|---|---|---|
| System-2(决策中枢) | Qwen3-VL-2B-Instruct | 机器人的"眼睛"和"逻辑大脑",负责看懂环境、理解指令,将视觉信息转化为高层语义特征 |
| System-1(动作专家) | 5亿参数多模态扩散Transformer (MM-DiT) | 像"小脑"一样精准预测全身动作轨迹(Action Chunks) |
| System-0(执行末梢) | 强化学习(RL)控制器 | 将指令转化为真实物理运动,驱动机器人下肢8个自由度 |
三阶段进化方案
第一阶段:博览群书(看片学艺)
利用 EgoDex 数据集(约 830 小时),机器人通过人类第一视角视频学习操作常识。同时同步观察机器人视角,消除"人眼"与"机眼"的视觉差距。
第二阶段:知行合一(实操练习)
在 Humanoid Everyday 数据集(约 31 小时)上进行后训练,将视觉经验落地到真实机器人关节控制。
第三阶段:快速通关(专项突击)
针对特定任务,只需极少量真人遥操作数据微调,快速学会长距离、高难度复杂任务。
关键技术突破
单人遥操作框架
研发团队设计了可穿戴遥操作框架,只需一名操作员就能同时指挥机器人的上肢精细操作和下肢移动。
实时动作分块(RTC)
针对 25 亿参数模型约 160ms 的推理延迟,Ψ₀ 采用实时动作分块技术:在执行当前动作的同时,异步计算下一组动作,确保动作连贯流畅。
问题背景
"大力出奇迹"的困境
在具身智能(Embodied AI)领域,研究者们正疯狂地将数万小时的人类视频与各类机器人的杂乱数据"喂"给模型。然而存在一个根本性问题:
人与机器人的身体构造、运动学特性有着本质的差异。
这种差异导致简单的"混合训练"效率极低:
- 模型空有海量的互联网视频记忆
- 却无法精准控制机器人的每一个关节
- 数据量翻了十倍,性能提升微乎其微
核心矛盾
| 问题 | 表现 |
|---|---|
| 本体差异 | 人类与机器人身体构造不同 |
| 视觉差异 | "人眼"与"机眼"视角不同 |
| 控制差异 | 关节数量、运动范围不同 |
| 数据效率 | 混合训练效率极低 |
思路拆解
为什么解耦学习有效?
1. 分层处理不同层次的问题
- 视觉理解层:学习"做什么"——从人类视频中理解任务语义
- 动作执行层:学习"怎么做"——在机器人本体数据上学习精确控制
2. 数据质量优于数量
Ψ₀ 的成功证明:高质量的"数据配方"远比无脑堆砌互联网噪声视频更重要。
传统方法:海量数据 → 低效学习 → 微小提升
Ψ₀方法:精准配方 → 高效学习 → 显著突破架构设计的深层逻辑
System-2 → System-1 → System-0 的信息流
视觉输入 → Qwen3-VL语义理解 → MM-DiT动作预测 → RL控制器执行
↓ ↓ ↓ ↓
感知 认知 规划 执行这种分层设计使得:
- 高层决策可以充分利用大规模预训练的视觉语言模型
- 底层控制专注于机器人本体的运动学特性
- 各层独立优化,降低整体训练难度
RTC技术的工作原理
python
# 伪代码示意
while task_not_complete:
current_action = action_queue.pop()
execute(current_action)
# 异步预计算下一组动作
if action_queue.empty():
async_compute_next_actions()这种流水线设计确保了:
- 动作执行的连续性
- 计算资源的充分利用
- 实时响应的流畅性
实验结果
任务成功率对比
在 8 项涵盖移动、全身协作及精细操作的长程任务测试中:
| 对比项 | 结果 |
|---|---|
| 对比模型 | ACT、Pi0.5、GR00T 等 |
| 数据使用 | 仅约 30 小时真实机器人数据 |
| 性能提升 | 整体成功率提升约 40% |
消融实验结论
1. 预训练数据的规模效应
当 EgoDex 数据量减少至 10% 时,模型在复杂任务中表现显著下降,证明大规模视觉操作先验是理解物理世界的关键。
2. 后训练的必要性
仅依靠人类视频预训练而不进行机器人本体数据对齐,模型无法完成精细的闭环控制。
3. RTC技术的性能保障
不采用 RTC 技术时,机器人因动作不连贯导致失败率上升。
泛化能力与局限
优势:
- 处理未见过的长程任务时表现出较强适应性
- 通过少量目标任务数据微调可快速掌握新技能
局限:
- 目前单任务微调效果仍优于多任务同时微调
- 多任务训练可能导致学习目标分散,出现欠拟合现象
总结与展望
核心贡献
Ψ₀ 的成功为具身智能领域提供了重要启示:
- 范式转变:从"数据堆砌"转向"精准配方"
- 架构创新:解耦学习有效解决人机本体差异问题
- 效率突破:小数据实现高性能,降低训练成本
未来方向
- 多任务统一:解决当前多任务学习的欠拟合问题
- 更广泛的本体适配:扩展到更多人形机器人平台
- 实时性优化:进一步降低推理延迟
- 数据效率提升:探索更少数据下的学习策略
Ψ₀ 的开源将为社区提供宝贵的研究基础,推动人形机器人从实验室走向实际应用场景。