主题
DreamZero:世界动作模型实现零样本策略泛化
简单总结
NVIDIA 研究团队提出了 DreamZero,这是一个基于世界动作模型(World Action Model, WAM)的机器人学习框架。与传统的视觉-语言-动作(VLA)模型不同,DreamZero 通过联合预测未来世界状态和动作来学习物理动力学,实现了在新任务和新环境中的零样本泛化。
核心突破:
- 在新任务和新环境中的泛化能力比最先进的 VLA 模型提升超过 2 倍
- 仅需 10-20 分钟的视频演示数据,就能实现超过 42% 的跨机器人迁移性能提升
- 仅需 30 分钟的玩耍数据,就能适应全新的机器人本体
- 实现了 7Hz 的实时闭环控制(14B 参数模型)

问题背景
现有 VLA 模型的局限性
当前最先进的 Vision-Language-Action (VLA) 模型在语义泛化方面表现出色,但在以下方面存在严重不足:
- 物理运动泛化困难:难以在新环境中执行未见过的物理动作
- 依赖重复演示:需要大量重复的任务演示数据
- 跨本体迁移成本高:适应新机器人需要数百小时的演示数据
- 过拟合问题:倾向于过拟合训练数据中的主导行为,而非理解任务语义
核心问题
如何让机器人从异构数据中学习多样化技能,并在未见过的任务和环境中实现零样本泛化?
核心方法
1. 世界动作模型(WAM)
DreamZero 的核心创新在于将世界模型与动作模型统一:
传统 VLA 范式:
视觉 + 语言 → 动作WAM 范式:
视觉 + 语言 → 未来世界状态 + 动作关键思想:
- 使用视频作为世界演化的密集表示
- 通过预测未来世界状态来学习物理动力学
- 联合建模视频和动作,而非单独预测动作
2. 基于视频扩散的架构
DreamZero 构建在预训练的视频扩散模型骨干上:
- 14B 参数的自回归视频扩散模型
- 联合预测未来帧和动作序列
- 从异构机器人数据中有效学习多样化技能
3. 实时推理优化
通过模型和系统优化实现实时控制:
| 优化技术 | 效果 |
|---|---|
| 模型优化 | 38× 加速 |
| 扩散步数优化 | 支持 16/4/1 步推理 |
| 异步推理 | 提升响应速度 |
| 动作块平滑 | 提升执行质量 |
最终性能:150ms/动作块 → 7Hz 闭环控制
4. 跨本体迁移
DreamZero 实现了两种形式的跨本体迁移:
- 视频演示迁移:从其他机器人或人类的视频中学习
- 少样本本体适应:仅用 30 分钟数据适应全新机器人
思路拆解
为什么 WAM 比 VLA 更好?
VLA 的本质问题:
- 直接从视觉语言映射到动作
- 缺乏对"动作后果"的理解
- 类似于"盲人摸象",只学表面映射
WAM 的优势:
- 学习"动作如何改变世界"
- 视频预测提供了物理动力学的密集监督信号
- 类似于"理解因果关系"
类比理解
| 范式 | 类比 | 特点 |
|---|---|---|
| VLA | 照着菜谱做菜 | 记住步骤,不理解原理 |
| WAM | 理解烹饪原理 | 知道为什么这样做,能举一反三 |
技术实现细节
训练目标:
python
L = L_video + λ * L_action- L_video:视频预测损失
- L_action:动作预测损失
- 联合优化使模型理解动作与世界状态变化的关系
数据效率:
- 不依赖重复演示
- 可从异构数据中学习
- 视频作为天然的数据增强
实验结果
1. AgiBot 预训练评估
| 模型 | 已见任务 | 未见任务 |
|---|---|---|
| DreamZero | 62.2% | 39.5% |
| 最佳 VLA | 27.4% | ~0% |
| VLA (从头训练) | ~0% | ~0% |
结论:DreamZero 在已见和未见任务上都显著超越 VLA。
2. DROID 数据集评估
在未见动作(动词)任务上:
- DreamZero:49% 任务进度
- 最先进 VLA:25-32%
3. 跨本体迁移
YAM 机器人适应:
- 数据量:30 分钟(55 条轨迹)
- 结果:保持零样本泛化能力
视频演示迁移:
- 数据量:10-20 分钟
- 性能提升:>42%
4. 零样本任务展示
DreamZero 在从未训练过的任务上展现出惊人能力:
- 扇汉堡肉、按电梯按钮
- 敲木琴、摇铃鼓
- 倒水给人、打开笔记本电脑
- 翻煎饼、浇花
- 100+ 零样本任务
总结与展望
核心贡献
- 范式创新:首次提出 World Action Model 概念,颠覆传统 VLA 范式
- 泛化突破:在新任务和新环境中的泛化能力提升 2 倍以上
- 数据效率:跨本体迁移仅需 30 分钟数据
- 实时部署:14B 模型实现 7Hz 实时控制
技术意义
DreamZero 代表了机器人基础模型的新方向:
| 维度 | 传统方法 | DreamZero |
|---|---|---|
| 学习范式 | 模仿学习 | 世界模型学习 |
| 数据需求 | 大量重复演示 | 异构数据即可 |
| 泛化能力 | 有限 | 零样本泛化 |
| 迁移成本 | 数百小时 | 30 分钟 |
未来展望
- 零样本泛化的边界:还能泛化到多复杂的任务?
- 多模态融合:如何更好地整合语言、视觉、动作?
- 大规模部署:如何在实际生产环境中应用?
- 开源生态:期待模型权重和代码开源
启示
"视频是理解物理世界的最佳媒介"
DreamZero 的成功表明,让机器人"看懂"视频、理解动作如何改变世界,比单纯模仿动作序列更能实现真正的智能。这为机器人学习开辟了一条新路径——从"模仿者"进化为"理解者"。