DreamZero：世界动作模型实现零样本策略泛化

简单总结

NVIDIA 研究团队提出了 DreamZero，这是一个基于世界动作模型（World Action Model, WAM）的机器人学习框架。与传统的视觉-语言-动作（VLA）模型不同，DreamZero 通过联合预测未来世界状态和动作来学习物理动力学，实现了在新任务和新环境中的零样本泛化。

核心突破：

在新任务和新环境中的泛化能力比最先进的 VLA 模型提升超过 2 倍
仅需 10-20 分钟的视频演示数据，就能实现超过 42% 的跨机器人迁移性能提升
仅需 30 分钟的玩耍数据，就能适应全新的机器人本体
实现了 7Hz 的实时闭环控制（14B 参数模型）

问题背景

现有 VLA 模型的局限性

当前最先进的 Vision-Language-Action (VLA) 模型在语义泛化方面表现出色，但在以下方面存在严重不足：

物理运动泛化困难：难以在新环境中执行未见过的物理动作
依赖重复演示：需要大量重复的任务演示数据
跨本体迁移成本高：适应新机器人需要数百小时的演示数据
过拟合问题：倾向于过拟合训练数据中的主导行为，而非理解任务语义

核心问题

如何让机器人从异构数据中学习多样化技能，并在未见过的任务和环境中实现零样本泛化？

核心方法

1. 世界动作模型（WAM）

DreamZero 的核心创新在于将世界模型与动作模型统一：

传统 VLA 范式：

视觉 + 语言 → 动作

WAM 范式：

视觉 + 语言 → 未来世界状态 + 动作

关键思想：

使用视频作为世界演化的密集表示
通过预测未来世界状态来学习物理动力学
联合建模视频和动作，而非单独预测动作

2. 基于视频扩散的架构

DreamZero 构建在预训练的视频扩散模型骨干上：

14B 参数的自回归视频扩散模型
联合预测未来帧和动作序列
从异构机器人数据中有效学习多样化技能

3. 实时推理优化

通过模型和系统优化实现实时控制：

优化技术	效果
模型优化	38× 加速
扩散步数优化	支持 16/4/1 步推理
异步推理	提升响应速度
动作块平滑	提升执行质量

最终性能：150ms/动作块 → 7Hz 闭环控制

4. 跨本体迁移

DreamZero 实现了两种形式的跨本体迁移：

视频演示迁移：从其他机器人或人类的视频中学习
少样本本体适应：仅用 30 分钟数据适应全新机器人

思路拆解

为什么 WAM 比 VLA 更好？

VLA 的本质问题：

直接从视觉语言映射到动作
缺乏对"动作后果"的理解
类似于"盲人摸象"，只学表面映射

WAM 的优势：

学习"动作如何改变世界"
视频预测提供了物理动力学的密集监督信号
类似于"理解因果关系"

类比理解

范式	类比	特点
VLA	照着菜谱做菜	记住步骤，不理解原理
WAM	理解烹饪原理	知道为什么这样做，能举一反三

技术实现细节

训练目标：

python

L = L_video + λ * L_action

L_video：视频预测损失
L_action：动作预测损失
联合优化使模型理解动作与世界状态变化的关系

数据效率：

不依赖重复演示
可从异构数据中学习
视频作为天然的数据增强

实验结果

1. AgiBot 预训练评估

模型	已见任务	未见任务
DreamZero	62.2%	39.5%
最佳 VLA	27.4%	~0%
VLA (从头训练)	~0%	~0%

结论：DreamZero 在已见和未见任务上都显著超越 VLA。

2. DROID 数据集评估

在未见动作（动词）任务上：

DreamZero：49% 任务进度
最先进 VLA：25-32%

3. 跨本体迁移

YAM 机器人适应：

数据量：30 分钟（55 条轨迹）
结果：保持零样本泛化能力

视频演示迁移：

数据量：10-20 分钟
性能提升：>42%

4. 零样本任务展示

DreamZero 在从未训练过的任务上展现出惊人能力：

扇汉堡肉、按电梯按钮
敲木琴、摇铃鼓
倒水给人、打开笔记本电脑
翻煎饼、浇花
100+ 零样本任务

总结与展望

核心贡献

范式创新：首次提出 World Action Model 概念，颠覆传统 VLA 范式
泛化突破：在新任务和新环境中的泛化能力提升 2 倍以上
数据效率：跨本体迁移仅需 30 分钟数据
实时部署：14B 模型实现 7Hz 实时控制

技术意义

DreamZero 代表了机器人基础模型的新方向：

维度	传统方法	DreamZero
学习范式	模仿学习	世界模型学习
数据需求	大量重复演示	异构数据即可
泛化能力	有限	零样本泛化
迁移成本	数百小时	30 分钟

未来展望

零样本泛化的边界：还能泛化到多复杂的任务？
多模态融合：如何更好地整合语言、视觉、动作？
大规模部署：如何在实际生产环境中应用？
开源生态：期待模型权重和代码开源

启示

"视频是理解物理世界的最佳媒介"

DreamZero 的成功表明，让机器人"看懂"视频、理解动作如何改变世界，比单纯模仿动作序列更能实现真正的智能。这为机器人学习开辟了一条新路径——从"模仿者"进化为"理解者"。

参考资料

论文地址：https://arxiv.org/abs/2602.15922
项目页面：https://dreamzero0.github.io/
代码开源：https://github.com/dreamzero0/dreamzero

DreamZero：世界动作模型实现零样本策略泛化 ​

简单总结 ​

问题背景 ​

现有 VLA 模型的局限性 ​

核心问题 ​

核心方法 ​

1. 世界动作模型（WAM） ​

2. 基于视频扩散的架构 ​

3. 实时推理优化 ​

4. 跨本体迁移 ​

思路拆解 ​

为什么 WAM 比 VLA 更好？ ​

类比理解 ​

技术实现细节 ​

实验结果 ​

1. AgiBot 预训练评估 ​

2. DROID 数据集评估 ​

3. 跨本体迁移 ​

4. 零样本任务展示 ​

总结与展望 ​

核心贡献 ​

技术意义 ​

未来展望 ​

启示 ​

参考资料 ​