主题
世界模型调研|从视频预测到物理推理 —— 世界模型的技术演进
来源:Mbot具身智能实验室
一、概念定义与形式化框架
1.1 什么是世界模型?
世界模型(World Model)是 AI 系统内部构建的环境动力学模拟器 —— 它学习环境的运作规律(物理法则、因果关系、对象交互),并能在 “想象” 中预测不同动作的后果。
形式化数学定义:
- st+1:预测的下一状态
- rt+1:预测的奖励信号
- Mθ:参数化的世界模型
- 核心:Mθ(st,at)→(st+1,rt+1)
1.2 世界模型的三个核心要素
表格
| 要素 | 定义 | 关键挑战 |
|---|---|---|
| 状态压缩 | 将高维感官输入映射到低维潜在空间 | 信息保留 vs 压缩率的权衡 |
| 动力学建模 | 学习状态转移概率 | 多模态分布建模、长程依赖 |
| 奖励预测 | 内建或学习奖励函数 | 稀疏奖励、延迟信用分配 |
1.3 世界模型 ≠ 视频生成模型
表格
| 维度 | 视频生成器(Video Gen) | 世界模型(World Model) |
|---|---|---|
| 目标 | 逼真渲染、视觉一致性 | 因果理解、可规划性 |
| 输出 | 像素序列 | 潜在表征 + 动力学 |
| 交互性 | 无条件 / 文本条件生成 | 动作条件化预测 |
| 因果性 | 不保证 | 核心要求 |
| 用途 | 内容创作 | 决策制定、规划 |
LeCun 核心观点:视频生成不等于世界理解。真正的世界模型应该学习世界的抽象表征和因果结构,而非像素级重建。
二、发展历程:八年演进全景时间线
2.1 第一阶段:奠基期(2018-2022)
David Ha 和 Jürgen Schmidhuber 在论文《Recurrent World Models Facilitate Policy Evolution》中首次提出"世界模型"概念:
核心架构:VAE(变分自编码器) + MDN-RNN(混合密度循环神经网络) + Controller(控制器)
VAE:将高维图像压缩为低维潜在向量 z
MDN-RNN:学习 P(z_{t+1} | z_t, a_t),预测未来潜在状态的概率分布
Controller:简单的线性模型,在世界模型的想象空间中进行策略搜索
关键突破:
在 CarRacing-v0 环境中仅用随机探索就学会了驾驶
在 VizDoom 中学会了射击敌人
证明了想象式学习(Imagination-based Learning) 的可行性
2020-2021 — Dreamer系列:从游戏到通用控制
| 版本 | 时间 | 核心贡献 |
|---|---|---|
| DreamerV1 | 2020.12 | 引入Critic网络,将世界模型用于Actor-Critic RL |
| DreamerV2 | 2021.01 | 完全抛弃奖励预测,改用价值函数学习 |
| DreamerV3 | 2023.02 | 超参数统一、跨域泛化能力大幅提升 |
DreamerV3的核心创新:
RSSM(Recurrent State Space Model):结合确定性和随机性路径的混合表示
固定超参数:同一组超参数在 Atari、DMControl、BSuite 等 50+ 个环境中均表现优秀
纯潜在空间操作:所有RL过程(策略学习、价值评估、规划)都在潜在空间完成,无需像素重建
2.2 第二阶段:确立期(2023)
世界模型从游戏走向真实世界:
- GAIA-1(Wayve):首个自动驾驶生成式世界模型
- UniSim(NVIDIA):统一仿真框架,支持反事实推理
2.3 第三阶段:爆发期(2024-2025)
2024 — 生成式世界模型元年
OpenAI Sora(2024.02)
首次展示长视频生成的震撼效果
OpenAI 明确将其定位为"世界模拟器"
但缺乏交互性和动作条件化
Genie 2(Google DeepMind,2024.12)
从单张图片生成可交互的 2D 游戏环境
支持键盘/鼠标输入作为动作条件
可用于训练 RL Agent
标志着世界模型从"被动观看"转向"主动交互"
2025 — 三大范式全面开花
月份 发布 代表机构 技术路线 核心突破 1月 Cosmos NVIDIA 扩散 + AR 首个物理AI专用WM平台 6月 V-JEPA 2 Meta JEPA潜在预测 1/50算力追平生成式WM 8月 Genie 3 Google DeepMind AR Transformer 实时交互式3D世界,24fps@720p 9月 Sora 2 OpenAI AR Transformer 60秒2K视频,物理合理性大幅改善 7月 Causal-JEPA Meta 对象级别JEPA 物体级别的因果干预学习
2.4 第四阶段:融合期(2026)
2026年是世界模型与具身智能深度融合的分水岭:
标志性事件:
π0.7(Physical Intelligence,2026.04):首次在机器人领域实现组合泛化(Compositional Generalization),世界模型作为 Subgoal Image Provider 深度集成
WM × VLA 论文井喷:3个月内发表 21篇 WM-VLA 融合论文(WoVR、VLAW、Chain of World、LaST-VLA...)
DeepMind Gemini Robotics ER 1.6:推理优先的世界模型增强机器人空间理解
Sony AI Ace 登 Nature 封面:无模型强化学习 + 世界模型击败人类精英乒乓球选手
三、技术路线:三大范式的深层对决
3.1 范式总览
| 范式A:自回归Transformer | 范式B:潜在空间预测 | 范式C:扩散+AR混合 | |
|---|---|---|---|
| 代表 | Genie 3 / Sora 2 | V-JEPA 2 / DreamerV3 | Cosmos 2 / Epona |
| 核心理念 | 逐token预测未来帧 | 在潜在空间做特征预测 | 扩散模型保证质量,AR保证效率 |
| 输出形式 | 像素级视频 | 潜在表征(无需重建像素) | 像素级视频 |
| 算力成本 | ★★★★★ 高 | ★★☆☆☆ 低 | ★★★☆☆ 中等 |
| 物理真实性 | ★★★★☆ | ★★★★★(隐含物理约束) | ★★★★★ |
| 可解释性 | ★★☆☆☆ | ★★★★☆ | ★★★☆☆ |
| 交互性 | 支持但延迟高 | 天然支持 | 支持且高效 |
| 适用场景 | 内容创作、虚拟环境 | RL训练、决策制定 | 机器人仿真、自动驾驶 |
3.2 深入解析:范式A — 自回归Transformer
代表模型:Genie 3(Google DeepMind, 2025.08)
Genie3的关键特性:
| 特性 | 参数/描述 |
|---|---|
| 分辨率 | 720p @ 24 fps |
| 一致性时长 | 数分钟(业界最长) |
| 交互方式 | 键盘/鼠标输入 + 文本指令修改 |
| 训练数据 | 无标注互联网视频(完全自监督) |
| "可提示世界事件" | 用户可通过文本实时修改世界 |
优势:
✅ 生成质量极高,视觉逼真
✅ 天然支持交互式生成
✅ 无需标注数据即可训练
✅ 可直接用作 RL 环境
劣势:
❌ 逐token自回归导致高延迟
❌ 缺乏显式的物理/因果建模(只是"看起来对")
❌ 推理成本随视频长度线性增长
❌ 无法进行高效的长期规划
3.3 深入解析:范式B — 潜在空间预测(JEPA路线)
代表模型:V-JEPA 2(Meta, 2025.06)
这是 Yann LeCun 力推的技术路线,代表了与"生成一切"截然不同的哲学。
JEPA(Joint Embedding Predictive Architecture)核心理念:
*不要重建像素!预测抽象表征!*
传统生成式方法的目标是重建输入(如像素),而 JEPA 的目标是预测潜在空间中的未来表征:
V-JEPA 2 的具体架构:
| 模块 | 功能 | 训练方式 |
|---|---|---|
| Vision Encoder | 将视频帧编码为潜在表征 | 自监督预训练(互联网视频) |
| Context Encoder | 编码上下文窗口 | 自监督 |
| JEPA Predictor | 在潜在空间预测被mask的未来块 | 自监督(联合嵌入预测损失) |
| V-JEPA 2-AC(后训练) | 动作条件的世界模型 | <62小时机器人轨迹数据 |
V-JEPA 2 的惊人效率:
在动作识别、因果推理、长时规划任务上,以 1/50 的算力追平了视频生成范式(如 Sora 类方法)
后训练仅需 <62小时 的机器人交互数据
完全开源:代码 + 模型权重
为什么 JEPA 如此高效?
| 传统生成式 | JEPA |
|---|---|
| 目标空间:像素空间(百万维) | 目标空间:潜在空间(数百维) |
| 需要精确建模每个细节 | 只需捕获高层语义和动力学 |
| 大量计算浪费在纹理/光照等无关信息上 | 计算集中在因果相关的特征上 |
3.4 深入解析:范式C — 扩散 + AR 混合
代表模型:Cosmos 2(NVIDIA, 2025-2026)
NVIDIA 将世界模型定位为Physical AI 的基础设施,其核心洞察是:单一架构无法同时满足质量和效率需求。
Cosmos 平台的完整组件:
| 组件 | 说明 |
|---|---|
| Cosmos-Predict | 视频预测模型(支持多种分辨率/时序长度) |
| Cosmos-Generate | 视频生成模型(无条件/条件生成) |
| NIM(NVIDIA Inference Microservices) | 微服务化部署接口 |
| Cosmos Cookbook | 快速定制脚本库 |
| Omniverse集成 | 与数字孪生平台无缝对接 |
合作伙伴生态(2026年1月发布):
波士顿动力、Caterpillar、Franka Robots、LG Electronics、NEURA Robotics
**3.5 三大范式的适用场景选择指南 **
四、核心理论争议:生成式 vs 预测式
这是当前世界模型领域最深刻的学术辩论。
4.1 两派观点
| 维度 | 生成派(Hinton/OpenAI方向) | 预测派(LeCun/Meta方向) |
|---|---|---|
| 核心主张 | 只要生成足够好,理解会自然涌现 | 理解需要显式建模因果结构 |
| 方法论 | 生成像素/Token,最大化似然 | 预测潜在表征,最小化嵌入距离 |
| 类比 | 学画画的人自然理解光影 | 学物理的人理解物体运动规律 |
| 代表人物 | Geoffrey Hinton | Yann LeCun |
| 风险 | 可能只是记住统计模式 | 表征可能不够丰富 |
4.2 LeCun 的完整论点
Yann LeCun 在多篇论文和演讲中系统阐述了反对纯生成路线的理由:
1. 像素级重建是浪费的
"重建一张1024×1024图像的每个像素,其中99%的信息对决策毫无意义。"
2. 生成式方法无法处理不确定性
"世界不是确定的。同一个原因可以产生多种合理的结果(多模态分布)。自回归方法通过顺序采样隐式处理这一点,但这非常低效。"
3. 缺乏因果理解
"学会生成'玻璃杯掉落会破碎'的画面,不代表理解了重力、脆性和碰撞的因果关系。"
4.3 Hinton/生成派的反驳
1. 表征学习的意外成功
GPT系列证明:足够大的语言模型在优化下一个词预测的过程中涌现出了理解和推理能力。同理,足够好的视频生成可能也会涌现出世界理解。
2. 评估困难
如何衡量一个潜在表征"是否包含足够的物理理解"?而生成质量可以直接用肉眼判断。
3. 工程可行性
JEPA类方法的表征设计高度依赖人工先验,难以规模化。而自回归方法是端到端的。
4.4 第三条路?— Causal-JEPA(2026.02)
Meta 在 2026 年初发布的 Causal-JEPA 尝试弥合这一分歧:
对象中心(Object-centric):世界模型在对象级别而非像素级别操作
潜在干预(Latent Intervention):可以回答反事实问题("如果我不推这个杯子会怎样?")
因果图学习:自动学习对象间的因果关系
这可能是目前最接近 LeCun "真正世界模型" 设想的方案。
五、里程碑模型深度解析
5.1 Genie 3:可交互3D世界的
发布机构:Google DeepMind 发布时间:2025年8月5日 论文:https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/
技术规格表:
| 参数 | 规格 |
|---|---|
| 分辨率 | 720p @ 24 fps |
| 最大一致性时长 | 数分钟 |
| 交互方式 | 键盘/鼠标 + 文本指令 |
| 训练数据 | 互联网无标注视频 |
| 输出格式 | 实时可交互3D环境 |
| 核心创新 | "可提示世界事件"(Promptable World Events) |
为什么 Genie 3 重要?
从被动到主动:Genie 1/2 是"看世界",Genie 3 是"进入并改变世界"
实时交互:24fps意味着可以作为实时仿真引擎
零样本环境生成:一句话创建一个完整的可交互环境
对 RL 的影响:可以直接作为强化学习环境,替代手工设计的模拟器
局限性:
仍基于2D投影(非真正的3D几何理解)
物理规律是学到的统计模式,非显式建模
复杂交互中的因果一致性仍有待验证
5.2 V-JEPA 2:效率革命
发布机构:Meta FAIR 发布时间:2025年6月12日 论文:https://arxiv.org/abs/2506.09985代码:github.com/facebookresearch/vjepa2
关键技术指标:
| 指标 | 数值 |
|---|---|
| 相对算力消耗 | 1/50(对比生成式方法) |
| 后训练所需数据 | <62小时机器人轨迹 |
| 开源程度 | 完全开源(代码+权重) |
| 预训练数据 | 互联网规模视频 |
| 支持任务 | 动作识别、因果推理、长时规划 |
V-JEPA 2-AC:动作条件化变体
Meta 特别推出了针对机器人的 V-JEPA 2-AC(Action Conditioned):
训练流程:
1. 用互联网视频预训练 V-JEPA 2(自监督)
2. 收集 <62 小时的机器人交互轨迹
3. 后训练加入动作条件 → 得到 V-JEPA 2-AC
4. V-JEPA 2-AC 可以:
- 预测给定动作后的未来视觉结果
- 用于模型预测控制(MPC)
- 作为 RL 的环境模型5.3 Cosmos 2:物理AI基础设施
发布机构:NVIDIA 发布时间:2025年1月(初始)/ 2026年持续迭代 论文:https://arxiv.org/abs/2501.03575代码:https://github.com/nvidia-cosmos
定位转变:
Cosmos 不是单个模型,而是整个平台生态系统:
| 层次 | 组件 | 说明 |
|---|---|---|
| 基础层 | Cosmos-Predict / Generate | 视频预测和生成的基础模型 |
| 适配层 | NIM微服务 | 针对不同领域的适配接口 |
| 应用层 | Omniverse集成 | 数字孪生、机器人仿真、自动驾驶测试 |
| 生态层 | 合作伙伴SDK | 波士顿动力、Caterpillar等企业接入 |
Cosmos 2 的关键升级:Physics-Aligned Token (PAT)
PAT 是 NVIDIA 针对 Sim-to-Real Gap 的核心解决方案:
问题*_:仿真中训练的策略在真实世界中失效 *解决*:PAT 让世界模型生成的动作天然遵循物理定律 _效果*:显著减少仿真到现实的迁移难度
5.4 DreamerV3:通用RL算法
作者:Danijar Hafner 发布时间:2023年2月 发表期刊:Nature(https://www.nature.com/articles/s41586-025-08744-2)
DreamerV3 为什么重要?
DreamerV3 是第一个被 Nature 接收的基于世界模型的通用RL算法,证明了:
超参数统一:同一组超参数在 50+ 个不同环境中均达到最优或接近最优性能
跨越领域:Atari游戏、连续控制(DMControl)、智能体导航(BSuite)、网页浏览...
样本效率:比传统RL(PPO/SAC)高出 100-1000倍
纯潜在空间:所有操作都在低维潜在空间完成
DreamerV3 的"世界模型-评论者-行动者"三模块架构:
┌─────────────────────────────────────────────────────┐
│ DreamerV3 架构 │
├─────────────────────────────────────────────────────┤
│ │
│ ┌──────────┐ │
│ │ 世界模型 │ ← 学习 P(s_{t+1}, r_{t+1} | s_t, a_t) │
│ │ (RSSM) │ 在想象空间中rollout未来 │
│ └────┬─────┘ │
│ │ │
│ ▼ 想象轨迹 │
│ ┌──────────┐ │
│ │ 评论者 │ ← 评估想象轨迹的价值 V(s) │
│ │ (Critic) │ 无需真实交互! │
│ └────┬─────┘ │
│ │ │
│ ▼ │
│ ┌──────────┐ │
│ │ 行动者 │ ← 根据批评者的反馈改进策略 π(a|s) │
│ │ (Actor) │ │
│ └──────────┘ │
│ │
│ 核心循环: 世界模型想象 → 评论者评估 → 行动者改进 │
│ 全程在"脑海中进行"! │
└─────────────────────────────────────────────────────┘5.5 Sora 2:世界模拟器的进化
发布机构:OpenAI 发布时间:2025年9月30日 定位:次世代视频生成 / "通用世界模拟器"
相比Sora 1代的升级:
| 维度 | Sora 1 (2024.02) | Sora 2 (2025.09) |
|---|---|---|
| 时长 | ~60秒 | 60秒+ |
| 分辨率 | 1080p | 2K |
| 物理合理性 | 有明显瑕疵 | 显著改善 |
| 一致性 | 中等 | 长视频一致性提升 |
| 音频 | 无 | 同步音效生成 |
| 定位 | 视频生成器 | 世界模拟器基础模型 |
六、π0.7 与世界模型:VLA的范式转变 ⭐
6.1 背景:为什么π0.7如此重要?
2026年4月16日,Physical Intelligence 发布了 π0.7——这被认为是机器人领域的"GPT-3时刻"。
为什么?因为 π0.7 第一次在机器人领域实证了「组合泛化」(Compositional Generalization)——即机器人能够将已学的原子技能自主组合,去完成从未见过的新任务。
而实现这一切的关键,正是世界模型的引入。
6.2 π0.7 的完整系统架构
6.3 世界模型在π0.7中的三种角色
角色1:Subgoal Image Provider(子目标图像提供者)⭐ 最核心
这是 π0.7 最具创新性的设计。
传统 VLA 的输入只有:
当前观测图像(摄像头画面)
自然语言指令
π0.7 通过世界模型新增了第三种输入:
Subgoal Image(子目标图像)——告诉机器人"这一步做完之后,你看到的世界应该是什么样子"
为什么这很重要?
问题场景: "把红薯放进空气炸锅"
传统VLA的理解:
"把红薯放进空气炸锅"
→ 太模糊!怎么拿?放哪里?什么姿势?
→ 不同人的演示差异很大
→ 泛化困难
π0.7 + 世界模型的理解:
子任务1: "走向空气炸锅" → WM给出子目标图: [空气炸锅正面视图]
子任务2: "打开炸锅门" → WM给出子目标图: [炸锅门打开的视图]
子任务3: "拿起红薯" → WM给出子目标图: [手握红薯的特写]
子任务4: "放入炸锅" → WM给出子目标图: [红薯在炸篮内的视图]
子任务5: "关闭炸锅门" → WM给出子目标图: [炸锅关闭的视图]
每一步都有明确的视觉目标指引!角色2:Visual Generalizer(视觉泛化器)
当机器人面对从未见过的环境时(比如新厨房布局):
语言指令仍然有效("打开烤箱")
但视觉外观完全不同(新烤箱颜色、位置不同)
世界模型根据语言描述生成该环境下的子目标图像
VLA 参考这些生成的子目标图像执行动作
结果:零样本视觉泛化
角色3:Compositional Enabler(组合泛化使能器)
组合泛化 = 将已学原子技能自由组合以应对新任务
示例:
已学原子技能:
✅ 打开抽屉
✅ 拿起铲子
✅ 戴上手套
✅ 关闭抽屉
新任务: "戴上手套,拿起铲子,放进抽屉,关上"
传统VLA: ❌ 需要重新收集这个特定任务的训练数据
π0.7 + WM: ✅ 高层策略分解 → WM生成每步子目标 → VLA逐步执行6.4 训练数据的多源整合
π0.7 的另一个突破是如何整合异构数据源:
| 数据源 | 类型 | 整合方式 |
|---|---|---|
| 不同机器人的演示数据 | 高质量专家示范 | 直接使用 |
| 人类操作视频 | 非机器人视角 | 通过标注元数据整合 |
| 自主收集的episode(含失败) | 次优/失败案例 | 标注质量/速度元数据纳入训练 |
| 其他来源数据 | 异构格式 | 多样化上下文提示 |
关键发现(来自官方博客):
"Naively merging all these data sources does NOT lead to good results. The key is toadd diverse context to the prompt*."*
具体来说:
次优数据通过标注 Quality=low 或 Speed=slow 来消除行为歧义
这些元数据帮助模型理解同一种行为在不同熟练度下的变化
最终使得组合泛化成为可能
6.5 π0.7 的实验验证
空气炸锅实验(来自官方博客):
任务: "load a sweet potato into the air fryer"
尝试1 (零样本):
指令: "load a sweet potato into the air fryer"
结果: ⚠️ 只能部分完成任务(放进去但没关好)
尝试2 (语言教练模式):
提供逐步命令:
1. "go to the air fryer"
2. "open the air fryer door"
3. "pick up the sweet potato"
4. "place it inside"
5. "close the door"
结果: ✅ 完美完成!
尝试3 (自动化 - WM介入):
高层策略自动分解任务
→ 世界模型为每步生成子目标图像
→ π0.7 自主执行
结果: ✅ 全自主完成!无需人工干预!6.6 π0.7 的行业影响
| 方面 | 影响 |
|---|---|
| 理论意义 | 首次实证组合泛化在机器人领域可行 |
| 工程意义 | 世界模型从"研究玩具"变成"实用组件" |
| 产业意义 | Physical Intelligence估值大幅提升 |
| 竞争意义 | Google(RT-2/Gemini Robotics)、特斯拉(Optimus)面临压力 |
| 开源影响 | 论文已公开,社区开始复现 |
七、世界模型×具身智能:六大融合方向
基于 2026年3月更新的World Model & VLA 论文综述,收录 87+篇论文
7.1 方向一:世界模型作为VLA的后训练环境(最活跃方向)⭐⭐⭐
核心思想:用少量真实数据训练世界模型 → 在世界模型的"想象空间"中进行RL训练 → 大幅降低对真实机器人交互的需求
代表性论文(按时间排序):
| 论文 | 日期 | 核心贡献 |
|---|---|---|
| WoVR | 2026.02.15 | 世界模型替代真实环境,为VLA提供RL训练沙箱 |
| VLAW | 2026.02.12 | VLA策略与世界模型双向迭代协同改进 |
| GigaBrain-0.5M | 2026.02.12 | 基于WM RL训练VLA,0.5M步超越基线 |
| RISE | 2026.02.11 | 组合式WM驱动VLA自我改进 |
| AtomVLA | 2026.03.09 | 预测性潜在WM可扩展提升VLA鲁棒性 |
| World2Act | 2026.03.11 | 技能组合WM用于VLA后训练,自适应OOD变化 |
| Towards Practical WM-Based RL for VLA | 2026.03.22 | 面向实用化的样本效率和稳定性改进 |
| Persistent Robot World Models | 2026.03.26 | 解决动作条件化WM多步rollout累积误差 |
标准流程:
Phase 1: 世界模型预训练
大量离线数据(演示 + 自主采集)
↓
训练出 M_θ: (s_t, a_t) → ŝ_{t+1}
↓
Phase 2: 在世界模型中RL训练VLA
VLA策略 π_φ 在 M_θ 中与环境交互
↓
收集想象轨迹 → 训练Critic → 更新Actor
↓
无需真实机器人!样本效率提升 100-1000x!
↓
Phase 3: (可选) 真实世界微调
少量真实交互数据微调 → 部署7.2 方向二:潜在空间思维链(CoT in Latent Space)⭐⭐
核心思想:将传统的文本CoT(Chain-of-Thought)替换为潜在运动空间的CoT——让模型在执行动作前,先"想象"一系列中间状态的转换
代表性论文:
| 论文 | 日期 | 核心思想 |
|---|---|---|
| Chain of World | 2026.03.03 | CoT从语言token迁移到潜在运动空间,引入时序因果结构 |
| LaST-VLA | 2026.03.02 | 用潜在时空表征替代文本CoT,消除语义-感知鸿沟 |
| DYNVLA | 2026.03.11 | Dynamics CoT:先预测紧凑世界动态token,再生成驾驶动作 |
| DualCoT-VLA | 2026.03 | 视觉-语言双路并行CoT |
| FutureVLA | 2026.03 | 联合视动预测 |
Chain of World 的核心洞见:
传统文本CoT:
Q: "如何倒水进杯子?"
A: "首先拿起水壶 → 然后倾斜壶嘴 → 最后倒入杯子"
问题: 文字描述无法捕捉精确的空间关系和物理约束!
潜在空间CoT (Chain of World):
Step 1: [潜在状态: 手接近水壶]
Step 2: [潜在状态: 手握住壶柄]
Step 3: [潜在状态: 壶倾斜,水流出现]
Step 4: [潜在状态: 水流入杯中]
优势:
✓ 每个步骤都是可执行的物理状态
✓ 包含精确的空间/姿态信息
✓ 可直接转换为动作指令
✓ 减少高层语义到底层感知的鸿沟7.3 方向三:3D/空间感知注入 ⭐⭐
核心问题:传统VLA基于2D image patch tokenization,丢失了几何结构信息。对于需要精细3D操作的机器人任务(如插孔、堆叠),这成为瓶颈。
解决方案:将3D场景流、点云、深度信息注入VLA的token表示
代表性论文:
| 论文 | 日期 | 核心贡献 |
|---|---|---|
| LAMP | 2026.03.24 | 双专家VLA框架,稠密3D场景流嵌入为潜在运动先验 |
| GST-VLA | 2026.03 | 几何结构token注入 |
| Structured 4D Latent WM (ICML 2026) | 2026.01 | 4D潜在WM作为规划器,生成未来场景转译为可执行动作 |
| Fac-TDMPC | 2025.10 | 分解式潜在空间WM,因子化转移/奖励/价值函数 |
7.4 方向四:物理对齐与先验融合 ⭐⭐
核心思想:纯数据驱动的世界模型可能学到"看起来对但物理错误"的假象。解决方案是在生成过程中融入显式物理先验。
代表性工作:
| 论文 | 日期 | 核心贡献 |
|---|---|---|
| ABOT-PHYSWORLD | 2026.03.24 | 视频WM融合物理先验,生成物理一致的未来帧 |
| LaDi-WM (CoRL 2025) | 2025.08 | 潜在扩散WM,同时捕获几何和语义信息 |
| Neural Motion Simulator (CVPR 2025) | 2025.06 | 专注于运动动力学的WM,推动WM在物理精度上的极限 |
| Cosmos 2 PAT | 2025-2026 | Physics-Aligned Token,使动作与真实力学一致 |
7.5 方向五:WAM(World Action Model)— 新范式?⭐
WAM = World Action Model,一种新的模型类别
与传统 VLA 不同,WAM 在测试时进行前向预测来辅助动作生成:
| 维度 | VLA | WAM |
|---|---|---|
| 训练方式 | 行为克隆/RL | 世界模型 + 策略学习 |
| 推理时 | 单步前向传播 | 多步前向想象 + 选择最优动作 |
| 计算成本 | 低 | 较高(需多次rollout) |
| 优势 | 快速 | 更强的规划和泛化能力 |
关键质疑:
FAST-WAM (2026.03.23) 提出:WAM测试时的未来想象推理真的必要吗? 作者验证了 WM 前向预测的实际贡献度
Do WAMs Generalize Better Than VLAs? (2026.03.23):首个 WAM vs. VLA 的大规模泛化与鲁棒性对比研究
7.6 方向六:层级化世界模型
对于复杂的长程任务(如"做饭"涉及数十个子步骤),单一世界模型难以覆盖全部时空尺度。层级化方案应运而生:
| 层级 | 时间跨度 | 空间粒度 | 功能 |
|---|---|---|---|
| 高层WM | 分钟级 | 场景级 | 任务规划、子目标分解 |
| 中层WM | 秒级 | 对象级 | 对象间交互预测 |
| 底层WM | 毫秒级 | 关节级 | 即时动力学预测(接触力等) |
代表性论文:
Scaling WM for Hierarchical Manipulation (2026.02):层级WM扩展解决OOD场景下VLA脆弱性
MetaWorld-X:层级化世界模型用于长程操控
八、世界模型在自动驾驶中的应用
自动驾驶是世界模型最早商业化落地的场景之一。
8.1 自动驾驶世界模型发展脉络
8.2 LINGO-2:可对话的自动驾驶世界模型
LINGO-2(Wayve, 2025年底) 是一个值得特别关注的模型:
独特之处:
端到端世界模型:将语言、感知、预测合并为一个统一模型
可对话:可以用自然语言问车"为什么要这样开?",车辆会用世界模型解释
与 DeepSeek R1 思想同构:在回答之前先进行"思考"(世界模型的前向预测)
示例交互:
乘客: "为什么刚才突然减速了?"
LINGO-2: "我检测到前方30米处有行人正在横穿马路。
根据我的世界模型预测,如果保持当前速度,
将在2.3秒后到达行人位置,碰撞概率87%。
因此决定减速以确保安全。"8.3 自动驾驶 vs 机器人的世界模型需求差异
| 维度 | 自动驾驶 | 机器人操作 |
|---|---|---|
| 时间范围 | 秒~十秒级 | 毫秒~分钟级 |
| 空间范围 | 远场(100米+) | 近场(手臂操作范围) |
| 精度要求 | 轨迹级(粗略) | 亚毫米级(精细) |
| 交互类型 | 主要避障 | 接触丰富操作 |
| 主要挑战 | 多agent博弈 | 接触动力学、变形 |
| 成熟度 | 较高(已有路测) | 较低(实验室为主) |
九、开源生态与工具链
9.1 核心开源项目
| 项目 | 机构 | Stars | 技术路线 | 链接 |
|---|---|---|---|---|
| V-JEPA 2 | Meta | 3k+ | JEPA潜在预测 | github.com/facebookresearch/vjepa2 |
| DreamerV3 | Danijar Hafner | 4k+ | RSSM潜在空间 | github.com/danijar/dreamerv3 |
| Cosmos Platform | NVIDIA | 8k+ | 扩散+AR混合 | github.com/nvidia-cosmos |
| **Genie (非官方复现) | 社区 | 1k+ | AR Transformer | github.com/open-spaces/genie |
| Awesome World Models | 社区 | 500+ | 论文整理 | github.com/leofan90/Awesome-World-Models |
| Awesome World Models (具身) | Li-Zn-H | 800+ | 具身WM综述配套 | github.com/Li-Zn-H/AwesomeWorldModels |
| DIAMOND | Alexandru | 600+ | 扩散式WM用于RL | github.com/alexandru-diamond/diamond |
| EnerVerse | 腾讯 | 300+ | 能量基础模型 | github.com/tencent-enerverse |
9.2 数据集与基准
| 数据集/基准 | 规模 | 用途 | 来源 |
|---|---|---|---|
| DROID | ~80K机器人轨迹 | 通用机器人学习 | Stanford |
| ODL (Open X-Embodiment) | ~1M轨迹(多机器人) | 跨实体泛化 | RT-X Consortium |
| ManiSkill2 | 1万+任务 | 灵巧操作 benchmark | PKU |
| RoboSet | 100+真实物体 | 泛化能力评估 | CMU |
| Calvin | 多任务连续控制 | 长程任务 | ETH Zürich |
| MBench | 20+世界模型评测维度 | WM综合评估 | 社区 |
9.3 工具链
| 工具 | 功能 | 适用范式 |
|---|---|---|
| JAX/DiffEK | 可微分物理仿真 | 物理对齐WM |
| Brax/MuJoCo/Jax | 快速物理仿真器 | RL环境 |
| Isaac Lab (NVIDIA) | GPU加速机器人仿真 | WM训练/验证 |
| Gymnasium | 标准RL环境接口 | 通用 |
| Hugging Face Transformers | 预训练模型加载 | VLM/VLA backbone |
十、产业动态与全球格局
10.1 全球竞争格局
┌────────────────────────────────────────────────────────────────┐
│ 2026年世界模型全球格局 │
├──────────────┬──────────────┬──────────────┬───────────────────┤
│ 🇺🇸 美国 │ 🇨🇳 中国 │ 🇪🇺 欧洲 │ 其他 │
├──────────────┼──────────────┼──────────────┼───────────────────┤
│ • Google │ • 快手Kling │ • Meta │ • Wayve (UK) │
│ Genie 3 │ 2.0 │ V-JEPA 2 │ LINGO-2 │
│ • OpenAI │ • 智谱 │ │ │
│ Sora 2 │ CogVideo-X2│ │ │
│ • NVIDIA │ • 上海AI Lab │ │ │
│ Cosmos 2 │ InternVideo│ │ │
│ • Physical │ • 华为盘古 │ │ │
│ Intel π0.7 │ 具身2.0 │ │ │
│ • Microsoft │ • 昆仑万维 │ │ │
│ │ Matrix-GM │ │ │
└──────────────┴──────────────┴──────────────┴───────────────────┘10.2 中国团队进展详解
| 团队 | 产品/模型 | 技术特点 | 开源情况 |
|---|---|---|---|
| 快手 | Kling 2.0 | 国产视频生成SOTA;支持keyframes+prompt定向生成 | API可用 |
| 智谱AI | CogVideo-X2 | 开源可用;长一致性和中文语义绑定优秀 | 开源 |
| 上海AI Lab | InternVideo 3 | 视频理解与生成统一基础模型 | 开源 |
| 华为 | 盘古具身 2.0 | 面向机器人的世界模型;强调真实场景数据闭环 | 未开源 |
| 昆仑万维 | Matrix-Game 2.0 | 游戏世界模型 | 部分开源 |
| 腾讯 | HY-Embodied / EnerVerse | MoT架构;能量基础模型 | 部分开源 |
10.3 四大落地场景
场景1:自动驾驶(最成熟)
玩家:Wayve (LINGO-2)、Tesla (FSD)、NVIDIA (Drive PX/Cosmos)、小鹏/华为
进展:Wayve已在伦敦公开道路测试LINGO-2
预计商业化:2026-2027
场景2:人形机器人(最热)
玩家:Figure AI、Tesla Optimus、宇树科技、智元、傅利叶
WM作用:运动规划、操作规划、Sim-to-Real桥接
进展:π0.7已验证组合泛化;多家公司WM原型开发中
预计商业化:2027-2029
场景3:工业制造
玩家:NVIDIA (Omniverse+Cosmos)、西门子、ABB
WM作用:数字孪生、工艺优化、质量预测
进展:NVIDIA已宣布与Caterpillar合作
预计商业化:2025-2026(部分已商用)
场景4:游戏/内容创作
玩家:Google (Genie 3)、Unity、腾讯
WM作用:NPC行为生成、关卡自动生成、开放世界模拟
进展:Genie 3已可用于生成可玩游戏原型
预计商业化:2025-2026
10.4 融资与政策
融资事件(2025-2026):
| 公司 | 金额 | 时间 | 方向 |
|---|---|---|---|
| Physical Intelligence | $4亿+ | 2026.04 (π0.7发布前后) | 通用机器人基础模型 |
| Figure AI | $7.5亿累计 | 2025-2026 | 人形机器人 |
| Wayve | $1.5亿+ | 2025 | 自动驾驶世界模型 |
| 字节跳动豆包 | 大规模投入 | 2024-2026 | 世界模型研发 |
政策动向:
中国《十五五规划》明确将具身智能列为战略方向
美国 CHIPS Act 包含 AI 基础设施投资
欧盟 AI Act 对世界模型的安全合规要求
十一、挑战与开放问题
11.1 技术挑战
🔴 挑战1:Sim-to-Real Gap(仿真到现实鸿沟)
问题描述:在世界模型中训练的策略在真实世界中性能大幅下降
根本原因:仿真器的物理近似、渲染差距、传感器噪声缺失
当前最佳实践:
Domain Randomization(域随机化)
System Identification(系统辨识)
Reality Check Networks(现实检验网络)
Cosmos 2 的 PAT 方案(物理对齐token)
未解决问题:接触丰富的操作(如柔性物体处理)gap仍然很大
🔴 挑战2:长时一致性(Long-horizon Consistency)
问题描述:世界模型在长时间rollout中误差累积,导致预测发散
严重程度:超过几秒钟后预测往往变得不可靠
研究方向:
Persistent Robot World Models (2026.03.26):用RL稳定长程预测
层级化WM(不同时间尺度分离建模)
不确定性感知预测(知道何时"不知道")
🔴 挑战3:计算效率
问题描述:高质量世界模型(特别是生成式)的计算成本极高
数据对比:
| 方法 | 单次前向推理 | 100步rollout |
|---|---|---|
| V-JEPA 2 | ~10ms | ~1s |
| Genie 3 | ~500ms/frame | ~50s |
| Sora 2 | ~2s/frame | ~200s |
| Cosmos 2 (快速模式) | ~100ms | ~10s |
🟡 挑战4:多模态融合
问题描述:如何统一视觉、触觉、本体感觉、力觉等多种感官模态
现状:绝大多数WM只处理视觉;触觉WM刚刚起步
预测:2026年下半年可能出现首批支持触觉token的WM
11.2 理论挑战
🟠 挑战5:符号接地问题(Symbol Grounding Problem)
核心问题:世界模型的潜在表征是否真的对应真实的物理实体?
LeCun的担忧:如果表征只是统计共现模式的编码,那么它不具备真正的因果理解
Causal-JEPA的方向:通过对象级别的干预学习来建立符号-实体的对应
🟠 挑战6:世界模型的评估难题
问题:如何衡量一个世界模型"好不好"?
现有评估维度(但不完整):
视频生成质量(FID、FVD)→ 只衡量表面
下游任务性能 → 间接衡量
物理合理性 → 需要人工设计测试
因果正确性 → 尚无标准化评估
急需:类似 ImageNet for Vision Models 的世界模型标准benchmark
11.3 安全与伦理挑战
| 挑战 | 描述 | 当前应对 |
|---|---|---|
| 安全边界 | WM生成的极端/危险场景可能导致策略学到不安全行为 | Safety Classifier过滤 |
| 偏见放大 | WM从有偏数据学习,放大社会偏见 | 数据审计 |
| 可解释性 | WM内部决策过程难以解释 | 可解释WM研究初期 |
| 滥用风险 | 高保真场景生成可能被用于欺骗 | 水印/检测技术 |
十二、参考文献
核心论文(必读)
| # | 论文 | 机构 | 时间 | 链接 |
|---|---|---|---|---|
| 1 | Recurrent World Models Facilitate Policy Evolution | Ha & Schmidhuber | 2018 | arxiv.org/abs/1803.10122 |
| 2 | Mastering Diverse Domains through World Models (DreamerV3) | Danijar Hafner et al. | 2023 | Nature |
| 3 | Genie 3: A New Frontier for World Models | Google DeepMind | 2025 | deepmind.google |
| 4 | V-JEPA 2: Self-Supervised Video Models | Meta FAIR | 2025 | arxiv.org/abs/2506.09985 |
| 5 | Cosmos: World Foundation Model Platform for Physical AI | NVIDIA | 2025 | arxiv.org/abs/2501.03575 |
| 6 | π₀.₇: Steerable Generalist Robotic Foundation Model | Physical Intelligence | 2026 | arxiv.org/abs/2604.15483 ⭐ |
| 7 | Causal-JEPA: Learning World Models through Object-Level Interventions | Meta | 2026 | arxiv.org/abs/2602.11389 |
| 8 | GAIA-1: Generative World Model for Autonomous Driving | Wayve | 2023 | arxiv.org/abs/2309.17080 |
| 9 | Sora 2 Technical Report | OpenAI | 2025 | openai.com |
| 10 | Planning with Latent Dynamics Model (ICML Best Paper) | Meta | 2025 | ICML Workshop |
WM × VLA 融合论文精选
| # | 论文 | 日期 | 核心贡献 |
|---|---|---|---|
| 11 | WoVR: World Models as Reliable Simulators for Post-Training VLA with RL | 2026.02 | WM替代真实环境进行RL |
| 12 | VLAW: Iterative Co-improvement of VLA Policy and World Model | 2026.02 | 双向迭代协同改进 |
| 13 | Chain of World: Moving CoT to Latent Motion Space | 2026.03 | 潜在空间思维链 |
| 14 | LaST-VLA: Thinking in Latent Spatio-Temporal Space | 2026.03 | 时空潜在线索推理 |
| 15 | AtomVLA: Predictive Latent World Models for Scalable VLA Post-training | 2026.03 | 预测性潜在WM |
| 16 | World2Act: Skill-compositional World Models for VLA Post-training | 2026.03 | 技能组合WM |
| 17 | RISE: Self-improving Robot Policy with Compositional World Model | 2026.02 | 组合式WM驱动自我改进 |
| 18 | LAMP: 3D Scene Flow as Latent Motion Prior | 2026.03 | 3D场景流注入 |
| 19 | ABOT-PHYSWORLD: Physics-aligned Interactive World Foundation Model | 2026.03 | 物理对齐交互WM |
| 20 | DYNVLA: Dynamics Chain-of-Thought for Driving | 2026.03 | 动力学CoT |
综述与白皮书
| # | 名称 | 来源 | 链接 |
|---|---|---|---|
| 21 | A Comprehensive Survey on World Models for Embodied AI | 南开/天津/中科大 | arxiv.org/abs/2510.16732 |
| 22 | A Survey of Embodied World Models | 清华大学 | fi.ee.tsinghua.edu.cn |
| 23 | Understanding World or Predicting Future? | ACM Computing Surveys | dl.acm.org |
| 24 | 2025年中国世界模型发展白皮书 | 弗若斯特沙利文 | sohu.com |
| 25 | World Model & VLA 论文综述 (2018–2026) | song2yu | song2yu.github.io |
附录
A. 关键术语表
| 术语 | 全称 | 定义 |
|---|---|---|
| WM | World Model | 世界模型,环境动力学模拟器 |
| VLA | Vision-Language-Action | 视觉-语言-动作模型 |
| JEPA | Joint Embedding Predictive Architecture | 联合嵌入预测架构 |
| RSSM | Recurrent State Space Model | 循环状态空间模型 |
| MBRL | Model-Based Reinforcement Learning | 基于模型的强化学习 |
| CoT | Chain-of-Thought | 思维链 |
| WAM | World Action Model | 世界动作模型 |
| Sim-to-Real | Simulation to Reality | 仿真到现实迁移 |
| OOD | Out-of-Distribution | 分布外 |
| MPC | Model Predictive Control | 模型预测控制 |
| PAT | Physics-Aligned Token | 物理对齐Token |
| MoT | Mixture of Tokens/Experts | Token/专家混合 |