世界模型调研｜从视频预测到物理推理 —— 世界模型的技术演进

来源：Mbot具身智能实验室

一、概念定义与形式化框架

1.1 什么是世界模型？

世界模型（World Model）是 AI 系统内部构建的环境动力学模拟器 —— 它学习环境的运作规律（物理法则、因果关系、对象交互），并能在 “想象” 中预测不同动作的后果。

形式化数学定义：

st+1：预测的下一状态
rt+1：预测的奖励信号
Mθ：参数化的世界模型
核心：Mθ(st,at)→(st+1,rt+1)

1.2 世界模型的三个核心要素

表格

要素	定义	关键挑战
状态压缩	将高维感官输入映射到低维潜在空间	信息保留 vs 压缩率的权衡
动力学建模	学习状态转移概率	多模态分布建模、长程依赖
奖励预测	内建或学习奖励函数	稀疏奖励、延迟信用分配

1.3 世界模型 ≠ 视频生成模型

表格

维度	视频生成器（Video Gen）	世界模型（World Model）
目标	逼真渲染、视觉一致性	因果理解、可规划性
输出	像素序列	潜在表征 + 动力学
交互性	无条件 / 文本条件生成	动作条件化预测
因果性	不保证	核心要求
用途	内容创作	决策制定、规划

LeCun 核心观点：视频生成不等于世界理解。真正的世界模型应该学习世界的抽象表征和因果结构，而非像素级重建。

二、发展历程：八年演进全景时间线

2.1 第一阶段：奠基期（2018-2022）

David Ha 和 Jürgen Schmidhuber 在论文《Recurrent World Models Facilitate Policy Evolution》中首次提出"世界模型"概念：

核心架构：VAE（变分自编码器） + MDN-RNN（混合密度循环神经网络） + Controller（控制器）

VAE：将高维图像压缩为低维潜在向量 z

MDN-RNN：学习 P(z_{t+1} | z_t, a_t)，预测未来潜在状态的概率分布

Controller：简单的线性模型，在世界模型的想象空间中进行策略搜索

关键突破：

在 CarRacing-v0 环境中仅用随机探索就学会了驾驶

在 VizDoom 中学会了射击敌人

证明了想象式学习（Imagination-based Learning） 的可行性

2020-2021 — Dreamer系列：从游戏到通用控制

版本	时间	核心贡献
DreamerV1	2020.12	引入Critic网络，将世界模型用于Actor-Critic RL
DreamerV2	2021.01	完全抛弃奖励预测，改用价值函数学习
DreamerV3	2023.02	超参数统一、跨域泛化能力大幅提升

DreamerV3的核心创新：

RSSM（Recurrent State Space Model）：结合确定性和随机性路径的混合表示

固定超参数：同一组超参数在 Atari、DMControl、BSuite 等 50+ 个环境中均表现优秀

纯潜在空间操作：所有RL过程（策略学习、价值评估、规划）都在潜在空间完成，无需像素重建

2.2 第二阶段：确立期（2023）

世界模型从游戏走向真实世界：

GAIA-1（Wayve）：首个自动驾驶生成式世界模型
UniSim（NVIDIA）：统一仿真框架，支持反事实推理

2.3 第三阶段：爆发期（2024-2025）

2024 — 生成式世界模型元年

OpenAI Sora（2024.02）

首次展示长视频生成的震撼效果

OpenAI 明确将其定位为"世界模拟器"

但缺乏交互性和动作条件化

Genie 2（Google DeepMind，2024.12）

从单张图片生成可交互的 2D 游戏环境

支持键盘/鼠标输入作为动作条件

可用于训练 RL Agent

标志着世界模型从"被动观看"转向"主动交互"

2025 — 三大范式全面开花

月份	发布	代表机构	技术路线	核心突破
1月	Cosmos	NVIDIA	扩散 + AR	首个物理AI专用WM平台
6月	V-JEPA 2	Meta	JEPA潜在预测	1/50算力追平生成式WM
8月	Genie 3	Google DeepMind	AR Transformer	实时交互式3D世界，24fps@720p
9月	Sora 2	OpenAI	AR Transformer	60秒2K视频，物理合理性大幅改善
7月	Causal-JEPA	Meta	对象级别JEPA	物体级别的因果干预学习

2.4 第四阶段：融合期（2026）

2026年是世界模型与具身智能深度融合的分水岭：

标志性事件：

π0.7（Physical Intelligence，2026.04）：首次在机器人领域实现组合泛化（Compositional Generalization），世界模型作为 Subgoal Image Provider 深度集成

WM × VLA 论文井喷：3个月内发表 21篇 WM-VLA 融合论文（WoVR、VLAW、Chain of World、LaST-VLA...）

DeepMind Gemini Robotics ER 1.6：推理优先的世界模型增强机器人空间理解

Sony AI Ace 登 Nature 封面：无模型强化学习 + 世界模型击败人类精英乒乓球选手

三、技术路线：三大范式的深层对决

3.1 范式总览

	范式A：自回归Transformer	范式B：潜在空间预测	范式C：扩散+AR混合
代表	Genie 3 / Sora 2	V-JEPA 2 / DreamerV3	Cosmos 2 / Epona
核心理念	逐token预测未来帧	在潜在空间做特征预测	扩散模型保证质量，AR保证效率
输出形式	像素级视频	潜在表征（无需重建像素）	像素级视频
算力成本	★★★★★ 高	★★☆☆☆ 低	★★★☆☆ 中等
物理真实性	★★★★☆	★★★★★（隐含物理约束）	★★★★★
可解释性	★★☆☆☆	★★★★☆	★★★☆☆
交互性	支持但延迟高	天然支持	支持且高效
适用场景	内容创作、虚拟环境	RL训练、决策制定	机器人仿真、自动驾驶

3.2 深入解析：范式A — 自回归Transformer

代表模型：Genie 3（Google DeepMind, 2025.08）

Genie3的关键特性：

特性	参数/描述
分辨率	720p @ 24 fps
一致性时长	数分钟（业界最长）
交互方式	键盘/鼠标输入 + 文本指令修改
训练数据	无标注互联网视频（完全自监督）
"可提示世界事件"	用户可通过文本实时修改世界

优势：

✅ 生成质量极高，视觉逼真

✅ 天然支持交互式生成

✅ 无需标注数据即可训练

✅ 可直接用作 RL 环境

劣势：

❌ 逐token自回归导致高延迟

❌ 缺乏显式的物理/因果建模（只是"看起来对"）

❌ 推理成本随视频长度线性增长

❌ 无法进行高效的长期规划

3.3 深入解析：范式B — 潜在空间预测（JEPA路线）

代表模型：V-JEPA 2（Meta, 2025.06）

这是 Yann LeCun 力推的技术路线，代表了与"生成一切"截然不同的哲学。

JEPA（Joint Embedding Predictive Architecture）核心理念：

*不要重建像素！预测抽象表征！*

传统生成式方法的目标是重建输入（如像素），而 JEPA 的目标是预测潜在空间中的未来表征：

V-JEPA 2 的具体架构：

模块	功能	训练方式
Vision Encoder	将视频帧编码为潜在表征	自监督预训练（互联网视频）
Context Encoder	编码上下文窗口	自监督
JEPA Predictor	在潜在空间预测被mask的未来块	自监督（联合嵌入预测损失）
V-JEPA 2-AC（后训练）	动作条件的世界模型	<62小时机器人轨迹数据

V-JEPA 2 的惊人效率：

在动作识别、因果推理、长时规划任务上，以 1/50 的算力追平了视频生成范式（如 Sora 类方法）

后训练仅需 <62小时 的机器人交互数据

完全开源：代码 + 模型权重

为什么 JEPA 如此高效？

传统生成式	JEPA
目标空间：像素空间（百万维）	目标空间：潜在空间（数百维）
需要精确建模每个细节	只需捕获高层语义和动力学
大量计算浪费在纹理/光照等无关信息上	计算集中在因果相关的特征上

3.4 深入解析：范式C — 扩散 + AR 混合

代表模型：Cosmos 2（NVIDIA, 2025-2026）

NVIDIA 将世界模型定位为Physical AI 的基础设施，其核心洞察是：单一架构无法同时满足质量和效率需求。

Cosmos 平台的完整组件：

组件	说明
Cosmos-Predict	视频预测模型（支持多种分辨率/时序长度）
Cosmos-Generate	视频生成模型（无条件/条件生成）
NIM（NVIDIA Inference Microservices）	微服务化部署接口
Cosmos Cookbook	快速定制脚本库
Omniverse集成	与数字孪生平台无缝对接

合作伙伴生态（2026年1月发布）：

波士顿动力、Caterpillar、Franka Robots、LG Electronics、NEURA Robotics

3.5 三大范式的适用场景选择指南

四、核心理论争议：生成式 vs 预测式

这是当前世界模型领域最深刻的学术辩论。

4.1 两派观点

维度	生成派（Hinton/OpenAI方向）	预测派（LeCun/Meta方向）
核心主张	只要生成足够好，理解会自然涌现	理解需要显式建模因果结构
方法论	生成像素/Token，最大化似然	预测潜在表征，最小化嵌入距离
类比	学画画的人自然理解光影	学物理的人理解物体运动规律
代表人物	Geoffrey Hinton	Yann LeCun
风险	可能只是记住统计模式	表征可能不够丰富

4.2 LeCun 的完整论点

Yann LeCun 在多篇论文和演讲中系统阐述了反对纯生成路线的理由：

1. 像素级重建是浪费的

"重建一张1024×1024图像的每个像素，其中99%的信息对决策毫无意义。"

2. 生成式方法无法处理不确定性

"世界不是确定的。同一个原因可以产生多种合理的结果（多模态分布）。自回归方法通过顺序采样隐式处理这一点，但这非常低效。"

3. 缺乏因果理解

"学会生成'玻璃杯掉落会破碎'的画面，不代表理解了重力、脆性和碰撞的因果关系。"

4.3 Hinton/生成派的反驳

1. 表征学习的意外成功

GPT系列证明：足够大的语言模型在优化下一个词预测的过程中涌现出了理解和推理能力。同理，足够好的视频生成可能也会涌现出世界理解。

2. 评估困难

如何衡量一个潜在表征"是否包含足够的物理理解"？而生成质量可以直接用肉眼判断。

3. 工程可行性

JEPA类方法的表征设计高度依赖人工先验，难以规模化。而自回归方法是端到端的。

4.4 第三条路？— Causal-JEPA（2026.02）

Meta 在 2026 年初发布的 Causal-JEPA 尝试弥合这一分歧：

对象中心（Object-centric）：世界模型在对象级别而非像素级别操作

潜在干预（Latent Intervention）：可以回答反事实问题（"如果我不推这个杯子会怎样？"）

因果图学习：自动学习对象间的因果关系

这可能是目前最接近 LeCun "真正世界模型" 设想的方案。

五、里程碑模型深度解析

5.1 Genie 3：可交互3D世界的

发布机构：Google DeepMind 发布时间：2025年8月5日论文：https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/

技术规格表：

参数	规格
分辨率	720p @ 24 fps
最大一致性时长	数分钟
交互方式	键盘/鼠标 + 文本指令
训练数据	互联网无标注视频
输出格式	实时可交互3D环境
核心创新	"可提示世界事件"(Promptable World Events)

为什么 Genie 3 重要？

从被动到主动：Genie 1/2 是"看世界"，Genie 3 是"进入并改变世界"

实时交互：24fps意味着可以作为实时仿真引擎

零样本环境生成：一句话创建一个完整的可交互环境

对 RL 的影响：可以直接作为强化学习环境，替代手工设计的模拟器

局限性：

仍基于2D投影（非真正的3D几何理解）

物理规律是学到的统计模式，非显式建模

复杂交互中的因果一致性仍有待验证

5.2 V-JEPA 2：效率革命

发布机构：Meta FAIR 发布时间：2025年6月12日论文：https://arxiv.org/abs/2506.09985代码：github.com/facebookresearch/vjepa2

关键技术指标：

指标	数值
相对算力消耗	1/50（对比生成式方法）
后训练所需数据	<62小时机器人轨迹
开源程度	完全开源（代码+权重）
预训练数据	互联网规模视频
支持任务	动作识别、因果推理、长时规划

V-JEPA 2-AC：动作条件化变体

Meta 特别推出了针对机器人的 V-JEPA 2-AC（Action Conditioned）：

训练流程:
1. 用互联网视频预训练 V-JEPA 2（自监督）
2. 收集 <62 小时的机器人交互轨迹
3. 后训练加入动作条件 → 得到 V-JEPA 2-AC
4. V-JEPA 2-AC 可以:
   - 预测给定动作后的未来视觉结果
   - 用于模型预测控制(MPC)
   - 作为 RL 的环境模型

5.3 Cosmos 2：物理AI基础设施

发布机构：NVIDIA 发布时间：2025年1月（初始）/ 2026年持续迭代论文：https://arxiv.org/abs/2501.03575代码：https://github.com/nvidia-cosmos

定位转变：

Cosmos 不是单个模型，而是整个平台生态系统：

层次	组件	说明
基础层	Cosmos-Predict / Generate	视频预测和生成的基础模型
适配层	NIM微服务	针对不同领域的适配接口
应用层	Omniverse集成	数字孪生、机器人仿真、自动驾驶测试
生态层	合作伙伴SDK	波士顿动力、Caterpillar等企业接入

Cosmos 2 的关键升级：Physics-Aligned Token (PAT)

PAT 是 NVIDIA 针对 Sim-to-Real Gap 的核心解决方案：

问题*_：仿真中训练的策略在真实世界中失效 *解决*：PAT 让世界模型生成的动作天然遵循物理定律 _效果*：显著减少仿真到现实的迁移难度

5.4 DreamerV3：通用RL算法

作者：Danijar Hafner 发布时间：2023年2月 发表期刊：Nature（https://www.nature.com/articles/s41586-025-08744-2）

DreamerV3 为什么重要？

DreamerV3 是第一个被 Nature 接收的基于世界模型的通用RL算法，证明了：

超参数统一：同一组超参数在 50+ 个不同环境中均达到最优或接近最优性能

跨越领域：Atari游戏、连续控制(DMControl)、智能体导航(BSuite)、网页浏览...

样本效率：比传统RL（PPO/SAC）高出 100-1000倍

纯潜在空间：所有操作都在低维潜在空间完成

DreamerV3 的"世界模型-评论者-行动者"三模块架构：

┌─────────────────────────────────────────────────────┐
│                   DreamerV3 架构                      │
├─────────────────────────────────────────────────────┤
│                                                     │
│  ┌──────────┐                                        │
│  │ 世界模型  │ ← 学习 P(s_{t+1}, r_{t+1} | s_t, a_t) │
│  │ (RSSM)   │   在想象空间中rollout未来               │
│  └────┬─────┘                                        │
│       │                                              │
│       ▼  想象轨迹                                    │
│  ┌──────────┐                                        │
│  │ 评论者   │ ← 评估想象轨迹的价值 V(s)               │
│  │ (Critic) │   无需真实交互！                        │
│  └────┬─────┘                                        │
│       │                                              │
│       ▼                                              │
│  ┌──────────┐                                        │
│  │ 行动者   │ ← 根据批评者的反馈改进策略 π(a|s)       │
│  │ (Actor)  │                                       │
│  └──────────┘                                        │
│                                                     │
│  核心循环: 世界模型想象 → 评论者评估 → 行动者改进      │
│  全程在"脑海中进行"！                                 │
└─────────────────────────────────────────────────────┘

5.5 Sora 2：世界模拟器的进化

发布机构：OpenAI 发布时间：2025年9月30日定位：次世代视频生成 / "通用世界模拟器"

相比Sora 1代的升级：

维度	Sora 1 (2024.02)	Sora 2 (2025.09)
时长	~60秒	60秒+
分辨率	1080p	2K
物理合理性	有明显瑕疵	显著改善
一致性	中等	长视频一致性提升
音频	无	同步音效生成
定位	视频生成器	世界模拟器基础模型

六、π0.7 与世界模型：VLA的范式转变 ⭐

6.1 背景：为什么π0.7如此重要？

2026年4月16日，Physical Intelligence 发布了 π0.7——这被认为是机器人领域的"GPT-3时刻"。

为什么？因为 π0.7 第一次在机器人领域实证了「组合泛化」（Compositional Generalization）——即机器人能够将已学的原子技能自主组合，去完成从未见过的新任务。

而实现这一切的关键，正是世界模型的引入。

6.2 π0.7 的完整系统架构

6.3 世界模型在π0.7中的三种角色

角色1：Subgoal Image Provider（子目标图像提供者）⭐ 最核心

这是 π0.7 最具创新性的设计。

传统 VLA 的输入只有：

当前观测图像（摄像头画面）

自然语言指令

π0.7 通过世界模型新增了第三种输入：

Subgoal Image（子目标图像）——告诉机器人"这一步做完之后，你看到的世界应该是什么样子"

为什么这很重要？

问题场景: "把红薯放进空气炸锅"

传统VLA的理解:
"把红薯放进空气炸锅"

  → 太模糊！怎么拿？放哪里？什么姿势？
  → 不同人的演示差异很大
  → 泛化困难

π0.7 + 世界模型的理解:
  子任务1: "走向空气炸锅"     → WM给出子目标图: [空气炸锅正面视图]
  子任务2: "打开炸锅门"       → WM给出子目标图: [炸锅门打开的视图]
  子任务3: "拿起红薯"         → WM给出子目标图: [手握红薯的特写]
  子任务4: "放入炸锅"         → WM给出子目标图: [红薯在炸篮内的视图]
  子任务5: "关闭炸锅门"       → WM给出子目标图: [炸锅关闭的视图]

每一步都有明确的视觉目标指引！

角色2：Visual Generalizer（视觉泛化器）

当机器人面对从未见过的环境时（比如新厨房布局）：

语言指令仍然有效（"打开烤箱"）

但视觉外观完全不同（新烤箱颜色、位置不同）

世界模型根据语言描述生成该环境下的子目标图像

VLA 参考这些生成的子目标图像执行动作

结果：零样本视觉泛化

角色3：Compositional Enabler（组合泛化使能器）

组合泛化 = 将已学原子技能自由组合以应对新任务

示例：

已学原子技能:
  ✅ 打开抽屉
  ✅ 拿起铲子
  ✅ 戴上手套
  ✅ 关闭抽屉

新任务: "戴上手套，拿起铲子，放进抽屉，关上"

传统VLA: ❌ 需要重新收集这个特定任务的训练数据
π0.7 + WM: ✅ 高层策略分解 → WM生成每步子目标 → VLA逐步执行

6.4 训练数据的多源整合

π0.7 的另一个突破是如何整合异构数据源：

数据源	类型	整合方式
不同机器人的演示数据	高质量专家示范	直接使用
人类操作视频	非机器人视角	通过标注元数据整合
自主收集的episode（含失败）	次优/失败案例	标注质量/速度元数据纳入训练
其他来源数据	异构格式	多样化上下文提示

关键发现（来自官方博客）：

"Naively merging all these data sources does NOT lead to good results. The key is toadd diverse context to the prompt*."*

具体来说：

次优数据通过标注 Quality=low 或 Speed=slow 来消除行为歧义

这些元数据帮助模型理解同一种行为在不同熟练度下的变化

最终使得组合泛化成为可能

6.5 π0.7 的实验验证

空气炸锅实验（来自官方博客）：

任务: "load a sweet potato into the air fryer"

尝试1 (零样本):
  指令: "load a sweet potato into the air fryer"
  结果: ⚠️ 只能部分完成任务（放进去但没关好）

尝试2 (语言教练模式):
  提供逐步命令:
    1. "go to the air fryer"
    2. "open the air fryer door"
    3. "pick up the sweet potato"
    4. "place it inside"
    5. "close the door"
  结果: ✅ 完美完成！

尝试3 (自动化 - WM介入):
  高层策略自动分解任务
  → 世界模型为每步生成子目标图像
  → π0.7 自主执行
  结果: ✅ 全自主完成！无需人工干预！

6.6 π0.7 的行业影响

方面	影响
理论意义	首次实证组合泛化在机器人领域可行
工程意义	世界模型从"研究玩具"变成"实用组件"
产业意义	Physical Intelligence估值大幅提升
竞争意义	Google（RT-2/Gemini Robotics）、特斯拉（Optimus）面临压力
开源影响	论文已公开，社区开始复现

七、世界模型×具身智能：六大融合方向

基于 2026年3月更新的World Model & VLA 论文综述，收录 87+篇论文

7.1 方向一：世界模型作为VLA的后训练环境（最活跃方向）⭐⭐⭐

核心思想：用少量真实数据训练世界模型 → 在世界模型的"想象空间"中进行RL训练 → 大幅降低对真实机器人交互的需求

代表性论文（按时间排序）：

论文	日期	核心贡献
WoVR	2026.02.15	世界模型替代真实环境，为VLA提供RL训练沙箱
VLAW	2026.02.12	VLA策略与世界模型双向迭代协同改进
GigaBrain-0.5M	2026.02.12	基于WM RL训练VLA，0.5M步超越基线
RISE	2026.02.11	组合式WM驱动VLA自我改进
AtomVLA	2026.03.09	预测性潜在WM可扩展提升VLA鲁棒性
World2Act	2026.03.11	技能组合WM用于VLA后训练，自适应OOD变化
Towards Practical WM-Based RL for VLA	2026.03.22	面向实用化的样本效率和稳定性改进
Persistent Robot World Models	2026.03.26	解决动作条件化WM多步rollout累积误差

标准流程：

Phase 1: 世界模型预训练
  大量离线数据（演示 + 自主采集）
        ↓
  训练出 M_θ: (s_t, a_t) → ŝ_{t+1}
        ↓
Phase 2: 在世界模型中RL训练VLA
  VLA策略 π_φ 在 M_θ 中与环境交互
        ↓
  收集想象轨迹 → 训练Critic → 更新Actor
        ↓
  无需真实机器人！样本效率提升 100-1000x!
        ↓
Phase 3: (可选) 真实世界微调
  少量真实交互数据微调 → 部署

7.2 方向二：潜在空间思维链（CoT in Latent Space）⭐⭐

核心思想：将传统的文本CoT（Chain-of-Thought）替换为潜在运动空间的CoT——让模型在执行动作前，先"想象"一系列中间状态的转换

代表性论文：

论文	日期	核心思想
Chain of World	2026.03.03	CoT从语言token迁移到潜在运动空间，引入时序因果结构
LaST-VLA	2026.03.02	用潜在时空表征替代文本CoT，消除语义-感知鸿沟
DYNVLA	2026.03.11	Dynamics CoT：先预测紧凑世界动态token，再生成驾驶动作
DualCoT-VLA	2026.03	视觉-语言双路并行CoT
FutureVLA	2026.03	联合视动预测

Chain of World 的核心洞见：

传统文本CoT:
  Q: "如何倒水进杯子?"
  A: "首先拿起水壶 → 然后倾斜壶嘴 → 最后倒入杯子"
  问题: 文字描述无法捕捉精确的空间关系和物理约束!

潜在空间CoT (Chain of World):
  Step 1: [潜在状态: 手接近水壶]
  Step 2: [潜在状态: 手握住壶柄]
  Step 3: [潜在状态: 壶倾斜，水流出现]
  Step 4: [潜在状态: 水流入杯中]

  优势:
  ✓ 每个步骤都是可执行的物理状态
  ✓ 包含精确的空间/姿态信息
  ✓ 可直接转换为动作指令
  ✓ 减少高层语义到底层感知的鸿沟

7.3 方向三：3D/空间感知注入 ⭐⭐

核心问题：传统VLA基于2D image patch tokenization，丢失了几何结构信息。对于需要精细3D操作的机器人任务（如插孔、堆叠），这成为瓶颈。

解决方案：将3D场景流、点云、深度信息注入VLA的token表示

代表性论文：

论文	日期	核心贡献
LAMP	2026.03.24	双专家VLA框架，稠密3D场景流嵌入为潜在运动先验
GST-VLA	2026.03	几何结构token注入
Structured 4D Latent WM (ICML 2026)	2026.01	4D潜在WM作为规划器，生成未来场景转译为可执行动作
Fac-TDMPC	2025.10	分解式潜在空间WM，因子化转移/奖励/价值函数

7.4 方向四：物理对齐与先验融合 ⭐⭐

核心思想：纯数据驱动的世界模型可能学到"看起来对但物理错误"的假象。解决方案是在生成过程中融入显式物理先验。

代表性工作：

论文	日期	核心贡献
ABOT-PHYSWORLD	2026.03.24	视频WM融合物理先验，生成物理一致的未来帧
LaDi-WM (CoRL 2025)	2025.08	潜在扩散WM，同时捕获几何和语义信息
Neural Motion Simulator (CVPR 2025)	2025.06	专注于运动动力学的WM，推动WM在物理精度上的极限
Cosmos 2 PAT	2025-2026	Physics-Aligned Token，使动作与真实力学一致

7.5 方向五：WAM（World Action Model）— 新范式？⭐

WAM = World Action Model，一种新的模型类别

与传统 VLA 不同，WAM 在测试时进行前向预测来辅助动作生成：

维度	VLA	WAM
训练方式	行为克隆/RL	世界模型 + 策略学习
推理时	单步前向传播	多步前向想象 + 选择最优动作
计算成本	低	较高（需多次rollout）
优势	快速	更强的规划和泛化能力

关键质疑：

FAST-WAM (2026.03.23) 提出：WAM测试时的未来想象推理真的必要吗？ 作者验证了 WM 前向预测的实际贡献度

Do WAMs Generalize Better Than VLAs? (2026.03.23)：首个 WAM vs. VLA 的大规模泛化与鲁棒性对比研究

7.6 方向六：层级化世界模型

对于复杂的长程任务（如"做饭"涉及数十个子步骤），单一世界模型难以覆盖全部时空尺度。层级化方案应运而生：

层级	时间跨度	空间粒度	功能
高层WM	分钟级	场景级	任务规划、子目标分解
中层WM	秒级	对象级	对象间交互预测
底层WM	毫秒级	关节级	即时动力学预测（接触力等）

代表性论文：

Scaling WM for Hierarchical Manipulation (2026.02)：层级WM扩展解决OOD场景下VLA脆弱性

MetaWorld-X：层级化世界模型用于长程操控

八、世界模型在自动驾驶中的应用

自动驾驶是世界模型最早商业化落地的场景之一。

8.1 自动驾驶世界模型发展脉络

8.2 LINGO-2：可对话的自动驾驶世界模型

LINGO-2（Wayve, 2025年底） 是一个值得特别关注的模型：

独特之处：

端到端世界模型：将语言、感知、预测合并为一个统一模型

可对话：可以用自然语言问车"为什么要这样开？"，车辆会用世界模型解释

与 DeepSeek R1 思想同构：在回答之前先进行"思考"（世界模型的前向预测）

示例交互：

乘客: "为什么刚才突然减速了?"
LINGO-2: "我检测到前方30米处有行人正在横穿马路。
         根据我的世界模型预测，如果保持当前速度，
         将在2.3秒后到达行人位置，碰撞概率87%。
         因此决定减速以确保安全。"

8.3 自动驾驶 vs 机器人的世界模型需求差异

维度	自动驾驶	机器人操作
时间范围	秒~十秒级	毫秒~分钟级
空间范围	远场（100米+）	近场（手臂操作范围）
精度要求	轨迹级（粗略）	亚毫米级（精细）
交互类型	主要避障	接触丰富操作
主要挑战	多agent博弈	接触动力学、变形
成熟度	较高（已有路测）	较低（实验室为主）

九、开源生态与工具链

9.1 核心开源项目

项目	机构	Stars	技术路线	链接
V-JEPA 2	Meta	3k+	JEPA潜在预测	github.com/facebookresearch/vjepa2
DreamerV3	Danijar Hafner	4k+	RSSM潜在空间	github.com/danijar/dreamerv3
Cosmos Platform	NVIDIA	8k+	扩散+AR混合	github.com/nvidia-cosmos
**Genie (非官方复现)	社区	1k+	AR Transformer	github.com/open-spaces/genie
Awesome World Models	社区	500+	论文整理	github.com/leofan90/Awesome-World-Models
Awesome World Models (具身)	Li-Zn-H	800+	具身WM综述配套	github.com/Li-Zn-H/AwesomeWorldModels
DIAMOND	Alexandru	600+	扩散式WM用于RL	github.com/alexandru-diamond/diamond
EnerVerse	腾讯	300+	能量基础模型	github.com/tencent-enerverse

9.2 数据集与基准

数据集/基准	规模	用途	来源
DROID	~80K机器人轨迹	通用机器人学习	Stanford
ODL (Open X-Embodiment)	~1M轨迹（多机器人）	跨实体泛化	RT-X Consortium
ManiSkill2	1万+任务	灵巧操作 benchmark	PKU
RoboSet	100+真实物体	泛化能力评估	CMU
Calvin	多任务连续控制	长程任务	ETH Zürich
MBench	20+世界模型评测维度	WM综合评估	社区

9.3 工具链

工具	功能	适用范式
JAX/DiffEK	可微分物理仿真	物理对齐WM
Brax/MuJoCo/Jax	快速物理仿真器	RL环境
Isaac Lab (NVIDIA)	GPU加速机器人仿真	WM训练/验证
Gymnasium	标准RL环境接口	通用
Hugging Face Transformers	预训练模型加载	VLM/VLA backbone

十、产业动态与全球格局

10.1 全球竞争格局

┌────────────────────────────────────────────────────────────────┐
│                    2026年世界模型全球格局                        │
├──────────────┬──────────────┬──────────────┬───────────────────┤
│  🇺🇸 美国     │  🇨🇳 中国     │  🇪🇺 欧洲    │   其他            │
├──────────────┼──────────────┼──────────────┼───────────────────┤
│ • Google      │ • 快手Kling  │ • Meta        │ • Wayve (UK)      │
│   Genie 3     │   2.0         │   V-JEPA 2    │   LINGO-2        │
│ • OpenAI      │ • 智谱        │               │                   │
│   Sora 2      │   CogVideo-X2│               │                   │
│ • NVIDIA      │ • 上海AI Lab │               │                   │
│   Cosmos 2    │   InternVideo│               │                   │
│ • Physical    │ • 华为盘古   │               │                   │
│   Intel π0.7  │   具身2.0    │               │                   │
│ • Microsoft   │ • 昆仑万维   │               │                   │
│              │   Matrix-GM  │               │                   │
└──────────────┴──────────────┴──────────────┴───────────────────┘

10.2 中国团队进展详解

团队	产品/模型	技术特点	开源情况
快手	Kling 2.0	国产视频生成SOTA；支持keyframes+prompt定向生成	API可用
智谱AI	CogVideo-X2	开源可用；长一致性和中文语义绑定优秀	开源
上海AI Lab	InternVideo 3	视频理解与生成统一基础模型	开源
华为	盘古具身 2.0	面向机器人的世界模型；强调真实场景数据闭环	未开源
昆仑万维	Matrix-Game 2.0	游戏世界模型	部分开源
腾讯	HY-Embodied / EnerVerse	MoT架构；能量基础模型	部分开源

10.3 四大落地场景

场景1：自动驾驶（最成熟）

玩家：Wayve (LINGO-2)、Tesla (FSD)、NVIDIA (Drive PX/Cosmos)、小鹏/华为

进展：Wayve已在伦敦公开道路测试LINGO-2

预计商业化：2026-2027

场景2：人形机器人（最热）

玩家：Figure AI、Tesla Optimus、宇树科技、智元、傅利叶

WM作用：运动规划、操作规划、Sim-to-Real桥接

进展：π0.7已验证组合泛化；多家公司WM原型开发中

预计商业化：2027-2029

场景3：工业制造

玩家：NVIDIA (Omniverse+Cosmos)、西门子、ABB

WM作用：数字孪生、工艺优化、质量预测

进展：NVIDIA已宣布与Caterpillar合作

预计商业化：2025-2026（部分已商用）

场景4：游戏/内容创作

玩家：Google (Genie 3)、Unity、腾讯

WM作用：NPC行为生成、关卡自动生成、开放世界模拟

进展：Genie 3已可用于生成可玩游戏原型

预计商业化：2025-2026

10.4 融资与政策

融资事件（2025-2026）：

公司	金额	时间	方向
Physical Intelligence	$4亿+	2026.04 (π0.7发布前后)	通用机器人基础模型
Figure AI	$7.5亿累计	2025-2026	人形机器人
Wayve	$1.5亿+	2025	自动驾驶世界模型
字节跳动豆包	大规模投入	2024-2026	世界模型研发

政策动向：

中国《十五五规划》明确将具身智能列为战略方向

美国 CHIPS Act 包含 AI 基础设施投资

欧盟 AI Act 对世界模型的安全合规要求

十一、挑战与开放问题

11.1 技术挑战

🔴 挑战1：Sim-to-Real Gap（仿真到现实鸿沟）

问题描述：在世界模型中训练的策略在真实世界中性能大幅下降

根本原因：仿真器的物理近似、渲染差距、传感器噪声缺失

当前最佳实践：

Domain Randomization（域随机化）

System Identification（系统辨识）

Reality Check Networks（现实检验网络）

Cosmos 2 的 PAT 方案（物理对齐token）

未解决问题：接触丰富的操作（如柔性物体处理）gap仍然很大

🔴 挑战2：长时一致性（Long-horizon Consistency）

问题描述：世界模型在长时间rollout中误差累积，导致预测发散

严重程度：超过几秒钟后预测往往变得不可靠

研究方向：

Persistent Robot World Models (2026.03.26)：用RL稳定长程预测

层级化WM（不同时间尺度分离建模）

不确定性感知预测（知道何时"不知道"）

🔴 挑战3：计算效率

问题描述：高质量世界模型（特别是生成式）的计算成本极高

数据对比：

方法	单次前向推理	100步rollout
V-JEPA 2	~10ms	~1s
Genie 3	~500ms/frame	~50s
Sora 2	~2s/frame	~200s
Cosmos 2 (快速模式)	~100ms	~10s

🟡 挑战4：多模态融合

问题描述：如何统一视觉、触觉、本体感觉、力觉等多种感官模态

现状：绝大多数WM只处理视觉；触觉WM刚刚起步

预测：2026年下半年可能出现首批支持触觉token的WM

11.2 理论挑战

🟠 挑战5：符号接地问题（Symbol Grounding Problem）

核心问题：世界模型的潜在表征是否真的对应真实的物理实体？

LeCun的担忧：如果表征只是统计共现模式的编码，那么它不具备真正的因果理解

Causal-JEPA的方向：通过对象级别的干预学习来建立符号-实体的对应

🟠 挑战6：世界模型的评估难题

问题：如何衡量一个世界模型"好不好"？

现有评估维度（但不完整）：

视频生成质量（FID、FVD）→ 只衡量表面

下游任务性能 → 间接衡量

物理合理性 → 需要人工设计测试

因果正确性 → 尚无标准化评估

急需：类似 ImageNet for Vision Models 的世界模型标准benchmark

11.3 安全与伦理挑战

挑战	描述	当前应对
安全边界	WM生成的极端/危险场景可能导致策略学到不安全行为	Safety Classifier过滤
偏见放大	WM从有偏数据学习，放大社会偏见	数据审计
可解释性	WM内部决策过程难以解释	可解释WM研究初期
滥用风险	高保真场景生成可能被用于欺骗	水印/检测技术

十二、参考文献

核心论文（必读）

#	论文	机构	时间	链接
1	Recurrent World Models Facilitate Policy Evolution	Ha & Schmidhuber	2018	arxiv.org/abs/1803.10122
2	Mastering Diverse Domains through World Models (DreamerV3)	Danijar Hafner et al.	2023	Nature
3	Genie 3: A New Frontier for World Models	Google DeepMind	2025	deepmind.google
4	V-JEPA 2: Self-Supervised Video Models	Meta FAIR	2025	arxiv.org/abs/2506.09985
5	Cosmos: World Foundation Model Platform for Physical AI	NVIDIA	2025	arxiv.org/abs/2501.03575
6	π₀.₇: Steerable Generalist Robotic Foundation Model	Physical Intelligence	2026	arxiv.org/abs/2604.15483 ⭐
7	Causal-JEPA: Learning World Models through Object-Level Interventions	Meta	2026	arxiv.org/abs/2602.11389
8	GAIA-1: Generative World Model for Autonomous Driving	Wayve	2023	arxiv.org/abs/2309.17080
9	Sora 2 Technical Report	OpenAI	2025	openai.com
10	Planning with Latent Dynamics Model (ICML Best Paper)	Meta	2025	ICML Workshop

WM × VLA 融合论文精选

#	论文	日期	核心贡献
11	WoVR: World Models as Reliable Simulators for Post-Training VLA with RL	2026.02	WM替代真实环境进行RL
12	VLAW: Iterative Co-improvement of VLA Policy and World Model	2026.02	双向迭代协同改进
13	Chain of World: Moving CoT to Latent Motion Space	2026.03	潜在空间思维链
14	LaST-VLA: Thinking in Latent Spatio-Temporal Space	2026.03	时空潜在线索推理
15	AtomVLA: Predictive Latent World Models for Scalable VLA Post-training	2026.03	预测性潜在WM
16	World2Act: Skill-compositional World Models for VLA Post-training	2026.03	技能组合WM
17	RISE: Self-improving Robot Policy with Compositional World Model	2026.02	组合式WM驱动自我改进
18	LAMP: 3D Scene Flow as Latent Motion Prior	2026.03	3D场景流注入
19	ABOT-PHYSWORLD: Physics-aligned Interactive World Foundation Model	2026.03	物理对齐交互WM
20	DYNVLA: Dynamics Chain-of-Thought for Driving	2026.03	动力学CoT

综述与白皮书

#	名称	来源	链接
21	A Comprehensive Survey on World Models for Embodied AI	南开/天津/中科大	arxiv.org/abs/2510.16732
22	A Survey of Embodied World Models	清华大学	fi.ee.tsinghua.edu.cn
23	Understanding World or Predicting Future?	ACM Computing Surveys	dl.acm.org
24	2025年中国世界模型发展白皮书	弗若斯特沙利文	sohu.com
25	World Model & VLA 论文综述 (2018–2026)	song2yu	song2yu.github.io

附录

A. 关键术语表

术语	全称	定义
WM	World Model	世界模型，环境动力学模拟器
VLA	Vision-Language-Action	视觉-语言-动作模型
JEPA	Joint Embedding Predictive Architecture	联合嵌入预测架构
RSSM	Recurrent State Space Model	循环状态空间模型
MBRL	Model-Based Reinforcement Learning	基于模型的强化学习
CoT	Chain-of-Thought	思维链
WAM	World Action Model	世界动作模型
Sim-to-Real	Simulation to Reality	仿真到现实迁移
OOD	Out-of-Distribution	分布外
MPC	Model Predictive Control	模型预测控制
PAT	Physics-Aligned Token	物理对齐Token
MoT	Mixture of Tokens/Experts	Token/专家混合

世界模型调研｜从视频预测到物理推理 —— 世界模型的技术演进 ​

一、概念定义与形式化框架 ​

1.1 什么是世界模型？ ​

1.2 世界模型的三个核心要素 ​

1.3 世界模型 ≠ 视频生成模型 ​

二、发展历程：八年演进全景时间线 ​

2.1 第一阶段：奠基期（2018-2022） ​

2020-2021 — Dreamer系列：从游戏到通用控制 ​

2.2 第二阶段：确立期（2023） ​

2.3 第三阶段：爆发期（2024-2025） ​

2024 — 生成式世界模型元年 ​

2025 — 三大范式全面开花 ​

​

2.4 第四阶段：融合期（2026） ​

三、技术路线：三大范式的深层对决 ​

3.1 范式总览 ​

3.2 深入解析：范式A — 自回归Transformer ​

3.3 深入解析：范式B — 潜在空间预测（JEPA路线） ​

3.4 深入解析：范式C — 扩散 + AR 混合 ​

**3.5 三大范式的适用场景选择指南 ** ​

四、核心理论争议：生成式 vs 预测式 ​

4.1 两派观点 ​

4.2 LeCun 的完整论点 ​

4.3 Hinton/生成派的反驳 ​

4.4 第三条路？— Causal-JEPA（2026.02） ​

五、里程碑模型深度解析 ​

5.1 Genie 3：可交互3D世界的 ​

5.2 V-JEPA 2：效率革命 ​

5.3 Cosmos 2：物理AI基础设施 ​

5.4 DreamerV3：通用RL算法 ​

5.5 Sora 2：世界模拟器的进化 ​

六、π0.7 与世界模型：VLA的范式转变 ⭐ ​

6.1 背景：为什么π0.7如此重要？ ​

6.2 π0.7 的完整系统架构 ​

6.3 世界模型在π0.7中的三种角色 ​

角色1：Subgoal Image Provider（子目标图像提供者）⭐ 最核心 ​

角色2：Visual Generalizer（视觉泛化器） ​

角色3：Compositional Enabler（组合泛化使能器） ​

6.4 训练数据的多源整合 ​

6.5 π0.7 的实验验证 ​

6.6 π0.7 的行业影响 ​

七、世界模型×具身智能：六大融合方向 ​

7.1 方向一：世界模型作为VLA的后训练环境（最活跃方向）⭐⭐⭐ ​

7.2 方向二：潜在空间思维链（CoT in Latent Space）⭐⭐ ​

7.3 方向三：3D/空间感知注入 ⭐⭐ ​

7.4 方向四：物理对齐与先验融合 ⭐⭐ ​

7.5 方向五：WAM（World Action Model）— 新范式？⭐ ​

7.6 方向六：层级化世界模型 ​

八、世界模型在自动驾驶中的应用 ​

8.1 自动驾驶世界模型发展脉络 ​

8.2 LINGO-2：可对话的自动驾驶世界模型 ​

8.3 自动驾驶 vs 机器人的世界模型需求差异 ​

九、开源生态与工具链 ​

9.1 核心开源项目 ​

9.2 数据集与基准 ​

9.3 工具链 ​

十、产业动态与全球格局 ​

10.1 全球竞争格局 ​

10.2 中国团队进展详解 ​

10.3 四大落地场景 ​

场景1：自动驾驶（最成熟） ​

场景2：人形机器人（最热） ​

场景3：工业制造 ​

场景4：游戏/内容创作 ​

10.4 融资与政策 ​

十一、挑战与开放问题 ​

11.1 技术挑战 ​

🔴 挑战1：Sim-to-Real Gap（仿真到现实鸿沟） ​

🔴 挑战2：长时一致性（Long-horizon Consistency） ​

🔴 挑战3：计算效率 ​

🟡 挑战4：多模态融合 ​

11.2 理论挑战 ​

🟠 挑战5：符号接地问题（Symbol Grounding Problem） ​

🟠 挑战6：世界模型的评估难题 ​

11.3 安全与伦理挑战 ​

十二、参考文献 ​

核心论文（必读） ​

WM × VLA 融合论文精选 ​

综述与白皮书 ​

附录 ​

世界模型调研｜从视频预测到物理推理 —— 世界模型的技术演进

一、概念定义与形式化框架

1.1 什么是世界模型？

1.2 世界模型的三个核心要素

1.3 世界模型 ≠ 视频生成模型

二、发展历程：八年演进全景时间线

2.1 第一阶段：奠基期（2018-2022）

2020-2021 — Dreamer系列：从游戏到通用控制

2.2 第二阶段：确立期（2023）

2.3 第三阶段：爆发期（2024-2025）

2024 — 生成式世界模型元年

2025 — 三大范式全面开花

2.4 第四阶段：融合期（2026）

三、技术路线：三大范式的深层对决

3.1 范式总览

3.2 深入解析：范式A — 自回归Transformer

3.3 深入解析：范式B — 潜在空间预测（JEPA路线）

3.4 深入解析：范式C — 扩散 + AR 混合

3.5 三大范式的适用场景选择指南

四、核心理论争议：生成式 vs 预测式

4.1 两派观点

4.2 LeCun 的完整论点

4.3 Hinton/生成派的反驳

4.4 第三条路？— Causal-JEPA（2026.02）

五、里程碑模型深度解析

5.1 Genie 3：可交互3D世界的

5.2 V-JEPA 2：效率革命

5.3 Cosmos 2：物理AI基础设施

5.4 DreamerV3：通用RL算法

5.5 Sora 2：世界模拟器的进化

六、π0.7 与世界模型：VLA的范式转变 ⭐

6.1 背景：为什么π0.7如此重要？

6.2 π0.7 的完整系统架构

6.3 世界模型在π0.7中的三种角色

角色1：Subgoal Image Provider（子目标图像提供者）⭐ 最核心

角色2：Visual Generalizer（视觉泛化器）

角色3：Compositional Enabler（组合泛化使能器）

6.4 训练数据的多源整合

6.5 π0.7 的实验验证

6.6 π0.7 的行业影响

七、世界模型×具身智能：六大融合方向

7.1 方向一：世界模型作为VLA的后训练环境（最活跃方向）⭐⭐⭐

7.2 方向二：潜在空间思维链（CoT in Latent Space）⭐⭐

7.3 方向三：3D/空间感知注入 ⭐⭐

7.4 方向四：物理对齐与先验融合 ⭐⭐

7.5 方向五：WAM（World Action Model）— 新范式？⭐

7.6 方向六：层级化世界模型

八、世界模型在自动驾驶中的应用

8.1 自动驾驶世界模型发展脉络

8.2 LINGO-2：可对话的自动驾驶世界模型

8.3 自动驾驶 vs 机器人的世界模型需求差异

九、开源生态与工具链

9.1 核心开源项目

9.2 数据集与基准

9.3 工具链

十、产业动态与全球格局

10.1 全球竞争格局

10.2 中国团队进展详解

10.3 四大落地场景

场景1：自动驾驶（最成熟）

场景2：人形机器人（最热）

场景3：工业制造

场景4：游戏/内容创作

10.4 融资与政策

十一、挑战与开放问题

11.1 技术挑战

🔴 挑战1：Sim-to-Real Gap（仿真到现实鸿沟）

🔴 挑战2：长时一致性（Long-horizon Consistency）

🔴 挑战3：计算效率

🟡 挑战4：多模态融合

11.2 理论挑战

🟠 挑战5：符号接地问题（Symbol Grounding Problem）

🟠 挑战6：世界模型的评估难题

11.3 安全与伦理挑战

十二、参考文献

核心论文（必读）

WM × VLA 融合论文精选

综述与白皮书

附录

A. 关键术语表