
李飞飞将世界模型拆解为三类能力,也给关注空间智能进展的朋友一个可以一起看的背景。

李飞飞定义「世界模型」新框架 事件脉络与关键事实
斯坦福大学AI科学家李飞飞于2026年6月4日发表文章,重新定义「世界模型」这一在AI领域被广泛使用却含义模糊的概念。她指出,当前被称为世界模型的系统实际上可分为三类:渲染器、模拟器和规划器,分别对应生成视觉画面、构建物理结构和输出行动指令的功能。这一分类基于部分可观测马尔可夫决策过程(POMDP)的经典框架,强调智能体在环境中通过感知与行动形成闭环的逻辑基础。
李飞飞强调,尽管渲染器在商业应用中最为成熟,如谷歌Genie 3和WorldLabs的RTFM系统,但其输出仅限于视觉合理性,并不保证物理准确性。相比之下,模拟器致力于构建几何、物理和动力学层面高度保真的世界表征,是机器人训练、自动驾驶测试和数字孪生等关键应用的技术支柱。然而,模拟器面临数据稀缺、模拟与现实差距、计算成本高等严峻挑战。
规划器则专注于在给定观测和目标的情况下决定下一步行动,是机器人自主决策的核心。尽管该方向受到大量资本关注,但目前仍局限于实验室环境。李飞飞创办的WorldLabs推出的Marble系统,首次将视觉渲染与物理模拟整合于同一模型,标志着向统一世界模型迈出第一步。她认为,随着三类能力的边界逐渐模糊,未来可能出现一个能自由切换输出模态的通用大模型,彻底改变机器与物理世界的交互方式。
事实
- 2026年6月4日,斯坦福大学AI科学家李飞飞发表文章,重新定义「世界模型」概念。
- 她将当前世界模型系统分为三类:渲染器、模拟器和规划器。
- 渲染器输出视觉画面,核心是逼真度,如谷歌Genie 3和WorldLabs的RTFM。
- 模拟器输出物理结构,服务于建筑师、机器人和自动驾驶等高保真需求领域。
- 规划器输出行动指令,是机器人在非结构化环境中自主决策的关键。
- 李飞飞创办的WorldLabs推出Marble系统,首次整合视觉渲染与物理模拟于同一模型。
Canto 的可视化新闻解读。制作过程可能有 AI 辅助。 编辑政策





