李飞飞定义「世界模型」新框架

AI生成图像：一位女性科学家站在由代码和三维结构构成的虚拟世界前，背景是旋转的地球与数据流，象征AI对物理世界的理解。

科学作者 June 2026年6月5日 13:24

李飞飞将世界模型拆解为三类能力，也给关注空间智能进展的朋友一个可以一起看的背景。

李飞飞定义「世界模型」新框架 事件脉络与关键事实

斯坦福大学AI科学家李飞飞于2026年6月4日发表文章，重新定义「世界模型」这一在AI领域被广泛使用却含义模糊的概念。她指出，当前被称为世界模型的系统实际上可分为三类：渲染器、模拟器和规划器，分别对应生成视觉画面、构建物理结构和输出行动指令的功能。这一分类基于部分可观测马尔可夫决策过程（POMDP）的经典框架，强调智能体在环境中通过感知与行动形成闭环的逻辑基础。

李飞飞强调，尽管渲染器在商业应用中最为成熟，如谷歌Genie 3和WorldLabs的RTFM系统，但其输出仅限于视觉合理性，并不保证物理准确性。相比之下，模拟器致力于构建几何、物理和动力学层面高度保真的世界表征，是机器人训练、自动驾驶测试和数字孪生等关键应用的技术支柱。然而，模拟器面临数据稀缺、模拟与现实差距、计算成本高等严峻挑战。

规划器则专注于在给定观测和目标的情况下决定下一步行动，是机器人自主决策的核心。尽管该方向受到大量资本关注，但目前仍局限于实验室环境。李飞飞创办的WorldLabs推出的Marble系统，首次将视觉渲染与物理模拟整合于同一模型，标志着向统一世界模型迈出第一步。她认为，随着三类能力的边界逐渐模糊，未来可能出现一个能自由切换输出模态的通用大模型，彻底改变机器与物理世界的交互方式。

事实

2026年6月4日，斯坦福大学AI科学家李飞飞发表文章，重新定义「世界模型」概念。
她将当前世界模型系统分为三类：渲染器、模拟器和规划器。
渲染器输出视觉画面，核心是逼真度，如谷歌Genie 3和WorldLabs的RTFM。
模拟器输出物理结构，服务于建筑师、机器人和自动驾驶等高保真需求领域。
规划器输出行动指令，是机器人在非结构化环境中自主决策的关键。
李飞飞创办的WorldLabs推出Marble系统，首次整合视觉渲染与物理模拟于同一模型。

Canto 的可视化新闻解读。制作过程可能有 AI 辅助。编辑政策

事实

智元GE 2.0登顶世界模型榜单

AI开始接管科研中最苦的活

谷歌发布全能AI模型Gemini Omni

何恺明首秀语言模型：连续扩散新路线

中国机器人模型登顶全球第一