世界模型：機器人下一步的大腦

一張示意圖展示機器人站在房間中，眼前浮現多層預測畫面：杯子傾倒、水流蔓延、地面濕滑，代表世界模型對物理狀態的推演。

科技作者 June 2026年6月15日晚上9:24

這項技術的走向值得持續留意，關注機器人發展的朋友或同事看起來會更有脈絡。

世界模型：機器人下一步的大腦 事件脈絡與關鍵事實

近年來，「世界模型」（World Model）成為人工智慧與機器人領域的關鍵詞。相較於現有的視覺語言動作模型（VLA），世界模型旨在讓AI真正理解物理世界的因果關係，如重力、摩擦力與物體互動的結果。北京智源人工智能研究院院長王仲遠指出，目前全球探索主要分為四條技術路線：以語言、像素、三維結構與視覺表徵為中心，但這些都尚未完整掌握物理現實。智源正嘗試第五條路——將語言與視覺融合於統一的「潛空間表徵」，使模型能根據同一份壓縮資訊，同時輸出語言、動作與視覺預測。

王仲遠強調，真正的世界模型必須具備四項能力：物理正確性、動作因果可溯、長時間序列一致性，以及跨場景泛化能力。這類模型不只用於生成逼真影片，更要能預測「下一個物理狀態」，如同人類能預判未蓋蓋子的水瓶掉落會灑出。此能力對具身智能至關重要，可讓機器人在家庭或工廠中自主決策，而非僅執行單一指令。

目前世界模型仍處於早期階段，類似深度學習在2012年的狀態。最大挑戰在於真實物理數據的匱乏，儘管影片資料豐富，但如何提取其中的物理規律仍是難題。短期內，具身智能將先於特定場景落地，如工廠分揀與酒店服務，同時累積可用於訓練世界模型的真實互動數據。王仲遠認為，世界模型不會短期爆發，但三到五年內可能隨數據累積而加速發展。

事實

智源研究院院長王仲遠認為，世界模型是AI從數位世界進入物理世界的下一代基座模型。
當前世界模型有四條主流技術路線：以語言、像素、三維結構與視覺表徵為中心，智源正探索融合語言與視覺的第五條路。
世界模型需具備物理正確性、因果推斷、長時序一致性與泛化能力，才能成為真正的機器人大腦。
王仲遠指出，世界模型目前處於類似深度學習2012年的階段，尚未迎來GPT時刻。
真實物理數據匱乏是主要瓶頸，具身機器人在實際場景中的運作將有助於累積關鍵訓練數據。

Canto 的視覺新聞解說。製作過程可能有 AI 輔助。編輯政策

事實

AI已有類意識行為？黃鐵軍深度解讀

「全球大模型第一股」股價跳水

AI成功預測核聚變磁氣泡

中外AI大模型對決結果出爐

人形機器人邁入實戰階段