一張示意圖展示機器人站在房間中,眼前浮現多層預測畫面:杯子傾倒、水流蔓延、地面濕滑,代表世界模型對物理狀態的推演。
一張示意圖展示機器人站在房間中,眼前浮現多層預測畫面:杯子傾倒、水流蔓延、地面濕滑,代表世界模型對物理狀態的推演。

這項技術的走向值得持續留意,關注機器人發展的朋友或同事看起來會更有脈絡。

世界模型:機器人下一步的大腦 事件脈絡與關鍵事實

近年來,「世界模型」(World Model)成為人工智慧與機器人領域的關鍵詞。相較於現有的視覺語言動作模型(VLA),世界模型旨在讓AI真正理解物理世界的因果關係,如重力、摩擦力與物體互動的結果。北京智源人工智能研究院院長王仲遠指出,目前全球探索主要分為四條技術路線:以語言、像素、三維結構與視覺表徵為中心,但這些都尚未完整掌握物理現實。智源正嘗試第五條路——將語言與視覺融合於統一的「潛空間表徵」,使模型能根據同一份壓縮資訊,同時輸出語言、動作與視覺預測。

王仲遠強調,真正的世界模型必須具備四項能力:物理正確性、動作因果可溯、長時間序列一致性,以及跨場景泛化能力。這類模型不只用於生成逼真影片,更要能預測「下一個物理狀態」,如同人類能預判未蓋蓋子的水瓶掉落會灑出。此能力對具身智能至關重要,可讓機器人在家庭或工廠中自主決策,而非僅執行單一指令。

目前世界模型仍處於早期階段,類似深度學習在2012年的狀態。最大挑戰在於真實物理數據的匱乏,儘管影片資料豐富,但如何提取其中的物理規律仍是難題。短期內,具身智能將先於特定場景落地,如工廠分揀與酒店服務,同時累積可用於訓練世界模型的真實互動數據。王仲遠認為,世界模型不會短期爆發,但三到五年內可能隨數據累積而加速發展。

事實

  • 智源研究院院長王仲遠認為,世界模型是AI從數位世界進入物理世界的下一代基座模型。
  • 當前世界模型有四條主流技術路線:以語言、像素、三維結構與視覺表徵為中心,智源正探索融合語言與視覺的第五條路。
  • 世界模型需具備物理正確性、因果推斷、長時序一致性與泛化能力,才能成為真正的機器人大腦。
  • 王仲遠指出,世界模型目前處於類似深度學習2012年的階段,尚未迎來GPT時刻。
  • 真實物理數據匱乏是主要瓶頸,具身機器人在實際場景中的運作將有助於累積關鍵訓練數據。

Canto 的視覺新聞解說。製作過程可能有 AI 輔助。 編輯政策