Meta 研究員揭密 World Model 五大門派：楊立昆、李飛飛押注的 AI 是什麼？

在圖靈獎得主、前 Meta AI 首席科學家 Yann LeCun 創辦的新創 Advanced Machine Intelligence（AMI）近期完成 10.3 億美元超大型種子輪融資後，「World Model（世界模型）」再次成為人工智慧領域的熱門關鍵字。不過，即便 AI 社群頻繁討論 world models，不同研究者所指的概念其實差異極大。

(深度解析：LLM 存在缺陷？為何楊立昆的 AMI 押注 World Model 路線)

Meta AI 研究科學家 Zhuokai Zhao 近日在社群平台發表長文指出，目前 AI 領域所謂的 world model，至少可以分為五種不同技術路線。他認為，這些方法其實並非直接競爭，而是在解決不同層面的問題。

JEPA：壓縮物理理解
Spatial Intelligence：重建 3D 世界
Learned Simulation：在模擬世界訓練 AI
NVIDIA Cosmos：提供基礎設施
Active Inference：提出新的智能理論

他預期他們之間的界線很快就會變得模糊。

Table of Contents

Toggle

路線一：LeCun 的 JEPA，在抽象空間理解世界

Zhao 認為，第一類 world model 是 Joint Embedding Predictive Architecture（JEPA），代表人物正是 Yann LeCun。

JEPA 的核心思想是：AI 不應該嘗試預測每個像素，而應該在抽象表示空間中預測未來。

在真實世界中，很多細節本來就不可預測，例如光線變化、葉子的具體位置、表面紋理。如果模型必須生成所有像素，就會被迫處理大量無意義的細節。

JEPA 的做法是先用編碼器將影像或影片轉換為抽象表示，再在這個表示空間中預測被遮蔽的部分。如此一來，模型可以學到像是：「球會從桌上掉下來」，而不必生成每一幀畫面。

Meta 的 V-JEPA 2 已是目前最具代表性的實驗成果之一。該模型使用 100 萬小時影片資料進行自監督訓練，之後只用 62 小時機器人資料，就足以產生一個支援零樣本規劃的動作條件世界模型。機器人產生候選動作序列，將其輸入世界模型，並選擇預測結果與目標影像最匹配的序列。這種方法適用於訓練過程中從未見過的物體和環境。

這種極高的資料效率，也正是 AMI 押注 JEPA 架構的重要原因。如果你的表徵足夠好，就不需要從頭開始窮舉每個任務。AMI Labs 是 LeCun 將這項技術從研究領域推向應用領域的嘗試。他們首先瞄準醫療保健和機器人領域。但這是一項長期投資，他們的執行長曾公開表示，商業產品可能還需要數年才能問世。

路線二：李飛飛的「空間智慧」

另一條知名路線來自李飛飛創辦的 World Labs。

(AI 教母李飛飛是誰？新創獨角獸 World Labs 融資獲輝達、AMD 支持)

與 JEPA 的「預測未來」不同，李飛飛的核心問題是：「世界在三維空間中長什麼樣？」她提出的概念被稱為 Spatial Intelligence（空間智慧）。這個論點認為，真正的理解需要明確的空間結構：幾何形狀、深度、持久性以及從新的角度重新觀察場景的能力——而不僅僅是時間預測。這與 JEPA 的理念不同：你學習的不是抽象的動力學，而是環境的結構化 3D 表示，你可以直接對其進行操作。

World Labs 的產品 Marble 可以從影像、文字、影片來生成可持續存在的 3D 世界。與傳統影片生成模型不同，Marble 生成的是真正的 3D 場景。可以自由移動視角、可以修改物件、可以輸出 3D 模型。這使它更接近 3D 創作引擎，而不是單純的生成模型。

路線三：DeepMind 的「學習型模擬世界」

第三類 world model 是學習型模擬（Learned Simulation）。

代表研究包括：

DeepMind Genie 3
Dreamer 系列
Runway GWM-1

這類模型試圖建立可互動的模擬世界，讓 AI 在其中學習。

饒舌歌手 Balen Shah 成尼泊爾最年輕總理，Polymarket 精準預測選戰結果

AI 偽造戰爭影像氾濫：伊朗戰事假訊息如何席捲社群媒體

國民黨立委葛如鈞：2026 是台灣比特幣政策轉折點，中國持有 BTC 應成警訊

路線四：NVIDIA 的 Physical AI 基礎設施

第四種 world model 路線並不是直接建立模型，而是打造整個生態系平台。代表公司是 NVIDIA，推出的 Cosmos 平台提供完整基礎設施：

影片資料處理
視覺 tokenizer
模型訓練
部署服務

Cosmos 的世界基礎模型 (World foundation models) 已使用 2000 萬小時真實世界影片訓練，總 token 規模達 9000 兆。

(輝達 Alpamayo 生態系登場：讓 AI 自駕車具推理能力，還能說明決策原因)

NVIDIA 的策略很明確：不一定要做世界模型，而是提供所有人建立世界模型的工具。

路線五：Active Inference（神經科學派）

最後一條路線來自神經科學理論。代表人物是神經科學家 Karl Friston，提出著名的 Free Energy Principle（自由能原理）。與傳統強化學習不同，Active Inference 認為 AI 就像一個不斷嘗試理解世界的生物。它會採取行動，目的是讓自己對環境的預測更準確，減少「事情跟預期不一樣」的情況。

公司 VERSES AI 的 AXIOM 系統採用物件導向模型，每個物體都是獨立實體，系統用貝葉斯推理更新信念，不依賴深度神經網路梯度訓練。這種架構具有可解釋性、組合性、極高資料效率。AXIOM 在 2025 年 4 月發布了商業產品（Genius），AXIOM 基準測試在標準控制任務上與 RL 基線相比具有競爭力，同時使用的數據量卻少幾個數量級。

AI 下一個主戰場：理解世界

Zhao 最後指出，這五種 world model 路線其實並不互相排斥，而是分別解決不同問題：

JEPA：壓縮物理理解
Spatial Intelligence：重建 3D 世界
Learned Simulation：在模擬世界訓練 AI
NVIDIA Cosmos：提供基礎設施
Active Inference：提出新的智能理論

隨著 AI 逐漸走向機器人、自動駕駛與實體 AI（Physical AI），這些技術很可能在未來快速融合。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。