在圖靈獎得主、前 Meta AI 首席科學家 Yann LeCun 創辦的新創 Advanced Machine Intelligence(AMI) 近期完成 10.3 億美元超大型種子輪融資後,「World Model(世界模型)」再次成為人工智慧領域的熱門關鍵字。不過,即便 AI 社群頻繁討論 world models,不同研究者所指的概念其實差異極大。
(深度解析:LLM 存在缺陷?為何楊立昆的 AMI 押注 World Model 路線)
Meta AI 研究科學家 Zhuokai Zhao 近日在社群平台發表長文指出,目前 AI 領域所謂的 world model,至少可以分為五種不同技術路線。他認為,這些方法其實並非直接競爭,而是在解決不同層面的問題。
- JEPA:壓縮物理理解
- Spatial Intelligence:重建 3D 世界
- Learned Simulation:在模擬世界訓練 AI
- NVIDIA Cosmos:提供基礎設施
- Active Inference:提出新的智能理論
他預期他們之間的界線很快就會變得模糊。
Table of Contents
路線一:LeCun 的 JEPA,在抽象空間理解世界
Zhao 認為,第一類 world model 是 Joint Embedding Predictive Architecture(JEPA),代表人物正是 Yann LeCun。
JEPA 的核心思想是:AI 不應該嘗試預測每個像素,而應該在抽象表示空間中預測未來。
在真實世界中,很多細節本來就不可預測,例如光線變化、葉子的具體位置、表面紋理。如果模型必須生成所有像素,就會被迫處理大量無意義的細節。
JEPA 的做法是先用編碼器將影像或影片轉換為抽象表示,再在這個表示空間中預測被遮蔽的部分。如此一來,模型可以學到像是:「球會從桌上掉下來」,而不必生成每一幀畫面。
Meta 的 V-JEPA 2 已是目前最具代表性的實驗成果之一。該模型使用 100 萬小時影片資料進行自監督訓練,之後只用 62 小時機器人資料,就足以產生一個支援零樣本規劃的動作條件世界模型。機器人產生候選動作序列,將其輸入世界模型,並選擇預測結果與目標影像最匹配的序列。這種方法適用於訓練過程中從未見過的物體和環境。
這種極高的資料效率,也正是 AMI 押注 JEPA 架構的重要原因。如果你的表徵足夠好,就不需要從頭開始窮舉每個任務。AMI Labs 是 LeCun 將這項技術從研究領域推向應用領域的嘗試。他們首先瞄準醫療保健和機器人領域。但這是一項長期投資,他們的執行長曾公開表示,商業產品可能還需要數年才能問世。
路線二:李飛飛的「空間智慧」
另一條知名路線來自李飛飛創辦的 World Labs。
(AI 教母李飛飛是誰?新創獨角獸 World Labs 融資獲輝達、AMD 支持)
與 JEPA 的「預測未來」不同,李飛飛的核心問題是:「世界在三維空間中長什麼樣?」她提出的概念被稱為 Spatial Intelligence(空間智慧)。這個論點認為,真正的理解需要明確的空間結構:幾何形狀、深度、持久性以及從新的角度重新觀察場景的能力——而不僅僅是時間預測。這與 JEPA 的理念不同:你學習的不是抽象的動力學,而是環境的結構化 3D 表示,你可以直接對其進行操作。
World Labs 的產品 Marble 可以從影像、文字、影片來生成可持續存在的 3D 世界。與傳統影片生成模型不同,Marble 生成的是真正的 3D 場景。可以自由移動視角、可以修改物件、可以輸出 3D 模型。這使它更接近 3D 創作引擎,而不是單純的生成模型。
路線三:DeepMind 的「學習型模擬世界」
第三類 world model 是學習型模擬(Learned Simulation)。
代表研究包括:
- DeepMind Genie 3
- Dreamer 系列
- Runway GWM-1
這類模型試圖建立可互動的模擬世界,讓 AI 在其中學習。
路線四:NVIDIA 的 Physical AI 基礎設施
第四種 world model 路線並不是直接建立模型,而是打造整個生態系平台。代表公司是 NVIDIA,推出的 Cosmos 平台提供完整基礎設施:
- 影片資料處理
- 視覺 tokenizer
- 模型訓練
- 部署服務
Cosmos 的世界基礎模型 (World foundation models) 已使用 2000 萬小時真實世界影片訓練,總 token 規模達 9000 兆。
(輝達 Alpamayo 生態系登場:讓 AI 自駕車具推理能力,還能說明決策原因)
NVIDIA 的策略很明確:不一定要做世界模型,而是提供所有人建立世界模型的工具。
路線五:Active Inference(神經科學派)
最後一條路線來自神經科學理論。代表人物是神經科學家 Karl Friston,提出著名的 Free Energy Principle(自由能原理)。與傳統強化學習不同,Active Inference 認為 AI 就像一個不斷嘗試理解世界的生物。它會採取行動,目的是讓自己對環境的預測更準確,減少「事情跟預期不一樣」的情況。
公司 VERSES AI 的 AXIOM 系統採用物件導向模型,每個物體都是獨立實體,系統用貝葉斯推理更新信念,不依賴深度神經網路梯度訓練。這種架構具有可解釋性、組合性、極高資料效率。AXIOM 在 2025 年 4 月發布了商業產品(Genius),AXIOM 基準測試在標準控制任務上與 RL 基線相比具有競爭力,同時使用的數據量卻少幾個數量級。
AI 下一個主戰場:理解世界
Zhao 最後指出,這五種 world model 路線其實並不互相排斥,而是分別解決不同問題:
- JEPA:壓縮物理理解
- Spatial Intelligence:重建 3D 世界
- Learned Simulation:在模擬世界訓練 AI
- NVIDIA Cosmos:提供基礎設施
- Active Inference:提出新的智能理論
隨著 AI 逐漸走向機器人、自動駕駛與實體 AI(Physical AI),這些技術很可能在未來快速融合。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。


















