世界模型的競爭已經不在生成，在交互

世界模型的下一步競爭不在生成更逼真的影像，而在於能否真正理解因果關係、支持多模態交互、同時保持計算效率。

03 4月 2026 • 4 min read

看起來像影像生成，實際上是物理模擬

Moonlake 這個研究方向有意思的地方，不在於它又多生成了幾幀視頻。重點是 Chris Manning 他們問了一個更基礎的問題：如果我們要讓 AI 真正理解世界如何運作，為什麼還在單純地預測下一幀影像？

傳統的視頻預測模型就是一個迴歸問題——給定前面的幾幀，預測後面會長什麼樣。但這忽略了一個根本性的東西：世界模型應該能回應。你推一個物體，它應該按照物理規則動；你改變光線，場景應該跟著變。單向的幀預測做不到這個。

Moonlake 的核心洞察是，世界模型需要三樣東西才有用：

現在的擴散模型在生成逼真影像上已經夠好了。但好歸好，它們本質上是在學習數據的統計分布，不是因果模型。你問它「如果我把這個球往左推，會發生什麼」，它給不出靠譜答案，因為它從沒學過因果推理。

要做交互式世界模型，你得面對幾個硬問題：

首先是多模態對齐。文字、影像、物理參數不是三個獨立的編碼空間，它們要在同一個因果圖裡相互作用。這不像 CLIP 那樣做對比學習就行，要真的模擬物理。

其次是效率。完整的物理模擬很貴。Moonlake 強調「efficient」不是隨便說的。如果你要在邊緣設備或實時應用上跑世界模型，不能每次都做完整的牛頓力學計算。得找到一個中間地帶——足夠精確但不會吃掉所有算力。

第三是評估指標的重新定義。你沒辦法用 SSIM 或 FID 來衡量一個世界模型好不好。因為即使生成的像素和真實有偏差，只要物理邏輯對了，就是有用的模型。反過來，生成像素完美但物理亂來的模型其實沒價值。

如果你在做機器人、自動駕駛、或任何需要預測環境變化的系統，這個轉向很關鍵。

以前的思路是：用大量真實世界數據訓練視頻預測模型，然後用它來規劃。問題是，真實世界數據永遠不夠覆蓋所有邊界情況。

新思路是：學一個能理解因果關係的模型。這樣即使沒見過某個特定場景，只要物理規則相同，模型也能泛化。而且你可以用模擬數據訓練，再轉移到真實世界——前提是因果結構對了。

這也解釋了為什麼 Moonlake 強調「interactive」。一個能接受實時反饋、根據新觀測更新預測的世界模型，比單次生成整個軌跡的模型更有用。特別是在有不確定性的環境裡。

坦白說，這個方向現在還在早期。Moonlake 的論文可能展示了不錯的結果，但「多模態、交互、高效」三個條件同時滿足，在規模上還沒有成熟的方案。

特別是效率部分。現在的做法要麼是完整物理模擬（慢），要麼是純神經網絡預測（快但不夠準確）。找到兩者的平衡點需要更多實驗。

但方向是對的。視頻預測的時代在結束，因果世界模型的時代在開始。區別不只是技術升級，是問題定義的根本轉變。

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。