mk-brain

語言不只是指令：它如何成為預測世界的通用訊號？

我們習慣將語言視為對 AI 下達指令的介面，但若將其視為一種描述與預測世界狀態的壓縮訊號，將為多模態學習與世界模型的發展開啟全新視角。這種觀點的轉變，讓模型能從純文字中學習世界如何運作，並將這種知識無縫轉移到理解視覺與行為的複雜任務中。

江中喬

31 5月 2026 • 6 min read

我們習慣將語言視為對 AI 下達指令的介面，但這種觀點可能限制了其潛力。若將語言重新定義為預測世界狀態與行為的「壓縮訊號」，將開啟全新可能。當模型學會預測影像伴隨的文字時，它不僅學習語言，更深入理解物理世界運作規則。這種思維轉變，讓 Google DeepMind 的 Dynalang 等世界模型能統一多模態學習目標，從純文字預訓練中獲取世界知識，並將其應用於視覺理解與規劃任務，對建立通用且適應性強的 AI 系統至關重要。

語言，真的只是人機介面嗎？

在過去幾年的多模態 AI 研究中，主流方法通常將語言和視覺視為兩種需要「對齊」的獨立資訊流。例如，CLIP 模型學習將圖像與其文字描述建立關聯，而像 Flamingo 這樣的大型多模態模型則設計了複雜的跨注意力機制，將視覺特徵「注入」到預訓練好的語言模型中。這些方法雖然強大，但它們本質上仍將語言視為一種高階的語義標籤或指令，用來查詢或控制視覺內容。

然而，這種觀點忽略了語言更深層的本質：它是一種對世界觀察的抽象與編碼。當我們說「球滾下山坡」時，這段文字不僅是一個描述，它還蘊含了對物理動態的預測——球的位置會改變、速度會增加、最終會停在某處。語言本身就是一種關於世界如何運作的「世界模型」的精煉表達。如果 AI 能夠理解這一點，那麼學習語言就不再只是符號操作，而是理解世界動態的一條捷徑。

Dynalang 如何將語言與視覺統一在「預測」的框架下？

Google DeepMind 的論文《Learning to Model the World with Language》提出的 Dynalang 模型，正是這個觀點轉變的具體實踐。它的核心設計非常優雅：將世界的一切都視為一個可以預測的序列。無論是圖像的像素區塊、描述性文字的詞元（token），還是 Agent 採取的行動指令，在 Dynalang 眼中都一視同仁，都是序列中的一個個元素。

Dynalang 採用一個約 2.8 億參數的 Transformer 架構，其唯一的學習目標就是「預測序列中的下一個 token」。想像一下，當模型看到一段影片，畫面是一個人走向門，接著模型看到文字「這個人打開了門」。為了準確預測「打開了門」這幾個字，模型必須理解「人走向門」這個視覺事件與「開門」這個概念之間的因果與時序關聯。反之，如果模型讀到「打開門」的指令，它也應該能預測接下來的視覺畫面會是門被開啟的動態影像。

在這個統一的預測框架下，語言和像素不再是需要刻意對齊的兩種模態，而是描述同一個世界動態的兩種不同訊號。模型學會的不是「翻譯」視覺到語言，而是學會了那個驅動視覺與語言變化的、更底層的世界運作模型。

為什麼這種統一視角如此重要？

將語言視為預測訊號，而不僅僅是指令，帶來了幾個關鍵的實務優勢，這也是此研究方向潛力巨大的原因：

利用純文字資料進行世界模型預訓練

這點至關重要。Dynalang 能像訓練標準 LLM 一樣，先在龐大的純文字語料庫（如書籍、維基百科）上進行預訓練。在此過程中，它已從文字中學習了大量關於世界運作的因果、物理與社會常識。這些知識可無縫遷移至後續的多模態學習任務，大幅提升資料效率與模型的通用知識基礎。

簡化學習目標

這種方法不再需要複雜的對比學習損失（contrastive loss）或跨模態融合模組。整個模型的學習目標變得單一：最大化預測下一個 token 的可能性。這種簡潔性不僅讓模型訓練更穩定，也更容易擴展。正如 DreamerV3 等先前研究所示，基於序列預測的世界模型本身就具備強大的表徵學習能力。

實現零樣本規劃（Zero-shot Planning）

由於模型能根據文字「想像」未來的視覺畫面，因此可以進行基於目標的規劃。例如，給予模型一個文字目標「找到蘋果」，它便能透過內部「模擬」不同行動可能產生的未來影像與文字序列，進而找出達成目標的最佳路徑，且無需針對特定任務進行微調。

在實際測試中，Dynalang 的表現也驗證了這個方法的有效性。在 Crafter 這個包含 22 項生存任務的基準測試中，經過純文字預訓練的 Dynalang 展現了卓越的學習效率與最終表現。此外，在來自史丹佛大學的 HomeRobot 真實世界資料集上（資料來源於掃描 15 個真實家庭的物理環境），它也能夠預測機器人在家中移動時的視覺變化，顯示了其潛力不僅限於模擬環境。

總結來說，將語言從「指令介面」重新詮釋為「預測世界的壓縮訊號」，不僅是一個哲學上的轉變，更為建立更通用、更高效的 AI 系統提供了一條清晰的技術路徑。這讓我們離 Yann LeCun 所倡導的、能透過觀察與互動來學習世界如何運作的自主智慧更近了一步。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。