語言不只是指令:它如何成為預測世界的通用訊號?

我們習慣將語言視為對 AI 下達指令的介面,但若將其視為一種描述與預測世界狀態的壓縮訊號,將為多模態學習與世界模型的發展開啟全新視角。這種觀點的轉變,讓模型能從純文字中學習世界如何運作,並將這種知識無縫轉移到理解視覺與行為的複雜任務中。

語言不只是指令:它如何成為預測世界的通用訊號?

我們習慣將語言視為對 AI 下達指令的介面,但這種觀點可能限制了其潛力。若將語言重新定義為預測世界狀態與行為的「壓縮訊號」,將開啟全新可能。當模型學會預測影像伴隨的文字時,它不僅學習語言,更深入理解物理世界運作規則。這種思維轉變,讓 Google DeepMind 的 Dynalang 等世界模型能統一多模態學習目標,從純文字預訓練中獲取世界知識,並將其應用於視覺理解與規劃任務,對建立通用且適應性強的 AI 系統至關重要。

語言,真的只是人機介面嗎?

在過去幾年的多模態 AI 研究中,主流方法通常將語言和視覺視為兩種需要「對齊」的獨立資訊流。例如,CLIP 模型學習將圖像與其文字描述建立關聯,而像 Flamingo 這樣的大型多模態模型則設計了複雜的跨注意力機制,將視覺特徵「注入」到預訓練好的語言模型中。這些方法雖然強大,但它們本質上仍將語言視為一種高階的語義標籤或指令,用來查詢或控制視覺內容。

然而,這種觀點忽略了語言更深層的本質:它是一種對世界觀察的抽象與編碼。當我們說「球滾下山坡」時,這段文字不僅是一個描述,它還蘊含了對物理動態的預測——球的位置會改變、速度會增加、最終會停在某處。語言本身就是一種關於世界如何運作的「世界模型」的精煉表達。如果 AI 能夠理解這一點,那麼學習語言就不再只是符號操作,而是理解世界動態的一條捷徑。

Dynalang 如何將語言與視覺統一在「預測」的框架下?

Google DeepMind 的論文《Learning to Model the World with Language》提出的 Dynalang 模型,正是這個觀點轉變的具體實踐。它的核心設計非常優雅:將世界的一切都視為一個可以預測的序列。無論是圖像的像素區塊、描述性文字的詞元(token),還是 Agent 採取的行動指令,在 Dynalang 眼中都一視同仁,都是序列中的一個個元素。

Dynalang 採用一個約 2.8 億參數的 Transformer 架構,其唯一的學習目標就是「預測序列中的下一個 token」。想像一下,當模型看到一段影片,畫面是一個人走向門,接著模型看到文字「這個人打開了門」。為了準確預測「打開了門」這幾個字,模型必須理解「人走向門」這個視覺事件與「開門」這個概念之間的因果與時序關聯。反之,如果模型讀到「打開門」的指令,它也應該能預測接下來的視覺畫面會是門被開啟的動態影像。

在這個統一的預測框架下,語言和像素不再是需要刻意對齊的兩種模態,而是描述同一個世界動態的兩種不同訊號。模型學會的不是「翻譯」視覺到語言,而是學會了那個驅動視覺與語言變化的、更底層的世界運作模型。

為什麼這種統一視角如此重要?

將語言視為預測訊號,而不僅僅是指令,帶來了幾個關鍵的實務優勢,這也是此研究方向潛力巨大的原因:

利用純文字資料進行世界模型預訓練

這點至關重要。Dynalang 能像訓練標準 LLM 一樣,先在龐大的純文字語料庫(如書籍、維基百科)上進行預訓練。在此過程中,它已從文字中學習了大量關於世界運作的因果、物理與社會常識。這些知識可無縫遷移至後續的多模態學習任務,大幅提升資料效率與模型的通用知識基礎。

簡化學習目標

這種方法不再需要複雜的對比學習損失(contrastive loss)或跨模態融合模組。整個模型的學習目標變得單一:最大化預測下一個 token 的可能性。這種簡潔性不僅讓模型訓練更穩定,也更容易擴展。正如 DreamerV3 等先前研究所示,基於序列預測的世界模型本身就具備強大的表徵學習能力。

實現零樣本規劃(Zero-shot Planning)

由於模型能根據文字「想像」未來的視覺畫面,因此可以進行基於目標的規劃。例如,給予模型一個文字目標「找到蘋果」,它便能透過內部「模擬」不同行動可能產生的未來影像與文字序列,進而找出達成目標的最佳路徑,且無需針對特定任務進行微調。

在實際測試中,Dynalang 的表現也驗證了這個方法的有效性。在 Crafter 這個包含 22 項生存任務的基準測試中,經過純文字預訓練的 Dynalang 展現了卓越的學習效率與最終表現。此外,在來自史丹佛大學的 HomeRobot 真實世界資料集上(資料來源於掃描 15 個真實家庭的物理環境),它也能夠預測機器人在家中移動時的視覺變化,顯示了其潛力不僅限於模擬環境。

總結來說,將語言從「指令介面」重新詮釋為「預測世界的壓縮訊號」,不僅是一個哲學上的轉變,更為建立更通用、更高效的 AI 系統提供了一條清晰的技術路徑。這讓我們離 Yann LeCun 所倡導的、能透過觀察與互動來學習世界如何運作的自主智慧更近了一步。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。