mk-brain

語言模型之後，Agent 的下一步：打造可操作的世界知識模型

大型語言模型雖然語言流暢，但在理解物理世界與常識時常顯得笨拙，導致 AI Agent 在規劃任務時頻頻出錯。最近一篇研究提出「世界知識模型」的概念，試圖將抽象的知識參數化，讓 Agent 的規劃不再只是機率猜測，而是基於對世界的真實理解。這或許是通往更可靠自主 Agent 的關鍵一步。

江中喬

05 5月 2026 • 6 min read

近來，以大型語言模型（LLM）為核心的 AI Agent 備受矚目，它們在理解指令、生成複雜計畫方面的能力，確實開啟了許多過去難以想像的應用。然而，只要我們將這些 Agent 放到稍微複雜一點的真實世界任務中，其脆弱性便暴露無遺——它們時常產生不合邏輯、違反物理常識的「幻覺」，導致規劃失敗。

這個問題的根源，在於 LLM 的內在缺陷。它們是從龐大文本語料庫中學習語言模式的「語言大師」，卻不是理解物理世界的「常識專家」。模型知道「雞蛋」和「平底鍋」這兩個詞經常一起出現，但它並不真正「理解」雞蛋是易碎的、平底鍋是堅硬的、加熱可以讓蛋從液體變為固體。對 LLM 而言，世界是由詞彙的統計關係構成的，而非由因果與物理法則所支配。

當我們要求一個純 LLM-based Agent 規劃「做一道番茄炒蛋」時，它或許能生成正確的步驟序列。但如果我們追問它為何需要先開火、後倒油，或是為何不能用書本來裝炒好的蛋，它很可能會陷入困境。這種對世界運作方式的認知缺失，正是目前 Agent 技術從「看似聰明」走向「真正可靠」的最大瓶頸。

語言 Agent 的規劃困境：機率的暴政

當前的 Agent 規劃方式，很大程度上依賴 LLM 的生成能力，也就是基於輸入的提示（prompt）來預測最有可能的下一步。這種方法本質上是一種「機率猜測」，而非基於對世界狀態的深刻理解。Agent 的行動選擇，取決於訓練數據中哪種文字序列出現頻率最高，而不是哪個行動在當前物理環境下最合理。

這種模式會導致兩種常見的失敗：

規劃幻覺（Planning Hallucination）： Agent 產生在物理上或邏輯上不可行的步驟。例如，在一個模擬環境中，它可能會嘗試「穿牆而過」去拿取物品，只因為在某些科幻小說的訓練文本中，「穿牆」是一個可能的動詞。
盲目探索（Inefficient Exploration）： 由於缺乏對環境的先驗知識，Agent 只能透過大量的試錯來學習。它可能會反覆嘗試無效的動作，例如不斷用鑰匙去開一扇沒有鎖的門，浪費大量運算資源與時間。

要克服這個困境，我們需要的就不再只是更流暢的語言能力，而是一個能讓 Agent 理解並操作「世界如何運作」的框架。這正是最近一篇論文《Agent Planning with World Knowledge Model》試圖解決的核心問題。

世界知識模型（WKM）：一座通往現實的橋樑

這篇研究提出了一個名為「世界知識模型」（World Knowledge Model, WKM）的概念，其目標是將關於物理世界的抽象知識參數化，作為一個獨立於 LLM 的模組，專門用來指導 Agent 的規劃過程。

WKM 的設計靈感來自人類的心理模型。我們在做決策時，腦中會浮現一個關於世界的簡化模型，包含物體的屬性（杯子是中空的）、物體間的關係（鑰匙可以開鎖）、以及行動可能帶來的後果（鬆手東西會掉落）。WKM 試圖用機器可讀的方式來模擬這個過程。

它主要整合了兩種不同層次的知識：

全局知識（Global Knowledge）： 這是從專家知識庫或人類常識中提煉出的、放諸四海皆準的通用規則。例如：「金屬可以導電」、「液體會從高處流向低處」、「切割需要使用鋒利的工具」。這些知識是高度抽象且不依賴特定情境的。
局部知識（Local Knowledge）： 這是針對特定環境或任務，透過觀察與互動（論文中稱為「採樣軌跡」）學習到的具體知識。例如：「在這個廚房裡，鹽罐放在爐子的右邊」、「這把特定的刀比較鈍，不適合切冷凍肉」。這些知識讓 Agent 能適應當下的具體狀況。

透過結合這兩種知識，WKM 就像是為 Agent 配備了一位隨身的「物理與常識顧問」。

從機率猜測到知識導向：規劃的質變

有了 WKM 的輔助，Agent 的規劃流程發生了根本性的轉變。它不再是單純由 LLM 進行開放式的文本生成，而是一個「生成-驗證-修正」的循環。

整個決策過程的重點，從「接下來最可能說什麼？」轉變為「根據世界運作的法則，下一步最應該做什麼？」

當 LLM 提出一個潛在的行動方案時，它會先提交給 WKM 進行可行性評估。WKM 會根據其內部的知識圖譜來判斷：這個行動的前提條件是否滿足？它是否違反了任何物理定律？執行後會對世界狀態產生什麼可預期的改變？

舉例來說，如果 LLM 提議「用手拿起滾燙的鐵鍋」，WKM 的全局知識會標記出「高溫物體會造成灼傷」，從而否決這個選項。如果 Agent 打算「去冰箱拿牛奶」，WKM 的局部知識可以幫助它確認「冰箱裡確實有牛奶」，避免了無效的行動。

實驗結果證明，這種知識導向的規劃方式，能顯著減少 Agent 的規劃錯誤與不必要的探索，提升在複雜任務中的成功率。

這不僅僅是技術上的改良，更是一種典範轉移。它意味著下一代 Agent 的競爭力，將不再只取決於語言模型的規模或流暢度，而更多地取決於它們所搭載的世界知識模型的深度、廣度與實用性。

語言模型為我們打造了通往通用人工智慧的橋樑，但要讓 Agent 穩健地走過這座橋、進入並改造我們的物理世界，它們需要的，是一個堅實的世界知識地基。

語言模型之後，Agent 的下一步：打造可操作的世界知識模型

江中喬

語言 Agent 的規劃困境：機率的暴政

世界知識模型（WKM）：一座通往現實的橋樑

從機率猜測到知識導向：規劃的質變

延伸閱讀

Sign up for more like this.