語言模型之後,Agent 的下一步:打造可操作的世界知識模型

大型語言模型雖然語言流暢,但在理解物理世界與常識時常顯得笨拙,導致 AI Agent 在規劃任務時頻頻出錯。最近一篇研究提出「世界知識模型」的概念,試圖將抽象的知識參數化,讓 Agent 的規劃不再只是機率猜測,而是基於對世界的真實理解。這或許是通往更可靠自主 Agent 的關鍵一步。

語言模型之後,Agent 的下一步:打造可操作的世界知識模型

近來,以大型語言模型(LLM)為核心的 AI Agent 備受矚目,它們在理解指令、生成複雜計畫方面的能力,確實開啟了許多過去難以想像的應用。然而,只要我們將這些 Agent 放到稍微複雜一點的真實世界任務中,其脆弱性便暴露無遺——它們時常產生不合邏輯、違反物理常識的「幻覺」,導致規劃失敗。

這個問題的根源,在於 LLM 的內在缺陷。它們是從龐大文本語料庫中學習語言模式的「語言大師」,卻不是理解物理世界的「常識專家」。模型知道「雞蛋」和「平底鍋」這兩個詞經常一起出現,但它並不真正「理解」雞蛋是易碎的、平底鍋是堅硬的、加熱可以讓蛋從液體變為固體。對 LLM 而言,世界是由詞彙的統計關係構成的,而非由因果與物理法則所支配。

當我們要求一個純 LLM-based Agent 規劃「做一道番茄炒蛋」時,它或許能生成正確的步驟序列。但如果我們追問它為何需要先開火、後倒油,或是為何不能用書本來裝炒好的蛋,它很可能會陷入困境。這種對世界運作方式的認知缺失,正是目前 Agent 技術從「看似聰明」走向「真正可靠」的最大瓶頸。

語言 Agent 的規劃困境:機率的暴政

當前的 Agent 規劃方式,很大程度上依賴 LLM 的生成能力,也就是基於輸入的提示(prompt)來預測最有可能的下一步。這種方法本質上是一種「機率猜測」,而非基於對世界狀態的深刻理解。Agent 的行動選擇,取決於訓練數據中哪種文字序列出現頻率最高,而不是哪個行動在當前物理環境下最合理。

這種模式會導致兩種常見的失敗:

  • 規劃幻覺(Planning Hallucination): Agent 產生在物理上或邏輯上不可行的步驟。例如,在一個模擬環境中,它可能會嘗試「穿牆而過」去拿取物品,只因為在某些科幻小說的訓練文本中,「穿牆」是一個可能的動詞。
  • 盲目探索(Inefficient Exploration): 由於缺乏對環境的先驗知識,Agent 只能透過大量的試錯來學習。它可能會反覆嘗試無效的動作,例如不斷用鑰匙去開一扇沒有鎖的門,浪費大量運算資源與時間。

要克服這個困境,我們需要的就不再只是更流暢的語言能力,而是一個能讓 Agent 理解並操作「世界如何運作」的框架。這正是最近一篇論文《Agent Planning with World Knowledge Model》試圖解決的核心問題。

世界知識模型(WKM):一座通往現實的橋樑

這篇研究提出了一個名為「世界知識模型」(World Knowledge Model, WKM)的概念,其目標是將關於物理世界的抽象知識參數化,作為一個獨立於 LLM 的模組,專門用來指導 Agent 的規劃過程。

WKM 的設計靈感來自人類的心理模型。我們在做決策時,腦中會浮現一個關於世界的簡化模型,包含物體的屬性(杯子是中空的)、物體間的關係(鑰匙可以開鎖)、以及行動可能帶來的後果(鬆手東西會掉落)。WKM 試圖用機器可讀的方式來模擬這個過程。

它主要整合了兩種不同層次的知識:

  • 全局知識(Global Knowledge): 這是從專家知識庫或人類常識中提煉出的、放諸四海皆準的通用規則。例如:「金屬可以導電」、「液體會從高處流向低處」、「切割需要使用鋒利的工具」。這些知識是高度抽象且不依賴特定情境的。
  • 局部知識(Local Knowledge): 這是針對特定環境或任務,透過觀察與互動(論文中稱為「採樣軌跡」)學習到的具體知識。例如:「在這個廚房裡,鹽罐放在爐子的右邊」、「這把特定的刀比較鈍,不適合切冷凍肉」。這些知識讓 Agent 能適應當下的具體狀況。

透過結合這兩種知識,WKM 就像是為 Agent 配備了一位隨身的「物理與常識顧問」。

從機率猜測到知識導向:規劃的質變

有了 WKM 的輔助,Agent 的規劃流程發生了根本性的轉變。它不再是單純由 LLM 進行開放式的文本生成,而是一個「生成-驗證-修正」的循環。

整個決策過程的重點,從「接下來最可能說什麼?」轉變為「根據世界運作的法則,下一步最應該做什麼?」

當 LLM 提出一個潛在的行動方案時,它會先提交給 WKM 進行可行性評估。WKM 會根據其內部的知識圖譜來判斷:這個行動的前提條件是否滿足?它是否違反了任何物理定律?執行後會對世界狀態產生什麼可預期的改變?

舉例來說,如果 LLM 提議「用手拿起滾燙的鐵鍋」,WKM 的全局知識會標記出「高溫物體會造成灼傷」,從而否決這個選項。如果 Agent 打算「去冰箱拿牛奶」,WKM 的局部知識可以幫助它確認「冰箱裡確實有牛奶」,避免了無效的行動。

實驗結果證明,這種知識導向的規劃方式,能顯著減少 Agent 的規劃錯誤與不必要的探索,提升在複雜任務中的成功率。

這不僅僅是技術上的改良,更是一種典範轉移。它意味著下一代 Agent 的競爭力,將不再只取決於語言模型的規模或流暢度,而更多地取決於它們所搭載的世界知識模型的深度、廣度與實用性。

語言模型為我們打造了通往通用人工智慧的橋樑,但要讓 Agent 穩健地走過這座橋、進入並改造我們的物理世界,它們需要的,是一個堅實的世界知識地基。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。