Agent 的下一步:讓記憶從外掛規則,走向內生策略

目前 AI Agent 的記憶管理過度依賴生硬的外部規則,這限制了它們的成長潛力。當我們將記憶操作視為一種 Agent 可自主學習的「工具」,並透過強化學習讓它自行演化出最佳策略時,Agent 才可能真正成熟。這不只是一個技術升級,更是重新定義了記憶在認知架構中的核心地位。

Agent 的下一步:讓記憶從外掛規則,走向內生策略

當前我們在建構 AI Agent 時,大多將「記憶」視為一個待解決的工程問題,試圖用外部的啟發式規則(heuristics)來修補。然而,我認為這條路徑正逐漸成為 Agent 發展的瓶頸。真正能讓 Agent 邁向成熟的關鍵,在於將記憶管理從一套固定的外掛程式,轉變為一種內生的、可學習的策略。當 Agent 能根據任務需求,動態學習並優化自身的記憶存取模式時,我們才算真正觸及了自主智慧的核心。這不僅是技術架構的演進,更是對 Agent 認知模型的一次根本性重塑。

為什麼當前的 Agent 記憶架構是一條死胡同?

目前主流的 Agent 記憶系統,無論是短期工作記憶(in-context learning)還是長期知識庫,都嚴重依賴一套由人類工程師預先設定的規則。例如,我們廣泛使用的檢索增強生成(RAG),其核心是透過向量相似度來決定「該回憶什麼」。其他常見的策略,則包括優先記住最近發生的事(新近度 Recency)、最常出現的資訊(頻率 Frequency),以及透過 embedding 相似度計算與當前任務最相關的記憶(關聯性 Relevance)。

這些方法在特定場景下確實有效,但它們的根本缺陷在於「一體適用」與「靜態不變」。這意味著,無論 Agent 面臨何種任務,其記憶策略都無法彈性調整。

試想,一個正在進行多步驟程式碼除錯的 Agent,與一個正在撰寫長篇小說的 Agent,它們所需要的記憶策略截然不同。前者可能需要精確、高頻率地回溯錯誤堆疊,後者則可能需要模糊、跳躍式地聯想遠久的靈感。然而,基於固定規則的記憶系統無法適應這種動態變化,導致 Agent 在複雜、長時序的任務中表現得像個「金魚腦」,正如一些研究指出的,模型在長文中會遺忘中間部分的資訊

讓 Agent 不只「擁有」記憶,而是「學會」如何記憶,這才是關鍵的範式轉移。

Agentic Memory:記憶管理如何成為 Agent 的內生技能?

最近一篇名為 《Agentic Memory》 的研究,提出了一個極具啟發性的框架 AgeMem,直指問題核心。它的觀點很簡單:與其由外部系統決定記憶內容,不如將記憶操作(例如讀取、寫入、更新)本身視為 Agent 可以使用的「工具」。

就像 Agent 可以學習何時該使用計算機、何時該呼叫搜尋引擎一樣,它也應該能學習何時該從長期記憶中提取資訊、何時該將當前對話存為永久筆記,又或者何時該遺忘無關的細節。在這個框架下,記憶管理不再是一個被動的後台程式,而是 Agent 主動策略的一部分。

LLM 本身將負責決策,自主管理其統一的長短期記憶池。這讓記憶系統從一個靜態的外部資料庫,轉變為 Agent 認知迴路中一個動態、活躍的組成部分,類似於 MemGPT 試圖解決的方向,但 AgeMem 更強調策略的自主學習。

如何教導 Agent 形成自己的記憶策略?

將記憶操作工具化後,下一個問題便是:如何讓 Agent 學會聰明地使用這些工具?答案是強化學習(Reinforcement Learning, RL)。透過 RL,Agent 可以在與環境的不斷互動中,學習哪種記憶操作序列能夠最大化任務成功的最終獎勵。

然而,這也帶來了 RL 的經典難題:稀疏獎勵(sparse rewards)。一次成功的記憶存取,其正面效益可能要到數十甚至數百步之後才能體現,這讓學習過程變得極其困難。為了解決這個問題,《Agentic Memory》 的作者設計了一套精巧的三階段訓練流程:

  1. 專家演示學習: 首先,讓 Agent 模仿人類專家或高品質的示範軌跡,學習基本的記憶操作模式。
  2. 離線策略優化: 接著,利用收集到的大量數據進行離線 RL 訓練,在安全的環境中初步優化記憶策略。
  3. 線上微調: 最後,讓 Agent 在真實環境中與之互動,透過名為步進式 GRPO(Generalized Reward Policy Optimization)的演算法進行線上微調,使其策略能適應真實世界的多變性。此處的 GRPO 與近端策略優化(PPO)有異曲同工之妙。

透過這套流程,Agent 的記憶策略不再是僵化的規則,而是在任務回饋中不斷演化的動態模型。實驗數據顯示,在需要跨越超過 100 個步驟的長時序任務中,採用 AgeMem 框架的 Agent 成功率比基於傳統向量檢索的基線模型高出 23%,證明了學習式策略的優越性。

我們正處於一個轉捩點。過去,我們專注於擴大模型的規模與知識,但 Agent 的智慧瓶頸已逐漸轉移到如何有效「運用」知識與經驗。將記憶管理內化為 Agent 的核心學習能力,使其能自我演化出最適合當前任務的記憶策略,這不僅是對記憶架構的重新定義,更是通往更通用、更自主 AI 的必經之路。未來的頂尖 Agent,其競爭優勢或許不在於它知道多少,而在於它「如何記憶與遺忘」。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。