mk-brain

Agent 的下一步：讓記憶從外掛規則，走向內生策略

目前 AI Agent 的記憶管理過度依賴生硬的外部規則，這限制了它們的成長潛力。當我們將記憶操作視為一種 Agent 可自主學習的「工具」，並透過強化學習讓它自行演化出最佳策略時，Agent 才可能真正成熟。這不只是一個技術升級，更是重新定義了記憶在認知架構中的核心地位。

江中喬

16 6月 2026 • 6 min read

當前我們在建構 AI Agent 時，大多將「記憶」視為一個待解決的工程問題，試圖用外部的啟發式規則（heuristics）來修補。然而，我認為這條路徑正逐漸成為 Agent 發展的瓶頸。真正能讓 Agent 邁向成熟的關鍵，在於將記憶管理從一套固定的外掛程式，轉變為一種內生的、可學習的策略。當 Agent 能根據任務需求，動態學習並優化自身的記憶存取模式時，我們才算真正觸及了自主智慧的核心。這不僅是技術架構的演進，更是對 Agent 認知模型的一次根本性重塑。

為什麼當前的 Agent 記憶架構是一條死胡同？

目前主流的 Agent 記憶系統，無論是短期工作記憶（in-context learning）還是長期知識庫，都嚴重依賴一套由人類工程師預先設定的規則。例如，我們廣泛使用的檢索增強生成（RAG），其核心是透過向量相似度來決定「該回憶什麼」。其他常見的策略，則包括優先記住最近發生的事（新近度 Recency）、最常出現的資訊（頻率 Frequency），以及透過 embedding 相似度計算與當前任務最相關的記憶（關聯性 Relevance）。

這些方法在特定場景下確實有效，但它們的根本缺陷在於「一體適用」與「靜態不變」。這意味著，無論 Agent 面臨何種任務，其記憶策略都無法彈性調整。

試想，一個正在進行多步驟程式碼除錯的 Agent，與一個正在撰寫長篇小說的 Agent，它們所需要的記憶策略截然不同。前者可能需要精確、高頻率地回溯錯誤堆疊，後者則可能需要模糊、跳躍式地聯想遠久的靈感。然而，基於固定規則的記憶系統無法適應這種動態變化，導致 Agent 在複雜、長時序的任務中表現得像個「金魚腦」，正如一些研究指出的，模型在長文中會遺忘中間部分的資訊。

讓 Agent 不只「擁有」記憶，而是「學會」如何記憶，這才是關鍵的範式轉移。

Agentic Memory：記憶管理如何成為 Agent 的內生技能？

最近一篇名為《Agentic Memory》的研究，提出了一個極具啟發性的框架 AgeMem，直指問題核心。它的觀點很簡單：與其由外部系統決定記憶內容，不如將記憶操作（例如讀取、寫入、更新）本身視為 Agent 可以使用的「工具」。

就像 Agent 可以學習何時該使用計算機、何時該呼叫搜尋引擎一樣，它也應該能學習何時該從長期記憶中提取資訊、何時該將當前對話存為永久筆記，又或者何時該遺忘無關的細節。在這個框架下，記憶管理不再是一個被動的後台程式，而是 Agent 主動策略的一部分。

LLM 本身將負責決策，自主管理其統一的長短期記憶池。這讓記憶系統從一個靜態的外部資料庫，轉變為 Agent 認知迴路中一個動態、活躍的組成部分，類似於 MemGPT 試圖解決的方向，但 AgeMem 更強調策略的自主學習。

如何教導 Agent 形成自己的記憶策略？

將記憶操作工具化後，下一個問題便是：如何讓 Agent 學會聰明地使用這些工具？答案是強化學習（Reinforcement Learning, RL）。透過 RL，Agent 可以在與環境的不斷互動中，學習哪種記憶操作序列能夠最大化任務成功的最終獎勵。

然而，這也帶來了 RL 的經典難題：稀疏獎勵（sparse rewards）。一次成功的記憶存取，其正面效益可能要到數十甚至數百步之後才能體現，這讓學習過程變得極其困難。為了解決這個問題，《Agentic Memory》的作者設計了一套精巧的三階段訓練流程：

專家演示學習： 首先，讓 Agent 模仿人類專家或高品質的示範軌跡，學習基本的記憶操作模式。
離線策略優化： 接著，利用收集到的大量數據進行離線 RL 訓練，在安全的環境中初步優化記憶策略。
線上微調： 最後，讓 Agent 在真實環境中與之互動，透過名為步進式 GRPO（Generalized Reward Policy Optimization）的演算法進行線上微調，使其策略能適應真實世界的多變性。此處的 GRPO 與近端策略優化（PPO）有異曲同工之妙。

透過這套流程，Agent 的記憶策略不再是僵化的規則，而是在任務回饋中不斷演化的動態模型。實驗數據顯示，在需要跨越超過 100 個步驟的長時序任務中，採用 AgeMem 框架的 Agent 成功率比基於傳統向量檢索的基線模型高出 23%，證明了學習式策略的優越性。

我們正處於一個轉捩點。過去，我們專注於擴大模型的規模與知識，但 Agent 的智慧瓶頸已逐漸轉移到如何有效「運用」知識與經驗。將記憶管理內化為 Agent 的核心學習能力，使其能自我演化出最適合當前任務的記憶策略，這不僅是對記憶架構的重新定義，更是通往更通用、更自主 AI 的必經之路。未來的頂尖 Agent，其競爭優勢或許不在於它知道多少，而在於它「如何記憶與遺忘」。

延伸閱讀

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。

為什麼當前的 Agent 記憶架構是一條死胡同？

Agentic Memory：記憶管理如何成為 Agent 的內生技能？

如何教導 Agent 形成自己的記憶策略？

延伸閱讀

Sign up for more like this.