讓 Agent 在執行中進化:解耦推理與記憶的 MemRL 框架

LLM Agent 難以在不重新訓練下從經驗中學習?一篇新研究《MemRL》提出革命性解方:透過將推理核心與外部記憶解耦,Agent 能在執行任務時,即時利用環境回饋進行強化學習,實現無需微調權重的自我進化。這不僅解決了災難性遺忘,更為建構能持續適應新環境的自主系統,開啟了全新的實踐路徑。

讓 Agent 在執行中進化:解耦推理與記憶的 MemRL 框架

大型語言模型(LLM)作為 Agent 的推理核心,面臨一個根本性的挑戰:如何在不進行昂貴微調的前提下,持續從環境互動中學習與進化?一篇名為《MemRL》的論文提出了一個極具啟發性的框架,其核心思想是將模型的內在推理能力與外部的片段式記憶(episodic memory)徹底解耦。透過這個架構,Agent 得以在執行任務的當下,即時利用環境回饋進行強化學習,從而實現自我進化,這不僅有效迴避了權重更新帶來的災難性遺忘問題,也為建構更具適應性與穩定性的認知增強系統,指出了清晰的實踐路徑。

為什麼 Agent 的「持續學習」如此困難?

當我們要求一個基於 LLM 的 Agent 持續學習時,往往會陷入「穩定性與可塑性困境」(stability-plasticity dilemma)。一方面,我們希望 Agent 能快速適應新任務、新環境,展現可塑性;另一方面,我們又擔心新的學習會干擾或覆蓋掉模型原有的通用能力,導致在舊任務上表現衰退,這就是所謂的「災難性遺忘」(catastrophic forgetting)。

傳統的解決方案,如週期性的模型微調(fine-tuning),不僅計算成本高昂,且難以做到即時反應。想像一個在真實世界運作的機器人或軟體代理,它不可能每次犯錯或學到新技巧後,都停機等待數小時甚至數天的模型重新訓練。這種延遲使得真正的自主進化變得遙不可及。因此,業界與學界一直在尋找一種更輕量、更即時的學習機制,讓 Agent 的「經驗」能夠以一種非破壞性的方式,持續增強其「智慧」。

MemRL 的核心架構:一個動態的外部記憶迴路

MemRL 框架的設計,正是為了解決上述困境。它將 Agent 的認知系統巧妙地拆解為兩個獨立但協同運作的核心模組:一個是固定的推理引擎(Reasoner),另一個則是動態的外部記憶庫(Episodic Memory)

其中,固定的推理引擎是一個預訓練好的大型語言模型,其權重在整個生命週期中保持不變(frozen)。它的職責是理解指令、進行邏輯推理,並根據當前情境與可用的記憶來生成行動決策。而動態的外部記憶庫則是一個結構化的資料庫,專門用來儲存 Agent 的「經驗片段」,每一個片段都是一筆完整的互動紀錄,通常包含狀態(State)、行動(Action)、結果(Outcome)與獎勵(Reward)等關鍵資訊。

整個系統的運作形成一個緊密的回饋迴路。當 Agent 面對一個新任務時,它會先查詢記憶庫,檢索過去處理類似情況的成功或失敗經驗。這些檢索到的「記憶」會作為額外的上下文(context)與當前任務描述一起輸入給推理引擎。推理引擎基於這些資訊做出決策並執行。行動完成後,環境會給予一個回饋(例如,任務成功加 1 分,失敗扣 1 分),這個全新的經驗片段(包含當下的狀態、採取的行動與獲得的回饋)隨即被儲存回記憶庫中。

這個架構的精妙之處在於,學習的過程發生在記憶庫的讀寫操作上,而非模型權重的更新。Agent 的進化體現在其記憶庫的日益豐富與精確,而非推理引擎本身的改變。

如何從經驗的洪流中,篩選出真正有價值的策略?

僅僅儲存所有經驗是不夠的,一個龐大而充滿雜訊的記憶庫反而會干擾決策。MemRL 的另一個關鍵設計,是一個兩階段的記憶檢索機制,用以確保推理引擎能取得最相關、最高品質的經驗作為參考。

第一階段是啟發式過濾(Heuristic Filtering)。這是一個快速、粗略的篩選過程,旨在從海量的記憶中迅速縮小候選範圍。過濾的規則可以很簡單,例如優先選取近期發生的、或獲得獎勵分數高於某個閾值(例如 > 0.8)的經驗。這個階段的目標是效率,快速排除掉大量不相關或低價值的記憶。

第二階段則是基於 LLM 的重排序(LLM-based Reranking)。通過第一階段篩選的候選經驗,會被交給 LLM 自身來進行更精細的語義相關性評估。模型會判斷哪些歷史經驗對於「當前」這個特定的任務狀態最有參考價值,並對它們進行排序。最終,只有排名最前面的少數幾個高品質經驗,會被真正注入到決策提示(prompt)中。

這個設計,類似於人類在做決策時,大腦會先快速閃過一些相關的念頭,然後再聚焦於其中一兩個最關鍵的記憶片段進行深入思考。它確保了 Agent 的決策既能借鑑歷史,又不會被過時或無關的資訊所淹沒,實現了高效與精準的平衡。

MemRL 的解耦架構,能為實務應用帶來哪些突破?

MemRL 所展示的推理與記憶解耦架構,其意義遠不止於一種新的 Agent 訓練方法。它更像是一種建構認知增強系統(Cognitive Augmentation Systems)的設計藍圖。在這個藍圖下,LLM 扮演的是一個通用的「中央處理器」,而外部記憶、工具、資料庫等則像是可插拔的「擴充模組」。

這種模式帶來了幾個顯著的實務優勢。首先是成本效益與可擴展性:由於核心模型無需頻繁微調,大幅降低了維運所需的計算資源。記憶庫可以獨立擴展,甚至可以針對不同領域的任務,掛載不同的專業記憶庫。其次是穩定性與可預測性:一個固定的推理引擎意味著其核心行為是穩定的。我們可以信賴它在處理通用邏輯問題時的一致性,而將適應性與個性化的任務交給外部記憶來處理。最後,它提供了更好的可解釋性與可控性:我們可以輕易地檢查、編輯甚至清除記憶庫中的內容,從而直接影響 Agent 的未來行為。這為 Agent 的行為偵錯與安全對齊提供了極大的便利,遠比解釋一個黑箱模型的權重變化來得直觀。

從早期的 ReAct 框架,到像 Voyager 這樣在 Minecraft 中自主學習的 Agent,我們看到越來越多的研究將焦點從單一模型的性能提升,轉向設計更精巧的系統架構。MemRL 提出的運行時強化學習與記憶解耦,正是這個趨勢下的重要一步。它讓我們離那個能夠在複雜環境中持續自我完善、真正自主的 Agent 系統,又更近了一些。

延伸閱讀


我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。