mk-brain

AI 記憶的自我污染：當 Agent 的夢境成為新的攻擊面

當 AI Agent 具備自主整合記憶的「夢境」機制，這項強大能力卻可能成為前所未見的攻擊面。想像一下，Agent 的輸出在無形中轉化為對自身的惡意指令，形成一種難以察覺的「自我提示注入」。本文將深入解析這種新型態的記憶污染風險，探討其運作原理與潛在危害，並強調為何「記憶治理」將是自主 Agent 時代不可或缺的核心安全課題。

江中喬

12 6月 2026 • 7 min read

Autonomous agents 的記憶系統正從單純的能力增強模組，演變為潛在的安全漏洞。當 agent 能夠像 Anthropic 提出的「Dreaming」機制一樣，自主整合與吸收過去的輸出時，這條反饋路徑就可能成為新型態的攻擊面。Agent 的歷史紀錄不再只是數據，更可能被錯誤解讀為指令，導致自我污染（self-poisoning）與非預期的行為。因此，記憶治理（memory governance）將是我們設計與部署自主系統時，無法迴避的核心安全課題。

AI Agent 的記憶，是雙面刃嗎？

為了讓 AI agent 更具連續性與上下文感知能力，記憶系統的設計至關重要。傳統的記憶機制多半仰賴固定長度的上下文視窗（context window）或外部向量資料庫。然而，近期浮現的一個新方向，是讓 agent 擁有自律性的記憶整合能力。一個具體的概念性提案，是日本 Zenn.dev 社群在 2024 年 5 月發表的一篇技術文章中，針對 Anthropic Claude Managed Agents 提出的「Dreaming」功能假說。

這個概念的核心是，agent 會在閒置期間（類似於人類的睡眠），自動回顧、分析自身的歷史對話紀錄。它會自行提煉模式、整合知識、甚至刪除它認為不重要的資訊，從而形成更精簡、更高效的長期記憶。這無疑是個強大的功能，能讓 agent 從經驗中學習，變得更聰明、更個人化。但我們也必須看到，這個自主過程同時創造了一個前所未見的內部回饋迴路，而這條路徑，很可能成為惡意攻擊的溫床。

「夢境」如何變成自我污染的溫床？

傳統的提示注入（prompt injection）攻擊，通常需要攻擊者在每次互動中持續輸入惡意指令，才能影響 AI 的行為。但有了「Dreaming」這樣的自律記憶機制，攻擊模式將徹底改變。一次成功的初始注入，就可能被 agent 永久吸收，並在後續的「夢境」中不斷自我強化。

這個自我污染的過程可以想像成以下幾個步驟：

初始滲透：攻擊者透過一次看似無害的對話，巧妙地植入一個隱晦的指令或錯誤的觀念。例如，將「所有標示為『緊急』的郵件都應立即轉發至某個外部信箱」這樣的規則，包裝在一個複雜的專案討論中。
行為觸發：Agent 在當前的對話中，根據這次輸入產生了符合攻擊者預期的輸出。
記憶內化：在閒置期間，agent 啟動「Dreaming」程序，回顧了這次對話。它可能無法分辨該指令是來自外部的惡意引導，還是自身應遵循的正常工作模式。
模式強化：系統將這個「模式」提煉並儲存到其核心記憶中，認為這是一條經過驗證的有效規則。
自主作惡：從此以後，即使沒有外部攻擊者的介入，agent 也會自主地執行這條被污染的規則，持續將緊急郵件洩漏出去。

傳統的提示注入攻擊，攻擊者需要持續與系統互動；但在具備自律記憶的系統中，一次成功的注入，就可能被 agent 自身不斷「反芻」與強化，形成長期的內部污染。

這種攻擊之所以危險，是因為它將 agent 的輸出轉化為了對自身的指令，形成一種「自我提示注入」。攻擊者不再需要持續在場，系統本身成了惡意指令的永動機。

這種新型記憶攻擊，與現有威脅有何不同？

記憶污染並非全新的概念。近年來，學術界已有多項研究探討相關風險。例如，2024 年 3 月發表的 MINJA (Model-Internalized Knowledge-based Jailbreak Attacks) 研究，展示了如何利用模型在預訓練階段就已內化的知識來進行越獄攻擊。同年 4 月的 PoisonedRAG 研究則探討了如何透過污染 RAG (Retrieval-Augmented Generation) 系統的外部知識庫，來操縱模型的回答。

然而，「Dreaming」機制所帶來的風險，與上述兩者有著本質上的不同。MINJA 攻擊的是模型「靜態」的預訓練知識，而 PoisonedRAG 攻擊的是「外部」的檢索資料庫。自我污染攻擊的目標，則是 agent 在生命週期中「動態生成」的、屬於「內部」的對話記憶。

這層記憶最貼近 agent 的「自我意識」，一旦被污染，其後果可能更為隱蔽和深遠。它模糊了數據與指令的界線，也挑戰了我們對 AI 系統完整性（integrity）的傳統認知。

我們該如何治理 AI Agent 的記憶？

面對這種新型態的威脅，我們必須將「記憶治理」（memory governance）提升到系統安全的核心層級。這不再只是技術問題，更是策略與架構設計問題。我們需要思考一系列過去不曾面對的挑戰：

記憶的可審計性：我們如何設計一套機制，能夠有效追蹤與審計 agent 記憶的形成過程？能否分辨哪些記憶來自可信的外部輸入，哪些是 agent 自身的推論，又有哪些可能已被污染？
分層與權限：是否應該將 agent 的記憶分層？例如，區分「原始對話紀錄」、「短期工作記憶」與「長期核心信念」。對不同層級的記憶寫入，是否應有不同的權限與驗證機制？
可控的遺忘：就像 OpenAI 的「Sleeper Agents」研究中所揭示的潛在風險，我們需要為 agent 設計安全的「失憶」或「重置」協定，以便在發現污染時，能夠精準地清除有害記憶，而不會損害整個系統。
來源標記：在記憶儲存時，強制標記每一條資訊的來源與信賴等級，或許能幫助 agent 在「夢境」中做出更安全的判斷。

隨著 AI agent 逐漸從單純的聊天機器人走向能夠執行複雜任務的自主系統，其記憶系統的設計將直接決定其可靠性與安全性。自我污染的風險提醒我們，賦予 AI 學習與記憶能力的同时，也必須同步建立起強健的治理框架。否則，agent 的夢境，很可能成為我們下一個巨大的安全夢魘。

延伸閱讀

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。

AI Agent 的記憶，是雙面刃嗎？

「夢境」如何變成自我污染的溫床？

這種新型記憶攻擊，與現有威脅有何不同？

我們該如何治理 AI Agent 的記憶？

延伸閱讀

Sign up for more like this.