RAG 的真相:模型為何放棄內在記憶,選擇依賴上下文?
我們常以為 RAG 是為 LLM 補充新知,但最新研究揭示了驚人真相:模型竟傾向放棄自身記憶,過度依賴提供的上下文。這不是知識的融合,而是一種強烈的「走捷徑」偏誤。本文將深入探討這現象對 RAG 系統設計的深遠影響,並思考我們該如何從檢索量迷思,轉向更精妙的記憶分工與 Agent 架構。
自從 Retrieval-Augmented Generation (RAG) 成為主流架構以來,多數人(包括我)都傾向將其理解為一種「外部知識注入」的過程。我們想像 RAG 就像是為一個博學的專家提供即時的參考資料,讓他能結合自身深厚的知識底蘊與最新的外部資訊,給出更準確、更全面的答案。我們假設這是一個知識「融合」的過程。
然而,一篇近期的研究論文徹底挑戰了這個基本假設。它揭示,大型語言模型(LLM)在執行 RAG 任務時,並非將外部知識與其「內建記憶」(也就是我們常說的參數化記憶)進行融合,反而是傾向於「放棄」自己的記憶,產生一種強烈的「上下文依賴偏誤」。
這項發現不僅改變了我們對 RAG 運作機制的理解,更對如何建構高效能的 AI 系統,帶來了根本性的啟示。
RAG 的真相:不是知識融合,而是上下文依賴
這篇由 Hitesh Wadhwa 等人發表的研究,透過嚴謹的分析方法,精確地探測了模型在回答事實性問題時,資訊流動的路徑。他們發現,當模型同時面對其「內建記憶」與 RAG 提供的外部上下文時,絕大多數的決策路徑都壓倒性地流向了外部上下文,彷彿模型選擇了最明顯、最直接的答案來源。
換句話說,模型選擇了一條捷徑。與其在龐大而複雜的內在知識網絡中搜尋、驗證、整合知識,它發現直接複製或改寫眼前 prompt 中提供的上下文,要來得「容易」得多。這解釋了許多我們在實務中觀察到的現象:例如,為何 RAG 對檢索品質如此敏感?如果檢索到的文件有誤或帶有偏見,模型很可能會不假思索地重複這些錯誤,即使其內在知識庫中可能存有正確的資訊。又或者,為何有時會出現「上下文遺忘」?當 RAG 提供的資訊片段不完整時,模型似乎難以動用自己的常識或背景知識來填補空白,因為它已經進入了高度依賴上下文的「捷徑模式」。
這並非知識的融合,更像是一種認知上的「外包」。模型將思考的責任,從自己的「大腦」(參數化記憶)轉嫁給了外部的「筆記」(檢索到的上下文)。
當模型選擇「走捷徑」:對系統設計的啟示
理解了模型的這種「懶惰」傾向後,我們在設計 AI 系統時的思維也必須跟著轉變。過去,我們可能將重心放在如何擴大檢索的規模,或是如何微調模型以增強其「知識量」。但現在看來,這些努力可能在模型的捷徑偏誤面前事倍功半。
真正的關鍵,在於如何設計一個能有效管理模型注意力和認知資源的系統。如果 RAG 提供的上下文是唯一的「聲音」,那麼模型自然會只聽它的。這意味著,我們必須從系統層面去思考:
RAG 的瓶頸或許從來都不在於檢索的「量」,而在於我們如何架構與呈現這些資訊,引導模型在內在記憶與外部上下文之間做出正確的權衡。
這將我們的挑戰,從單純的資訊檢索問題,提升到一個更複雜的認知架構設計問題。我們不再只是模型的「資料提供者」,而必須成為其「認知流程的設計師」。
超越單純檢索:記憶分工與 Agent 系統的再思考
這項研究的發現,讓我更加確信,單一的 RAG 流程並不足以建構出真正強健的 AI 系統。未來的方向,必然是朝向更複雜的多記憶體、多 Agent 協作架構演進。
我們可以將參數化記憶視為模型的「長期記憶與直覺」,而 RAG 提供的上下文則是「短期工作記憶」。一個成熟的 Agent 系統,不應該只有一種記憶存取模式。它需要一個更高層次的控制單元,來聰明地決定:究竟何時該相信模型的內在直覺?何時又該啟動 RAG 查找外部事實?當內外資訊衝突時,又該如何裁決或尋求第三方驗證?甚至,檢索到的資訊是否足夠,是否需要進行多輪檢索或提出澄清問題?
這意味著,我們需要將 RAG 從一個獨立的「功能」,降級為 Agent 工具箱中的「一個工具」。系統的智慧,將更多地體現在如何聰明地調度這些工具,以及如何管理不同來源的資訊流,而非寄望於模型本身能自動完美地融合所有知識。
總結來說,RAG 並非解決知識問題的萬靈丹。它揭示了模型在認知上的一種深刻偏誤。正視這個偏誤,並將其納入我們的系統設計考量,將焦點從單純的檢索技術轉向更高層次的記憶分工與 Agent 協作架構,才是通往更強大、更可靠 AI 系統的必經之路。
延伸閱讀
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。