不只是找資料:RAG+ 如何教 AI 學會「應用知識」
RAG 系統的瓶頸不只是找不到正確資料,而是找到後不知如何應用。一篇新研究 RAG+ 提出雙語料庫架構,同時檢索「知識」與「應用範例」,試圖填補從資訊到行動的認知缺口,讓 AI 不只會背書,更懂得解題。
當前主流的檢索增強生成(RAG)系統開發,已進入一個專注於優化檢索(Retrieval)的深水區。我們投入大量心力在提升檢索的精準度、相關性與效率,卻可能忽略了更根本的挑戰:模型在取得資料後,缺乏將其轉化為具體行動的「應用推理」(Application Reasoning)能力。這導致 RAG 系統即便找到正確資訊,也時常無法有效解決需要多步驟推理的複雜問題。一篇名為 RAG+ 的新研究正視此一缺口,提出了一個值得我們深思的架構,試圖讓 AI 不只會「找答案」,更要會「用答案」。
為什麼精準檢索仍然不夠?RAG 的隱藏缺口
自從 Meta AI 於 2020 年提出 RAG 框架以來,這個架構已成為解決大型語言模型(LLM)知識侷限性與幻覺問題的標準解方。其核心思想很直觀:在生成答案前,先從外部知識庫中檢索相關文件,將其作為上下文(context)一併提供給 LLM。
過去幾年,業界的努力大多圍繞著「RAG 的 R」,也就是檢索階段。我們鑽研各種 embedding 模型、向量資料庫、混合搜索(hybrid search)與重新排序(re-ranking)演算法,目標只有一個:更快、更準地找到那幾段最關鍵的文字。
然而,這種優化路徑存在一個隱藏的假設:只要給 LLM 足夠精準的資料,它就能自然而然地正確使用這些資料。但在許多專業領域,這個假設並不成立。
想像一位法學院學生,即便他能瞬間從圖書館找到所有相關法條與判例,也不代表他懂得如何組織一份有力的答辯狀。從「知道法條」到「應用法條進行辯護」,中間存在一道巨大的鴻溝,這道鴻溝就是「應用推理」。
目前的 RAG 系統就像那位只會找資料的學生。它能高效地提供事實(declarative knowledge),卻缺乏如何運用這些事實解決問題的策略(procedural knowledge)。當任務從簡單的問答(如「台灣最高的山是哪座?」)轉變為複雜的分析(如「根據這份財報,分析這家公司的潛在營運風險」)時,傳統 RAG 的弱點便暴露無遺。
RAG+ 的核心設計是什麼?雙語料庫如何讓 AI 學會「應用」知識?
為了解決這個問題,RAG+ 論文(v1 版本於 2025 年 6 月 13 日提交)的作者提出了一個極具巧思的架構,其核心是建立一個雙軌的語料庫(dual corpus)系統。
他們不再將所有文件一視同仁,而是將其區分為兩種類型:一種是知識語料庫 (Knowledge Corpus),儲存客觀事實、定義、規則、規格等「陳述性知識」,這部分與傳統 RAG 的知識庫相似,專門用來回答「是什麼」(What)。另一種則是應用語料庫 (Application Corpus),包含解決特定問題的完整範例、案例研究、解題步驟、程式碼片段或推導過程等「程序性知識」,專門用來展示「怎麼做」(How)。
當使用者提出一個問題時,RAG+ 系統會同時從這兩個語料庫中進行檢索。它不僅會找出相關的知識片段,還會找出解決相似問題的應用範例。
接著,系統會將「知識」與「應用範例」共同注入到 LLM 的提示(prompt)中。如此一來,LLM 不僅獲得了必要的背景資訊,更得到了一個可供模仿與參考的「解題模板」。
RAG+ 的核心洞察在於,它明確區分了「知道是什麼」與「知道怎麼做」。透過提供明確的應用範例,它為模型提供了一套推理的鷹架(scaffolding),引導它將零散的知識組織成有結構的解決方案。
這種做法類似於人類專家的學習過程。我們不只閱讀教科書來學習理論,更需要透過大量的例題、案例分析與實作練習,才能真正掌握如何應用知識。RAG+ 正是將這種學習模式系統化,內建到 AI 的工作流程中。
RAG+ 的實證效果如何?從法律到醫療的應用
RAG+ 的價值在於那些需要嚴謹、多步驟推理的專業領域。該研究在數學、法律和醫療三個領域進行了實驗,這些場景的共通點是,僅僅提供事實片段是遠遠不夠的。
例如,在數學解題任務中,一個好的應用範例可以展示如何一步步推導公式,而不是只給出公式本身。
在法律案件分析中,一個相關的判例不僅提供了法律觀點,更展示了法官如何權衡證據、引用法條並形成最終判決的完整邏輯鏈。在醫療診斷場景,一個相似的病例報告能引導模型思考症狀、檢查數據與鑑別診斷之間的關聯。
根據論文(v4 修訂版於 2025 年 9 月 23 日更新)的實驗結果,RAG+ 在這些複雜任務上的表現顯著優於多種標準的 RAG 變體。這證明了「應用推理」能力的價值。它讓 AI 的回答不再只是資訊的拼湊,而是更接近一個具備領域知識與解決問題框架的「虛擬專家」。
這種作法也與近年來提示工程中的 思維鏈(Chain-of-Thought)或 In-context Learning 的精神不謀而合,都是試圖透過提供範例來激發模型更深層次的推理能力。
超越檢索:RAG+ 如何啟發我們重新思考 AI 系統的認知架構?
RAG+ 的出現,提醒了我們這些 AI 系統建構者,或許應該將目光從單純的「檢索優化」轉向更宏觀的「認知架構設計」。我們正在建構的,不應只是一個反應式的問答機器,而是一個能主動運用知識來達成目標的認知代理(cognitive agent)。
這意味著,未來的 RAG 系統可能需要更複雜的知識管理策略。我們不僅要思考如何儲存與檢索資訊,更要思考如何組織與表達「解決問題的方法論」。
這可能涉及到案例庫(case-based reasoning)的建立、工作流程模板化,甚至是讓系統能從過去的成功與失敗經驗中學習,形成自己的「應用策略」,正如 Self-Refine 等研究所探索的方向。
總結來說,RAG+ 透過一個看似簡單的雙語料庫設計,巧妙地填補了從「資訊獲取」到「行動判斷」之間的關鍵缺口。它標示著 RAG 發展的一個重要轉向:從追求找到「對的資料」,進化到追求學會「對的用法」。這不僅是對 RAG 技術的增強,更是對我們如何建構實用、可靠 AI 系統的一次深刻啟發。
延伸閱讀
- RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoning (原始論文)
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (最初的 RAG 論文)
- What is RAG? (LangChain 對 RAG 的技術解釋)
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。