mk-brain

RAG 的終點線不是 Demo，而是可量化的評估閉環

許多團隊都能快速做出 RAG 原型，但為何難以產品化？關鍵在於缺乏一套系統化的評估框架。本文將探討如何建立量化指標，將品質、成本與幻覺變成可追蹤、可優化的工程問題，讓 RAG 從有趣的玩具，走向能承擔商業責任的知識系統。

江中喬

18 6月 2026 • 7 min read

檢索增強生成（RAG）的實作門檻正快速降低，這份易得性卻也帶來了潛在的陷阱。許多團隊都能在短時間內，利用現成框架搭建出一個看似能對內部文件進行問答的系統。然而，一個能動的原型與一個能交付商業價值的產品之間，存在著一道巨大的鴻溝。這道鴻溝的核心，在於是否建立了一套可量化、可比較、可持續優化的評估體系（Evaluation Harness）。若沒有這套體系，RAG 只是個功能展示；有了它，RAG 才有機會成為能長期背負商業責任的知識系統。

為什麼一個「能動」的 RAG 還不夠？

在專案初期，看到 RAG 系統能根據我們提供的文件，生成看似合理的答案，確實令人振奮。無論是使用 LangChain 或 LlamaIndex，幾百行程式碼就能串起一個基本流程：文件載入、切割、向量化、檢索、生成。但當我們試圖將它推向真實場景時，一連串棘手的問題便會浮現：

品質不穩定： 有時答案精準，有時卻文不對題。我們該如何衡量「答得好」？標準是什麼？
幻覺難以控制： 系統有時會「一本正經地胡說八道」，捏造不存在於文件中的事實。幻覺發生的頻率有多高？我們如何系統性地抑制它？
成本是個黑盒子： 每次查詢到底花了多少錢？如果使用者量成長 100 倍，我們的 API 帳單會變成什麼樣子？

這些問題無法憑感覺回答。如果缺乏客觀的數據指標，任何優化都像是矇著眼睛射箭，無法判斷是改善還是改惡。這正是許多 RAG 專案卡在原型階段，難以產品化的根本原因——我們建造了一部引擎，卻沒有儀表板來監控它的運作狀態。

如何建立 RAG 的評估閉環？

要將 RAG 從原型推向產品，關鍵在於建立一個評估閉環，將抽象的「品質」轉化為具體的工程指標。日本開發者 Hal Hanami 在他自建的技術文件 RAG 系統中，就實踐了一套清晰的評估框架，主要圍繞三個核心維度：檢索品質、幻覺抑制與查詢成本。這套方法為我們提供了一個絕佳的起點。

首先，我們需要一個黃金標準的評估資料集，通常包含數十到數百組的「問題 - 預期答案 - 相關文件片段」對。這個資料集是所有量化評估的基礎。

一個穩定的評估資料集，是讓 RAG 系統從藝術走向科學的第一步。它將主觀的「感覺不錯」轉化為客觀的、可比較的指標，讓團隊的每一次優化都有了明確的標的。

RAG 的基石穩固嗎？如何評估檢索品質？

RAG 的核心假設是「Garbage in, garbage out」。如果檢索階段就找不到正確的資訊，後續的語言模型再強大也無能為力。因此，評估檢索器的效能至關重要。兩個常用的指標是：

命中率（Hit Rate）： 檢索器返回的 top-k 個文件中，有多少比例包含了正確答案所需的上下文？這是評估檢索器「有沒有找到」的基本盤。
平均倒數排名（Mean Reciprocal Rank, MRR）： 這個指標不僅關心是否找到，還關心找到的正確文件排在第幾位。排名越靠前，得分越高。對於問答系統來說，這是一個比命中率更具參考性的指標，因為 LLM 通常更依賴排名最前的幾個文件。相關的評估方法在許多資訊檢索研究中都有深入探討。

透過量化檢索品質，我們可以客觀比較不同 chunking 策略、embedding 模型或 reranker 帶來的影響，確保 RAG 的基石穩固。

如何有效抑制幻覺？我們能信任 RAG 的答案嗎？

幻覺是大型語言模型的天性，但在企業級知識系統中，其代價可能非常高昂。評估幻覺的關鍵在於「答案的歸因性」（Groundedness），也就是生成的答案是否完全基於檢索到的上下文。目前業界已有多個框架致力於此，例如 RAGAS 框架提出的 Faithfulness 指標，或 TruLens 提供的 Groundedness 評估。這些工具通常會利用另一個 LLM 來判斷生成答案中的每一句話，是否都能在提供的上下文中找到依據。

在 Hal Hanami 的實驗中，他透過 prompt 要求 `gpt-3.5-turbo-16k` 進行自我評估，判斷答案是否僅基於上下文。雖然這種方法有其侷限性，但在沒有複雜框架的情況下，不失為一個輕量級的起點。他的實驗在使用 50 組問答對的測試中，達到了 96% 的幻覺抑制率，這是一個具體的、可追蹤的品質指標，幫助我們衡量 RAG 答案的可信賴程度。

RAG 系統的成本黑盒子，該如何打開？

成本是決定 RAG 系統能否規模化的命脈。單次查詢的成本主要由兩部分構成：embedding 模型的 token 使用量（用於將使用者問題轉換為向量）和 LLM 的 token 使用量（包含輸入的 prompt 和上下文，以及輸出的答案）。

精確計算成本能幫助我們做出更明智的技術選擇。例如，使用 OpenAI 的 `text-embedding-ada-002` 搭配 `gpt-3.5-turbo-16k`，根據 Hal Hanami 的計算，在檢索到 3 個文件區塊（每個約 1000 token）的情況下，單次查詢成本約為 0.35 日圓。這個數字看似微不足道，但當每天有數千次查詢時，累積的費用就會非常可觀。建立成本監控儀表板，讓我們能在模型選擇、上下文長度等參數上進行權衡，找到品質與成本的最佳平衡點，徹底打開 RAG 系統的成本黑盒子。

評估體系如何成為持續優化的飛輪？

一旦建立了包含品質、幻覺和成本的評估儀表板，RAG 系統的優化路徑就變得清晰起來。這套體系將整個 RAG 流程從一個難以捉摸的黑盒子，變成了一個可以被度量、被拆解、被迭代的工程系統。

團隊的討論將不再是「我覺得這個答案不太好」，而是「我們的 MRR 從 0.85 下降到了 0.82，可能是因為新的 chunking 策略切碎了關鍵表格，我們需要回滾實驗」。或是「雖然換用 gpt-4-turbo 讓幻覺抑制率提升了 2%，但單次查詢成本增加了 150%，這個 trade-off 在目前階段是否值得？」這樣的量化對話，讓優化決策更有依據。

從最初的 RAG 論文發表至今，這項技術的發展一日千里。但無論架構如何演進，回歸到工程本質，我們都需要一套可靠的度量衡。建立一個自動化的評估閉環，是將 RAG 從一個充滿潛力的技術概念，轉變為一個穩定、可靠、可信賴的產品的必經之路。這條路的起點，就是為你的 RAG 裝上儀表板。

延伸閱讀

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。