RAG 的終點線不是 Demo,而是可量化的評估閉環

許多團隊都能快速做出 RAG 原型,但為何難以產品化?關鍵在於缺乏一套系統化的評估框架。本文將探討如何建立量化指標,將品質、成本與幻覺變成可追蹤、可優化的工程問題,讓 RAG 從有趣的玩具,走向能承擔商業責任的知識系統。

RAG 的終點線不是 Demo,而是可量化的評估閉環

檢索增強生成(RAG)的實作門檻正快速降低,這份易得性卻也帶來了潛在的陷阱。許多團隊都能在短時間內,利用現成框架搭建出一個看似能對內部文件進行問答的系統。然而,一個能動的原型與一個能交付商業價值的產品之間,存在著一道巨大的鴻溝。這道鴻溝的核心,在於是否建立了一套可量化、可比較、可持續優化的評估體系(Evaluation Harness)。若沒有這套體系,RAG 只是個功能展示;有了它,RAG 才有機會成為能長期背負商業責任的知識系統。

為什麼一個「能動」的 RAG 還不夠?

在專案初期,看到 RAG 系統能根據我們提供的文件,生成看似合理的答案,確實令人振奮。無論是使用 LangChainLlamaIndex,幾百行程式碼就能串起一個基本流程:文件載入、切割、向量化、檢索、生成。但當我們試圖將它推向真實場景時,一連串棘手的問題便會浮現:

  • 品質不穩定: 有時答案精準,有時卻文不對題。我們該如何衡量「答得好」?標準是什麼?
  • 幻覺難以控制: 系統有時會「一本正經地胡說八道」,捏造不存在於文件中的事實。幻覺發生的頻率有多高?我們如何系統性地抑制它?
  • 成本是個黑盒子: 每次查詢到底花了多少錢?如果使用者量成長 100 倍,我們的 API 帳單會變成什麼樣子?

這些問題無法憑感覺回答。如果缺乏客觀的數據指標,任何優化都像是矇著眼睛射箭,無法判斷是改善還是改惡。這正是許多 RAG 專案卡在原型階段,難以產品化的根本原因——我們建造了一部引擎,卻沒有儀表板來監控它的運作狀態。

如何建立 RAG 的評估閉環?

要將 RAG 從原型推向產品,關鍵在於建立一個評估閉環,將抽象的「品質」轉化為具體的工程指標。日本開發者 Hal Hanami 在他自建的技術文件 RAG 系統中,就實踐了一套清晰的評估框架,主要圍繞三個核心維度:檢索品質、幻覺抑制與查詢成本。這套方法為我們提供了一個絕佳的起點。

首先,我們需要一個黃金標準的評估資料集,通常包含數十到數百組的「問題 - 預期答案 - 相關文件片段」對。這個資料集是所有量化評估的基礎。

一個穩定的評估資料集,是讓 RAG 系統從藝術走向科學的第一步。它將主觀的「感覺不錯」轉化為客觀的、可比較的指標,讓團隊的每一次優化都有了明確的標的。

RAG 的基石穩固嗎?如何評估檢索品質?

RAG 的核心假設是「Garbage in, garbage out」。如果檢索階段就找不到正確的資訊,後續的語言模型再強大也無能為力。因此,評估檢索器的效能至關重要。兩個常用的指標是:

  • 命中率(Hit Rate): 檢索器返回的 top-k 個文件中,有多少比例包含了正確答案所需的上下文?這是評估檢索器「有沒有找到」的基本盤。
  • 平均倒數排名(Mean Reciprocal Rank, MRR): 這個指標不僅關心是否找到,還關心找到的正確文件排在第幾位。排名越靠前,得分越高。對於問答系統來說,這是一個比命中率更具參考性的指標,因為 LLM 通常更依賴排名最前的幾個文件。相關的評估方法在許多資訊檢索研究中都有深入探討。

透過量化檢索品質,我們可以客觀比較不同 chunking 策略、embedding 模型或 reranker 帶來的影響,確保 RAG 的基石穩固。

如何有效抑制幻覺?我們能信任 RAG 的答案嗎?

幻覺是大型語言模型的天性,但在企業級知識系統中,其代價可能非常高昂。評估幻覺的關鍵在於「答案的歸因性」(Groundedness),也就是生成的答案是否完全基於檢索到的上下文。目前業界已有多個框架致力於此,例如 RAGAS 框架提出的 Faithfulness 指標,或 TruLens 提供的 Groundedness 評估。這些工具通常會利用另一個 LLM 來判斷生成答案中的每一句話,是否都能在提供的上下文中找到依據。

在 Hal Hanami 的實驗中,他透過 prompt 要求 `gpt-3.5-turbo-16k` 進行自我評估,判斷答案是否僅基於上下文。雖然這種方法有其侷限性,但在沒有複雜框架的情況下,不失為一個輕量級的起點。他的實驗在使用 50 組問答對的測試中,達到了 96% 的幻覺抑制率,這是一個具體的、可追蹤的品質指標,幫助我們衡量 RAG 答案的可信賴程度。

RAG 系統的成本黑盒子,該如何打開?

成本是決定 RAG 系統能否規模化的命脈。單次查詢的成本主要由兩部分構成:embedding 模型的 token 使用量(用於將使用者問題轉換為向量)和 LLM 的 token 使用量(包含輸入的 prompt 和上下文,以及輸出的答案)。

精確計算成本能幫助我們做出更明智的技術選擇。例如,使用 OpenAI 的 `text-embedding-ada-002` 搭配 `gpt-3.5-turbo-16k`,根據 Hal Hanami 的計算,在檢索到 3 個文件區塊(每個約 1000 token)的情況下,單次查詢成本約為 0.35 日圓。這個數字看似微不足道,但當每天有數千次查詢時,累積的費用就會非常可觀。建立成本監控儀表板,讓我們能在模型選擇、上下文長度等參數上進行權衡,找到品質與成本的最佳平衡點,徹底打開 RAG 系統的成本黑盒子。

評估體系如何成為持續優化的飛輪?

一旦建立了包含品質、幻覺和成本的評估儀表板,RAG 系統的優化路徑就變得清晰起來。這套體系將整個 RAG 流程從一個難以捉摸的黑盒子,變成了一個可以被度量、被拆解、被迭代的工程系統。

團隊的討論將不再是「我覺得這個答案不太好」,而是「我們的 MRR 從 0.85 下降到了 0.82,可能是因為新的 chunking 策略切碎了關鍵表格,我們需要回滾實驗」。或是「雖然換用 gpt-4-turbo 讓幻覺抑制率提升了 2%,但單次查詢成本增加了 150%,這個 trade-off 在目前階段是否值得?」這樣的量化對話,讓優化決策更有依據。

最初的 RAG 論文發表至今,這項技術的發展一日千里。但無論架構如何演進,回歸到工程本質,我們都需要一套可靠的度量衡。建立一個自動化的評估閉環,是將 RAG 從一個充滿潛力的技術概念,轉變為一個穩定、可靠、可信賴的產品的必經之路。這條路的起點,就是為你的 RAG 裝上儀表板。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。