mk-brain

別再用 ID-level Recall 自我安慰：RAG 評估的真正陷阱

許多團隊在評估 RAG 系統時，常陷入一個誤區：過度依賴基於文件 ID 的 Recall 指標。這種看似直觀的方法，實際上可能掩蓋了內容檢索的真實品質，讓我們錯把表面的「命中」當成真正可用的內容召回。本文將從一個真實案例出發，探討為何這種評估方式是危險的，以及如何建立更誠實、更能反映系統真實能力的評估框架。

江中喬

13 6月 2026 • 6 min read

在建構與評估 RAG（Retrieval-Augmented Generation）系統時，許多團隊常犯的錯誤，並非選用不夠強大的檢索器，而是採用了過於天真、甚至會自我欺騙的評估方法。特別是過度依賴基於文件 ID 的 Recall（ID-level recall），這種指標計算簡單，看似客觀，卻只回答了「是否找到了正確的文件？」，忽略了更關鍵的「找到的內容，真的能用來回答問題嗎？」當我們錯把表面的 ID 命中當成真正可用的內容召回時，就等於為系統的失敗埋下伏筆。評估設計本身就是系統品質最重要的一環，一個虛假的指標比一個薄弱的演算法更危險。

ID-level Recall 如何誤導我們？一個真實案例的警示

不久前，一位開發者 Elvis Yao 在他的技術筆記中進行了一次重要的修正。他曾在一系列文章中提到，他自建的 RAG 系統有高達 33% 的案例屬於「grounded-but-wrong」，也就是檢索到的內容看似相關，卻無法支持正確答案的生成。這個數字令人擔憂，也指向了檢索元件的嚴重缺陷。然而，經過深入追查，他發現問題的根源並非檢索失敗，而是他所使用的評估指標產生了誤導。

他最初的評估流程，是採用自定義的 ID-based recall，其計算方式是：

| 檢索到的文件 ID 集合 ∩ 答案來源的文件 ID 集合 | / | 答案來源的文件 ID 集合 |

這個公式只關心「正確的 ID 有沒有出現」。然而，當他改用像 RAGAS 這類更成熟的評估框架時，發現結果截然不同。RAGAS 的 context_recall 並不關心文件 ID，而是利用 LLM 來判斷「檢索到的上下文（context）是否包含了回答問題所需的所有資訊」。在這個更嚴謹的定義下，原本那 33/100 的「失敗案例」幾乎都消失了。這證明他的檢索器其實表現得不錯，真正有問題的是那套只看 ID 的評估方法。

為什麼 ID-level Recall 如此危險？

這個案例完美地揭示了單純依賴 ID 匹配進行評估的盲點。這種方法之所以危險，是因為它忽略了 RAG 系統中內容處理的複雜性，尤其是在 chunking（文本切塊）之後。具體來說，它至少有以下幾個致命缺陷：

文件命中不等於內容命中：一份長文件可能被切成數十個 chunks。ID-level recall 只知道你找到了這份文件，但無法保證你取回的那個 chunk 恰好包含了回答問題的關鍵句子。你可能拿到了文件的第一段，但答案其實在第十段。
忽略了內容的冗餘與分佈：在真實的知識庫中，同一個答案或關鍵資訊可能存在於多份文件中。ID-level recall 通常只會綁定一個「標準答案」來源文件 ID。如果你的檢索器聰明地從另一份文件中找到了完全相同的資訊，這個指標會無情地將其判為失敗。
無法處理語義的細微差別：檢索器可能回傳了主題相關、但缺乏具體細節的內容。例如，問題是「GPT-4 Turbo 的 context window 是多少？」，檢索器回傳了描述 GPT-4 Turbo 整體架構的段落。ID-level recall 可能會因為文件 ID 正確而給予高分，但這個 chunk 對於生成精確答案（128k tokens）毫無幫助。

我們必須認清一個事實：在 RAG 的世界裡，召回的最小單位是「資訊」，而不是「文件」。任何無法衡量資訊本身可用性的指標，都存在根本性的缺陷。

如何建立更誠實的 RAG 評估框架？

要擺脫 ID-level recall 帶來的虛假安全感，我們需要將評估的重心從「文件 ID」轉向「內容語義」。這意味著要採用更貼近人類判斷的評估方式，通常需要藉助 LLM 的力量（LLM-as-a-judge）。

一個更穩健的評估框架，應該包含多個維度的指標，例如：

Context Relevance / Precision：檢索到的上下文與問題的相關性有多高？是否存在大量無關的雜訊？這可以透過計算 query 和 context chunks 之間的語義相似度，或直接讓 LLM 進行 1-5 分的評分來實現。
Context Recall：如前述 RAGAS 的定義，檢索到的上下文是否完整覆蓋了生成標準答案所需的所有資訊？這是衡量檢索器能否「找全」的關鍵。
Faithfulness / Groundedness：最終生成的答案，是否完全基於所提供的上下文，沒有產生幻覺或捏造資訊？這個指標是評估 Generation 階段可靠性的基石。

幸運的是，我們不必從零開始。業界已經有許多開源工具和框架可以協助我們實現更精準的評估，例如 RAGAS、TruLens，以及學術界提出的更先進的評估基準如 ARES。這些工具的核心思想，都是將評估自動化，同時盡可能地逼近人類對「好」與「壞」的直觀判斷。它們的出現，讓我們終於有能力擺脫 ID 匹配的原始方法，對 RAG 系統進行一次更誠實的體檢。

總歸來說，RAG 系統的成敗，不僅取決於檢索與生成的技術，更深刻地取決於我們如何定義與衡量「成功」。如果我們持續使用簡陋、易於誤導的指標，就如同帶著失準的羅盤航行，即使引擎再強大，也永遠無法抵達正確的目的地。是時候將評估設計本身，視為產品開發的核心任務了。

延伸閱讀

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。

ID-level Recall 如何誤導我們？一個真實案例的警示

為什麼 ID-level Recall 如此危險？

如何建立更誠實的 RAG 評估框架？

延伸閱讀

Sign up for more like this.