Agent 評估的下一步:從排行榜分數走向可驗證的工作流

隨著 AI Agent 能力的飛速提升,我們如何確保它們是真的完成任務,而不僅僅是「看起來成功」?微軟的一項最新研究,為此提出了一個關鍵解方:建立「通用驗證器」。這不只是一項技術挑戰,更關乎我們如何治理與信任自主系統,是 AI Agent 從實驗室走向真實世界的必經之路。

Agent 評估的下一步:從排行榜分數走向可驗證的工作流

最近幾個月,AI Agent 的發展幾乎主宰了所有技術社群的討論。從簡單的任務自動化到複雜的多 Agent 協作,我們看見了驚人的潛力。然而,在能力飛速提升的同時,一個根本性的問題也浮上檯面:我們該如何評估一個 Agent 是否真的「成功」完成了任務?

目前,業界主流的評估方式高度依賴各種基準測試(benchmark)與排行榜,例如知名的 SWE-bench 或 GAIA。開發者們競相在這些標準化任務上優化自己的 Agent,爭取更高的分數。這種作法在領域發展初期有其必要性,它提供了一個相對客觀的競技場,也確實推動了技術的快速迭代。但一個高分,是否就代表這個 Agent 在真實世界中可靠、可信?我認為,我們正逐漸觸及這種評估範式的極限。

評估的隱藏成本:當「成功」難以定義

基準測試的核心問題在於,它往往將複雜的任務簡化為一個二元的結果:成功或失敗。但在真實世界中,「成功」的定義遠比這模糊得多。

一個 Agent 可能完成了訂購機票的指令,但它選擇的航班是否符合使用者隱含的偏好(例如,避開紅眼航班、選擇特定航空公司聯盟)?它可能成功在程式碼庫中修復了一個 bug,但這個修復是否引入了新的技術債,或者違反了團隊的程式碼風格指南?

這些細微但關鍵的差異,是單純的排行榜分數無法捕捉的。當我們無法精準、可靠地驗證任務的「品質」,而不僅僅是「完成狀態」時,評估就成了一項隱藏的巨大成本。這不僅需要大量人工介入來確認結果,更嚴重的是,它讓我們對 Agent 的信任始終建立在一個不穩固的基礎上。

如果我們希望 Agent 能夠處理金融交易、管理關鍵基礎設施,或是在醫療場景中提供輔助,那麼「看起來成功」是遠遠不夠的。我們需要的是一個可驗證、可追溯、可審計的執行過程。

微軟的通用驗證器:一個解方與其啟示

最近,微軟的一篇新論文針對這個痛點,提出了一個極具啟發性的方向。他們在研究中直指所有 Agent 基準測試都面臨的共同難題:你如何知道 Agent 真的成功了?為了解決這個問題,他們引入了「通用驗證器」(Universal Verifier)的概念,並分享了在建構網頁任務驗證器時的經驗。

這個概念的核心,是將「驗證」本身也視為一個需要被系統化、自動化解決的工程問題。一個好的驗證器,應該能夠:

  • 程式化檢查: 不依賴人工判斷,而是透過程式碼來檢查任務完成後的最終狀態是否符合所有預設條件。
  • 狀態全面: 不只檢查單一指標(例如某個檔案是否存在),而是全面評估環境的狀態變化。
  • 高可靠性: 驗證器本身的錯誤率必須極低,才能成為評估的黃金標準。

微軟的嘗試,標示著一個重要的思維轉變。我們不再將評估視為事後的、人工的抽查,而是將其前置為系統設計的一部分。這就像是軟體開發中的「測試驅動開發」(TDD),我們在設計 Agent 的能力的同時,也在設計一套能夠證明其能力的驗證機制。

真正的挑戰不在於讓 Agent 執行任務,而在於建立一個能可靠、規模化地「證明」任務已正確完成的機制。這層驗證基礎設施,才是決定 Agent 能否從實驗室走向產業應用的關鍵。

走向可驗證的工作流與治理框架

通用驗證器的概念,其意義遠不止於改善基準測試。它真正指向的,是 Agent 發展的下一個階段:建立可驗證的工作流(verifiable workflows)與相應的治理框架。

當我們擁有可靠的驗證器後,評估的焦點就能從單一的終點分數,轉移到對整個執行過程的審視。這意味著我們可以建立一套全新的評估與治理體系,它更關注:

評估維度 舊範式 (分數導向) 新範式 (驗證導向)
核心目標 在基準測試上取得高分 確保任務執行的可靠性與正確性
驗證方式 人工抽查或簡化腳本 自動化、程式化的通用驗證器
產出結果 一個分數或成功率 一份詳細、可供審計的執行日誌與驗證報告
信任基礎 對排行榜權威的信任 對透明、可驗證過程的信任

這種轉變至關重要。對於追求在關鍵業務中導入 Agent 的企業而言,一個可驗證的工作流遠比一個漂亮的排行榜分數更有價值。它意味著每一次 Agent 的操作都有跡可循,每一次的成功都有紮實的證據支持,每一次的失敗都能被精準地歸因。這不僅是技術問題,更是風險管理與合規治理的核心要求。

Agent 的能力邊界仍在飛速擴張,但真正決定其未來的,或許不是它能做多酷炫的事,而是我們有多大的信心去信任它所做的事。從這個角度看,建立強健的驗證與評估基礎設施,正是我們為 AI Agent 鋪設一條從潛力走向現實的漫長道路上,最該踏穩的第一步。

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。


延伸閱讀