mk-brain

Agent 效能再思考：為何成功率不是唯一指標，成本預算才是？

當前的 AI Agent 評估過度專注於任務成功率，卻忽略了延遲、Token 消耗等關鍵成本。本文從一篇近期的研究出發，探討為何我們需要一個包含成本預算的多維度效率框架，並分析如何在記憶、工具學習與規劃等層面，打造真正能在現實世界中部署的「經濟型」智能。

江中喬

28 5月 2026 • 6 min read

在當前的 AI Agent 開發浪潮中，我們似乎陷入了單一維度的競賽：盲目追求更高的任務成功率。然而，這種思維正讓我們偏離打造實用、可規模化產品的真正目標。我認為，Agent 的真實價值，不應只看它「能不能」完成任務，而必須在固定的成本預算（包含延遲、Token 消耗、運算資源）下，評估它「值不值得」被部署。脫離成本談效能，就像打造一輛不計油耗的概念賽車，雖然驚艷，卻永遠無法駛入尋常百姓家。我們需要建立新的效率框架，重新定義什麼才是有商業意義的智能。

單純追求成功率，為何會誤導我們？

目前主流的 Agent 評測基準，例如 AgentBench 或 SWE-bench，大多聚焦於 Agent 在特定任務上的最終成功率。這在學術探索階段是必要的，但在工程實踐上卻隱藏著巨大的陷阱。一個花了五分鐘、經過數十輪對話、消耗上萬 token 才成功預訂機票的 Agent，在使用者體驗和營運成本上都是一場災難。

在我的觀察中，真實世界的 Agent 部署面臨幾個不可忽視的剛性約束。首先是延遲（Latency），使用者對互動式系統的耐心極其有限，一個回應時間超過 5-8 秒的 Agent，無論多麼「聰明」，都會被使用者拋棄。其次是成本（Cost），每一次 LLM 的呼叫都意味著真金白銀的支出，一個步驟繁瑣、思考鏈冗長的 Agent，其 Token 消耗量可能呈指數級增長，迅速侵蝕產品的利潤空間。最後則是穩定性（Robustness），步驟越多，出錯的機率就越高，複雜的 Agent 在面對非預期輸入或環境變化時，更容易陷入無效循環或徹底崩潰。

當我們將所有資源都投入到將成功率從 90% 提升到 92% 時，可能忽略了其成本可能因此增加了 200%。這種不成比例的投入，正是許多 Agent 專案停留在概念驗證（PoC）階段，難以產品化的主因。

如何衡量一個「有效率」的 Agent？

一篇啟發我的研究報告，雖然是為闡述概念而虛構，但其核心思想是：我們應該在「成本－效益」的二維平面上，尋找所謂的「帕雷托前緣（Pareto Frontier）」。

簡單來說，帕雷托前緣描繪的是在給定成本（例如 1000 token）下，所能達到的「最佳可能成功率」的集合。我們的目標不是追求單點的極致成功率，而是要將 Agent 的效能曲線，盡可能地向成本更低、成功率更高的左上角推移。

在這個框架下，一個「好」的 Agent 不再是成功率最高的那個，而是在特定預算限制下（例如：延遲低於 3 秒、Token 消耗少於 4000），能提供最高成功率的那個。這讓我們得以進行更蘋果對蘋果的比較。例如，模型 A 在無限資源下成功率 95%，但在預算內只有 70%；模型 B 雖然極限成功率只有 85%，但在預算內卻能達到 80%。對於實際產品而言，模型 B 顯然是更優的選擇。

Agent 效率優化：從哪些實務切點著手？

要將 Agent 的效能推向帕雷托前緣，我們不能只依賴更大、更強的基礎模型，而必須從 Agent 架構的核心組件著手。上述報告與我的實務經驗都指向了三個關鍵方向：記憶、工具學習與規劃。

1. 更具成本效益的記憶管理（Memory）

Agent 的記憶是其上下文的基礎，但無限擴展的對話歷史會帶來高昂的 Token 成本與處理延遲。與其將所有資訊暴力塞入 context window，不如採用更聰明的策略。例如，透過摘要、向量化檢索（RAG）或更精細的資訊壓縮技術，將最相關的資訊保留在「工作記憶」中。許多研究，如 LongLoRA，都在探索如何在有限成本下擴展有效上下文，這正是提升記憶效率的關鍵。

2. 更精準的工具學習（Tool Learning）

Agent 透過呼叫外部工具（API）來擴展其能力，但錯誤或低效的工具使用是成本浪費的主要來源。優化的方向包含：透過少量樣本（few-shot）讓模型學習更精準的 API 呼叫格式、針對特定工具使用場景進行模型微調（fine-tuning），或是設計更好的 ReAct-style prompt 來引導模型做出正確決策。像 ToolLLM 這樣的專案，正是致力於讓模型能更可靠、更高效地使用數千種工具。

3. 更具前瞻性的規劃（Planning）

一個好的規劃能力，能讓 Agent 避免走冤枉路，用最少的步驟達成目標。傳統的思維鏈（Chain-of-Thought）過於線性，容易出錯。更進階的規劃演算法，如思維樹（Tree of Thoughts），雖然能探索更多可能性，但成本也更高。真正的效率突破，可能在於「受控搜索」，例如透過強化學習（RL）訓練一個策略模型，來引導 Agent 在龐大的決策空間中，優先選擇最有可能通往成功的路徑，從而大幅削減不必要的探索成本。

總結來說，AI Agent 的發展已經走過了「證明可行」的階段，現在正進入「追求實用」的深水區。我們必須停止對單一指標的迷戀，轉而擁抱一個包含成本、延遲與成功率的多維度評估體系。只有當我們開始嚴肅對待「效率」與「預算」，並從記憶、工具、規劃等根本層面進行優化，才能打造出真正能夠落地、創造價值的智能系統。