Agent 效能再思考:為何成功率不是唯一指標,成本預算才是?
當前的 AI Agent 評估過度專注於任務成功率,卻忽略了延遲、Token 消耗等關鍵成本。本文從一篇近期的研究出發,探討為何我們需要一個包含成本預算的多維度效率框架,並分析如何在記憶、工具學習與規劃等層面,打造真正能在現實世界中部署的「經濟型」智能。
在當前的 AI Agent 開發浪潮中,我們似乎陷入了單一維度的競賽:盲目追求更高的任務成功率。然而,這種思維正讓我們偏離打造實用、可規模化產品的真正目標。我認為,Agent 的真實價值,不應只看它「能不能」完成任務,而必須在固定的成本預算(包含延遲、Token 消耗、運算資源)下,評估它「值不值得」被部署。脫離成本談效能,就像打造一輛不計油耗的概念賽車,雖然驚艷,卻永遠無法駛入尋常百姓家。我們需要建立新的效率框架,重新定義什麼才是有商業意義的智能。
單純追求成功率,為何會誤導我們?
目前主流的 Agent 評測基準,例如 AgentBench 或 SWE-bench,大多聚焦於 Agent 在特定任務上的最終成功率。這在學術探索階段是必要的,但在工程實踐上卻隱藏著巨大的陷阱。一個花了五分鐘、經過數十輪對話、消耗上萬 token 才成功預訂機票的 Agent,在使用者體驗和營運成本上都是一場災難。
在我的觀察中,真實世界的 Agent 部署面臨幾個不可忽視的剛性約束。首先是延遲(Latency),使用者對互動式系統的耐心極其有限,一個回應時間超過 5-8 秒的 Agent,無論多麼「聰明」,都會被使用者拋棄。其次是成本(Cost),每一次 LLM 的呼叫都意味著真金白銀的支出,一個步驟繁瑣、思考鏈冗長的 Agent,其 Token 消耗量可能呈指數級增長,迅速侵蝕產品的利潤空間。最後則是穩定性(Robustness),步驟越多,出錯的機率就越高,複雜的 Agent 在面對非預期輸入或環境變化時,更容易陷入無效循環或徹底崩潰。
當我們將所有資源都投入到將成功率從 90% 提升到 92% 時,可能忽略了其成本可能因此增加了 200%。這種不成比例的投入,正是許多 Agent 專案停留在概念驗證(PoC)階段,難以產品化的主因。
如何衡量一個「有效率」的 Agent?
一篇啟發我的研究報告,雖然是為闡述概念而虛構,但其核心思想是:我們應該在「成本-效益」的二維平面上,尋找所謂的「帕雷托前緣(Pareto Frontier)」。
簡單來說,帕雷托前緣描繪的是在給定成本(例如 1000 token)下,所能達到的「最佳可能成功率」的集合。我們的目標不是追求單點的極致成功率,而是要將 Agent 的效能曲線,盡可能地向成本更低、成功率更高的左上角推移。
在這個框架下,一個「好」的 Agent 不再是成功率最高的那個,而是在特定預算限制下(例如:延遲低於 3 秒、Token 消耗少於 4000),能提供最高成功率的那個。這讓我們得以進行更蘋果對蘋果的比較。例如,模型 A 在無限資源下成功率 95%,但在預算內只有 70%;模型 B 雖然極限成功率只有 85%,但在預算內卻能達到 80%。對於實際產品而言,模型 B 顯然是更優的選擇。
Agent 效率優化:從哪些實務切點著手?
要將 Agent 的效能推向帕雷托前緣,我們不能只依賴更大、更強的基礎模型,而必須從 Agent 架構的核心組件著手。上述報告與我的實務經驗都指向了三個關鍵方向:記憶、工具學習與規劃。
1. 更具成本效益的記憶管理(Memory)
Agent 的記憶是其上下文的基礎,但無限擴展的對話歷史會帶來高昂的 Token 成本與處理延遲。與其將所有資訊暴力塞入 context window,不如採用更聰明的策略。例如,透過摘要、向量化檢索(RAG)或更精細的資訊壓縮技術,將最相關的資訊保留在「工作記憶」中。許多研究,如 LongLoRA,都在探索如何在有限成本下擴展有效上下文,這正是提升記憶效率的關鍵。
2. 更精準的工具學習(Tool Learning)
Agent 透過呼叫外部工具(API)來擴展其能力,但錯誤或低效的工具使用是成本浪費的主要來源。優化的方向包含:透過少量樣本(few-shot)讓模型學習更精準的 API 呼叫格式、針對特定工具使用場景進行模型微調(fine-tuning),或是設計更好的 ReAct-style prompt 來引導模型做出正確決策。像 ToolLLM 這樣的專案,正是致力於讓模型能更可靠、更高效地使用數千種工具。
3. 更具前瞻性的規劃(Planning)
一個好的規劃能力,能讓 Agent 避免走冤枉路,用最少的步驟達成目標。傳統的思維鏈(Chain-of-Thought)過於線性,容易出錯。更進階的規劃演算法,如思維樹(Tree of Thoughts),雖然能探索更多可能性,但成本也更高。真正的效率突破,可能在於「受控搜索」,例如透過強化學習(RL)訓練一個策略模型,來引導 Agent 在龐大的決策空間中,優先選擇最有可能通往成功的路徑,從而大幅削減不必要的探索成本。
總結來說,AI Agent 的發展已經走過了「證明可行」的階段,現在正進入「追求實用」的深水區。我們必須停止對單一指標的迷戀,轉而擁抱一個包含成本、延遲與成功率的多維度評估體系。只有當我們開始嚴肅對待「效率」與「預算」,並從記憶、工具、規劃等根本層面進行優化,才能打造出真正能夠落地、創造價值的智能系統。
延伸閱讀
- AgentBench: Evaluating LLMs as Agents
- SWE-bench: A Benchmark for Evaluating Language Models on Software Engineering Tasks
- LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models
- Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality (A case study on evaluating LLM performance beyond simple benchmarks)
- ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。