多 Agent 系統的勝利,是算力堆疊的幻覺嗎?
多 Agent 系統在複雜推理任務上看似優越,但一份研究揭示,當我們將「思考預算」納入考量,單一 Agent 的資訊效率與表現可能更勝一籌。本文將帶你跳脫效能分數的迷思,從成本與架構效益的角度,重新評估 Agent 協作的真實價值。
最近 AI 領域對多 Agent 協作系統的討論熱度居高不下,許多人認為透過讓多個 Agent 分工、辯論,就能解決更複雜的問題。然而,這種性能提升的背後,可能只是一種「算力堆疊」的幻覺。一份新的研究指出,當我們控制總體的「思考 token 預算」時,單一 Agent 在多步推理任務上的表現,其實優於多 Agent 系統。這意味著我們不能只看最終分數,而必須將協調成本與資訊效率納入評估,否則很容易將龐大的運算開銷誤認為是架構本身的優勢。
這個觀點對所有正在設計或導入 AI 系統的開發者與產品經理來說,都是一個重要的提醒。我們追求的不應只是帳面上的最佳性能,更應該是成本效益下的最佳解。否則,我們可能只是在用昂貴的 token 換取邊際效益,卻忽略了更簡潔、高效的架構可能性。
為什麼我們需要質疑多 Agent 系統的「表面效能」?
過去幾年,從學術界到產業界,許多實驗都展示了多 Agent 系統在各類 benchmark 上的卓越表現。無論是模擬辯論、分工解決程式問題,或是進行科學研究,增加 Agent 數量似乎總能帶來更好的結果。這背後的直覺很簡單:三個臭皮匠,勝過一個諸葛亮。透過不同角色的協作與觀點碰撞,系統能探索更廣泛的解法空間,並修正單一 Agent 可能出現的偏誤。
然而,一份於 2026 年 4 月初發布(並於 4 月 11 日更新至 v2)的論文 Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets 提出了關鍵的挑戰。研究者發現,過去的比較基準往往忽略了一個核心變數:總計算量。多 Agent 系統之所以表現優異,很多時候只是因為它們整體消耗了更多的 token——也就是投入了更多的「思考時間」。當研究者將總 token 預算設定為相同水平時,結果發生了逆轉:單一 Agent 在需要多步推理的任務上,表現得比多 Agent 系統更好。
這項發現的核心論點,可以用資訊理論來解釋。在多 Agent 系統中,Agent 之間的溝通本身就是一種成本。每一次的資訊交換,都可能產生損耗、誤解或冗餘,降低了整體的資訊傳遞效率。相比之下,單一 Agent 的「思考過程」發生在統一的 context window 內,沒有外部溝通的摩擦成本,資訊效率自然更高。
單一 Agent 的資訊效率優勢
我們可以把這個問題想像成一個組織管理的情境。一個經驗豐富、能力全面的專家,獨立解決一個複雜問題時,所有資訊都在他的腦中整合、推理,過程非常高效。但如果換成一個由三位初階專員組成的團隊,他們需要開會、同步資訊、來回溝通,過程中不僅耗時,還可能因為溝通不良而產生誤判。即使團隊最終也解決了問題,但總體投入的「人時」可能遠高於那位專家。
在大型語言模型的世界裡,token 就是我們的「人時」,是系統運作最主要的成本單位。多 Agent 系統的協調機制,例如讓 Agent 之間進行多輪對話、投票或角色扮演,本質上都是在消耗大量的 token 來達成共識。雖然像 LangChain 這樣的框架簡化了 Agent 的建構流程,讓開發者能更輕易地搭建多 Agent 系統,但底層的運算成本問題依然存在,不容忽視。
當我們評估一個 AI 系統時,不能只問「它做到了嗎?」,更要問「它花了多少代價做到?」。在 Agent 的世界裡,這個代價就是 token。
因此,當我們看到一個多 Agent 系統在某個任務上取得 95 分,而單一 Agent 只有 90 分時,我們必須追問:前者是否消耗了後者十倍的 token?如果是,那這 5 分的提升是否值得?對於追求實用性與規模化的產品而言,答案通常是否定的。
那麼,何時採用多 Agent 架構才合理?
當然,這不代表多 Agent 系統一無是處。關鍵在於辨識它真正能發揮架構優勢的場景。我認為,在以下幾種情況下,採用多 Agent 架構是合理且具策略意義的:
- 高度異質化的專業分工:當任務需要整合截然不同的知識領域或工具時,為每個領域設計一個專門的 Agent 會比訓練一個龐大而笨重的「全才」Agent 更有效率。例如,一個 Agent 負責編寫程式碼,另一個 Agent 負責執行與除錯,各司其職。
- 真實世界互動的模擬:在需要模擬複雜社會動態、市場行為或談判場景時,多 Agent 系統能更好地捕捉個體間的互動與突現行為(emergent behavior),這是單一 Agent 難以做到的。
- 可並行處理的任務拆解:如果一個大問題能被清晰地拆解成多個可以獨立、並行處理的子任務,那麼多 Agent 架構就能發揮計算資源的優勢,縮短整體反應時間。
在設計系統時,我們需要回歸到更根本的原則。正如 Anthropic 在建立高效能 Agent 時所強調的,重點在於可靠性與可預測性。一個成本高昂、行為複雜難料的多 Agent 系統,在許多商業應用中反而可能成為沉重負擔。同時,我們也必須考量到 AI 系統的風險管理,如 NIST 的 AI 風險管理框架 所倡議的,對系統的效益、成本與可靠性進行通盤評估。
總結來說,我們不應盲目追求多 Agent 的風潮,而應將其視為眾多架構選項之一。在投入資源之前,先問問自己:這個問題是否真的需要多個 Agent 來解決?或者,一個經過精心設計、擁有充足思考空間的單一 Agent,會不會是一個更經濟、更有效率的選擇?事實上,許多前沿的 AI 研究,例如 OpenAI 正在探索的深度研究方向,也愈來愈關注如何提升單一模型的推理效率,而非僅僅透過堆疊元件來解決問題。最終,真正有價值的不是複雜的架構,而是能以最低成本、最高效率解決實際問題的系統。
延伸閱讀
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。