mk-brain

多 Agent 系統的勝利，是算力堆疊的幻覺嗎？

多 Agent 系統在複雜推理任務上看似優越，但一份研究揭示，當我們將「思考預算」納入考量，單一 Agent 的資訊效率與表現可能更勝一籌。本文將帶你跳脫效能分數的迷思，從成本與架構效益的角度，重新評估 Agent 協作的真實價值。

江中喬

20 5月 2026 • 7 min read

最近 AI 領域對多 Agent 協作系統的討論熱度居高不下，許多人認為透過讓多個 Agent 分工、辯論，就能解決更複雜的問題。然而，這種性能提升的背後，可能只是一種「算力堆疊」的幻覺。一份新的研究指出，當我們控制總體的「思考 token 預算」時，單一 Agent 在多步推理任務上的表現，其實優於多 Agent 系統。這意味著我們不能只看最終分數，而必須將協調成本與資訊效率納入評估，否則很容易將龐大的運算開銷誤認為是架構本身的優勢。

這個觀點對所有正在設計或導入 AI 系統的開發者與產品經理來說，都是一個重要的提醒。我們追求的不應只是帳面上的最佳性能，更應該是成本效益下的最佳解。否則，我們可能只是在用昂貴的 token 換取邊際效益，卻忽略了更簡潔、高效的架構可能性。

為什麼我們需要質疑多 Agent 系統的「表面效能」？

過去幾年，從學術界到產業界，許多實驗都展示了多 Agent 系統在各類 benchmark 上的卓越表現。無論是模擬辯論、分工解決程式問題，或是進行科學研究，增加 Agent 數量似乎總能帶來更好的結果。這背後的直覺很簡單：三個臭皮匠，勝過一個諸葛亮。透過不同角色的協作與觀點碰撞，系統能探索更廣泛的解法空間，並修正單一 Agent 可能出現的偏誤。

然而，一份於 2026 年 4 月初發布（並於 4 月 11 日更新至 v2）的論文 Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets 提出了關鍵的挑戰。研究者發現，過去的比較基準往往忽略了一個核心變數：總計算量。多 Agent 系統之所以表現優異，很多時候只是因為它們整體消耗了更多的 token——也就是投入了更多的「思考時間」。當研究者將總 token 預算設定為相同水平時，結果發生了逆轉：單一 Agent 在需要多步推理的任務上，表現得比多 Agent 系統更好。

這項發現的核心論點，可以用資訊理論來解釋。在多 Agent 系統中，Agent 之間的溝通本身就是一種成本。每一次的資訊交換，都可能產生損耗、誤解或冗餘，降低了整體的資訊傳遞效率。相比之下，單一 Agent 的「思考過程」發生在統一的 context window 內，沒有外部溝通的摩擦成本，資訊效率自然更高。

單一 Agent 的資訊效率優勢

我們可以把這個問題想像成一個組織管理的情境。一個經驗豐富、能力全面的專家，獨立解決一個複雜問題時，所有資訊都在他的腦中整合、推理，過程非常高效。但如果換成一個由三位初階專員組成的團隊，他們需要開會、同步資訊、來回溝通，過程中不僅耗時，還可能因為溝通不良而產生誤判。即使團隊最終也解決了問題，但總體投入的「人時」可能遠高於那位專家。

在大型語言模型的世界裡，token 就是我們的「人時」，是系統運作最主要的成本單位。多 Agent 系統的協調機制，例如讓 Agent 之間進行多輪對話、投票或角色扮演，本質上都是在消耗大量的 token 來達成共識。雖然像 LangChain 這樣的框架簡化了 Agent 的建構流程，讓開發者能更輕易地搭建多 Agent 系統，但底層的運算成本問題依然存在，不容忽視。

當我們評估一個 AI 系統時，不能只問「它做到了嗎？」，更要問「它花了多少代價做到？」。在 Agent 的世界裡，這個代價就是 token。

因此，當我們看到一個多 Agent 系統在某個任務上取得 95 分，而單一 Agent 只有 90 分時，我們必須追問：前者是否消耗了後者十倍的 token？如果是，那這 5 分的提升是否值得？對於追求實用性與規模化的產品而言，答案通常是否定的。

那麼，何時採用多 Agent 架構才合理？

當然，這不代表多 Agent 系統一無是處。關鍵在於辨識它真正能發揮架構優勢的場景。我認為，在以下幾種情況下，採用多 Agent 架構是合理且具策略意義的：

高度異質化的專業分工：當任務需要整合截然不同的知識領域或工具時，為每個領域設計一個專門的 Agent 會比訓練一個龐大而笨重的「全才」Agent 更有效率。例如，一個 Agent 負責編寫程式碼，另一個 Agent 負責執行與除錯，各司其職。
真實世界互動的模擬：在需要模擬複雜社會動態、市場行為或談判場景時，多 Agent 系統能更好地捕捉個體間的互動與突現行為（emergent behavior），這是單一 Agent 難以做到的。
可並行處理的任務拆解：如果一個大問題能被清晰地拆解成多個可以獨立、並行處理的子任務，那麼多 Agent 架構就能發揮計算資源的優勢，縮短整體反應時間。

在設計系統時，我們需要回歸到更根本的原則。正如 Anthropic 在建立高效能 Agent 時所強調的，重點在於可靠性與可預測性。一個成本高昂、行為複雜難料的多 Agent 系統，在許多商業應用中反而可能成為沉重負擔。同時，我們也必須考量到 AI 系統的風險管理，如 NIST 的 AI 風險管理框架所倡議的，對系統的效益、成本與可靠性進行通盤評估。

總結來說，我們不應盲目追求多 Agent 的風潮，而應將其視為眾多架構選項之一。在投入資源之前，先問問自己：這個問題是否真的需要多個 Agent 來解決？或者，一個經過精心設計、擁有充足思考空間的單一 Agent，會不會是一個更經濟、更有效率的選擇？事實上，許多前沿的 AI 研究，例如 OpenAI 正在探索的深度研究方向，也愈來愈關注如何提升單一模型的推理效率，而非僅僅透過堆疊元件來解決問題。最終，真正有價值的不是複雜的架構，而是能以最低成本、最高效率解決實際問題的系統。

多 Agent 系統的勝利，是算力堆疊的幻覺嗎？

江中喬

為什麼我們需要質疑多 Agent 系統的「表面效能」？

單一 Agent 的資訊效率優勢

那麼，何時採用多 Agent 架構才合理？

延伸閱讀

Sign up for more like this.