多代理協作的迷思:當預算固定,單一大型模型為何是更有效率的選擇?
業界對多代理(Multi-agent)系統的追捧,可能建立在一個被忽略的基礎上:不受控制的計算預算。一篇新研究指出,當我們將思考的「成本」拉到同個基準點,單一大型模型因其資訊效率,表現反而超越了複雜的多代理架構。這對系統設計者意味著什麼?
近年來,多代理(Multi-agent)協作系統幾乎成為 AI 領域最熱門的架構典範。從 AutoGen 到 CrewAI,我們看到越來越多框架,試圖模擬人類團隊分工的模式:讓多個專注於特定任務的 AI 代理(Agent)彼此溝通、辯論、迭代,最終完成一個複雜的目標。這個想法直觀上極具吸引力——將大問題拆解成小問題,交由專家處理,聽起來無疑是通往更強大通用智慧的康莊大道。
然而,這個看似美好的圖景,可能忽略了一個殘酷而關鍵的現實變數:成本。一篇近期的研究論文(arXiv:2604.02460)對這個主流趨勢提出了深刻的質疑。研究結果顯示,當我們在一個固定的「計算預算」(Computation Budget)下進行公平比較時,單一、大型的語言模型(Single-agent LLM)在解決問題的表現上,反而穩定地優於由多個代理組成的系統。
這個發現不僅挑戰了我們對 AI 系統設計的普遍認知,更迫使我們重新思考在資源有限的真實世界中,什麼才是真正有效率的架構。
重新審視多代理系統的「優勢」
多代理系統的優勢,通常被歸結為幾個面向。首先,它允許我們透過角色扮演與專業分工,為不同的代理設定特定職責,例如「規劃者」、「執行者」或「批判家」,讓它們從各自專業角度切入問題。其次,代理之間能夠迭代與反思,透過對話與回饋形成自我修正的循環,進而提升最終結果的品質。此外,其模組化與可擴展性也備受推崇,因為系統更容易維護與擴展,可以針對特定代理進行優化而不影響整體架構。
這些優點確實存在,但它們的展現往往伴隨著一個隱藏的代價:巨大的計算量。一個多代理系統為了達成共識或完成任務,其內部來回溝通所消耗的 Token 總量,可能遠遠超過單一模型一次性思考並生成答案所需的量。許多看似「多代理更聰明」的展示或評測,實際上可能只是因為我們允許它花了五倍、十倍的 Token 預算去「暴力破解」。
這就像比較一位經驗豐富的專家與一個新手團隊。如果我們不限制時間和資源,新手團隊透過大量的內部討論、試錯和外部諮詢,最終或許能得出和專家一樣的結論。但如果我們規定雙方都只能在「一小時內」解決問題,專家的經驗與知識整合能力,很可能讓她更快地直達核心。這篇研究做的,正是這樣一場「限時競賽」。
資訊效率的理論:為何單一模型更勝一籌?
研究的核心論點,建立在一個名為「資訊處理不等式」(Information Processing Inequality)的理論基礎上。這個理論指出,在任何一個處理鏈中,資訊經過每一步處理後,其內含的資訊量只會減少或維持不變,絕不會增加。
我們可以將這個概念應用到 AI 代理的協作上。當資訊在代理 A、B、C 之間傳遞時,每一次的溝通與轉譯,都可能造成微小的資訊損失或曲解,就像一場「傳話遊戲」。代理 A 的完整思考脈絡,很難百分之百無損地傳遞給代理 B。隨著協作鏈條變長,這種資訊耗損會不斷累積,最終影響系統整體的決策品質。
相較之下,一個單一、大型且擁有足夠上下文視窗(Context Window)的模型,就像一個高度整合的「中央大腦」。它在處理問題時,能夠同時觀照所有相關資訊,不存在內部溝通的損耗。所有資訊都在一個統一的語義空間內進行處理,這使得它的資訊效率本質上就高於分散式的多代理系統。
研究團隊透過 Qwen3 等模型進行的實驗也驗證了這一點。在嚴格控制總思考 Token 數量的條件下,單一代理模型的表現不僅更優越,而且更加穩定。多代理系統的表現則波動較大,其看似強大的能力,很可能只是大量計算堆砌出的海市蜃樓。
系統設計的務實取捨:預算、效率與評估陷阱
這項研究對我們這些 AI 系統的建構者,帶來了極為重要的實務啟示。在商業世界,成本不是一個學術問題,而是攸關產品存亡的關鍵。API 的每一次調用,每一個 Token 的消耗,都直接轉化為營運費用。
因此,在設計 AI 應用時,我們必須做出務實的取捨,並將以下幾點納入考量:
首先是預算優先原則。在追求功能強大之前,我們必須先問自己:「我的預算有多少?」在固定的預算下,將資源集中投入到一個更強大的單一模型,並搭配精巧的提示工程(Prompt Engineering),往往是比搭建一個複雜、昂貴的多代理框架更明智的第一步。
其次,我們必須警惕評估偏差。在評估一個新模型或新架構時(例如近期的 Gemini 2.5),我們必須極度小心「評估假象」(Evaluation Artifacts)。許多令人驚艷的展示,可能來自於不公平的比較基準。作為開發者,我們有責任去探究展示背後的真實計算成本,而不是僅僅被表面的成果所迷惑。
最後,這也促使我們重新定義多代理的適用場景。這並非宣判了多代理系統的死刑。在某些特定場景下,例如需要與多個獨立的外部工具(API、資料庫)進行高度隔離的互動,或者任務本身具有極強的模組化特性時,多代理架構依然有其價值。但它不應再被視為解決所有複雜問題的預設方案。
總結來說,這篇研究像一盆冷水,澆熄了部分對於多代理系統不切實際的狂熱。它提醒我們,回歸工程的本質——在限制條件下,尋找最優解。在 AI 系統設計的道路上,我們追求的不應是看似最複雜、最華麗的架構,而應是那個在成本、效率與性能之間達到最佳平衡的務實設計。在許多情況下,那個答案可能比我們想像的要簡單得多。
延伸閱讀
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。