mk-brain

AI Agent 的能力幻覺：為何實驗室裡的超能力，在真實世界不堪一擊？

我們不斷為 AI Agent 賦予更多技能，期待它能解決複雜問題。但一篇研究揭示了殘酷的真相：在真實工作流中，這些技能的效益極其脆弱，表現甚至趨近於零。真正的瓶頸並非技能本身，而是我們忽略了最關鍵的一環——能力調度。

江中喬

25 4月 2026 • 6 min read

近來，關於 AI Agent 的討論幾乎都圍繞著「它能做什麼」。我們熱衷於為大型語言模型（LLM）裝備各式各樣的「技能」（Skills）——無論是串接 API、執行程式碼，還是操作外部工具。整個產業似乎陷入一場軍備競賽，比誰的 Agent 技能更多元、更強大。

我們理所當然地認為，技能越多，Agent 就越聰明，離真正的自主協作也越近。然而，我們似乎忽略了一個更根本的問題：Agent 擁有技能，跟它「懂得在何時、如何正確使用」技能，是兩件截然不同的事。

當技能庫從十幾個擴增到數百、數千個時，Agent 還能像在單純的基準測試（benchmark）中那樣，精準地挑選出最適合的工具嗎？最近一篇研究論文，就對這個看似樂觀的假設，提出了一記清脆的警鐘。它揭示了一個殘酷的現實：在模擬真實世界的工作流程時，這些精心設計的技能，其效益遠比我們想像的更脆弱。

「黃金檢索」的迷思：實驗室裡的美好幻覺

首先，我們得理解多數 Agent 技能評測的局限性。許多現有的基準測試，都運作在一種「黃金檢索」（Golden Retrieval）的理想情境下。這意味著，在評估過程中，系統會假設 Agent 總能完美地、毫不費力地從技能庫中找到當下任務所需的那一個或一組技能。

這在學術研究或功能展示中無可厚非，它能有效驗證技能本身的品質與模型的推理能力。但在真實的生產環境中，這無異於天方夜譚。一個複雜的企業級 Agent 系統，可能掛載了上百個內部 API、資料庫查詢工具、分析腳本。

當使用者提出一個模糊的需求時，Agent 面對的是一片汪洋大海，而不是一個預先準備好的工具箱。這篇研究的核心洞察，正是點出了這個落差。研究者發現，一旦脫離了黃金檢索的保護傘，進入一個更貼近現實、需要 Agent 自行「搜尋」技能的情境時，模型的表現便會急遽下滑。

現實的考驗：當技能庫成為大海撈針的挑戰

實驗結果令人震驚。在模擬的真實搜尋情境下，一個配備了大量技能的 Agent，其解決問題的成功率，幾乎與一個「完全沒有任何技能」的基準模型沒有區別。這意味著，我們辛苦開發、整合的龐大技能庫，在關鍵時刻可能完全派不上用場，反而成為了干擾模型判斷的雜訊。

真正的瓶頸，並非技能本身的好壞，而是 Agent 在面對複雜任務時，能否從龐大的技能庫中，準確且有效率地「調度」出正確的工具組合。

這個現象點出了一個系統設計層次的根本問題。過去我們專注於「賦能」（giving capabilities），卻忽略了「調度」（dispatching capabilities）。當技能數量超過某個閾值，對 Agent 而言，單純依靠其內在的上下文理解與推理能力來進行選擇，變成了一項極度困難、甚至不可能的任務。這就像給一位廚師成千上萬種食材，卻沒有給他一本食譜或備料清單，期待他能僅憑直覺就炒出一道完美的菜餚。

從能力展示到可靠調度：系統設計的真正挑戰

那麼，出路在哪？這篇研究也提出了一個極具實務意義的方向：「查詢特定技能優化」（Query-Specific Skill Optimization）。這個概念的核心思想是，與其讓 Agent 在完整的技能大海中撈針，不如先根據使用者的查詢（Query），動態地、智慧地篩選出一個高度相關的「候選技能池」。

我們可以將兩種路徑做個簡單比較：

傳統路徑：使用者查詢 → Agent 在「所有技能」中搜尋 → 選擇並執行（高認知負擔、高錯誤率）
優化路徑：使用者查詢 → 智慧檢索層過濾出「相關技能子集」 → Agent 在「小範圍候選池」中選擇 → 選擇並執行（低認知負擔、高準確率）

這個看似簡單的調整，卻是從「模型為中心」轉向「系統為中心」的關鍵一步。它意味著我們不能再將所有壓力都丟給 LLM 本身，而是必須在 Agent 核心之外，建立更強健的周邊系統與治理機制。這包括了：

技能的語義化與索引：如何為每個技能建立豐富、準確的元數據（metadata），讓檢索系統能理解其功能、輸入與輸出。
智慧檢索層的建立：這可能是一個向量資料庫、一個傳統搜尋引擎，或是一個更複雜的混合模型，專門負責在執行前縮小技能的搜索範圍。
動態的上下文適應：系統需要能根據對話歷史、使用者偏好等動態上下文，進一步優化技能的排序與推薦。

這項研究提醒了我們，AI Agent 的發展已經走到了下一個階段。我們需要關注的，不再只是 Agent 本身擁有哪些令人驚艷的單點技能，而是如何設計一個可靠、可擴展的系統架構，來有效地管理、檢索、組裝與調度這些技能。從 benchmark 的高分走向 production 的可靠，這段路的核心挑戰，正是能力調度（Capability Dispatching）的工程與治理問題。

「黃金檢索」的迷思：實驗室裡的美好幻覺

現實的考驗：當技能庫成為大海撈針的挑戰

從能力展示到可靠調度：系統設計的真正挑戰

Sign up for more like this.