mk-brain

長程任務 Agent 的真正瓶頸：我們需要的是可治理的系統，而不只是更強的模型

當 AI Agent 執行複雜任務時頻頻失敗，我們常歸咎於模型不夠聰明。但一篇新研究指出，真正的問題可能在於架構：將規劃與執行分層設計，才是提升可靠性的關鍵。這不只是技術細節，而是一種系統設計的典範轉移。

江中喬

29 4月 2026 • 5 min read

近來，我們看到許多令人驚豔的 AI Agent 示範，它們能夠理解複雜指令、操作網頁、甚至完成線上購物。然而，一旦我們嘗試將這些技術應用於真實世界中稍長、稍複雜的任務鏈時，失敗率往往高得令人沮喪。Agent 可能在某個步驟卡住、理解錯意圖，或是在一連串的操作中迷失方向，最終無功而返。

面對這種情況，許多人的直覺反應是：我們需要更大、更聰明的模型。只要模型的能力足夠強大，就能夠一次性地理解並完美執行所有步驟。但我認為，這可能是一個誤判。近期一篇關於長程任務規劃的研究，恰好印證了我長期以來的觀察：當前 Agent 的核心瓶頸，與其說是模型不夠聰明，不如說是我們尚未將「規劃」與「執行」設計成一個分層、可治理的系統。

解耦規劃與執行：建立可治理系統的第一步

想像一位專案經理，他既要制定整體的專案藍圖，又要親自下去寫每一行程式碼、打每一通客戶電話。在這種混亂中，他很難在宏觀策略與微觀執行之間保持清晰的思路。當前的許多 Agent 架構，就像這位分身乏術的專案經理，試圖用一個單一的認知循環（cognition loop）同時處理「該做什麼」（規劃）和「怎麼做」（執行）。

而這篇名為《Plan-and-Act》的研究，提出了一個看似簡單卻極其關鍵的架構調整：將 Agent 的能力明確地解耦（decouple）為兩個獨立的角色：

規劃者（Planner）：這個角色的唯一任務是接收高階目標，並將其拆解成一系列清晰、可執行的子任務步驟。它就像一位策略家，專注於繪製地圖，而不關心如何駕駛。
執行者（Actor）：這個角色則像一位技術精湛的駕駛員，它接收來自規劃者的具體指令（例如「點擊這個按鈕」、「填寫這個欄位」），並專注於準確無誤地完成單一步驟。

這種分層設計帶來的第一個好處，就是「可治理性」（governability）。當規劃與執行被分開後，我們就有機會在執行任何一個昂貴或不可逆的操作前，先審查、甚至修改整個計畫。這為系統的穩定性與可靠性提供了一道關鍵的防火牆，避免 Agent 像一匹脫韁野馬般盲目衝撞。

用合成數據餵養「規劃腦」，而非窮盡執行經驗

解耦之後，下一個問題便是：如何讓「規劃者」變得更聰明？傳統的作法可能是讓 Agent 在環境中進行大量的試錯（trial-and-error），從無數次的失敗中學習。但這種方式不僅成本高昂，效率也極低，尤其對於需要深度推理的長程任務更是如此。

研究團隊在此提出了一個更具巧思的方法：利用合成數據（synthetic data）來專門訓練規劃能力。他們不讓 Agent 親身去經歷每一次成功或失敗的完整任務，而是生成大量的「規劃範例」來餵養規劃者。這些範例包含了從成功路徑中提取的「黃金計畫」，也包含了從失敗路徑中反思、修正後得到的「改進計畫」。

這背後的啟示是，與其等待一個無所不能的「超級大腦」模型，不如專注於設計一個分層、可驗證、可迭代的系統框架。系統的可靠性，來自於架構的清晰，而非單一元件的蠻力。

這種作法的好處是顯而易見的。它將訓練的重點從「學會如何操作」轉移到「學會如何思考與佈局」。這就像教導一位棋手，與其讓他盲目地下一萬盤棋，不如讓他學習一千份高品質的棋譜。透過這種方式，規劃者能夠在一個相對低成本的環境中，快速掌握生成高品質、高成功率計畫的核心能力。

從 57.58% 成功率看見的未來：Agent 架構的典範轉移

理論的優雅最終需要實證來支持。該研究在 WebArena-Lite 這個針對網頁操作的基準測試中，達到了 57.58% 的成功率，創下了新的紀錄。這個數字不僅僅是排行榜上的又一次刷新，它更實質地證明了這種「系統化」的設計思路是有效的。

它告訴我們，提升長程任務 Agent 成功率的關鍵，可能不在於無止盡地堆疊模型參數，而在於回歸到更根本的系統設計原則。將複雜問題分層、讓不同元件各司其職、為關鍵環節建立監督與治理機制——這些在傳統軟體工程中早已是共識的原則，在 AI Agent 的設計中同樣至關重要。

展望未來，我相信更可靠、更實用的 AI Agent 系統，將會是那些擁抱這種分層、解耦架構的系統。它們的「智慧」將不僅僅體現在底層大型模型的推理能力上，更體現在整個系統架構的清晰、穩健與可治理性上。這是一條從「煉丹」走向「工程」的必經之路。

延伸閱讀

Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

解耦規劃與執行：建立可治理系統的第一步

用合成數據餵養「規劃腦」，而非窮盡執行經驗

從 57.58% 成功率看見的未來：Agent 架構的典範轉移

Sign up for more like this.