長程任務 Agent 的真正瓶頸:我們需要的是可治理的系統,而不只是更強的模型

當 AI Agent 執行複雜任務時頻頻失敗,我們常歸咎於模型不夠聰明。但一篇新研究指出,真正的問題可能在於架構:將規劃與執行分層設計,才是提升可靠性的關鍵。這不只是技術細節,而是一種系統設計的典範轉移。

長程任務 Agent 的真正瓶頸:我們需要的是可治理的系統,而不只是更強的模型

近來,我們看到許多令人驚豔的 AI Agent 示範,它們能夠理解複雜指令、操作網頁、甚至完成線上購物。然而,一旦我們嘗試將這些技術應用於真實世界中稍長、稍複雜的任務鏈時,失敗率往往高得令人沮喪。Agent 可能在某個步驟卡住、理解錯意圖,或是在一連串的操作中迷失方向,最終無功而返。

面對這種情況,許多人的直覺反應是:我們需要更大、更聰明的模型。只要模型的能力足夠強大,就能夠一次性地理解並完美執行所有步驟。但我認為,這可能是一個誤判。近期一篇關於長程任務規劃的研究,恰好印證了我長期以來的觀察:當前 Agent 的核心瓶頸,與其說是模型不夠聰明,不如說是我們尚未將「規劃」與「執行」設計成一個分層、可治理的系統。

解耦規劃與執行:建立可治理系統的第一步

想像一位專案經理,他既要制定整體的專案藍圖,又要親自下去寫每一行程式碼、打每一通客戶電話。在這種混亂中,他很難在宏觀策略與微觀執行之間保持清晰的思路。當前的許多 Agent 架構,就像這位分身乏術的專案經理,試圖用一個單一的認知循環(cognition loop)同時處理「該做什麼」(規劃)和「怎麼做」(執行)。

而這篇名為《Plan-and-Act》的研究,提出了一個看似簡單卻極其關鍵的架構調整:將 Agent 的能力明確地解耦(decouple)為兩個獨立的角色:

  • 規劃者(Planner):這個角色的唯一任務是接收高階目標,並將其拆解成一系列清晰、可執行的子任務步驟。它就像一位策略家,專注於繪製地圖,而不關心如何駕駛。
  • 執行者(Actor):這個角色則像一位技術精湛的駕駛員,它接收來自規劃者的具體指令(例如「點擊這個按鈕」、「填寫這個欄位」),並專注於準確無誤地完成單一步驟。

這種分層設計帶來的第一個好處,就是「可治理性」(governability)。當規劃與執行被分開後,我們就有機會在執行任何一個昂貴或不可逆的操作前,先審查、甚至修改整個計畫。這為系統的穩定性與可靠性提供了一道關鍵的防火牆,避免 Agent 像一匹脫韁野馬般盲目衝撞。

用合成數據餵養「規劃腦」,而非窮盡執行經驗

解耦之後,下一個問題便是:如何讓「規劃者」變得更聰明?傳統的作法可能是讓 Agent 在環境中進行大量的試錯(trial-and-error),從無數次的失敗中學習。但這種方式不僅成本高昂,效率也極低,尤其對於需要深度推理的長程任務更是如此。

研究團隊在此提出了一個更具巧思的方法:利用合成數據(synthetic data)來專門訓練規劃能力。他們不讓 Agent 親身去經歷每一次成功或失敗的完整任務,而是生成大量的「規劃範例」來餵養規劃者。這些範例包含了從成功路徑中提取的「黃金計畫」,也包含了從失敗路徑中反思、修正後得到的「改進計畫」。

這背後的啟示是,與其等待一個無所不能的「超級大腦」模型,不如專注於設計一個分層、可驗證、可迭代的系統框架。系統的可靠性,來自於架構的清晰,而非單一元件的蠻力。

這種作法的好處是顯而易見的。它將訓練的重點從「學會如何操作」轉移到「學會如何思考與佈局」。這就像教導一位棋手,與其讓他盲目地下一萬盤棋,不如讓他學習一千份高品質的棋譜。透過這種方式,規劃者能夠在一個相對低成本的環境中,快速掌握生成高品質、高成功率計畫的核心能力。

從 57.58% 成功率看見的未來:Agent 架構的典範轉移

理論的優雅最終需要實證來支持。該研究在 WebArena-Lite 這個針對網頁操作的基準測試中,達到了 57.58% 的成功率,創下了新的紀錄。這個數字不僅僅是排行榜上的又一次刷新,它更實質地證明了這種「系統化」的設計思路是有效的。

它告訴我們,提升長程任務 Agent 成功率的關鍵,可能不在於無止盡地堆疊模型參數,而在於回歸到更根本的系統設計原則。將複雜問題分層、讓不同元件各司其職、為關鍵環節建立監督與治理機制——這些在傳統軟體工程中早已是共識的原則,在 AI Agent 的設計中同樣至關重要。

展望未來,我相信更可靠、更實用的 AI Agent 系統,將會是那些擁抱這種分層、解耦架構的系統。它們的「智慧」將不僅僅體現在底層大型模型的推理能力上,更體現在整個系統架構的清晰、穩健與可治理性上。這是一條從「煉丹」走向「工程」的必經之路。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。