mk-brain

從 Claude 新功能看 AI 典範轉移：當問題不再是 Prompt，而是多代理系統的編排與驗證

Anthropic 為 Claude Code 導入的 Dynamic Workflows，預示了 AI 應用典範的重大轉移。當 AI 不再只是單一對話介面，而是能動態編排數百個子代理的協作系統時，成功的關鍵就不再是精巧的提示詞，而是如何設計、驗證這些複雜的代理系統。這不僅是功能升級，更是對我們系統設計思維的全新挑戰，準備好迎接這場變革了嗎？

江中喬

17 6月 2026 • 6 min read

大型語言模型（LLM）的應用正經歷一場深刻的典範轉移。過去我們專注於如何透過精巧的提示詞（prompt）從單一模型獲得最佳回應，但這個時代正走向分野。Anthropic 在 2024 年 5 月 28 日為 Claude Code 推出的「動態工作流程」（Dynamic Workflows）功能，便是一個明確信號：真正的挑戰已從「提問的藝術」轉向「系統的設計」。當 AI 從單一聊天介面演變為動態編排數百個子代理的協作系統時，問題核心就不再是單純的提示詞工程，而是 orchestration、handoff、shared state 與 verification gate 這些系統工程概念如何被妥善設計與實踐。

Anthropic 的動態工作流程是什麼？

根據 Anthropic 官方說明，Dynamic Workflows 讓 Claude Code 不再只是一個被動的問答機器。當它收到一個複雜的工程任務請求，例如「分析這個程式碼庫的所有依賴關係，並找出潛在的安全漏洞」時，系統的反應模式發生了根本改變。主代理（或稱編排者 Orchestrator）會先動態生成一個執行腳本，將大問題拆解成數十甚至數百個可以並行處理的子任務。

接著，系統會啟動大量子代理，每個代理專注執行一個微小、具體的任務，例如檢查單一檔案的 import 語句、查詢某個套件的版本漏洞等。這些任務通常透過呼叫模型內建的工具（tools）或函數（functions）來完成，類似於 Claude 的工具與函數文件所描述。這些子代理同時運作，大幅提升了處理效率。然而，最關鍵的一步在於結尾：在將最終結果回傳給使用者之前，系統會先啟動一個自動化的驗證程序（verification gate），檢查各子代理回傳的成果是否一致、是否符合初始目標、程式碼是否能正常運行。這個機制確保了最終產出的品質與可靠性。

為什麼這不只是一次功能升級？

將 Dynamic Workflows 僅僅視為 Claude 的一次功能更新，會嚴重低估其背後的結構性變革。過去，我們與 AI 的互動是「請求-回應」式的，使用者與一個全能但單體的模型對話。現在，這個互動模式變成了「觸發-編排-執行-驗證」，使用者的 prompt 成為啟動一個臨時、客製化多代理系統的規格書。

這意味著，我們思考的重點必須從「如何問出好問題」轉移到「如何設計一個能解決問題的系統」。

成功的關鍵不再是單點的提示詞工程，而是整個工作流程的設計。這其中，我們面臨著幾個核心的系統設計挑戰，這些挑戰在分散式系統與微服務架構領域早已是經典問題，如今正以一種新的形式，在 AI Agent 領域重現：

編排（Orchestration）：主代理如何準確地理解複雜任務、將其分解成合理的子任務，並生成有效的執行腳本？這考驗著模型對問題的拆解與規劃能力。
任務交接（Handoff）：主代理如何將任務與必要的上下文（context）有效地傳遞給子代理？子代理完成任務後，其產出又該如何被標準化地回傳與整合？
共享狀態（Shared State）：在數百個並行運作的代理之間，如何管理共享的資訊與狀態？例如，一個代理發現的漏洞資訊，如何即時同步給其他需要此資訊的代理，避免重複勞動或產生衝突？

如何確保數百個代理的協作成果是可靠的？

當系統的複雜度從單一代理躍升至數百個代理時，可靠性成為最嚴峻的挑戰。任何一個子代理的微小失誤，都可能在最終結果中被放大，甚至導致整個任務失敗。這正是 Anthropic 設計中「自動化驗證」步驟至關重要的原因。

這個「驗證閘門」（verification gate）扮演著品質守門員的角色。在軟體工程領域，我們依賴單元測試、整合測試與持續整合（CI/CD）流程來確保程式碼品質；在多代理系統中，驗證閘門就是對等的概念。它可能包含以下幾種形式：

執行程式碼並檢查是否能無誤地編譯與運行。
根據原始需求生成一組測試案例，驗證產出是否符合預期。
交叉比對不同子代理針對同一問題得出的結論，尋找不一致之處。

這個機制的價值在於，它將 AI 從一個充滿不確定性的「黑盒子」，轉變為一個具有內建品管流程、更值得信賴的系統。對於需要高度準確性的專業任務，例如程式碼重構、財務分析或科學研究，這樣的可靠性是導入實務應用的基本前提。學術界在 SWE-bench 等評測基準上的研究也顯示，生成程式碼後的測試與修復環節，是提升任務成功率的關鍵。

從 AutoGen 到 MetaGPT，學術界與開源社群早已探索多代理協作框架多年。現在，隨著 Anthropic 這樣的商業巨頭將其產品化，代表這套以「系統編排」為核心的思維，正從前沿研究走向主流應用。對 AI 產品的建構者而言，這是一個清晰的訊號：未來的競爭力，將取決於我們設計、管理與驗證複雜 AI 代理系統的能力，而不僅僅是調用 API 和打磨提示詞。

延伸閱讀

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。

Anthropic 的動態工作流程是什麼？

為什麼這不只是一次功能升級？

如何確保數百個代理的協作成果是可靠的？

延伸閱讀

Sign up for more like this.