從 Claude 新功能看 AI 典範轉移:當問題不再是 Prompt,而是多代理系統的編排與驗證
Anthropic 為 Claude Code 導入的 Dynamic Workflows,預示了 AI 應用典範的重大轉移。當 AI 不再只是單一對話介面,而是能動態編排數百個子代理的協作系統時,成功的關鍵就不再是精巧的提示詞,而是如何設計、驗證這些複雜的代理系統。這不僅是功能升級,更是對我們系統設計思維的全新挑戰,準備好迎接這場變革了嗎?
大型語言模型(LLM)的應用正經歷一場深刻的典範轉移。過去我們專注於如何透過精巧的提示詞(prompt)從單一模型獲得最佳回應,但這個時代正走向分野。Anthropic 在 2024 年 5 月 28 日為 Claude Code 推出的「動態工作流程」(Dynamic Workflows)功能,便是一個明確信號:真正的挑戰已從「提問的藝術」轉向「系統的設計」。當 AI 從單一聊天介面演變為動態編排數百個子代理的協作系統時,問題核心就不再是單純的提示詞工程,而是 orchestration、handoff、shared state 與 verification gate 這些系統工程概念如何被妥善設計與實踐。
Anthropic 的動態工作流程是什麼?
根據 Anthropic 官方說明,Dynamic Workflows 讓 Claude Code 不再只是一個被動的問答機器。當它收到一個複雜的工程任務請求,例如「分析這個程式碼庫的所有依賴關係,並找出潛在的安全漏洞」時,系統的反應模式發生了根本改變。主代理(或稱編排者 Orchestrator)會先動態生成一個執行腳本,將大問題拆解成數十甚至數百個可以並行處理的子任務。
接著,系統會啟動大量子代理,每個代理專注執行一個微小、具體的任務,例如檢查單一檔案的 import 語句、查詢某個套件的版本漏洞等。這些任務通常透過呼叫模型內建的工具(tools)或函數(functions)來完成,類似於 Claude 的工具與函數文件所描述。這些子代理同時運作,大幅提升了處理效率。然而,最關鍵的一步在於結尾:在將最終結果回傳給使用者之前,系統會先啟動一個自動化的驗證程序(verification gate),檢查各子代理回傳的成果是否一致、是否符合初始目標、程式碼是否能正常運行。這個機制確保了最終產出的品質與可靠性。
為什麼這不只是一次功能升級?
將 Dynamic Workflows 僅僅視為 Claude 的一次功能更新,會嚴重低估其背後的結構性變革。過去,我們與 AI 的互動是「請求-回應」式的,使用者與一個全能但單體的模型對話。現在,這個互動模式變成了「觸發-編排-執行-驗證」,使用者的 prompt 成為啟動一個臨時、客製化多代理系統的規格書。
這意味著,我們思考的重點必須從「如何問出好問題」轉移到「如何設計一個能解決問題的系統」。
成功的關鍵不再是單點的提示詞工程,而是整個工作流程的設計。這其中,我們面臨著幾個核心的系統設計挑戰,這些挑戰在分散式系統與微服務架構領域早已是經典問題,如今正以一種新的形式,在 AI Agent 領域重現:
- 編排(Orchestration):主代理如何準確地理解複雜任務、將其分解成合理的子任務,並生成有效的執行腳本?這考驗著模型對問題的拆解與規劃能力。
- 任務交接(Handoff):主代理如何將任務與必要的上下文(context)有效地傳遞給子代理?子代理完成任務後,其產出又該如何被標準化地回傳與整合?
- 共享狀態(Shared State):在數百個並行運作的代理之間,如何管理共享的資訊與狀態?例如,一個代理發現的漏洞資訊,如何即時同步給其他需要此資訊的代理,避免重複勞動或產生衝突?
如何確保數百個代理的協作成果是可靠的?
當系統的複雜度從單一代理躍升至數百個代理時,可靠性成為最嚴峻的挑戰。任何一個子代理的微小失誤,都可能在最終結果中被放大,甚至導致整個任務失敗。這正是 Anthropic 設計中「自動化驗證」步驟至關重要的原因。
這個「驗證閘門」(verification gate)扮演著品質守門員的角色。在軟體工程領域,我們依賴單元測試、整合測試與持續整合(CI/CD)流程來確保程式碼品質;在多代理系統中,驗證閘門就是對等的概念。它可能包含以下幾種形式:
- 執行程式碼並檢查是否能無誤地編譯與運行。
- 根據原始需求生成一組測試案例,驗證產出是否符合預期。
- 交叉比對不同子代理針對同一問題得出的結論,尋找不一致之處。
這個機制的價值在於,它將 AI 從一個充滿不確定性的「黑盒子」,轉變為一個具有內建品管流程、更值得信賴的系統。對於需要高度準確性的專業任務,例如程式碼重構、財務分析或科學研究,這樣的可靠性是導入實務應用的基本前提。學術界在 SWE-bench 等評測基準上的研究也顯示,生成程式碼後的測試與修復環節,是提升任務成功率的關鍵。
從 AutoGen 到 MetaGPT,學術界與開源社群早已探索多代理協作框架多年。現在,隨著 Anthropic 這樣的商業巨頭將其產品化,代表這套以「系統編排」為核心的思維,正從前沿研究走向主流應用。對 AI 產品的建構者而言,這是一個清晰的訊號:未來的競爭力,將取決於我們設計、管理與驗證複雜 AI 代理系統的能力,而不僅僅是調用 API 和打磨提示詞。
延伸閱讀
- Introducing dynamic workflows in Claude Code (Anthropic Official Blog)
- Claude Tools & Functions Documentation
- AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation (arXiv)
- SWE-bench: Can Language Models Solve Real-World Software Engineering Problems? (arXiv)
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。