Claude 學會自己組團隊了,但誰來懷疑這個團隊?

Claude Code 推出 Dynamic Workflows,Claude 會自己當 PM 組團隊、平行執行、互相驗證。執行力很猛,但有一個結構性盲點:所有 Agent 都是 Claude,沒有外部觀點。平行化不等於對抗式思考。

Claude 學會自己組團隊了,但誰來懷疑這個團隊?

Anthropic 最近推了 Claude Opus 4.8 和 Claude Code 的 Dynamic Workflows。表面上是兩個更新,實際上只有一件事值得認真對待:

Anthropic 正式承認,單一 Agent 到頭了。

先講 Opus 4.8,因為它其實不是重點

Opus 4.8 有三個改進:同價、Fast Mode 約 2.5 倍速、以及我覺得最值得注意的「誠實護欄」——更願意承認不確定、降低幻覺、少亂掰統計數字。

以前的模型是「我不知道,但我先唬爛你」,現在比較接近「我不確定,需要再查證」。

這個方向是對的,但它不是這次的主菜。

主菜是 Dynamic Workflows

一句話解釋:Claude 自己當 PM,自己拆任務、生出一堆 Sub-Agent、平行執行、互相驗證,最後彙整成結果。

傳統 Claude Code 是這樣:

你 → Claude → 結果

一個 Agent 思考一次、回答一次。問題一大(重構三千個檔案、掃整個系統的安全漏洞、Java 遷移到 Python),它就容易 context 不夠、後面忘記前面、無法全面驗證。

Dynamic Workflow 變成這樣:

你 → Planner Claude → [Agent A~E 平行] → Reviewer → Synthesis → 結果

啟動方式很簡單,prompt 裡帶一個 workflow 關鍵字,或用 /effort 切到 Ultra Code,Claude 就會自己組團隊。它甚至可以開十個、幾十個、上百個 Agent 同時跑。

我看完整份說明,覺得最關鍵的一句話是:

Results are checked before they're folded in.
(結果在被併入之前,要先經過驗證。)

這句話很重要,因為它代表 Anthropic 知道「平行很多 Agent」不等於「答案更對」。所以加了 Reviewer 這一層。

但這裡有一個結構性盲點

我第一個反應不是「哇好強」,而是一個問題:

誰做決策?這些 Agent 全部都是 Claude,沒有外部觀點。

這不是雞蛋裡挑骨頭,是結構性問題。

Dynamic Workflow 看起來有五個、十個 Agent 在獨立工作、互相對抗、彼此驗證。但這些 Agent 的世界觀來自同一個模型

換句話說:

看起來是五個 Agent,本質上是同一個腦袋戴五頂帽子。

如果 Claude 對某個架構有系統性偏好——比方說它就是偏好 Event-Driven 而不是 Monolith——那麼:

  • Architect Claude 支持它
  • Reviewer Claude 也支持它
  • Auditor Claude 只挑小毛病
  • Validator Claude 驗證它「實作可行」

最後五票通過,看起來超有說服力。但沒有任何一個 Agent 會問:「為什麼不用 Monolith?」

因為大家來自同一個認知母體。這在決策理論裡叫 Correlated Errors(相關錯誤):Planner 錯 → 所有 Sub-Agent 一起錯 → Synthesis 再把這個錯誤確認一次。在社會學裡,這叫 Groupthink(團體迷思)——表面很多人在討論,實際上思考框架高度一致。

平行化 ≠ 對抗式思考

我覺得 Dynamic Workflow 和真正的多元決策,差在一個層次:

  • Dynamic Workflow 做的是 Parallelization(平行化)——把一個大問題拆成很多小問題同時做。
  • 真正缺的是 Adversarial Thinking(對抗式思考)——讓不同來源的腦袋彼此打架。

過去半年我自己在折騰一套「多模型協作」的架構:Claude、Codex、Gemini、Perplexity 各司其職。一開始我以為價值來自「Agent 數量多」,後來發現完全不是。

價值來自它們腦袋不一樣

  • Claude 架構漂亮、文件完整、論述清楚。
  • Codex 常常一句話戳破:「這東西根本跑不起來。」
  • Gemini 很愛抓邊界條件、結構漏洞、被遺漏的假設。
  • Perplexity 直接丟一句:「業界根本沒人這樣幹。」

這個「吵架」才是價值來源。當 Claude 說 A、Codex 說 B、Gemini 說 C,那個衝突逼你重新檢查自己的假設。同質團隊永遠吵不出這個。

所以它們不是競品,是上下層

我不會拿這兩種架構對打,因為它們解的問題不一樣:

Dynamic Workflow 多模型協作
追求 執行規模 認知多樣性
團隊 同質(全 Claude) 異質(多家模型)
強項 把事做得更快 把決策做得更對
弱項 一起 hallucinate 要人工協調

正確的組合不是二選一,而是疊起來:

多模型協作(Decision Layer,產生共識)
        ↓
Dynamic Workflow(Execution Layer,大規模執行)

決策層負責「該不該做、方向對不對」,執行層負責「把它快速做完」。內閣會議定方向,行政機器去執行。

真正值得在意的轉變

其實 Dynamic Workflow 本身不是重點。重點是這條趨勢線:

Prompt Engineering → Agent Engineering → Orchestration Engineering

前兩年大家在調 prompt,現在開始拼 Agent 怎麼組、怎麼協調。而 Anthropic 把這個能力做成 Claude Code 的原生功能,等於官方蓋章:未來的工程,是調度的工程。

但調度做得越大,下一個問題就越尖銳——不再是「怎麼讓 Agent 多跑幾個」,而是:

誰來監督這群 Agent?誰擁有否決權?如果它們一起 hallucinate,誰會發現?

這已經不是 Agent Engineering 的問題,是 Agent Governance 的問題。

而在 AI 時代的高價值決策裡,「懷疑自己」往往比「執行很快」更稀缺。因為很多大型專案不是做不動,而是一開始方向就錯了——然後被一個很有效率的系統,又快又準地做錯到底。

Dynamic Workflow 很可能比我更擅長「做事」。但目前為止,一個刻意異質、刻意保留反對者的系統,仍然比它更擅長「懷疑自己」。

在做錯的事情上,做得更快,比做得慢還危險。


參考來源


我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。