一場虛擬專家圓桌,讓 Rumelt、Grove、Meadows、Taleb 來批判我的系統

一位業界大佬用 AI 模擬了四位思想家來審視我的個人知識系統,四個完全不同的框架收斂到同一個核心問題:這個系統的產出,到底被消費了多少?

一場虛擬專家圓桌,讓 Rumelt、Grove、Meadows、Taleb 來批判我的系統

我花了幾個月建了一套個人知識基礎設施(mk-brain)和 AI 多 Agent 協作引擎(六位一體)。系統跑得不錯——1,668 篇書籤、9 維自動評分、6 層 pipeline、6 個 AI Agent 各司其職。

前幾天我把架構文件分享給一位業界大佬看,他看完之後做了一件我沒想到的事:用 AI 模擬了一場虛擬專家圓桌,請四位思想家分別用各自的框架來審視我的系統,然後把結果丟回來給我。

收到的時候有點緊張。被四位「專家」同時盯著看的感覺,即使知道是 AI 模擬的,還是會不自覺想辯護。


為什麼選這四位

專家 框架 看什麼
Richard Rumelt Good Strategy Bad Strategy 策略核心是否存在、複雜度是否合理
Andy Grove High Output Management 管理結構是否有效、產出是否匹配投入
Donella Meadows Thinking in Systems 系統迴路、槓桿點、是否有自我強化的陷阱
Nassim Taleb Antifragile / Lindy Effect 能否承受壓力、技術選擇是否經得起時間

重點不是讓 AI「完美模擬」這四個人——那不可能。重點是借用四個完全不同的分析框架,從四個角度切入同一個系統,看會浮現什麼。


方法

大佬的做法很講究:

  • 每位專家獨立分析,不讓他們互相看到彼此的結論
  • 最後才做圓桌綜合,找共識、找分歧、找盲點
  • 明確標註「信心水準」和「不確定性來源」
  • 還額外做了「集體盲點偵測」和「湧現洞見萃取」

四位專家不約而同指出的問題

讓我驚訝的是,四個完全不同的框架,收斂到了同一個核心問題

這個系統的產出,到底被消費了多少?

  • Rumelt 問:「你用 F1 賽車在停車場繞圈嗎?」
  • Grove 問:「管理這些 Agent 的開銷,有被產出覆蓋嗎?」
  • Meadows 問:「你的評分迴路有負回饋打斷嗎?」
  • Taleb 問:「這隻火雞已經安靜地長了 1,668 天了嗎?」

翻譯成白話:我建了一套很完整的知識供給系統,但從來沒量過需求端。 RAG API 被查了幾次?Blog 有人讀嗎?推到記憶系統的知識被引用了幾次?

我不知道。


最鋒利的洞見:確認偏誤放大器

Meadows(系統動力學)指出了一條我沒看到的因果鏈:

評分系統的偏好
  → 知識庫的偏向
    → RAG 回答的偏向
      → 使用者輸入的偏向
        → 評分系統的偏好被強化

我的 9 維評分系統中,governance_impact(治理影響)的權重是 ×5,最高。這意味著系統會系統性地把 AI 治理類文章往上推,其他領域往下壓。

時間一長,我的知識庫會越來越像一個 AI 治理專題庫,而不是一個全面的個人知識庫。系統在讓我越來越像自己,但不一定越來越聰明。

其他三位從不同角度獨立驗證了這個結論:

  • Rumelt:「評分校準漂移沒有 ground truth」
  • Grove:「沒有定期健康檢查機制」
  • Taleb:「火雞在安靜中長大」

四個框架收斂到同一條因果鏈——這讓我對這個結論的信心顯著提升。


湧現的洞見:隱喻即策略

最有趣的發現來自 Grove 和 Rumelt 的分歧。

Grove 說我犯了「隱喻錯誤」——把 AI 當人管,給每個 Agent 寫 SOUL.md(身份定義)和 SKILL.md(能力定義),搞得像在管一個真人團隊。

Rumelt 說這裡有真正的策略核心——角色分工和職責邊界是協調行動的基礎。

圓桌綜合時發現:兩個都對。 這個「錯誤的隱喻」恰好是正確的設計選擇。把 AI 當「團隊成員」而非「工具」,迫使你為每個 Agent 定義清晰的職責邊界和互動協議。這些定義(SOUL.md / SKILL.md)本質上就是結構化的 prompt engineering。

Grove 看到的「管理系統」,就是 Rumelt 看到的「協調行動」的實現形式。


被審視的感覺

說實話,正面肯定看了很爽:

「Maki 展現了罕見的自我修正能力」
「從零建立了一套有真實策略核心的個人知識基礎設施,這不是壞策略」

但真正有價值的是反面。反面讓我學習,讓我突破盲點。如果四個專家都說你做得很棒,那這場圓桌就白開了。

被批判不是壞事,被批判但不知道為什麼才是壞事。


我採納了什麼

不是所有意見都值得採納。專家也會過度分析。

採納的(正面反饋):

  • 補上需求端數據 → 做使用率儀表板
  • 打斷確認偏誤迴路 → 每月抽低分文章人工驗證
  • 維持 Lindy 設計 → SQLite + Python 不動搖
  • 繼續公開記錄失敗 → 自我修正文化

沒採納的(反面反饋):

  • 「9 維評分過度工程化」→ 不同意。9 維是給 LLM 的結構化 prompt,不是給人看的。人只看一個分數。
  • 「六位一體 2 年內需重建」→ 不同意。MCP 是可替換的管道,不是骨架。角色定義搬到新協議上就好。
  • 「把 AI 當人管是隱喻錯誤」→ 不同意。角色化 prompt 比通用 prompt 品質更好。

重點不是全盤接受或拒絕,而是清楚知道為什麼接受、為什麼拒絕。


如果你也想試

這個方法不需要特殊工具,任何 AI 都能做。核心步驟:

  1. 選 3-4 個分析框架差異最大的思想家(避免同質性)
  2. 把你的系統/產品/決策的結構化描述丟給 AI
  3. 要求獨立分析——每位專家各自給結論,不互相參考
  4. 最後做圓桌綜合——找共識(信心高)、找分歧(需要判斷)、找盲點(最有價值)

幾個選人建議:

  • 策略類:Rumelt、Porter、Christensen
  • 管理類:Grove、Drucker、Deming
  • 系統類:Meadows、Senge、Ackoff
  • 風險類:Taleb、Kahneman、Tetlock

關鍵:不是讓 AI 完美扮演這些人,而是借用他們的分析框架強迫自己從不同角度看問題。一個人很難同時用四個框架思考,但 AI 可以。

更好的做法是像這位大佬一樣——找別人來做。自己審視自己的盲點太難了,讓第三方拿著你的文件去跑圓桌,回來的結果會比自己跑誠實得多。


結語

建系統很爽,但建完之後問自己「這東西真的有用嗎?」更重要。

一位大佬花了幾分鐘幫我跑了一場虛擬圓桌,四位「專家」指出了我花幾個月沒看到的盲點。成本是零,收穫是一份清晰的優化路線圖。

最鋒利的那句話值得再說一次:

你建造了一個讓自己越來越像自己的系統,而不是讓自己越來越聰明的系統。

現在我知道該加什麼斷路器了。


我是江中喬(Maki),在 91APP 負責 AI PoC,同時用業餘時間打造個人知識基礎設施和 AI 協作系統。如果你對多 Agent 協作或個人知識管理有興趣,歡迎交流。