一場虛擬專家圓桌,讓 Rumelt、Grove、Meadows、Taleb 來批判我的系統
一位業界大佬用 AI 模擬了四位思想家來審視我的個人知識系統,四個完全不同的框架收斂到同一個核心問題:這個系統的產出,到底被消費了多少?
我花了幾個月建了一套個人知識基礎設施(mk-brain)和 AI 多 Agent 協作引擎(六位一體)。系統跑得不錯——1,668 篇書籤、9 維自動評分、6 層 pipeline、6 個 AI Agent 各司其職。
前幾天我把架構文件分享給一位業界大佬看,他看完之後做了一件我沒想到的事:用 AI 模擬了一場虛擬專家圓桌,請四位思想家分別用各自的框架來審視我的系統,然後把結果丟回來給我。
收到的時候有點緊張。被四位「專家」同時盯著看的感覺,即使知道是 AI 模擬的,還是會不自覺想辯護。
為什麼選這四位
| 專家 | 框架 | 看什麼 |
|---|---|---|
| Richard Rumelt | Good Strategy Bad Strategy | 策略核心是否存在、複雜度是否合理 |
| Andy Grove | High Output Management | 管理結構是否有效、產出是否匹配投入 |
| Donella Meadows | Thinking in Systems | 系統迴路、槓桿點、是否有自我強化的陷阱 |
| Nassim Taleb | Antifragile / Lindy Effect | 能否承受壓力、技術選擇是否經得起時間 |
重點不是讓 AI「完美模擬」這四個人——那不可能。重點是借用四個完全不同的分析框架,從四個角度切入同一個系統,看會浮現什麼。
方法
大佬的做法很講究:
- 每位專家獨立分析,不讓他們互相看到彼此的結論
- 最後才做圓桌綜合,找共識、找分歧、找盲點
- 明確標註「信心水準」和「不確定性來源」
- 還額外做了「集體盲點偵測」和「湧現洞見萃取」
四位專家不約而同指出的問題
讓我驚訝的是,四個完全不同的框架,收斂到了同一個核心問題:
這個系統的產出,到底被消費了多少?
- Rumelt 問:「你用 F1 賽車在停車場繞圈嗎?」
- Grove 問:「管理這些 Agent 的開銷,有被產出覆蓋嗎?」
- Meadows 問:「你的評分迴路有負回饋打斷嗎?」
- Taleb 問:「這隻火雞已經安靜地長了 1,668 天了嗎?」
翻譯成白話:我建了一套很完整的知識供給系統,但從來沒量過需求端。 RAG API 被查了幾次?Blog 有人讀嗎?推到記憶系統的知識被引用了幾次?
我不知道。
最鋒利的洞見:確認偏誤放大器
Meadows(系統動力學)指出了一條我沒看到的因果鏈:
評分系統的偏好
→ 知識庫的偏向
→ RAG 回答的偏向
→ 使用者輸入的偏向
→ 評分系統的偏好被強化
我的 9 維評分系統中,governance_impact(治理影響)的權重是 ×5,最高。這意味著系統會系統性地把 AI 治理類文章往上推,其他領域往下壓。
時間一長,我的知識庫會越來越像一個 AI 治理專題庫,而不是一個全面的個人知識庫。系統在讓我越來越像自己,但不一定越來越聰明。
其他三位從不同角度獨立驗證了這個結論:
- Rumelt:「評分校準漂移沒有 ground truth」
- Grove:「沒有定期健康檢查機制」
- Taleb:「火雞在安靜中長大」
四個框架收斂到同一條因果鏈——這讓我對這個結論的信心顯著提升。
湧現的洞見:隱喻即策略
最有趣的發現來自 Grove 和 Rumelt 的分歧。
Grove 說我犯了「隱喻錯誤」——把 AI 當人管,給每個 Agent 寫 SOUL.md(身份定義)和 SKILL.md(能力定義),搞得像在管一個真人團隊。
Rumelt 說這裡有真正的策略核心——角色分工和職責邊界是協調行動的基礎。
圓桌綜合時發現:兩個都對。 這個「錯誤的隱喻」恰好是正確的設計選擇。把 AI 當「團隊成員」而非「工具」,迫使你為每個 Agent 定義清晰的職責邊界和互動協議。這些定義(SOUL.md / SKILL.md)本質上就是結構化的 prompt engineering。
Grove 看到的「管理系統」,就是 Rumelt 看到的「協調行動」的實現形式。
被審視的感覺
說實話,正面肯定看了很爽:
「Maki 展現了罕見的自我修正能力」
「從零建立了一套有真實策略核心的個人知識基礎設施,這不是壞策略」
但真正有價值的是反面。反面讓我學習,讓我突破盲點。如果四個專家都說你做得很棒,那這場圓桌就白開了。
被批判不是壞事,被批判但不知道為什麼才是壞事。
我採納了什麼
不是所有意見都值得採納。專家也會過度分析。
採納的(正面反饋):
- 補上需求端數據 → 做使用率儀表板
- 打斷確認偏誤迴路 → 每月抽低分文章人工驗證
- 維持 Lindy 設計 → SQLite + Python 不動搖
- 繼續公開記錄失敗 → 自我修正文化
沒採納的(反面反饋):
- 「9 維評分過度工程化」→ 不同意。9 維是給 LLM 的結構化 prompt,不是給人看的。人只看一個分數。
- 「六位一體 2 年內需重建」→ 不同意。MCP 是可替換的管道,不是骨架。角色定義搬到新協議上就好。
- 「把 AI 當人管是隱喻錯誤」→ 不同意。角色化 prompt 比通用 prompt 品質更好。
重點不是全盤接受或拒絕,而是清楚知道為什麼接受、為什麼拒絕。
如果你也想試
這個方法不需要特殊工具,任何 AI 都能做。核心步驟:
- 選 3-4 個分析框架差異最大的思想家(避免同質性)
- 把你的系統/產品/決策的結構化描述丟給 AI
- 要求獨立分析——每位專家各自給結論,不互相參考
- 最後做圓桌綜合——找共識(信心高)、找分歧(需要判斷)、找盲點(最有價值)
幾個選人建議:
- 策略類:Rumelt、Porter、Christensen
- 管理類:Grove、Drucker、Deming
- 系統類:Meadows、Senge、Ackoff
- 風險類:Taleb、Kahneman、Tetlock
關鍵:不是讓 AI 完美扮演這些人,而是借用他們的分析框架強迫自己從不同角度看問題。一個人很難同時用四個框架思考,但 AI 可以。
更好的做法是像這位大佬一樣——找別人來做。自己審視自己的盲點太難了,讓第三方拿著你的文件去跑圓桌,回來的結果會比自己跑誠實得多。
結語
建系統很爽,但建完之後問自己「這東西真的有用嗎?」更重要。
一位大佬花了幾分鐘幫我跑了一場虛擬圓桌,四位「專家」指出了我花幾個月沒看到的盲點。成本是零,收穫是一份清晰的優化路線圖。
最鋒利的那句話值得再說一次:
你建造了一個讓自己越來越像自己的系統,而不是讓自己越來越聰明的系統。
現在我知道該加什麼斷路器了。
我是江中喬(Maki),在 91APP 負責 AI PoC,同時用業餘時間打造個人知識基礎設施和 AI 協作系統。如果你對多 Agent 協作或個人知識管理有興趣,歡迎交流。