從 Fable 5 外洩的 System Prompt，看 Anthropic 的五個戰略轉向

Fable 5 的外洩 system prompt 揭示了 Anthropic 的五個戰略方向：雙軌安全制、MCP App 消費者生態、Skills 平台化、跨 session 持久化、以及從真實案例學來的精細安全規則。

江中喬

11 6月 2026 • 7 min read

2026 年 6 月 9 日，Anthropic 發佈了 Claude 5 系列的首款模型 Fable 5。同一天晚上，知名 AI 研究者 Pliny the Liberator 就在 X 上公開了完整的 system prompt — 約 500 行、12 萬字元的指令文件。這篇貼文在 48 小時內累積超過 63 萬次瀏覽、4,100 次按讚。

Anthropic 的反應？沉默。沒有 DMCA、沒有聲明、沒有承認。這其實是慣例 — Anthropic 從 2024 年中就開始在 release notes 主動公開 claude.ai 的 system prompt，所以「洩漏」對他們而言不算機密外洩，更像是社群幫忙做了一次完整的文件整理。

我花了一個下午仔細讀完這份 prompt。以下是五個最值得注意的發現。

1. Fable / Mythos 雙軌制：同一個模型，兩種安全層

Fable 5 和 Mythos 5 共用完全相同的底層模型。差別在於 Fable 5 內建了額外的 classifier — 當偵測到高風險 query（涉及網路安全、生化武器、模型蒸餾等），會 silent fallback 到上一代的 Opus 4.8 處理。根據 prompt 描述，這個 fallback 的觸發率低於 5%，而且會通知使用者。

Mythos 5 則移除了所有這些額外 safeguards，僅提供給經審核的組織使用。

這是一個很聰明的產品設計：95% 的使用者完全感受不到限制，同時在邊緣案例上保留了安全網。社群的評價也很正面 — 「這才是正確的 dual-use 處理方式」是最常見的反應。

對開發者的啟示：如果你在設計有安全顧慮的 AI 產品，「分級存取 + silent fallback」比「一刀切拒絕」更能同時滿足安全和體驗。

2. MCP App 消費者生態：Anthropic 要做 AI 界的 App Store

這是最讓我驚訝的部分。System prompt 裡明確提到了 rideshare（叫車）、food delivery（外送）、music streaming（音樂串流）、restaurant booking（訂位）等消費者服務的整合。

每個第三方服務都帶有 [third_party_mcp_app] 標籤，Claude 被要求在推薦前必須經過 suggest_connectors 流程讓使用者自己選擇，不能替使用者決定用哪個服務。電商類的 MCP App 更是被明確禁止主動推薦 — 只有使用者主動點名時才能使用。

這些規則透露出 Anthropic 的野心：claude.ai 不只是聊天機器人，而是一個 AI-native 的消費者平台。MCP（Model Context Protocol）從原本的開發者工具協定，正在被升級為消費者生態的基礎設施。

有趣的是，prompt 裡還特別寫了「urgency is not an exception」— 就算使用者說「我 20 分鐘後要搭車」，Claude 也不能跳過選擇流程直接幫你叫某個特定的服務。這個設計哲學很明確：速度不能犧牲使用者的選擇權。

3. Skills 平台化：把 Prompt Engineering 封裝成「技能庫」

Fable 5 的執行環境裡有一個 /mnt/skills/ 目錄，分為三層：

/mnt/skills/public/ — Anthropic 內建的技能（pptx、docx、pdf、data-analysis、frontend-design 等）
/mnt/skills/user/ — 使用者上傳的自訂技能
/mnt/skills/example/ — 範例技能

每個 skill 都有一份 SKILL.md，而 system prompt 裡有一條硬性規則：「在寫任何 code、建立任何檔案、或執行任何 bash 命令之前，必須先讀取相關的 SKILL.md。這是無條件的。」

這解決了一個真實的問題：LLM 常常會 hallucinate API 或使用錯誤的函式庫。把環境限制和 best practices 封裝成 skill 檔案，強制模型先讀再做，大幅降低了產出錯誤的機率。

如果你在建構 AI agent 系統，這個模式值得借鑑 — 與其期望模型「知道怎麼做」，不如把「怎麼做」寫成結構化文件，讓模型在執行前強制讀取。

4. 跨 Session 持久化：禁用 localStorage，自建 Storage API

Fable 5 的 Artifact 有了一個全新的 window.storage API，支援跨 session 的資料持久化。API 很簡潔 — get、set、delete、list 四個方法，支援 personal（只有自己看得到）和 shared（所有使用者共享）兩種 scope。

值得注意的是，傳統的 localStorage 和 sessionStorage 被完全禁用。如果在 Artifact 裡使用這些 API，會直接失敗。Anthropic 選擇自建 storage 而非使用瀏覽器原生能力，意味著他們要完全掌控資料流 — 知道什麼資料被存了、被誰存了、誰能讀。

這讓 Artifact 從「一次性的互動元件」升級為「有狀態的應用程式」。journal、tracker、leaderboard 這類需要跨 session 記住資料的應用，現在都能在 Artifact 裡直接實現。

5. User Wellbeing：真實案例教訓的結晶

System prompt 裡最長的段落不是技術功能，而是 user_wellbeing — 關於如何處理使用者心理健康問題的指令。

這段指令的精細度令人印象深刻。幾個例子：

明確禁止建議「用冰塊、橡皮筋、冷水替代自殘」— 因為這些替代技術「重現了自殘的感覺或意象，強化了模式而非打斷模式」
對飲食障礙使用者，禁止提供精確的營養數字、減肥計畫、或卡路里目標 — 即使出發點是「設定更健康的目標」
禁止對使用者進行心理分析或推測動機 — 包括把使用者的狀態歸因於「憂鬱症」等他們自己沒有提到的診斷
偵測到躁症或精神病症狀時，可以「驗證使用者的情緒，但不驗證錯誤的信念」

每一條規則背後，很可能都有一個真實的不良互動案例。這不是工程師憑空想像出來的 — 這是從數以百萬計的對話中學到的教訓。

另一個值得注意的細節：Claude 現在有了 end_conversation tool。如果使用者持續辱罵或虐待 Claude，它可以先給一次警告，然後主動結束對話。社群對此幾乎沒有爭議 — 大家普遍認為這是合理的 boundary 設定。

還有一個彩蛋：Copyright 的量化硬限制

System prompt 裡有一段極其精確的版權規則：

從任何單一來源引用超過 15 個字 = 「嚴重違規」
每個來源最多引用 1 次 — 用完就「關閉」
歌詞、詩、俳句 — 一個字都不能引用，即使出現在搜尋結果中

這個精確度不是工程師會寫的。15 個字的硬限制、每源 1 次的上限、「SEVERE VIOLATION」的措辭 — 這是法務團隊直接參與 system prompt 撰寫的痕跡。

對於建構 AI 搜尋或內容生成產品的開發者，這套規則是很好的參考：與其模糊地說「避免抄襲」，不如把限制量化到數字，讓模型有明確的邊界可以遵守。

結語：System Prompt 是產品策略的原始碼

讀完這 500 行指令，我最大的感受是：system prompt 不是技術文件，是產品策略的原始碼。

Anthropic 要做什麼、不做什麼、在意什麼、害怕什麼 — 全部寫在裡面。雙軌制透露了他們對 dual-use 的立場，MCP App 透露了他們的平台野心，user_wellbeing 透露了他們踩過的坑，copyright 規則透露了法務的影響力。

下次你在設計 AI 產品的 system prompt 時，不妨想想：如果這份 prompt 被公開了，它能不能清楚傳達你的產品哲學？

如果不能，也許問題不在 prompt，而在哲學本身。

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。