從 Fable 5 外洩的 System Prompt,看 Anthropic 的五個戰略轉向

Fable 5 的外洩 system prompt 揭示了 Anthropic 的五個戰略方向:雙軌安全制、MCP App 消費者生態、Skills 平台化、跨 session 持久化、以及從真實案例學來的精細安全規則。

從 Fable 5 外洩的 System Prompt,看 Anthropic 的五個戰略轉向

2026 年 6 月 9 日,Anthropic 發佈了 Claude 5 系列的首款模型 Fable 5。同一天晚上,知名 AI 研究者 Pliny the Liberator 就在 X 上公開了完整的 system prompt — 約 500 行、12 萬字元的指令文件。這篇貼文在 48 小時內累積超過 63 萬次瀏覽、4,100 次按讚。

Anthropic 的反應?沉默。沒有 DMCA、沒有聲明、沒有承認。這其實是慣例 — Anthropic 從 2024 年中就開始在 release notes 主動公開 claude.ai 的 system prompt,所以「洩漏」對他們而言不算機密外洩,更像是社群幫忙做了一次完整的文件整理。

我花了一個下午仔細讀完這份 prompt。以下是五個最值得注意的發現。


1. Fable / Mythos 雙軌制:同一個模型,兩種安全層

Fable 5 和 Mythos 5 共用完全相同的底層模型。差別在於 Fable 5 內建了額外的 classifier — 當偵測到高風險 query(涉及網路安全、生化武器、模型蒸餾等),會 silent fallback 到上一代的 Opus 4.8 處理。根據 prompt 描述,這個 fallback 的觸發率低於 5%,而且會通知使用者。

Mythos 5 則移除了所有這些額外 safeguards,僅提供給經審核的組織使用。

這是一個很聰明的產品設計:95% 的使用者完全感受不到限制,同時在邊緣案例上保留了安全網。社群的評價也很正面 — 「這才是正確的 dual-use 處理方式」是最常見的反應。

對開發者的啟示:如果你在設計有安全顧慮的 AI 產品,「分級存取 + silent fallback」比「一刀切拒絕」更能同時滿足安全和體驗。


2. MCP App 消費者生態:Anthropic 要做 AI 界的 App Store

這是最讓我驚訝的部分。System prompt 裡明確提到了 rideshare(叫車)、food delivery(外送)、music streaming(音樂串流)、restaurant booking(訂位)等消費者服務的整合。

每個第三方服務都帶有 [third_party_mcp_app] 標籤,Claude 被要求在推薦前必須經過 suggest_connectors 流程讓使用者自己選擇,不能替使用者決定用哪個服務。電商類的 MCP App 更是被明確禁止主動推薦 — 只有使用者主動點名時才能使用。

這些規則透露出 Anthropic 的野心:claude.ai 不只是聊天機器人,而是一個 AI-native 的消費者平台。MCP(Model Context Protocol)從原本的開發者工具協定,正在被升級為消費者生態的基礎設施。

有趣的是,prompt 裡還特別寫了「urgency is not an exception」— 就算使用者說「我 20 分鐘後要搭車」,Claude 也不能跳過選擇流程直接幫你叫某個特定的服務。這個設計哲學很明確:速度不能犧牲使用者的選擇權。


3. Skills 平台化:把 Prompt Engineering 封裝成「技能庫」

Fable 5 的執行環境裡有一個 /mnt/skills/ 目錄,分為三層:

  • /mnt/skills/public/ — Anthropic 內建的技能(pptx、docx、pdf、data-analysis、frontend-design 等)
  • /mnt/skills/user/ — 使用者上傳的自訂技能
  • /mnt/skills/example/ — 範例技能

每個 skill 都有一份 SKILL.md,而 system prompt 裡有一條硬性規則:「在寫任何 code、建立任何檔案、或執行任何 bash 命令之前,必須先讀取相關的 SKILL.md。這是無條件的。」

這解決了一個真實的問題:LLM 常常會 hallucinate API 或使用錯誤的函式庫。把環境限制和 best practices 封裝成 skill 檔案,強制模型先讀再做,大幅降低了產出錯誤的機率。

如果你在建構 AI agent 系統,這個模式值得借鑑 — 與其期望模型「知道怎麼做」,不如把「怎麼做」寫成結構化文件,讓模型在執行前強制讀取。


4. 跨 Session 持久化:禁用 localStorage,自建 Storage API

Fable 5 的 Artifact 有了一個全新的 window.storage API,支援跨 session 的資料持久化。API 很簡潔 — get、set、delete、list 四個方法,支援 personal(只有自己看得到)和 shared(所有使用者共享)兩種 scope。

值得注意的是,傳統的 localStoragesessionStorage 被完全禁用。如果在 Artifact 裡使用這些 API,會直接失敗。Anthropic 選擇自建 storage 而非使用瀏覽器原生能力,意味著他們要完全掌控資料流 — 知道什麼資料被存了、被誰存了、誰能讀。

這讓 Artifact 從「一次性的互動元件」升級為「有狀態的應用程式」。journal、tracker、leaderboard 這類需要跨 session 記住資料的應用,現在都能在 Artifact 裡直接實現。


5. User Wellbeing:真實案例教訓的結晶

System prompt 裡最長的段落不是技術功能,而是 user_wellbeing — 關於如何處理使用者心理健康問題的指令。

這段指令的精細度令人印象深刻。幾個例子:

  • 明確禁止建議「用冰塊、橡皮筋、冷水替代自殘」— 因為這些替代技術「重現了自殘的感覺或意象,強化了模式而非打斷模式」
  • 對飲食障礙使用者,禁止提供精確的營養數字、減肥計畫、或卡路里目標 — 即使出發點是「設定更健康的目標」
  • 禁止對使用者進行心理分析或推測動機 — 包括把使用者的狀態歸因於「憂鬱症」等他們自己沒有提到的診斷
  • 偵測到躁症或精神病症狀時,可以「驗證使用者的情緒,但不驗證錯誤的信念」

每一條規則背後,很可能都有一個真實的不良互動案例。這不是工程師憑空想像出來的 — 這是從數以百萬計的對話中學到的教訓。

另一個值得注意的細節:Claude 現在有了 end_conversation tool。如果使用者持續辱罵或虐待 Claude,它可以先給一次警告,然後主動結束對話。社群對此幾乎沒有爭議 — 大家普遍認為這是合理的 boundary 設定。


還有一個彩蛋:Copyright 的量化硬限制

System prompt 裡有一段極其精確的版權規則:

  • 從任何單一來源引用超過 15 個字 = 「嚴重違規」
  • 每個來源最多引用 1 次 — 用完就「關閉」
  • 歌詞、詩、俳句 — 一個字都不能引用,即使出現在搜尋結果中

這個精確度不是工程師會寫的。15 個字的硬限制、每源 1 次的上限、「SEVERE VIOLATION」的措辭 — 這是法務團隊直接參與 system prompt 撰寫的痕跡。

對於建構 AI 搜尋或內容生成產品的開發者,這套規則是很好的參考:與其模糊地說「避免抄襲」,不如把限制量化到數字,讓模型有明確的邊界可以遵守。


結語:System Prompt 是產品策略的原始碼

讀完這 500 行指令,我最大的感受是:system prompt 不是技術文件,是產品策略的原始碼。

Anthropic 要做什麼、不做什麼、在意什麼、害怕什麼 — 全部寫在裡面。雙軌制透露了他們對 dual-use 的立場,MCP App 透露了他們的平台野心,user_wellbeing 透露了他們踩過的坑,copyright 規則透露了法務的影響力。

下次你在設計 AI 產品的 system prompt 時,不妨想想:如果這份 prompt 被公開了,它能不能清楚傳達你的產品哲學?

如果不能,也許問題不在 prompt,而在哲學本身。


我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。