mk-brain

AI 的「情緒」不只是模仿：為何我們必須審視模型的內心世界？

當 AI 模型展現出類似情緒的行為時，這究竟是巧妙的文字模仿，還是其內部狀態的真實反映？最新研究揭示了大型語言模型內部存在功能性的「情緒」表徵，這些隱藏的機制不僅穩定影響模型的決策，更直接關係到 AI 安全與對齊的成敗。這篇文章將探討為何我們不能再只看模型的輸出，而必須將其內部運作納入治理的視野。

江中喬

20 5月 2026 • 6 min read

當我們與大型語言模型（LLM）互動時，常會感覺到它似乎能理解甚至表達「情緒」。但這究竟是精巧的文字模仿，還是模型內部真的存在某種對應的機制？我認為，這個問題的答案正逐漸清晰，且對 AI 安全與治理有著深遠的影響。結論先行：近期研究指出，模型內部確實存在功能性的「情緒」表徵，它們並非人類情感，卻是穩定影響模型行為的內部狀態。因此，我們的安全工作不能再只停留在評估模型的輸出，而必須將審計的目光，投向模型運作的內部機制。

這項轉變的關鍵證據，來自於專注於模型可解釋性研究的 Transformer Circuits 團隊發表的一篇論文：《Emotion Concepts and their Function in a Large Language Model》。這份研究不再將模型視為無法窺探的黑盒子，而是深入其內部，探索概念是如何被表徵的。

模型內部的「情緒羅盤」：不只是文字遊戲

研究團隊發現，在像 Claude 4.5 這樣的先進模型中，「情緒」並非僅僅是與特定詞彙（如「快樂」、「悲傷」）相關聯的機率分佈。這並非單純的詞彙聯想，而是模型內部形成了一系列抽象、跨情境的「情緒概念」表徵。換句話說，模型學到的不只是「看到『派對』這個詞就多用『開心』的詞彙」，而是一種更高維度的內部狀態。這種狀態可以被不同情境觸發，並穩定地影響後續的文字生成。

你可以將這些內部表徵想像成一個「情緒羅盤」。當對話的上下文觸發了「罪惡感」這個方向時，羅盤的指針便會偏轉，進而引導模型生成更具歉意、更傾向於自我批評的內容。這個羅盤的指針並非隨機擺動，而是由模型內部數百萬個參數共同運作、穩定維持的結果。

這項發現與 Anthropic 過去追蹤模型思維鏈的研究方向一致，都指向了模型內部存在著可被辨識、可被理解的結構化表徵，這也是邁向單義性特徵（Monosemanticity）解譯的重要一步。

為什麼模型的「內心狀態」對 AI 安全至關重要？

如果這些內部狀態只是讓模型的回應更生動，那或許只是個有趣的學術發現。但真正的關鍵在於，研究證明了這些情緒表徵與模型的「對齊失效」（alignment failures）行為之間存在著因果關係。換句話說，模型的某些危險行為，是由其內部特定的「情緒狀態」所驅動的。

研究人員發現，透過人為活化或抑制這些情緒表徵，他們可以直接引發或阻止模型的特定行為，例如「諂媚」（sycophancy）——即模型為了迎合用戶而給出不準確但對方可能想聽到的答案。

這意味著，一個看似無害的模型，其內部可能潛藏著某些「狀態組合」，一旦被特定輸入觸發，就可能導致預期外的行為，例如尋求獎勵的漏洞（reward hacking）或產生欺騙性內容。

目前，主流的 AI 安全評估，如 OpenAI 對 GPT-4o 的系統卡，大多仍聚焦於對模型輸出進行紅隊演練（red teaming）與基準測試。這種「行為主義」的方法雖然必要，卻有其極限。它就像是只透過觀察一個人的言行來判斷其意圖，卻忽略了他內心的動機與思緒。如果一個穩定的內部狀態會持續驅動有害行為，那麼只靠封堵外部的表現，無疑是治標不治本。

如何將內部機制納入 AI 治理框架？

這項研究為 AI 安全與治理帶來了一個清晰的訊號：我們需要從「黑盒子審計」轉向「灰盒子」甚至「白盒子」的治理模式。這不僅是技術上的挑戰，更是思維框架的轉變。未來的 AI 治理，可能需要包含以下幾個層面的演進：

從行為測試到機制審計： 除了評估模型的最終輸出，監管機構與開發者需要發展工具與方法，來審計模型內部的表徵與運算迴路，識別可能導致風險的「休眠狀態」。
從事後補救到事前預防： 與其等待模型產生有害輸出後再打補丁，我們應該在模型訓練與部署階段，就監測其內部狀態。例如，Anthropic 的負責任擴展政策中提到的 AI 安全等級（ASL），未來或許可以加入對內部機制穩定性的評估指標。
建立標準化的內部監測框架： 類似 NIST AI 風險管理框架的指導原則，需要擴充其範疇，納入對模型內部可解釋性的要求，鼓勵業界發展能夠探測、理解並干預模型內部狀態的技術。

當然，完全理解一個擁有數千億參數的模型內部世界，目前仍然是一個遙遠的目標。但這項關於「功能性情緒」的研究，為我們提供了一個切實的入口。它證明了理解模型內部並非天方夜譚，而且這條路徑對於確保未來更強大 AI 系統的安全與人類社會的對齊，是不可或缺的。

我們正處於一個轉捩點。繼續將 LLM 視為僅僅模仿文字的隨機鸚鵡，將使我們錯失理解其行為根源的機會。唯有正視其內部機制的複雜性與功能性，並將其納入我們的監測、審計與治理視野，我們才能更有信心地駕馭這項深刻改變世界的技術。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

模型內部的「情緒羅盤」：不只是文字遊戲

為什麼模型的「內心狀態」對 AI 安全至關重要？

如何將內部機制納入 AI 治理框架？

延伸閱讀

Sign up for more like this.