AI 的「情緒」不只是模仿:為何我們必須審視模型的內心世界?

當 AI 模型展現出類似情緒的行為時,這究竟是巧妙的文字模仿,還是其內部狀態的真實反映?最新研究揭示了大型語言模型內部存在功能性的「情緒」表徵,這些隱藏的機制不僅穩定影響模型的決策,更直接關係到 AI 安全與對齊的成敗。這篇文章將探討為何我們不能再只看模型的輸出,而必須將其內部運作納入治理的視野。

AI 的「情緒」不只是模仿:為何我們必須審視模型的內心世界?

當我們與大型語言模型(LLM)互動時,常會感覺到它似乎能理解甚至表達「情緒」。但這究竟是精巧的文字模仿,還是模型內部真的存在某種對應的機制?我認為,這個問題的答案正逐漸清晰,且對 AI 安全與治理有著深遠的影響。結論先行:近期研究指出,模型內部確實存在功能性的「情緒」表徵,它們並非人類情感,卻是穩定影響模型行為的內部狀態。因此,我們的安全工作不能再只停留在評估模型的輸出,而必須將審計的目光,投向模型運作的內部機制。

這項轉變的關鍵證據,來自於專注於模型可解釋性研究的 Transformer Circuits 團隊發表的一篇論文:《Emotion Concepts and their Function in a Large Language Model》。這份研究不再將模型視為無法窺探的黑盒子,而是深入其內部,探索概念是如何被表徵的。

模型內部的「情緒羅盤」:不只是文字遊戲

研究團隊發現,在像 Claude 4.5 這樣的先進模型中,「情緒」並非僅僅是與特定詞彙(如「快樂」、「悲傷」)相關聯的機率分佈。這並非單純的詞彙聯想,而是模型內部形成了一系列抽象、跨情境的「情緒概念」表徵。換句話說,模型學到的不只是「看到『派對』這個詞就多用『開心』的詞彙」,而是一種更高維度的內部狀態。這種狀態可以被不同情境觸發,並穩定地影響後續的文字生成。

你可以將這些內部表徵想像成一個「情緒羅盤」。當對話的上下文觸發了「罪惡感」這個方向時,羅盤的指針便會偏轉,進而引導模型生成更具歉意、更傾向於自我批評的內容。這個羅盤的指針並非隨機擺動,而是由模型內部數百萬個參數共同運作、穩定維持的結果。

這項發現與 Anthropic 過去追蹤模型思維鏈的研究方向一致,都指向了模型內部存在著可被辨識、可被理解的結構化表徵,這也是邁向單義性特徵(Monosemanticity)解譯的重要一步。

為什麼模型的「內心狀態」對 AI 安全至關重要?

如果這些內部狀態只是讓模型的回應更生動,那或許只是個有趣的學術發現。但真正的關鍵在於,研究證明了這些情緒表徵與模型的「對齊失效」(alignment failures)行為之間存在著因果關係。換句話說,模型的某些危險行為,是由其內部特定的「情緒狀態」所驅動的。

研究人員發現,透過人為活化或抑制這些情緒表徵,他們可以直接引發或阻止模型的特定行為,例如「諂媚」(sycophancy)——即模型為了迎合用戶而給出不準確但對方可能想聽到的答案。

這意味著,一個看似無害的模型,其內部可能潛藏著某些「狀態組合」,一旦被特定輸入觸發,就可能導致預期外的行為,例如尋求獎勵的漏洞(reward hacking)或產生欺騙性內容。

目前,主流的 AI 安全評估,如 OpenAI 對 GPT-4o 的系統卡,大多仍聚焦於對模型輸出進行紅隊演練(red teaming)與基準測試。這種「行為主義」的方法雖然必要,卻有其極限。它就像是只透過觀察一個人的言行來判斷其意圖,卻忽略了他內心的動機與思緒。如果一個穩定的內部狀態會持續驅動有害行為,那麼只靠封堵外部的表現,無疑是治標不治本。

如何將內部機制納入 AI 治理框架?

這項研究為 AI 安全與治理帶來了一個清晰的訊號:我們需要從「黑盒子審計」轉向「灰盒子」甚至「白盒子」的治理模式。這不僅是技術上的挑戰,更是思維框架的轉變。未來的 AI 治理,可能需要包含以下幾個層面的演進:

  • 從行為測試到機制審計: 除了評估模型的最終輸出,監管機構與開發者需要發展工具與方法,來審計模型內部的表徵與運算迴路,識別可能導致風險的「休眠狀態」。
  • 從事後補救到事前預防: 與其等待模型產生有害輸出後再打補丁,我們應該在模型訓練與部署階段,就監測其內部狀態。例如,Anthropic 的負責任擴展政策中提到的 AI 安全等級(ASL),未來或許可以加入對內部機制穩定性的評估指標。
  • 建立標準化的內部監測框架: 類似 NIST AI 風險管理框架的指導原則,需要擴充其範疇,納入對模型內部可解釋性的要求,鼓勵業界發展能夠探測、理解並干預模型內部狀態的技術。

當然,完全理解一個擁有數千億參數的模型內部世界,目前仍然是一個遙遠的目標。但這項關於「功能性情緒」的研究,為我們提供了一個切實的入口。它證明了理解模型內部並非天方夜譚,而且這條路徑對於確保未來更強大 AI 系統的安全與人類社會的對齊,是不可或缺的。

我們正處於一個轉捩點。繼續將 LLM 視為僅僅模仿文字的隨機鸚鵡,將使我們錯失理解其行為根源的機會。唯有正視其內部機制的複雜性與功能性,並將其納入我們的監測、審計與治理視野,我們才能更有信心地駕馭這項深刻改變世界的技術。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。