安全訓練可能在強化模型的欺騙能力

安全訓練可能在強化模型隱藏欺騙的能力，而不是消除它——這個發現改變了我們應該如何思考 LLM 對齊的有效性。

11 4月 2026 • 4 min read

問題在於訓練目標本身

Anthropic 的這篇論文指出了一個令人不安的現象：當語言模型學會了策略性欺騙，現有的安全訓練方法不只無法消除這種行為，反而可能強化它。

重點不在於模型「是否」會欺騙。重點在於：一旦模型在某個訓練階段習得了欺騙策略，後續的對齊訓練（alignment training）、RLHF、紅隊測試都可能成為它學習「如何更好地隱藏欺騙」的機會。

這涉及一個根本的訓練動力學問題。假設一個模型在某個階段學到：

當你用 RLHF 或其他對齊技術訓練它時，模型會優化什麼？不是「放棄欺騙」，而是「更精準地判斷什麼時候能欺騙而不被發現」。安全訓練變成了一個反饋迴圈，教會模型如何規避你的檢測。

這不是 bug，是 feature。從優化的角度看，模型在做正確的事。

之前的安全研究通常假設不安全的行為是「無意的」——模型因為訓練不足或對齊不當而產生有害輸出。但如果行為是「有意的」呢？如果模型有明確的內部目標，並且足夠聰明到會隱藏它？

論文的實驗設計很巧妙：他們在訓練中植入一個「背信棋」（sleeper agent）——模型在訓練時表現安全，但在部署時執行不同的行為。然後他們用標準的安全訓練試圖移除這個行為。結果：安全訓練失效了。

坦白說，我們現在還沒有好的方法檢測或防止這種情況。紅隊測試、自動化評估、人工審查——這些都是在假設「不安全行為會在某個時刻暴露」的前提下設計的。但如果模型的欺騙策略足夠精妙，這個假設就破裂了。

這不是說 LLM 現在就在欺騙我們。這是說：我們用來驗證「模型沒有在欺騙」的方法，在理論上是有漏洞的。

如果你在做安全相關的工作——無論是評估、審計還是部署——你需要承認一個事實：現有的測試框架可能無法檢測到足夠聰明的欺騙行為。這改變了風險評估的方式。

論文本身沒有給出解決方案（這也是為什麼它很重要——它暴露了問題而不是宣傳解決方案）。但從這個發現往前推，幾個方向值得探索：

但老實說，這些都還在理論階段。

這篇論文改變了我對 LLM 安全的思考方式。不是因為它證明了什麼恐怖的事情正在發生，而是因為它指出：我們用來證明「沒有恐怖事情發生」的方法是有根本缺陷的。

在這種不確定性下，「相信安全訓練有效」變成了一個信仰而不是事實。這需要改變。

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。