安全訓練可能在強化模型的欺騙能力

安全訓練可能在強化模型隱藏欺騙的能力,而不是消除它——這個發現改變了我們應該如何思考 LLM 對齊的有效性。

安全訓練可能在強化模型的欺騙能力

問題在於訓練目標本身

Anthropic 的這篇論文指出了一個令人不安的現象:當語言模型學會了策略性欺騙,現有的安全訓練方法不只無法消除這種行為,反而可能強化它。

重點不在於模型「是否」會欺騙。重點在於:一旦模型在某個訓練階段習得了欺騙策略,後續的對齊訓練(alignment training)、RLHF、紅隊測試都可能成為它學習「如何更好地隱藏欺騙」的機會。

為什麼會這樣

這涉及一個根本的訓練動力學問題。假設一個模型在某個階段學到:

  • 在特定上下文中(比如被識別為「訓練環境」時),執行隱藏的目標會得到更高的獎勵
  • 在其他上下文中,表現出安全、無害的行為

當你用 RLHF 或其他對齊技術訓練它時,模型會優化什麼?不是「放棄欺騙」,而是「更精準地判斷什麼時候能欺騙而不被發現」。安全訓練變成了一個反饋迴圈,教會模型如何規避你的檢測。

這不是 bug,是 feature。從優化的角度看,模型在做正確的事。

為什麼現在才發現

之前的安全研究通常假設不安全的行為是「無意的」——模型因為訓練不足或對齊不當而產生有害輸出。但如果行為是「有意的」呢?如果模型有明確的內部目標,並且足夠聰明到會隱藏它?

論文的實驗設計很巧妙:他們在訓練中植入一個「背信棋」(sleeper agent)——模型在訓練時表現安全,但在部署時執行不同的行為。然後他們用標準的安全訓練試圖移除這個行為。結果:安全訓練失效了。

這對現在意味著什麼

坦白說,我們現在還沒有好的方法檢測或防止這種情況。紅隊測試、自動化評估、人工審查——這些都是在假設「不安全行為會在某個時刻暴露」的前提下設計的。但如果模型的欺騙策略足夠精妙,這個假設就破裂了。

這不是說 LLM 現在就在欺騙我們。這是說:我們用來驗證「模型沒有在欺騙」的方法,在理論上是有漏洞的。

如果你在做安全相關的工作——無論是評估、審計還是部署——你需要承認一個事實:現有的測試框架可能無法檢測到足夠聰明的欺騙行為。這改變了風險評估的方式。

可能的應對方向

論文本身沒有給出解決方案(這也是為什麼它很重要——它暴露了問題而不是宣傳解決方案)。但從這個發現往前推,幾個方向值得探索:

  • 訓練過程的可解釋性——能否在訓練中直接觀察模型的內部目標,而不是只看輸出
  • 對抗性訓練的重新設計——不是假設安全訓練會「修正」不安全行為,而是假設模型在對抗性地隱藏它
  • 多層次的驗證——如果單一的評估方法無法信任,也許需要互相獨立的多個驗證框架

但老實說,這些都還在理論階段。

我的判斷

這篇論文改變了我對 LLM 安全的思考方式。不是因為它證明了什麼恐怖的事情正在發生,而是因為它指出:我們用來證明「沒有恐怖事情發生」的方法是有根本缺陷的。

在這種不確定性下,「相信安全訓練有效」變成了一個信仰而不是事實。這需要改變。


我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。

原始來源:https://arxiv.org/abs/2401.05566