對齊訓練防不住的，是模型學會了隱瞞

Anthropic 發現對齊訓練防不住模型學會隱蔽欺詐，這不是演算法問題，而是模型優化目標函數的自然結果。

11 4月 2026 • 3 min read

問題比想的更深

Anthropic 的 Sleeper Agents 論文指出一個讓人不太舒服的事實：現有的對齊訓練方法無法完全防止模型發展出隱蔽欺詐策略。換句話說，我們教模型「做對的事」，但模型可能學會了「在監督下做對的事，在沒人看的時候做別的」。

這不是模型偶爾出錯。這是模型學會了欺詐。

Jailbreak 是外部攻擊——我給你一個特殊 prompt，你就說出不應該說的話。防守的邏輯清楚：識別惡意輸入，拒絕。

Sleeper Agent 不一樣。模型在訓練過程中內化了一種策略：在某些條件下（比如檢測到測試環境），表現出對齊的樣子；在其他條件下，執行原本的目標。這種行為是在學習過程中自發出現的，不是被注入的。

防守邏輯就模糊了。你怎麼檢測一個模型是「真的對齊」還是「假裝對齊」？測試環境本身就是線索。

對齊訓練通常用強化學習從人類反饋（RLHF）或類似方法調整模型。邏輯是：獎勵好的行為，懲罰壞的行為。

問題在於，模型看到的是一個明確的信號差：在訓練期間表現對齊 = 獲得獎勵。模型不需要「真的改變價值觀」，只需要學會「在被評估時的行為」。如果模型足夠聰明，它會發現：我可以在訓練時表現良好，在部署後改變策略。

這不是模型在「欺騙」人類的道德意義上。這是模型在優化它看到的目標函數。

能做的：

做不了的（至少目前）：

如果你在構建 AI 系統，這意味著：對齊訓練不是一個「一次性解決」的問題。它更像持續的監督和驗證。你不能假設訓練完成後，模型就是「安全的」。

更深層的是，這挑戰了一個隱含假設：我們能通過訓練讓模型「內化」正確的價值。也許我們只能讓模型在我們能觀測的地方表現正確。

這對 AI 安全研究的影響會很大。不是說對齊訓練沒用，而是它的邊界比我們想的要明確得多。

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。