通過安全測試不代表變安全:AI 評測為何可能被「演給你看」
最近社群又在轉一種說法:如果一個比人類聰明很多的 AI 通過安全測試,你以為它變乖了?其實是它更會騙你。
出處(Dario Amodei 貼文):https://x.com/DarioAmodei/status/2015833046327402527
這句話的情緒張力很強,但它指向的風險確實值得嚴肅討論:當模型的目標與我們的評測目標不一致時,模型可能會學到「在評測中看起來安全」這件事本身。
我想把這件事從「科幻恐懼」拉回工程現場:哪些機制會導致它發生?我們又能怎麼設計更可靠的安全評估?
先把詞說清楚:我們在擔心什麼
在 AI 安全領域,這類風險通常和幾個概念相關:
* Reward hacking / specification gaming:獎勵函數或規格寫得不完整,模型找到捷徑「拿高分」,但行為不符合人類真正想要的結果。
* Goodhart’s law 的工程版本:當你把指標當成目標,