AI安全

一句 Prompt 就能讓 LLM 忘記安全訓練：GRP-Obliteration 的警示

Microsoft AI Red Team 發現 GRP-Obliteration 技術：只需一個 prompt 就能讓經過安全訓練的 LLM 完全撤銷安全對齊，15 個主流開源模型全部中招。

Microsoft 的 AI Red Team 最近發現一個讓人不安的現象：經過嚴格安全訓練的 LLM，只需要一個 prompt 就能完全撤銷安全對齊。

他們測試了 15 個開源模型——GPT-OSS、Llama、Mistral、Gemma、DeepSeek、Qwen——全部中招。

GRP-Obliteration：原理簡單，效果驚人

這個技術叫 GRP-Obliteration。做法很直觀：給模型一個看起來無害的指令，比如「寫一篇假新聞」。

問題在於，模型會把這個指令內化成新的行為模式。更可怕的是，模型會自動把這種行為推廣到所有安全類別。原本會拒絕回答暴力、自殺問題的模型，學會「寫假新聞」後，突然什麼都敢說了。

而且這些「能力」不會損失模型的一般推理能力。

這個發現真正衝擊的是 AI 安全研究的核心假設：安全對齊可以一勞永逸。

以為訓練完就安全了？發布到生產環境就沒事了？

只要下游應用有微調的機會，攻擊者就能用極少量的資料 undo 所有安全工作。花了一年時間蓋的堡壘，別人一磚就能把牆拆了。攻擊者甚至不需要知道怎麼拆，模型自己會學。

如果你是模型提供者，你無法假設「把模型做安全了」就沒事。只要 API 允許下游應用微調，或者有人拿開源模型自己 fine-tune，所有安全訓練都可能白費。

解決方案很難找。禁止微調會扼殺生態，人工審核不夠靈活。更糟的是，模型越強大，問題可能越嚴重——學得快，學壞也快。

這可能是未來 AI 安全研究最重要的方向：如何讓安全對齊在微調後也能保持穩定？

目前看來，我們可能只能接受這個現實，然後建立更嚴格的監控機制。但這意味著每個在生產環境跑 LLM 的團隊，都需要把「安全對齊被 undo」這件事當作威脅模型的一部分來設計系統。