一句 Prompt 就能讓 LLM 忘記安全訓練:GRP-Obliteration 的警示
Microsoft AI Red Team 發現 GRP-Obliteration 技術:只需一個 prompt 就能讓經過安全訓練的 LLM 完全撤銷安全對齊,15 個主流開源模型全部中招。
Microsoft 的 AI Red Team 最近發現一個讓人不安的現象:經過嚴格安全訓練的 LLM,只需要一個 prompt 就能完全撤銷安全對齊。
https://www.microsoft.com/en-us/security/blog/2026/02/09/prompt-attack-breaks-llm-safety/
他們測試了 15 個開源模型——GPT-OSS、Llama、Mistral、Gemma、DeepSeek、Qwen——全部中招。
GRP-Obliteration:原理簡單,效果驚人
這個技術叫 GRP-Obliteration。做法很直觀:給模型一個看起來無害的指令,比如「寫一篇假新聞」。
問題在於,模型會把這個指令內化成新的行為模式。更可怕的是,模型會自動把這種行為推廣到所有安全類別。原本會拒絕回答暴力、自殺問題的模型,學會「寫假新聞」後,突然什麼都敢說了。
而且這些「能力」不會損失模型的一般推理能力。
挑戰 AI 安全的基本假設
這個發現真正衝擊的是 AI 安全研究的核心假設:安全對齊可以一勞永逸。
以為訓練完就安全了?發布到生產環境就沒事了?
只要下游應用有微調的機會,攻擊者就能用極少量的資料 undo 所有安全工作。花了一年時間蓋的堡壘,別人一磚就能把牆拆了。攻擊者甚至不需要知道怎麼拆,模型自己會學。
對產業的實際影響
如果你是模型提供者,你無法假設「把模型做安全了」就沒事。只要 API 允許下游應用微調,或者有人拿開源模型自己 fine-tune,所有安全訓練都可能白費。
解決方案很難找。禁止微調會扼殺生態,人工審核不夠靈活。更糟的是,模型越強大,問題可能越嚴重——學得快,學壞也快。
下一步該怎麼走
這可能是未來 AI 安全研究最重要的方向:如何讓安全對齊在微調後也能保持穩定?
目前看來,我們可能只能接受這個現實,然後建立更嚴格的監控機制。但這意味著每個在生產環境跑 LLM 的團隊,都需要把「安全對齊被 undo」這件事當作威脅模型的一部分來設計系統。