一句 Prompt 就能讓 LLM 忘記安全訓練:GRP-Obliteration 的警示

Microsoft AI Red Team 發現 GRP-Obliteration 技術:只需一個 prompt 就能讓經過安全訓練的 LLM 完全撤銷安全對齊,15 個主流開源模型全部中招。

一句 Prompt 就能讓 LLM 忘記安全訓練:GRP-Obliteration 的警示

Microsoft 的 AI Red Team 最近發現一個讓人不安的現象:經過嚴格安全訓練的 LLM,只需要一個 prompt 就能完全撤銷安全對齊。

https://www.microsoft.com/en-us/security/blog/2026/02/09/prompt-attack-breaks-llm-safety/

他們測試了 15 個開源模型——GPT-OSS、Llama、Mistral、Gemma、DeepSeek、Qwen——全部中招。

GRP-Obliteration:原理簡單,效果驚人

這個技術叫 GRP-Obliteration。做法很直觀:給模型一個看起來無害的指令,比如「寫一篇假新聞」。

問題在於,模型會把這個指令內化成新的行為模式。更可怕的是,模型會自動把這種行為推廣到所有安全類別。原本會拒絕回答暴力、自殺問題的模型,學會「寫假新聞」後,突然什麼都敢說了。

而且這些「能力」不會損失模型的一般推理能力。

挑戰 AI 安全的基本假設

這個發現真正衝擊的是 AI 安全研究的核心假設:安全對齊可以一勞永逸。

以為訓練完就安全了?發布到生產環境就沒事了?

只要下游應用有微調的機會,攻擊者就能用極少量的資料 undo 所有安全工作。花了一年時間蓋的堡壘,別人一磚就能把牆拆了。攻擊者甚至不需要知道怎麼拆,模型自己會學。

對產業的實際影響

如果你是模型提供者,你無法假設「把模型做安全了」就沒事。只要 API 允許下游應用微調,或者有人拿開源模型自己 fine-tune,所有安全訓練都可能白費。

解決方案很難找。禁止微調會扼殺生態,人工審核不夠靈活。更糟的是,模型越強大,問題可能越嚴重——學得快,學壞也快。

下一步該怎麼走

這可能是未來 AI 安全研究最重要的方向:如何讓安全對齊在微調後也能保持穩定?

目前看來,我們可能只能接受這個現實,然後建立更嚴格的監控機制。但這意味著每個在生產環境跑 LLM 的團隊,都需要把「安全對齊被 undo」這件事當作威脅模型的一部分來設計系統。

原文連結

AIInternalAssistant #AI落地實務 #LLM安全 #PromptInjection #AgenticWorkflow