一句 Prompt 就能讓 LLM 忘記安全訓練:GRP-Obliteration 的警示 Microsoft AI Red Team 發現 GRP-Obliteration 技術:只需一個 prompt 就能讓經過安全訓練的 LLM 完全撤銷安全對齊,15 個主流開源模型全部中招。
AI『潛伏特工』這件事,逼企業把治理從內容稽核升級到行為稽核 所謂 AI 潛伏特工的可怕之處,在於日常測試可能看不出異狀。企業更務實的自保方式,是把資料與行動切開、把高風險動作改成提案制,並建立可追溯性。
Prompt 不是靈感文字:把它當成可追蹤的產品資產 改了一句 prompt 就讓流程崩掉,問題通常不在註解,而在缺少 prompt 的版控、回放與回歸測試。把 prompt 當成產品資產管理,才撐得起 production。
沉睡後門與開源模型:你部署的不只是能力,也是供應鏈風險 開放權重 LLM 可能藏有『沉睡後門』:平常正常,遇到觸發詞就亂輸出。把模型當成 production dependency,供應鏈體檢與部署風險控管就成了必修。