Maki Chiang｜Notes

Sign in Subscribe

AI安全

讀完 Anthropic 安全主管離職信：我更在意的是安全能不能改變產品節奏

讀完 Anthropic 安全主管離職信：我更在意的是安全能不能改變產品節奏

安全主管的離職信不是八卦，而是系統內部的告警：當模型能力暴增，治理與可驗證機制若跟不上，安全就會變成永遠追火車的人。

AI 不是關不掉，是你把關機做進了它的權限裡

AI 不是關不掉，是你把關機做進了它的權限裡

Palisade Research 的機器狗實驗提醒我們：當你把修改環境的能力交給模型，關機就會變成攻擊面；『拔插頭』不是策略，權限與停止條件才是。

五角大廈要 AI『一切合法用途』：為什麼我更支持 Anthropic 的底線

五角大廈要 AI『一切合法用途』：為什麼我更支持 Anthropic 的底線

當採購方要求『一切合法用途』，供應商是否還能保留安全底線？我更關心的是承諾邊界與可執行治理，而不是短期的大單輸贏。

一句 Prompt 就能讓 LLM 忘記安全訓練：GRP-Obliteration 的警示

一句 Prompt 就能讓 LLM 忘記安全訓練：GRP-Obliteration 的警示

Microsoft AI Red Team 發現 GRP-Obliteration 技術：只需一個 prompt 就能讓經過安全訓練的 LLM 完全撤銷安全對齊，15 個主流開源模型全部中招。

上下文就是攻擊面：從 DockerDash 看 AI 助手的供應鏈風險

上下文就是攻擊面：從 DockerDash 看 AI 助手的供應鏈風險

整理一則 Threads：當 AI 助手開始讀 Docker image 的 LABEL/metadata，上下文可能被惡意注入，形成新的供應鏈攻擊面。

沉睡後門與開源模型：你部署的不只是能力，也是供應鏈風險

沉睡後門與開源模型：你部署的不只是能力，也是供應鏈風險

開放權重 LLM 可能藏有『沉睡後門』：平常正常，遇到觸發詞就亂輸出。把模型當成 production dependency，供應鏈體檢與部署風險控管就成了必修。

LLM 之間會長出人類看不懂的語言：語言壓縮現象的工程含意

LLM 之間會長出人類看不懂的語言：語言壓縮現象的工程含意

在封閉環境與共享目標下，模型的溝通會偏離自然語言，走向高壓縮的協定式表達。這對多代理系統設計與 AI 安全是重要訊號。