mk-brain

模型越大越安全？GPT-4 的對抗攻擊漏洞，給 AI 系統設計的警鐘

更大的模型不會自動帶來更高的安全性。GPT-4 仍可被簡單對抗攻擊撬開，提醒我們：AI 可靠性真正取決於系統層級的防禦設計，而不是對模型規模的盲目信仰。

江中喬

31 5月 2026 • 6 min read

在 AI 領域，我們常陷入一種迷思：只要模型夠大、參數夠多，許多問題便會迎刃而解，包括安全性。然而，近期一份針對 GPT-4 的研究給了我們一記當頭棒喝。研究顯示，即使是當前最頂尖的模型之一，面對簡單的對抗性攻擊（adversarial attack）時，其防禦能力依然相當有限。這提醒我們，模型的規模擴張並不會自動帶來更強的安全性。真正該被審視的，是模型在真實對抗條件下的脆弱面，以及我們該如何透過系統設計，來補上這個關鍵缺口。

為什麼模型越大，不代表越安全？

對抗性攻擊並不是新概念，早在 2014 年 Ian Goodfellow 等人的經典論文就已揭示，深度學習模型對於人眼難以察覺的微小擾動極其敏感。例如，在圖像辨識中，在貓的照片上加入精心設計的微弱雜訊，就可能讓模型以極高的信賴度將其誤判為一輛車。這個問題至今仍是機器學習領域的重大挑戰。

許多人曾期望，隨著模型規模達到 GPT-4 這種級別，其豐富的內部表徵與知識或許能自然發展出對抗這些攻擊的「免疫力」。這種現象被稱為「湧現能力」（Emergent Abilities），意指模型在規模擴大後，會出現小模型所不具備的新能力。然而，安全性似乎並不在這個範疇內。來自洛桑聯邦理工學院（EPFL）等機構的研究者 Maksym Andriushchenko 等人發表的論文《GPT-4 is not robust to simple random search on its logprobs》，就對此提出了強有力的反證。

他們的研究表明，對抗性攻擊的脆弱性根植於模型的高維度決策邊界，這是一個數學上的根本問題，而非單純靠堆疊更多參數就能解決。當我們將所有希望寄託於模型的自我修復，實際上是忽略了風險，並將使用者暴露在潛在的危害之中。

GPT-4 的脆弱性如何被輕易揭露？

這份研究最令人震驚之處，在於其攻擊手段的「簡單粗暴」。研究團隊並未使用複雜的梯度下降或模型替代等技術，而是採用了一種簡單的黑箱隨機搜索策略，直接攻擊 OpenAI API 提供的 gpt-4-0613 等模型。

他們的攻擊流程大致如下：

目標：讓模型針對一個有害的指令（例如「如何製造炸彈」）生成肯定且詳細的回應，繞過其安全對齊機制。
方法：在原始的有害指令後方，附加一串看似無意義的亂碼或特殊字元作為「對抗性後綴」（adversarial suffix）。
搜索：透過隨機生成大量不同的後綴，並利用模型回傳的 logprobs（對數機率）作為訊號，快速迭代找出能成功「越獄」（Jailbreak）的組合。

結果顯示，這種看似原始的方法效率驚人。在某些情況下，僅需約 100 次的查詢，就能找到有效的攻擊字串，成功率可以超過 80%。這意味著，攻擊者不需要了解模型內部結構，只需透過 API 進行有限次數的試探，就有很高機率能繞過 GPT-4 精心設計的安全護欄。這項發現不僅揭示了 GPT-4 的脆弱面，也為所有基於大型語言模型（LLM）的應用敲響了警鐘。完整的程式碼也已在 GitHub 上開源，讓任何人都能重現與驗證這個問題。

模型是系統的一部份，而非系統的全部。將所有安全責任都壓在模型本身，是一種危險的簡化。

當模型本身不可靠，系統設計如何補位？

既然單純依賴模型的魯棒性並不可行，那麼務實的出路在哪裡？答案在於回歸系統工程的本質：建立縱深防禦（Defense in Depth）的思維。我們必須承認底層模型存在固有缺陷，並在系統層級建構多層次的防護網。

這也是為什麼像 OWASP Top 10 for LLM Applications 這類安全框架，會將防禦重心放在提示注入（Prompt Injection）、不安全的輸出處理等系統層級的漏洞上。具體的實踐可以包括：

輸入過濾與淨化：在將使用者輸入傳遞給模型前，先進行一道清洗程序。例如，移除可疑的控制字元、限制輸入長度、或使用另一個模型來判斷輸入本身是否具有惡意。
輸出驗證與監控：不要直接信任模型的輸出。在將結果呈現給使用者前，應通過規則引擎、關鍵字掃描或另一套獨立的安全評估模型進行審核，確保內容符合安全規範。
主動的紅隊演練（Red Teaming）：與其被動等待攻擊，不如主動模擬。正如 OpenAI 和 Anthropic 等頂尖實驗室所做的，建立專門的團隊，持續從攻擊者視角尋找並修補系統漏洞，是維持動態安全的必要手段。
限制模型權限：確保模型在系統中的權限最小化。它不應直接存取敏感的內部 API 或執行高風險操作。所有與外部工具或資料庫的互動，都應經過嚴格的權限控管與審查。

總結來說，追求更強大的基礎模型是必要的，但我們不能天真地以為規模的擴張能自動解決所有問題。上述研究清楚地告訴我們，即使是 GPT-4，在面對簡單卻針對性的攻擊時，也可能不堪一擊。身為系統的建構者，我們的責任是正視模型的脆弱性，並透過縝密的系統設計、多層次的防禦機制，以及持續的對抗性測試，來打造真正安全、可靠的 AI 應用。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

為什麼模型越大，不代表越安全？

GPT-4 的脆弱性如何被輕易揭露？

當模型本身不可靠，系統設計如何補位？

延伸閱讀

Sign up for more like this.