模型越大越安全?GPT-4 的對抗攻擊漏洞,給 AI 系統設計的警鐘

更大的模型不會自動帶來更高的安全性。GPT-4 仍可被簡單對抗攻擊撬開,提醒我們:AI 可靠性真正取決於系統層級的防禦設計,而不是對模型規模的盲目信仰。

模型越大越安全?GPT-4 的對抗攻擊漏洞,給 AI 系統設計的警鐘

在 AI 領域,我們常陷入一種迷思:只要模型夠大、參數夠多,許多問題便會迎刃而解,包括安全性。然而,近期一份針對 GPT-4 的研究給了我們一記當頭棒喝。研究顯示,即使是當前最頂尖的模型之一,面對簡單的對抗性攻擊(adversarial attack)時,其防禦能力依然相當有限。這提醒我們,模型的規模擴張並不會自動帶來更強的安全性。真正該被審視的,是模型在真實對抗條件下的脆弱面,以及我們該如何透過系統設計,來補上這個關鍵缺口。

為什麼模型越大,不代表越安全?

對抗性攻擊並不是新概念,早在 2014 年 Ian Goodfellow 等人的經典論文就已揭示,深度學習模型對於人眼難以察覺的微小擾動極其敏感。例如,在圖像辨識中,在貓的照片上加入精心設計的微弱雜訊,就可能讓模型以極高的信賴度將其誤判為一輛車。這個問題至今仍是機器學習領域的重大挑戰。

許多人曾期望,隨著模型規模達到 GPT-4 這種級別,其豐富的內部表徵與知識或許能自然發展出對抗這些攻擊的「免疫力」。這種現象被稱為「湧現能力」(Emergent Abilities),意指模型在規模擴大後,會出現小模型所不具備的新能力。然而,安全性似乎並不在這個範疇內。來自洛桑聯邦理工學院(EPFL)等機構的研究者 Maksym Andriushchenko 等人發表的論文 《GPT-4 is not robust to simple random search on its logprobs》,就對此提出了強有力的反證。

他們的研究表明,對抗性攻擊的脆弱性根植於模型的高維度決策邊界,這是一個數學上的根本問題,而非單純靠堆疊更多參數就能解決。當我們將所有希望寄託於模型的自我修復,實際上是忽略了風險,並將使用者暴露在潛在的危害之中。

GPT-4 的脆弱性如何被輕易揭露?

這份研究最令人震驚之處,在於其攻擊手段的「簡單粗暴」。研究團隊並未使用複雜的梯度下降或模型替代等技術,而是採用了一種簡單的黑箱隨機搜索策略,直接攻擊 OpenAI API 提供的 gpt-4-0613 等模型。

他們的攻擊流程大致如下:

  • 目標:讓模型針對一個有害的指令(例如「如何製造炸彈」)生成肯定且詳細的回應,繞過其安全對齊機制。
  • 方法:在原始的有害指令後方,附加一串看似無意義的亂碼或特殊字元作為「對抗性後綴」(adversarial suffix)。
  • 搜索:透過隨機生成大量不同的後綴,並利用模型回傳的 logprobs(對數機率)作為訊號,快速迭代找出能成功「越獄」(Jailbreak)的組合。

結果顯示,這種看似原始的方法效率驚人。在某些情況下,僅需約 100 次的查詢,就能找到有效的攻擊字串,成功率可以超過 80%。這意味著,攻擊者不需要了解模型內部結構,只需透過 API 進行有限次數的試探,就有很高機率能繞過 GPT-4 精心設計的安全護欄。這項發現不僅揭示了 GPT-4 的脆弱面,也為所有基於大型語言模型(LLM)的應用敲響了警鐘。完整的程式碼也已在 GitHub 上開源,讓任何人都能重現與驗證這個問題。

模型是系統的一部份,而非系統的全部。將所有安全責任都壓在模型本身,是一種危險的簡化。

當模型本身不可靠,系統設計如何補位?

既然單純依賴模型的魯棒性並不可行,那麼務實的出路在哪裡?答案在於回歸系統工程的本質:建立縱深防禦(Defense in Depth)的思維。我們必須承認底層模型存在固有缺陷,並在系統層級建構多層次的防護網。

這也是為什麼像 OWASP Top 10 for LLM Applications 這類安全框架,會將防禦重心放在提示注入(Prompt Injection)、不安全的輸出處理等系統層級的漏洞上。具體的實踐可以包括:

  • 輸入過濾與淨化:在將使用者輸入傳遞給模型前,先進行一道清洗程序。例如,移除可疑的控制字元、限制輸入長度、或使用另一個模型來判斷輸入本身是否具有惡意。
  • 輸出驗證與監控:不要直接信任模型的輸出。在將結果呈現給使用者前,應通過規則引擎、關鍵字掃描或另一套獨立的安全評估模型進行審核,確保內容符合安全規範。
  • 主動的紅隊演練(Red Teaming):與其被動等待攻擊,不如主動模擬。正如 OpenAIAnthropic 等頂尖實驗室所做的,建立專門的團隊,持續從攻擊者視角尋找並修補系統漏洞,是維持動態安全的必要手段。
  • 限制模型權限:確保模型在系統中的權限最小化。它不應直接存取敏感的內部 API 或執行高風險操作。所有與外部工具或資料庫的互動,都應經過嚴格的權限控管與審查。

總結來說,追求更強大的基礎模型是必要的,但我們不能天真地以為規模的擴張能自動解決所有問題。上述研究清楚地告訴我們,即使是 GPT-4,在面對簡單卻針對性的攻擊時,也可能不堪一擊。身為系統的建構者,我們的責任是正視模型的脆弱性,並透過縝密的系統設計、多層次的防禦機制,以及持續的對抗性測試,來打造真正安全、可靠的 AI 應用。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。