超越單一分數:我們需要新的 AI Agent 風險治理框架
AI Agent 的風險評估,還在用單一分數嗎?本文將深入剖析為何 CVSS 這類傳統指標,在面對 AI Agent 複雜的權限組合與多變的執行環境時已顯不足。我們將揭示真正的威脅如何從「危險三位一體」的權限交織中浮現,並提出一個創新框架,強調權限分離與環境上下文的重要性。這不僅是技術思維的轉變,更是確保未來 AI 系統安全、可控的關鍵策略,帶你跳脫數字迷思
AI Agent 的安全治理,不能再依賴 CVSS 這類簡化的單一分數。真正的風險並非源於孤立的漏洞,而是來自 agent 同時擁有的能力組合,以及其運行的具體環境。當一個 agent 能同時存取內部資料、接觸外部內容並對外通訊,系統性風險便已形成。因此,我們必須將思維從「評分」轉向「框架」,建立一個基於權限分離與環境上下文的風險評估模型。這不僅是技術上的精進,更是確保未來 AI 系統安全可控的根本策略。
AI Agent 的「危險三位一體」:為何權限組合是風險核心?
在傳統的資訊安全領域,我們習慣於評估單一漏洞的嚴重性。然而,對於自主性日益增強的 AI Agent,這種方法的局限性越來越明顯。真正的風險,往往來自於多個看似無害的權限被組合在一起時所產生的化學反應。我將這種高風險組合稱為「危險三位一體」(a dangerous trifecta),它包含三個核心元素:
- 資料存取權(Data Access):agent 是否能讀取、寫入或修改內部敏感資料庫、檔案系統或機密資訊。
- 外部內容存取權(Access to Untrusted Content):agent 是否會接觸或處理來自網際網路、使用者上傳等不可信來源的內容。
- 通訊能力(Communication Capability):agent 是否能主動對外發起網路請求、寄送郵件或透過 API 與其他系統互動。
單獨來看,每一項權限在特定應用中可能都是必要的。例如,一個客服 agent 需要存取客戶資料庫,一個研究助理 agent 需要瀏覽網路,一個監控 agent 需要發送警報。然而,當一個 agent 同時擁有這三項能力時,它就構成了一個潛在的完美風暴。
這意味著,它可能被外部的惡意內容(例如透過提示注入或惡意檔案)所操縱,進而竊取內部敏感資料,並透過自身的通訊能力將資料外洩。這也違背了資訊安全中行之有年的「最小權限原則」(Principle of Least Privilege)。因此,在設計 agent 架構時,首要之務就是思考如何將這三者分離,避免任何單一 agent 成為系統的萬能鑰匙。
CVSS 分數的侷限:為什麼滿分漏洞不等於最高風險?
長期以來,通用漏洞評分系統(CVSS)一直是我們用來量化漏洞嚴重性的黃金標準。一個 CVSS 分數高達 9.0 甚至 10.0 的漏洞,通常會立刻觸發警報,讓開發與維運團隊徹夜難眠。然而,這個分數本身是「脫離上下文」的。它評估的是漏洞在最理想利用情境下的潛在破壞力,卻沒有考慮到它在真實世界中的實際部署環境。
舉個簡單的例子:假設一個函式庫被發現存在一個 CVSS 10.0 的遠端程式碼執行(RCE)漏洞。如果這個函式庫被用在一個對外公開、處理用戶請求的網路伺服器上,那它無疑是最高優先級的緊急事件。但如果同一個函式庫,只被一個運行在完全離線、沒有任何網路連線的本地端數據分析工具所使用,那麼這個「滿分漏洞」的實際威脅幾乎為零。攻擊者根本沒有路徑可以觸發它。
一個脫離上下文的風險分數,就像一張沒有比例尺的地圖,雖然提供了資訊,卻可能導向完全錯誤的判斷。
將所有資源都投入去修補那個在離線工具中的 10.0 漏洞,而忽略了在公開伺服器上一個分數僅有 7.5 但更容易被利用的漏洞,顯然是資源的錯配。對於 AI agent 來說,這個問題更加嚴重,因為它們的行為模式與部署環境更加多樣化。我們不能再僅僅依賴一個數字來決定工作的優先級。
如何建立具備上下文的風險評估框架?
既然單一分數不可靠,我們就需要一個更結構化的框架來評估 AI agent 的風險。這個框架的核心,是將 agent 的「內在能力」與「外部環境」結合進行綜合評估。這個轉變,是從被動地為漏洞「評分」,轉向主動地為系統「建模」。
近年來,開源社群面臨的一個新興問題,恰恰反證了缺乏上下文的自動化評估是多麼有害。Linux 核心郵件列表的維護者 Kent Overstreet 就曾公開指出,他們在短短 5 個月內收到了 1,142 件由 AI 自動生成的低品質安全報告,平均每天超過 16 件。
這些報告大多是基於靜態分析工具的表面結果,缺乏對核心程式碼運作脈絡的理解,對社群造成了巨大的審核負擔,而非實質幫助。這就是「無上下文評估」規模化後的惡果。
一個更有效的風險評估框架,應該包含以下幾個步驟:
- 能力盤點(Capability Mapping):系統性地盤點每個 agent 是否具備前述的「危險三位一體」權限。這不是一個是非題,而是一個光譜,例如,通訊能力是僅限內部網路,還是可以連到任意的網際網路位址?
- 環境分析(Environment Analysis):明確定義 agent 的運行環境。例如,我們可以將環境分為「本地開發」、「內部測試」、「受限生產環境」(僅對內)和「公開生產環境」(對外)等層級,並為每個層級設定不同的安全基準。
- 威脅建模(Threat Modeling):結合能力與環境,模擬潛在的攻擊路徑。例如,一個具備完整三位一體權限、且部署在公開生產環境的 agent,其風險等級就應該是最高的。我們可以參考 AI 風險分類學(A Taxonomy of Risks Posed by Language Models)等研究,來豐富我們的模型。
總結來說,隨著 AI agent 變得越來越自主與強大,我們對其風險的治理方式也必須跟著演進。告別對單一分數的迷信,轉而擁抱一個基於權限分離、環境上下文與系統化威脅建模的綜合框架,才是確保我們能夠在享受 AI 帶來便利的同時,也能有效控制其潛在風險的唯一途徑。
延伸閱讀
- CVSS 4.0 Specification Document
- Kent Overstreet on AI-generated "slop" on the Linux Kernel Mailing List
- A Framework for Automated Safety Evaluation of Multimodal Language Models
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。