mk-brain

AI Agent 的安全幻覺：為何源碼級權限審計才是唯一解方

為 AI Agent 加上一層政策聲明或自然語言守則，並不能解決根本的安全問題。真正的安全分水嶺，在於其執行環境的權限模型是否能被源碼級審計與執行時驗證。本文從一份詳盡的 Agent 設定指南談起，探討企業為何需要可檢查、可限制、可回滾的權限架構，而非寄望於脆弱的口頭承諾。

江中喬

18 6月 2026 • 6 min read

為 AI Agent 加上一層政策聲明或自然語言守則，並不能解決根本的安全問題。這類表層防護在複雜的攻擊向量面前往往不堪一擊。真正的安全分水嶺，在於其執行環境的權限模型是否能被源碼級審計與執行時驗證。只要授權與執行機制中存在任何黑箱，所謂「可控」的 Agent 就只是一種脆弱的幻覺。對於導入 Agent 技術的企業而言，唯一可靠的路徑是建立一個可檢查、可限制、可回滾的權限基礎設施，將信任建立在可驗證的程式碼之上，而非模型的模糊理解力。

為什麼多數 Agent 的安全承諾不堪一擊？

當前許多 AI Agent 系統在討論安全性時，往往著重於模型層的「對齊」（Alignment）或是在系統提示（System Prompt）中加入各種行為守則，例如「你不得刪除用戶的任何檔案」或「你只能存取指定的 API」。這種方法看似直觀，卻有著根本性的缺陷。它假設 Agent 會百分之百正確理解並遵守這些自然語言指令。然而，無數研究與實例已經證明，透過巧妙的提示注入（Prompt Injection）攻擊，這些防線可以輕易被繞過。

問題的核心在於執行環境（Execution Environment）的授權過於寬鬆。如果一個 Agent 的底層執行緒有權限讀寫整個檔案系統，那麼無論你在提示中如何告誡它，惡意指令依然可能觸發災難性後果。這就像給一個實習生整間公司的最高管理權限，然後只給他一份「行為準則」手冊，期望他不會犯錯。這在任何傳統的資訊安全領域都是不可思議的，但在新興的 Agent 領域卻異常普遍。

這種脆弱的信任模型對企業來說是個定時炸彈。資料外洩、系統篡改、非授權操作等風險，都可能因為一個被劫持的 Agent 而發生。將安全寄望於模型的「善意」，本質上是一種權責不清的設計，真正的安全必須來自於更底層、更剛性的架構。

Hermes Desktop 如何揭示 Agent 權限控制的深度？

要理解什麼是剛性的架構，近期在 Zenn.dev 上出現的一份非官方 Hermes Desktop 設定指南提供了一個絕佳的範例。作者並非只是翻譯官方文件，而是對 Nous Research 推出的這款 Agent 桌面應用程式進行了徹底的源碼級審計。該指南詳盡分析了基於版本 v0.16.0（對應特定 commit d165933）的 14 大類、共 186 項設定，並透過實際操作與程式碼比對，驗證了每一項設定的預設值與作用。

這份指南的價值不在於它本身，而在於它揭示了一種更健全的 Agent 安全哲學。其中特別強調的幾個設定，清晰地展示了控制粒度應該達到多深的層次：

承認模式（Approval Mode）：Agent 執行任何具有潛在風險的操作（如執行程式碼、寫入檔案）前，都必須彈出視窗，等待使用者手動批准。這將最終決策權交還給人類，而不是讓 Agent 自主行動。
秘密遮罩（Secret Masking）：系統會自動偵測並遮蔽日誌或介面中出現的敏感資訊，例如 API 金鑰或密碼，防止意外洩漏。
私有 URL 限制：可以設定白名單，嚴格限制 Agent 能夠存取的網路位址，從源頭杜絕它與惡意或無關的伺服器通訊。

這些都不是自然語言的「建議」，而是寫死在執行環境中的剛性規則。它們無法被提示注入所繞過，因為它們的優先級高於模型的決策邏輯。這正是我們所說的「將安全建立在可驗證的程式碼上」。

在一個無法審計的執行環境中，任何安全承諾都只是建立在沙灘上的城堡。真正的信任，源於透明且可驗證的限制。

企業該如何建立可信賴的 Agent 權限架構？

Hermes Desktop 的例子給了我們一個清晰的藍圖。企業在自行建構或導入第三方 AI Agent 服務時，不應只關注其功能或模型性能，而必須將權限架構的透明度與可控性作為核心評估指標。一個值得信賴的 Agent 權限架構，至少應具備以下特質：

首先是可檢查性（Inspectability）。系統的所有權限設定與行為日誌都必須是開放且可審計的。無論是透過開源程式碼，還是詳盡的技術文件，開發者與資安團隊必須能夠清楚理解 Agent 在特定設定下「能做什麼」與「不能做什麼」。任何涉及權限管理的黑箱，都應被視為重大安全隱患。

其次是可限制性（Restrictability）。系統必須提供細顆粒度的權限控制，嚴格遵循最小權限原則（Principle of Least Privilege）。這意味著 Agent 預設應不具備任何危險權限，所有能力（如網路存取、檔案讀寫、指令執行）都需要被明確授予。這與LangChain 等框架近年來不斷強調的安全最佳實踐不謀而合。

最後是可回滾性（Rollback-ability）。即使有再嚴密的防護，意外也可能發生。一個成熟的系統應具備詳盡的操作日誌，並提供清晰的監控與中斷機制。在偵測到異常行為時，管理者應能迅速介入，暫停 Agent 的所有活動，甚至在可能的情況下，回滾其所做的變更。

總結來說，Agent 的安全競賽，最終比的不是誰的模型更「聽話」，而是誰的執行環境更「誠實」。當我們將焦點從訓練模型的模糊行為，轉移到建構透明、可控的執行框架時，我們才能真正開始在企業環境中，放心、有效地利用 AI Agent 的巨大潛力。

AI Agent 的安全幻覺：為何源碼級權限審計才是唯一解方

江中喬

為什麼多數 Agent 的安全承諾不堪一擊？

Hermes Desktop 如何揭示 Agent 權限控制的深度？

企業該如何建立可信賴的 Agent 權限架構？

延伸閱讀

Sign up for more like this.