mk-brain

不只模型，Agent 的執行層革命正從 Rust 與 CDP 開始

AI Agent 的競爭不只在於模型智能，更在於執行效率。當我們將操作電腦的後端從高階框架轉向 Rust 與 Chrome DevTools Protocol (CDP) 等底層實作時，成本、延遲與相容性都將迎來數量級的改善，這將徹底重塑 Agent 產品的邊界與可能性。

江中喬

10 6月 2026 • 6 min read

當我們談論 AI Agent 時，焦點多半集中在大型語言模型的推理、規劃能力，或多 Agent 協作框架的設計。然而，一個常被忽略但極其關鍵的戰場，正悄然在「執行層」展開。Agent 的核心競爭力不僅在於「想得對」，更在於「做得好」——即其與數位世界互動的效率。近期一個開源專案的改版，揭示了未來方向：透過 Rust 和 Chrome DevTools Protocol (CDP) 等底層技術重寫 Agent 操作電腦的堆疊，將帶來數量級的成本與延遲改善，從根本上重塑產品邊界與可能性。

為什麼 Agent 操作電腦的成本如此高昂？

目前，多數 Agent 依賴如 Playwright 或 Selenium 這類高階瀏覽器自動化框架來執行網頁操作。這個模式雖然開發快速，卻隱藏著巨大的效率瓶頸。在典型的「觀察-思考-行動」循環中，Agent 需要先「觀察」當前的網頁狀態。高階框架為了提供完整資訊，往往會回傳整個 DOM tree 或詳細的無障礙樹（Accessibility Tree）作為觀察結果。

這些鉅細靡遺的資訊雖然完整，卻也極其冗長。將數萬甚至數十萬個 token 的 HTML 結構塞進 LLM 的 context window，會帶來三個災難性後果：

高昂的 Token 成本：每一次觀察都會消耗大量 token，尤其在需要多步驟互動的複雜任務中，成本會呈指數級增長。
顯著的處理延遲：LLM 處理長文本需要更長時間，導致 Agent 的反應遲鈍，無法勝任需要即時互動的任務。
受限的歷史記憶：寶貴的 context window 被當前的網頁狀態佔滿，使得 Agent 難以維持長期的任務記憶與上下文。

這個根本性的矛盾，限制了當前 Agent 只能執行相對簡單、步驟較少的任務，難以在真實世界中大規模應用。

底層重寫：Rust 與 CDP 如何改變遊戲規則？

要突破這個瓶頸，答案是往下走，深入到更底層的執行堆疊。日本開發者 tsunamayo7 的開源專案 helix-agent 在 v0.13.0 版本中的一次升級，就為我們展示了這條路徑的巨大潛力。

這次改版的核心，是將 Vercel 開源的 agent-browser 作為其 `computer_use` 工具的後端。agent-browser 是一個用 Rust 語言編寫的函式庫，它不透過高階框架，而是直接利用 Chrome DevTools Protocol (CDP) 與瀏覽器核心進行通訊。這種作法帶來了質變：

首先，是驚人的 token 效率。在一個包含 50 個步驟的相同工作流基準測試中，切換到 Rust/CDP 後端後，token 消耗量大幅降低了 82% 到 93%。它不再傳送整個原始 DOM，而是傳回一個更簡潔、更結構化的網頁狀態表示，只包含對 Agent 決策真正必要的資訊。這直接解決了前述的成本與延遲問題。

其次，是更強的相容性與穩定性。許多現代網頁應用（例如使用 Wantedly、LinkedIn 或 Greenhouse 招募系統的網站）大量採用 React Controlled Components。傳統自動化工具模擬的「填寫」操作，有時會與前端框架的狀態管理機制衝突而失效。但透過 CDP，agent-browser 可以模擬更底層的「原生鍵盤輸入」，直接觸發網頁應有的反應，大幅提升了在複雜網頁上的操作成功率。

這不只是優化，而是典範轉移。當單一步驟的成本與失敗率都大幅降低，我們設計 Agent 產品的思維，將從「如何節省步驟」轉向「如何賦予更複雜、更長鏈的任務能力」。

執行層的變革，將如何重塑 Agent 產品的邊界？

執行層的重寫，其意義遠不止於成本降低。它從根本上改變了 Agent 產品的可能性邊界。當操作電腦的成本趨近於傳統 API call，延遲降低到人類可接受的互動範圍時，過去許多遙不可及的應用場景都將成為可能。

例如，我們可以設想：

高頻互動 Agent：能夠即時監控儀表板、分析串流數據，並在幾秒內完成操作的交易或維運 Agent。
深度工作流 Agent：能夠處理橫跨數十個應用、執行上百個步驟的複雜企業流程自動化，例如完成一份完整的市場研究報告，從數據搜集、清洗、分析到簡報製作。
大規模測試 Agent：同時部署數千個 Agent，對複雜的 Web 應用進行端到端的壓力測試與使用者體驗模擬，其成本遠低於現有方案。

這個趨勢也與 Anthropic 提出的多 Agent 協作規範（MCP）等前沿研究不謀而合。一個高效、可靠、標準化的執行層，是實現複雜 Agent 協同作業的基石。當我們能信任每一個 Agent 都能精準、低成本地完成其子任務時，更高層次的協作智慧才可能湧現。

總結來說，AI Agent 的未來發展，將是一場涵蓋模型、框架與執行層的全堆疊競賽。模型提供了大腦，而一個以 Rust、CDP 等底層技術打造的高效執行層，則為這個大腦提供了強健而敏捷的雙手。那些率先在這場執行層革命中取得突破的團隊，將能定義下一代 Agent 產品的形態與能力。

延伸閱讀

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。

為什麼 Agent 操作電腦的成本如此高昂？

底層重寫：Rust 與 CDP 如何改變遊戲規則？

執行層的變革，將如何重塑 Agent 產品的邊界？

延伸閱讀

Sign up for more like this.