不只模型,Agent 的執行層革命正從 Rust 與 CDP 開始
AI Agent 的競爭不只在於模型智能,更在於執行效率。當我們將操作電腦的後端從高階框架轉向 Rust 與 Chrome DevTools Protocol (CDP) 等底層實作時,成本、延遲與相容性都將迎來數量級的改善,這將徹底重塑 Agent 產品的邊界與可能性。
當我們談論 AI Agent 時,焦點多半集中在大型語言模型的推理、規劃能力,或多 Agent 協作框架的設計。然而,一個常被忽略但極其關鍵的戰場,正悄然在「執行層」展開。Agent 的核心競爭力不僅在於「想得對」,更在於「做得好」——即其與數位世界互動的效率。近期一個開源專案的改版,揭示了未來方向:透過 Rust 和 Chrome DevTools Protocol (CDP) 等底層技術重寫 Agent 操作電腦的堆疊,將帶來數量級的成本與延遲改善,從根本上重塑產品邊界與可能性。
為什麼 Agent 操作電腦的成本如此高昂?
目前,多數 Agent 依賴如 Playwright 或 Selenium 這類高階瀏覽器自動化框架來執行網頁操作。這個模式雖然開發快速,卻隱藏著巨大的效率瓶頸。在典型的「觀察-思考-行動」循環中,Agent 需要先「觀察」當前的網頁狀態。高階框架為了提供完整資訊,往往會回傳整個 DOM tree 或詳細的無障礙樹(Accessibility Tree)作為觀察結果。
這些鉅細靡遺的資訊雖然完整,卻也極其冗長。將數萬甚至數十萬個 token 的 HTML 結構塞進 LLM 的 context window,會帶來三個災難性後果:
- 高昂的 Token 成本:每一次觀察都會消耗大量 token,尤其在需要多步驟互動的複雜任務中,成本會呈指數級增長。
- 顯著的處理延遲:LLM 處理長文本需要更長時間,導致 Agent 的反應遲鈍,無法勝任需要即時互動的任務。
- 受限的歷史記憶:寶貴的 context window 被當前的網頁狀態佔滿,使得 Agent 難以維持長期的任務記憶與上下文。
這個根本性的矛盾,限制了當前 Agent 只能執行相對簡單、步驟較少的任務,難以在真實世界中大規模應用。
底層重寫:Rust 與 CDP 如何改變遊戲規則?
要突破這個瓶頸,答案是往下走,深入到更底層的執行堆疊。日本開發者 tsunamayo7 的開源專案 helix-agent 在 v0.13.0 版本中的一次升級,就為我們展示了這條路徑的巨大潛力。
這次改版的核心,是將 Vercel 開源的 agent-browser 作為其 `computer_use` 工具的後端。agent-browser 是一個用 Rust 語言編寫的函式庫,它不透過高階框架,而是直接利用 Chrome DevTools Protocol (CDP) 與瀏覽器核心進行通訊。這種作法帶來了質變:
首先,是驚人的 token 效率。在一個包含 50 個步驟的相同工作流基準測試中,切換到 Rust/CDP 後端後,token 消耗量大幅降低了 82% 到 93%。它不再傳送整個原始 DOM,而是傳回一個更簡潔、更結構化的網頁狀態表示,只包含對 Agent 決策真正必要的資訊。這直接解決了前述的成本與延遲問題。
其次,是更強的相容性與穩定性。許多現代網頁應用(例如使用 Wantedly、LinkedIn 或 Greenhouse 招募系統的網站)大量採用 React Controlled Components。傳統自動化工具模擬的「填寫」操作,有時會與前端框架的狀態管理機制衝突而失效。但透過 CDP,agent-browser 可以模擬更底層的「原生鍵盤輸入」,直接觸發網頁應有的反應,大幅提升了在複雜網頁上的操作成功率。
這不只是優化,而是典範轉移。當單一步驟的成本與失敗率都大幅降低,我們設計 Agent 產品的思維,將從「如何節省步驟」轉向「如何賦予更複雜、更長鏈的任務能力」。
執行層的變革,將如何重塑 Agent 產品的邊界?
執行層的重寫,其意義遠不止於成本降低。它從根本上改變了 Agent 產品的可能性邊界。當操作電腦的成本趨近於傳統 API call,延遲降低到人類可接受的互動範圍時,過去許多遙不可及的應用場景都將成為可能。
例如,我們可以設想:
- 高頻互動 Agent:能夠即時監控儀表板、分析串流數據,並在幾秒內完成操作的交易或維運 Agent。
- 深度工作流 Agent:能夠處理橫跨數十個應用、執行上百個步驟的複雜企業流程自動化,例如完成一份完整的市場研究報告,從數據搜集、清洗、分析到簡報製作。
- 大規模測試 Agent:同時部署數千個 Agent,對複雜的 Web 應用進行端到端的壓力測試與使用者體驗模擬,其成本遠低於現有方案。
這個趨勢也與 Anthropic 提出的多 Agent 協作規範(MCP)等前沿研究不謀而合。一個高效、可靠、標準化的執行層,是實現複雜 Agent 協同作業的基石。當我們能信任每一個 Agent 都能精準、低成本地完成其子任務時,更高層次的協作智慧才可能湧現。
總結來說,AI Agent 的未來發展,將是一場涵蓋模型、框架與執行層的全堆疊競賽。模型提供了大腦,而一個以 Rust、CDP 等底層技術打造的高效執行層,則為這個大腦提供了強健而敏捷的雙手。那些率先在這場執行層革命中取得突破的團隊,將能定義下一代 Agent 產品的形態與能力。
延伸閱讀
- helix-agent v0.13.0: A Case Study on Token Reduction
- Vercel's agent-browser on GitHub
- Chrome DevTools Protocol (CDP) Documentation
- Anthropic's Research on Multi-agent Collaboration
- WebArena: A Realistic Web Environment for Building Autonomous Agents
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。