當 Web Agent 能在你的筆電上「看見」螢幕:Agent 經濟學的轉捩點
想像一個 Web Agent 能在你的筆電上「看見」螢幕、自主運行,且幾乎零成本。過去,Agent 的能力與費用總與雲端 API 深度綁定,但隨著本地多模態模型崛起,這場遊戲的規則正被徹底改寫。本文將深入探討這項技術如何打破傳統限制,不僅降低成本,更為 Agent 的長時間自主運行與個人化應用開啟全新篇章。
當多模態大型語言模型(VLM)能夠在本地端運行,並直接讀取螢幕畫面來操作網頁時,Web Agent 的發展迎來了關鍵轉折。過去,這類應用的能力與成本幾乎與 OpenAI 等雲端 API 綁定,但現在,競爭的焦點正從「誰能調用更強大的 API」轉向「誰能將執行成本壓到足以長時間自治運行」。這不僅是技術路線的轉變,更意味著 Agent 經濟學的典範轉移,為真正低成本、高自主性的個人化代理人鋪平了道路。
本地 VLM 普及前,Web Agent 為何受限於 API 成本與結構?
傳統上,要讓一個 AI 代理人(Agent)在網路上執行任務,主要有兩種路徑。第一種是透過網站提供的 API,這種方式穩定、可靠,但限制重重——不是每個服務都有 API,且能做的事情完全取決於 API 開放的功能。第二種是解析網頁的 HTML 結構(DOM Tree),這給了 Agent 更大的自由度,但只要網站前端一改版,整個 Agent 就可能失靈,維護成本極高。
近年來,多模態模型如 GPT-4V 的出現帶來了第三條路:讓 Agent 直接「看見」網頁畫面,像人類一樣透過視覺理解來操作。這解決了前兩種方法的許多痛點,但同時也引入了一個新的、更根本的限制:成本。
以 OpenAI 的 API 為例,處理一張 1080p 的高解析度截圖,成本約為 170 個 token,約 $0.001275 美元。這個數字看似微不足道,但當一個 Agent 需要持續監控畫面、每秒進行多次判斷時,成本就會迅速疊加,變成一筆可觀的開銷。這種以 API call 計價的模式,無疑扼殺了需要長時間自主運行的 Agent 應用場景。
為什麼本地 VLM 是改變遊戲規則的關鍵?
最近的一個技術趨勢,正從根本上挑戰這個成本結構:高效能多模態模型的本地化部署。以阿里巴巴開源的 Qwen2-VL(一個擁有 96 億參數的模型)為例,它在多項視覺理解任務上表現出色,但更重要的是,它可以透過 Ollama 這類工具輕易地在個人電腦或伺服器上運行。
這意味著什麼?這代表 Agent 的「視覺」能力,從一種按次計費的雲端服務,變成了一種固定成本的本地資源。一旦硬體投入,模型的推論成本(marginal cost)趨近於零。開發者可以讓 Agent 以極高頻率分析螢幕畫面,而不用擔心帳單爆炸。
當運算成本從「每次 API 呼叫」轉變為「本地硬體的固定攤提」時,Agent 的設計思維就徹底解放了。我們思考的不再是「如何減少 API call」,而是「如何最大化利用持續的視覺感知能力」。
日本 AI 新創 lluminai Technologies 的一篇技術實踐文章,便清楚展示了這個概念。他們透過結合三項關鍵技術,成功打造出一個能在本地端自主運作的 Web Agent:
首先是 Ollama,它負責在本地部署並運行 Qwen2-VL 模型,賦予 Agent 視覺理解能力。其次是 Playwright(目前版本為 v1.44),這個強大的瀏覽器自動化工具負責操作瀏覽器、執行截圖任務。最後,也是核心的「螢幕視覺分析」邏輯,Agent 不再解析複雜的 HTML 結構,而是將 Playwright 截取到的畫面傳給本地的 Qwen2-VL,並提問:「『趨勢』這個連結在畫面的哪個座標?」模型會回傳精確的座標,Playwright 再去點擊該位置,實現直觀且強韌的操作。
這個簡單的範例,完美體現了新典範的威力。它不依賴任何特定網站的結構,只要 UI 對人類是可理解的,對這個 Agent 來說就是可操作的。這讓 Agent 的通用性與強韌性(resilience)都大幅提升。
這對 Web Agent 的未來意味著什麼?
本地 VLM 的普及,將徹底改變 Web Agent 的競爭格局與應用想像。過去,大家比的是誰能串接到更強的模型、誰的 prompt engineering 技巧更高明。未來,當基礎模型能力逐漸商品化後,競爭的焦點將轉向「執行效率」與「經濟模型」。
這將催生出過去因成本過高而難以實現的應用:
- 長時間監控型 Agent: 例如,一個 24/7 監控特定社群媒體話題、電商平台價格變動,或是在複雜的儀表板上尋找異常數據的 Agent。在 API 計價模式下,這類應用成本高昂,但在本地部署模式下則完全可行。
- 高度個人化的桌面助理: 一個能「看著」你螢幕操作、學習你的工作流程,並在你需要時主動介入協助的個人助理。它不需要將你的敏感螢幕畫面傳到雲端,保障了隱私。
- 更穩定的自動化流程(RPA): 傳統 RPA 工具極度依賴 UI 元素的選擇器(selector),一旦 UI 更新就失效。基於視覺的 Agent 則更能適應這種變化,就像人類一樣,即使按鈕換了顏色或位置,依然能辨識出來。
當然,本地模型在能力上與頂尖的雲端模型(如 GPT-4o)仍有差距,但這個差距正在快速縮小。更重要的是,許多 Web Agent 執行的任務,並不需要最強的通用智慧,而更需要「足夠好」且「成本極低」的持續性感知。正如 WebArena 這類評測基準所顯示的,Agent 在真實世界網路環境中執行任務的能力,是多種因素的綜合體現。
總結來說,我們正處於一個轉捩點。將 VLM 在本地運行,並賦予它直接觀察螢幕的能力,不僅僅是一個有趣的技術實驗,它正在重寫 Agent 經濟學的規則。能夠掌握低成本、高效率執行能力的團隊,將在下一波 Agent 應用浪潮中佔據關鍵優勢。
延伸閱讀
- ローカルVLMとPlaywrightで実現する自律型Web操作エージェント
- Qwen2 is now available in Ollama
- WebArena: A Realistic Web Environment for Building Autonomous Agents
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。