Web Agent 的最後一哩路:為什麼看懂畫面比高階規劃更關鍵

大型語言模型在網頁自動化任務中展現了驚人的規劃能力,但為何實際應用依然困難重重?關鍵瓶頸不在於「思考」,而在於「看見」。本文將深入探討視覺定位(visual grounding)的挑戰,以及它如何決定了 Web Agent 的成敗。

Web Agent 的最後一哩路:為什麼看懂畫面比高階規劃更關鍵

我們常以為 Web Agent 的瓶頸在於大型模型的規劃能力,但近期研究顯示,真正的挑戰在於更底層的視覺基礎:模型能否準確地「看懂」網頁畫面,將視覺元素與可執行的操作對應起來。這種「視覺定位」(visual grounding)的穩定性,才是決定 AI 能否從指令理解者,真正成為可靠數位勞動力的關鍵。如果看不準、點不到,再聰明的計畫也只是空談。這不只是技術細節,而是決定了通用型 AI 代理能否走出實驗室、進入真實世界的根本問題。

自從 Auto-GPT 到 Devin AI 等專案引起廣泛關注後,「AI Agent」或「AI 代理」的概念便成為技術圈的熱門話題。人們期待一個能理解自然語言指令、自主上網查資料、預訂機票、完成複雜工作的數位助理。大型語言模型(LLM)無疑為此提供了強大的大腦——它們具備出色的推理與任務拆解能力。然而,當我們嘗試將這些「大腦」接到真實的網頁瀏覽器上時,卻發現它們時常變得笨手笨腳,問題究竟出在哪裡?

GPT-4V 的潛力與限制:為何「看見」還不夠?

一篇名為 《GPT-4V(ision) is a Generalist Web Agent, if Grounded》 的研究,對這個問題給出了深刻的洞見。研究團隊以 OpenAI 強大的多模態模型 GPT-4V 為核心,設計了一個名為 SEEACT 的代理框架,試圖讓 AI 真正像人一樣「看著螢幕」來操作網頁。

這個框架的流程很直觀:

  1. See (看見):GPT-4V 接收網頁的螢幕截圖與當前任務目標。
  2. Act (行動):模型根據畫面,生成下一步的操作指令,例如「點擊『登入』按鈕」或「在搜尋框中輸入『AI Agent』」。

然而,關鍵在於模型輸出的自然語言指令,必須被轉換成電腦可以執行的程式碼,例如點擊某個座標或操作某個 HTML 元素。這一步就是所謂的「Grounding」——將抽象的意圖「錨定」到具體的介面元素上。研究發現,即使是 GPT-4V,也難以百分之百準確地完成這項任務。在沒有任何輔助的情況下,成功率並不理想。

有趣的是,當研究者引入「人為輔助」來校正模型的視覺定位錯誤時——也就是由人來告訴模型「你說的『登入』按鈕其實在這裡」——代理在 Mind2Web 這個包含超過 2,000 個真實世界任務的基準測試中,成功率可以提升到 51.1%。這個數字告訴我們兩件事:首先,GPT-4V 的高階規劃能力確實存在;其次,它失敗的主要原因,往往不是不知道「該做什麼」,而是無法準確地「在哪裡做」。

視覺定位:Web Agent 的真正瓶頸是什麼?

傳統的網頁自動化工具如 Selenium,依賴的是網頁的底層結構(DOM Tree),透過 XPath 或 CSS 選擇器來定位元素。這種方法精確但脆弱,一旦網頁前端稍作修改,腳本就可能失效。而新一代的 Web Agent 則希望直接模仿人類,透過視覺來理解頁面,這更加通用與強韌,但也帶來了新的挑戰。

視覺定位的挑戰,不僅僅是光學字元辨識(OCR)。它要求模型理解畫面上每個元件的「語意」與「功能」。

具體來說,視覺定位的困難點包括:

  • 元素歧義:一個頁面上可能有多個外觀相似的按鈕或連結,模型如何知道該點擊哪一個?例如,「Continue」按鈕可能出現在 cookie 同意橫幅,也可能出現在結帳流程中。
  • 動態與互動式介面:現代網頁充滿了滑鼠懸停(hover)才會出現的選單、需要捲動才能看見的內容,以及非標準的客製化元件。這些都讓靜態截圖的分析變得困難。
  • 狀態判斷:一個按鈕是可點擊狀態,還是灰色不可用(disabled)?一個輸入框是否已經填寫了內容?這些視覺上的細微差異,對操作的成敗至關重要。
  • 空間關係理解:人類可以輕易理解「點擊價格旁邊的加入購物車按鈕」,但對模型來說,這需要精準地理解「旁邊」這個相對位置概念,並將其轉換為座標。

這些問題的總和,構成了從「視覺理解」到「可靠操作」之間的鴻溝。這也是為什麼 Google 在展示其 Project Astra 這類未來助理時,其流暢的互動背後,必然有著極其複雜的視覺 grounding 技術棧。這項基礎建設,遠比上層的 LLM 推理來得更具挑戰性。

如何彌平視覺與行動之間的鴻溝?

那麼,我們該如何解決這個問題?目前業界與學界正在探索幾個方向。前述的 SEEACT 論文透過「人類校正」證明了方向的潛力,而在全自動化的路徑上,研究者們正試圖結合多種技術來提升 grounding 的準確性。

一種常見的作法是融合視覺與結構資訊。與其只給模型看螢幕截圖,不如同時提供簡化過的 HTML 原始碼,讓模型可以交叉比對,利用文字標籤和元素屬性來輔助定位。另一些研究則專注於訓練更專精的「視覺定位模型」,讓它扮演 LLM 的「眼睛和手」,專門負責將高階指令轉換成精確的點擊或輸入操作。

長遠來看,Web Agent 的成熟路徑,不會是單一巨大模型的勝利,而更可能是一個由多個專用模型協作的系統:一個負責高階規劃的「大腦」(如 GPT-4),一個負責視覺分析的「眼睛」,以及一個負責精準操作的「手」。當我們不再將所有壓力都放在 LLM 身上,而是為它打造可靠的感知與執行模組時,通用型網頁代理的時代才可能真正到來。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。