mk-brain

Web Agent 的最後一哩路：為什麼看懂畫面比高階規劃更關鍵

大型語言模型在網頁自動化任務中展現了驚人的規劃能力，但為何實際應用依然困難重重？關鍵瓶頸不在於「思考」，而在於「看見」。本文將深入探討視覺定位（visual grounding）的挑戰，以及它如何決定了 Web Agent 的成敗。

江中喬

31 5月 2026 • 6 min read

我們常以為 Web Agent 的瓶頸在於大型模型的規劃能力，但近期研究顯示，真正的挑戰在於更底層的視覺基礎：模型能否準確地「看懂」網頁畫面，將視覺元素與可執行的操作對應起來。這種「視覺定位」（visual grounding）的穩定性，才是決定 AI 能否從指令理解者，真正成為可靠數位勞動力的關鍵。如果看不準、點不到，再聰明的計畫也只是空談。這不只是技術細節，而是決定了通用型 AI 代理能否走出實驗室、進入真實世界的根本問題。

自從 Auto-GPT 到 Devin AI 等專案引起廣泛關注後，「AI Agent」或「AI 代理」的概念便成為技術圈的熱門話題。人們期待一個能理解自然語言指令、自主上網查資料、預訂機票、完成複雜工作的數位助理。大型語言模型（LLM）無疑為此提供了強大的大腦——它們具備出色的推理與任務拆解能力。然而，當我們嘗試將這些「大腦」接到真實的網頁瀏覽器上時，卻發現它們時常變得笨手笨腳，問題究竟出在哪裡？

GPT-4V 的潛力與限制：為何「看見」還不夠？

一篇名為《GPT-4V(ision) is a Generalist Web Agent, if Grounded》的研究，對這個問題給出了深刻的洞見。研究團隊以 OpenAI 強大的多模態模型 GPT-4V 為核心，設計了一個名為 SEEACT 的代理框架，試圖讓 AI 真正像人一樣「看著螢幕」來操作網頁。

這個框架的流程很直觀：

See (看見)：GPT-4V 接收網頁的螢幕截圖與當前任務目標。
Act (行動)：模型根據畫面，生成下一步的操作指令，例如「點擊『登入』按鈕」或「在搜尋框中輸入『AI Agent』」。

然而，關鍵在於模型輸出的自然語言指令，必須被轉換成電腦可以執行的程式碼，例如點擊某個座標或操作某個 HTML 元素。這一步就是所謂的「Grounding」——將抽象的意圖「錨定」到具體的介面元素上。研究發現，即使是 GPT-4V，也難以百分之百準確地完成這項任務。在沒有任何輔助的情況下，成功率並不理想。

有趣的是，當研究者引入「人為輔助」來校正模型的視覺定位錯誤時——也就是由人來告訴模型「你說的『登入』按鈕其實在這裡」——代理在 Mind2Web 這個包含超過 2,000 個真實世界任務的基準測試中，成功率可以提升到 51.1%。這個數字告訴我們兩件事：首先，GPT-4V 的高階規劃能力確實存在；其次，它失敗的主要原因，往往不是不知道「該做什麼」，而是無法準確地「在哪裡做」。

視覺定位：Web Agent 的真正瓶頸是什麼？

傳統的網頁自動化工具如 Selenium，依賴的是網頁的底層結構（DOM Tree），透過 XPath 或 CSS 選擇器來定位元素。這種方法精確但脆弱，一旦網頁前端稍作修改，腳本就可能失效。而新一代的 Web Agent 則希望直接模仿人類，透過視覺來理解頁面，這更加通用與強韌，但也帶來了新的挑戰。

視覺定位的挑戰，不僅僅是光學字元辨識（OCR）。它要求模型理解畫面上每個元件的「語意」與「功能」。

具體來說，視覺定位的困難點包括：

元素歧義：一個頁面上可能有多個外觀相似的按鈕或連結，模型如何知道該點擊哪一個？例如，「Continue」按鈕可能出現在 cookie 同意橫幅，也可能出現在結帳流程中。
動態與互動式介面：現代網頁充滿了滑鼠懸停（hover）才會出現的選單、需要捲動才能看見的內容，以及非標準的客製化元件。這些都讓靜態截圖的分析變得困難。
狀態判斷：一個按鈕是可點擊狀態，還是灰色不可用（disabled）？一個輸入框是否已經填寫了內容？這些視覺上的細微差異，對操作的成敗至關重要。
空間關係理解：人類可以輕易理解「點擊價格旁邊的加入購物車按鈕」，但對模型來說，這需要精準地理解「旁邊」這個相對位置概念，並將其轉換為座標。

這些問題的總和，構成了從「視覺理解」到「可靠操作」之間的鴻溝。這也是為什麼 Google 在展示其 Project Astra 這類未來助理時，其流暢的互動背後，必然有著極其複雜的視覺 grounding 技術棧。這項基礎建設，遠比上層的 LLM 推理來得更具挑戰性。

如何彌平視覺與行動之間的鴻溝？

那麼，我們該如何解決這個問題？目前業界與學界正在探索幾個方向。前述的 SEEACT 論文透過「人類校正」證明了方向的潛力，而在全自動化的路徑上，研究者們正試圖結合多種技術來提升 grounding 的準確性。

一種常見的作法是融合視覺與結構資訊。與其只給模型看螢幕截圖，不如同時提供簡化過的 HTML 原始碼，讓模型可以交叉比對，利用文字標籤和元素屬性來輔助定位。另一些研究則專注於訓練更專精的「視覺定位模型」，讓它扮演 LLM 的「眼睛和手」，專門負責將高階指令轉換成精確的點擊或輸入操作。

長遠來看，Web Agent 的成熟路徑，不會是單一巨大模型的勝利，而更可能是一個由多個專用模型協作的系統：一個負責高階規劃的「大腦」（如 GPT-4），一個負責視覺分析的「眼睛」，以及一個負責精準操作的「手」。當我們不再將所有壓力都放在 LLM 身上，而是為它打造可靠的感知與執行模組時，通用型網頁代理的時代才可能真正到來。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

GPT-4V 的潛力與限制：為何「看見」還不夠？

視覺定位：Web Agent 的真正瓶頸是什麼？

如何彌平視覺與行動之間的鴻溝？

延伸閱讀

Sign up for more like this.