從文字到像素:當 VLM 開始直接操作 GUI,AI Agent 的下一步是什麼?
過去 AI Agent 多半依賴 API 或解析 HTML 來與軟體互動,這層抽象限制了它們的通用性。但現在,高解析度視覺語言模型(VLM)如 CogAgent,已能像人類一樣「看懂」並操作圖形介面(GUI)。這場從文字到像素的典範轉移,將如何徹底改變我們對 AI Agent 的想像,並為通用電腦助理與自動化工作流開啟全新可能?
AI Agent 的下一步,不再只是理解文字指令,而是能直接「看見」並操作我們日常使用的圖形化使用者介面(GUI)。過去,當我們討論 AI Agent 時,焦點多半放在它們如何透過 API 或解析網頁的 HTML 結構來執行任務。這種方式雖然有效,卻是一層間接的抽象,不僅限制了 Agent 的通用性,也降低了其適應真實世界介面的能力。然而,隨著 視覺語言模型(VLM)的飛速進步,特別是像 CogAgent 這類能夠處理高解析度視覺輸入的模型出現,一個全新的典範正在成形:AI Agent 不再需要為每個應用程式學習特定的 API 或 DOM 結構,而是能像人類一樣,直接透過視覺辨識畫面上的按鈕、圖示與文字,進行點擊、輸入等操作。這場從文字到像素的根本性轉變,將徹底改變我們對「電腦使用」、工具抽象化,乃至於 Agent 協作架構的想像。
過去的 GUI 自動化,為何總是綁手綁腳?
長期以來,要讓程式自動操作軟體介面,主流方法不外乎幾種,但它們各自都面臨著顯著的瓶頸。首先是針對網頁應用,開發者常使用 Selenium 或 Playwright 這類工具,透過分析網頁的 Document Object Model (DOM) 結構來定位元素並與之互動。然而,這種方法的致命傷在於其「脆弱性」——只要前端工程師稍微修改了 CSS class 或 HTML 結構,自動化腳本就可能瞬間失效,需要耗費大量時間重新調整。
其次,對於桌面應用程式,有些自動化框架會利用作業系統提供的輔助功能(Accessibility)API。這比純粹的座標點擊來得穩定,因為它能識別元件的語義資訊,而非僅僅是位置。但問題在於,並非所有 UI 元件都完整支援輔助功能,且其提供的資訊豐富度遠不如 DOM,難以處理複雜的互動。
最後,也是最穩定、最可靠的方式,是直接透過 API 呼叫與應用程式的後端或定義好的介面溝通。然而,這也是限制最大的方式。世界上絕大多數的軟體並沒有提供完整的 API 讓外部 Agent 操作,要求所有工具都為 Agent 開發專用 API 顯然不切實際,這使得通用性成為一大挑戰。
這些方法的共通點是,它們都在試圖將視覺化的 GUI「轉譯」成結構化的文字或程式碼,再讓 LLM 或傳統程式碼去理解和操作。這層轉譯不僅會遺失大量關鍵的視覺脈絡(例如:一個按鈕的顏色、位置、是否被遮擋),也讓 Agent 始終無法真正「使用」一個為人類設計的軟體,而只能在預設的抽象框架內運作。
CogAgent 如何突破視覺理解的極限?
要讓 AI 直接「看懂」GUI,最大的挑戰始終在於解析度。傳統的 VLM 為了運算效率,通常會使用較低的視覺解析度,例如 224x224 或 448x448 像素。在這樣的解析度下,螢幕截圖中的文字、圖示、輸入框等細微但對操作至關重要的元素,都會變得模糊不清,模型自然無法準確理解介面佈局與功能。
由智譜 AI 與清華大學合作的 CogAgent: A Visual Language Model for GUI Agents 研究,正面且有效地解決了這個問題。它是一個擁有 180 億(18B)參數的 VLM,其核心突破在於同時具備高解析度與低解析度兩種視覺編碼器。這讓它能以高達 1120x1120 像素的解析度來處理輸入圖像,使其能夠清晰地辨識 GUI 上的微小文字與圖示,同時保留對整體佈局的宏觀理解,實現了前所未有的細節感知能力。
論文中的實驗結果非常清楚:在橫跨 PC、Android 與網頁的 GUI 操作任務上,CogAgent 的表現全面超越了先前依賴 HTML 或低解析度視覺等基於文字理解(text-centric)的方法,達到了新的 SOTA(State-of-the-Art)水準。這證明了,當模型能看得夠清楚時,直接從像素進行操作,是比解析 HTML 更有效、更通用的路徑,為 AI Agent 的發展開啟了新的篇章。
這對 Agent Orchestration 意味著什麼?
當底層的執行代理(action agent)從操作 API 或 DOM,轉變為直接操作 GUI 時,上層的代理協作框架(Agent Orchestration)也將迎來巨大的改變。過去,Orchestrator 的主要工作是規劃一系列的工具(API)呼叫順序,並處理它們回傳的結構化資料。例如,「預訂一張機票」可能會被拆解成 `search_flights()`、`select_flight()`、`fill_passenger_info()` 等多個 API 呼叫,整個流程的核心是結構化數據的傳遞與處理。
但在 GUI Agent 的世界裡,Orchestrator 的角色更像是設定一個高階目標,並監督一個懂得使用電腦的「虛擬實習生」。任務規劃將從「API 序列」轉變為「視覺目標序列」。例如,一個高階目標如「預訂一張機票」,現在可能被分解為一系列視覺導向的子目標:首先是「打開瀏覽器並前往航空公司網站」,接著是「在首頁表單中找到並填寫出發地、目的地與日期,然後點擊搜尋」,最後則是「在搜尋結果頁面,根據指定條件選擇最合適的航班」。
對 Orchestrator 來說,它不再需要知道每個網站的 API 細節,而是需要具備理解通用任務流程、並在 GUI Agent 卡關時(例如,遇到預期外的彈出式廣告或驗證碼)提供高階指導的能力。錯誤處理也從解析 `HTTP 404` 或 `API Error` 這類程式碼錯誤,變成了理解「找不到登入按鈕」或「驗證碼無法辨識」這類更貼近人類操作的視覺情境,這對 Agent 的魯棒性與使用者體驗都將帶來質的飛躍。
從「工具抽象化」到「通用電腦使用」:AI Agent 的新典範
我認為,這代表了 AI Agent 發展的一個根本性轉向:從「工具抽象化」(Tool Abstraction)走向真正的「通用電腦使用」(General Computer Use)。
在工具抽象的典範下,我們努力將現實世界的工具(計算機、搜尋引擎、訂票網站)包裝成一個個標準化的 API,讓 LLM 能夠輕易呼叫。這就像是給了 AI 一套預先準備好的工具箱,它能做的就是從中挑選工具來用,其能力邊界被預設的 API 數量與功能所限制。
而在通用電腦使用的典範下,整個電腦螢幕就是 AI 的操作介面。任何有 GUI 的應用程式——無論是 Photoshop、Excel、Spotify,還是某個小眾的內部管理系統——都成了潛在可用的工具,不再需要開發者為其進行任何「API 化」的適配。AI Agent 的能力邊界,從「已接入的 API 數量」擴展到了「所有能透過 GUI 操作的軟體」,這無疑是實現通用 AI 的關鍵一步。
這條路徑依然漫長,穩定性、可靠性與安全性都還有許多挑戰需要克服。但 CogAgent 這樣的模型讓我們清楚看到,讓 AI 像人一樣「使用電腦」已經不再是科幻,而是一個正在發生的工程現實。Agent 的未來,將在像素構成的世界中展開,為我們帶來前所未有的自動化與智能協作體驗。
延伸閱讀
- CogVLM & CogAgent on GitHub:專案的官方開源庫,包含模型與程式碼。
- Open-VCLIP: Transforming CLIP for Open-Vocabulary Video-Language Tasks:另一篇關於提升 VLM 處理動態、複雜視覺場景能力的研究。
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。