mk-brain

從文字到像素：當 VLM 開始直接操作 GUI，AI Agent 的下一步是什麼？

過去 AI Agent 多半依賴 API 或解析 HTML 來與軟體互動，這層抽象限制了它們的通用性。但現在，高解析度視覺語言模型（VLM）如 CogAgent，已能像人類一樣「看懂」並操作圖形介面（GUI）。這場從文字到像素的典範轉移，將如何徹底改變我們對 AI Agent 的想像，並為通用電腦助理與自動化工作流開啟全新可能？

江中喬

11 5月 2026 • 8 min read

AI Agent 的下一步，不再只是理解文字指令，而是能直接「看見」並操作我們日常使用的圖形化使用者介面（GUI）。過去，當我們討論 AI Agent 時，焦點多半放在它們如何透過 API 或解析網頁的 HTML 結構來執行任務。這種方式雖然有效，卻是一層間接的抽象，不僅限制了 Agent 的通用性，也降低了其適應真實世界介面的能力。然而，隨著視覺語言模型（VLM）的飛速進步，特別是像 CogAgent 這類能夠處理高解析度視覺輸入的模型出現，一個全新的典範正在成形：AI Agent 不再需要為每個應用程式學習特定的 API 或 DOM 結構，而是能像人類一樣，直接透過視覺辨識畫面上的按鈕、圖示與文字，進行點擊、輸入等操作。這場從文字到像素的根本性轉變，將徹底改變我們對「電腦使用」、工具抽象化，乃至於 Agent 協作架構的想像。

過去的 GUI 自動化，為何總是綁手綁腳？

長期以來，要讓程式自動操作軟體介面，主流方法不外乎幾種，但它們各自都面臨著顯著的瓶頸。首先是針對網頁應用，開發者常使用 Selenium 或 Playwright 這類工具，透過分析網頁的 Document Object Model (DOM) 結構來定位元素並與之互動。然而，這種方法的致命傷在於其「脆弱性」——只要前端工程師稍微修改了 CSS class 或 HTML 結構，自動化腳本就可能瞬間失效，需要耗費大量時間重新調整。

其次，對於桌面應用程式，有些自動化框架會利用作業系統提供的輔助功能（Accessibility）API。這比純粹的座標點擊來得穩定，因為它能識別元件的語義資訊，而非僅僅是位置。但問題在於，並非所有 UI 元件都完整支援輔助功能，且其提供的資訊豐富度遠不如 DOM，難以處理複雜的互動。

最後，也是最穩定、最可靠的方式，是直接透過 API 呼叫與應用程式的後端或定義好的介面溝通。然而，這也是限制最大的方式。世界上絕大多數的軟體並沒有提供完整的 API 讓外部 Agent 操作，要求所有工具都為 Agent 開發專用 API 顯然不切實際，這使得通用性成為一大挑戰。

這些方法的共通點是，它們都在試圖將視覺化的 GUI「轉譯」成結構化的文字或程式碼，再讓 LLM 或傳統程式碼去理解和操作。這層轉譯不僅會遺失大量關鍵的視覺脈絡（例如：一個按鈕的顏色、位置、是否被遮擋），也讓 Agent 始終無法真正「使用」一個為人類設計的軟體，而只能在預設的抽象框架內運作。

CogAgent 如何突破視覺理解的極限？

要讓 AI 直接「看懂」GUI，最大的挑戰始終在於解析度。傳統的 VLM 為了運算效率，通常會使用較低的視覺解析度，例如 224x224 或 448x448 像素。在這樣的解析度下，螢幕截圖中的文字、圖示、輸入框等細微但對操作至關重要的元素，都會變得模糊不清，模型自然無法準確理解介面佈局與功能。

由智譜 AI 與清華大學合作的 CogAgent: A Visual Language Model for GUI Agents 研究，正面且有效地解決了這個問題。它是一個擁有 180 億（18B）參數的 VLM，其核心突破在於同時具備高解析度與低解析度兩種視覺編碼器。這讓它能以高達 1120x1120 像素的解析度來處理輸入圖像，使其能夠清晰地辨識 GUI 上的微小文字與圖示，同時保留對整體佈局的宏觀理解，實現了前所未有的細節感知能力。

論文中的實驗結果非常清楚：在橫跨 PC、Android 與網頁的 GUI 操作任務上，CogAgent 的表現全面超越了先前依賴 HTML 或低解析度視覺等基於文字理解（text-centric）的方法，達到了新的 SOTA（State-of-the-Art）水準。這證明了，當模型能看得夠清楚時，直接從像素進行操作，是比解析 HTML 更有效、更通用的路徑，為 AI Agent 的發展開啟了新的篇章。

這對 Agent Orchestration 意味著什麼？

當底層的執行代理（action agent）從操作 API 或 DOM，轉變為直接操作 GUI 時，上層的代理協作框架（Agent Orchestration）也將迎來巨大的改變。過去，Orchestrator 的主要工作是規劃一系列的工具（API）呼叫順序，並處理它們回傳的結構化資料。例如，「預訂一張機票」可能會被拆解成 `search_flights()`、`select_flight()`、`fill_passenger_info()` 等多個 API 呼叫，整個流程的核心是結構化數據的傳遞與處理。

但在 GUI Agent 的世界裡，Orchestrator 的角色更像是設定一個高階目標，並監督一個懂得使用電腦的「虛擬實習生」。任務規劃將從「API 序列」轉變為「視覺目標序列」。例如，一個高階目標如「預訂一張機票」，現在可能被分解為一系列視覺導向的子目標：首先是「打開瀏覽器並前往航空公司網站」，接著是「在首頁表單中找到並填寫出發地、目的地與日期，然後點擊搜尋」，最後則是「在搜尋結果頁面，根據指定條件選擇最合適的航班」。

對 Orchestrator 來說，它不再需要知道每個網站的 API 細節，而是需要具備理解通用任務流程、並在 GUI Agent 卡關時（例如，遇到預期外的彈出式廣告或驗證碼）提供高階指導的能力。錯誤處理也從解析 `HTTP 404` 或 `API Error` 這類程式碼錯誤，變成了理解「找不到登入按鈕」或「驗證碼無法辨識」這類更貼近人類操作的視覺情境，這對 Agent 的魯棒性與使用者體驗都將帶來質的飛躍。

從「工具抽象化」到「通用電腦使用」：AI Agent 的新典範

我認為，這代表了 AI Agent 發展的一個根本性轉向：從「工具抽象化」（Tool Abstraction）走向真正的「通用電腦使用」（General Computer Use）。

在工具抽象的典範下，我們努力將現實世界的工具（計算機、搜尋引擎、訂票網站）包裝成一個個標準化的 API，讓 LLM 能夠輕易呼叫。這就像是給了 AI 一套預先準備好的工具箱，它能做的就是從中挑選工具來用，其能力邊界被預設的 API 數量與功能所限制。

而在通用電腦使用的典範下，整個電腦螢幕就是 AI 的操作介面。任何有 GUI 的應用程式——無論是 Photoshop、Excel、Spotify，還是某個小眾的內部管理系統——都成了潛在可用的工具，不再需要開發者為其進行任何「API 化」的適配。AI Agent 的能力邊界，從「已接入的 API 數量」擴展到了「所有能透過 GUI 操作的軟體」，這無疑是實現通用 AI 的關鍵一步。

這條路徑依然漫長，穩定性、可靠性與安全性都還有許多挑戰需要克服。但 CogAgent 這樣的模型讓我們清楚看到，讓 AI 像人一樣「使用電腦」已經不再是科幻，而是一個正在發生的工程現實。Agent 的未來，將在像素構成的世界中展開，為我們帶來前所未有的自動化與智能協作體驗。

從文字到像素：當 VLM 開始直接操作 GUI，AI Agent 的下一步是什麼？

江中喬

過去的 GUI 自動化，為何總是綁手綁腳？

CogAgent 如何突破視覺理解的極限？

這對 Agent Orchestration 意味著什麼？

從「工具抽象化」到「通用電腦使用」：AI Agent 的新典範

延伸閱讀

Sign up for more like this.