從 AppAgent 看通用操作代理:當 AI 不再呼叫 API,而是直接「看懂」手機介面

想像一下,AI 不再只能呼叫程式碼,而是能像你我一樣,直接「看懂」手機螢幕、操作 App。這不僅是技術路徑的重大轉變,更宣告了 AI 代理的核心挑戰已從語言理解,轉向真實世界的環境感知與穩定操作。本文將以 AppAgent 為例,深入探討通用操作代理如何繞過傳統 API 限制,以及它在跨應用程式協作與真實介面中面臨的未來挑戰。

從 AppAgent 看通用操作代理:當 AI 不再呼叫 API,而是直接「看懂」手機介面

我認為,判斷一個 AI 代理(Agent)技術是否走向成熟,關鍵在於它能否擺脫對結構化 API 的依賴,直接在真實、混亂的數位環境中完成任務。最近一篇名為 AppAgent: Multimodal Agents as Smartphone Users 的研究,正體現了這個重要的轉變。當代理開始像人類一樣,透過「觀看」手機螢幕並「操作」介面來完成任務時,這意味著 mobile agent 的核心挑戰,已經從過去的語言理解與意圖轉譯,正式轉向了更根本的三大問題:精準的環境感知、高容錯的穩定操作,以及複雜的跨應用程式協作(cross-app orchestration)。

過去,多數手機自動化任務依賴的是 App 開發者預留的 API 或後端接口。這種方式穩定、可靠,但天花板極低——它無法處理 API 沒涵蓋的功能,也無法跨越多個沒有內建整合的 App。AppAgent 的思路則是釜底抽薪:讓一個多模態大型語言模型(LLM)直接「看懂」手機的圖形化使用者介面(GUI),並模擬人類的點擊、滑動等基本操作。這條路徑雖然更崎嶇,卻是通往通用操作代理(general-purpose agent)的必經之路。

AppAgent 如何模擬人類操作手機?

AppAgent 的核心概念相當直觀:它將自己定位成一個「數位使用者」,而不是一個「程式」。這個代理的運作方式,是基於一個強大的多模態模型(例如 GPT-4V)來分析手機螢幕的截圖,並根據使用者給予的自然語言指令,決定下一步該做什麼。

為了讓模型能有效操作,研究者將複雜的人類手勢簡化為一個僅有 8 種的離散動作空間,包含:

  • 點擊(Tap)特定 UI 元素
  • 輸入文字(Type Text)
  • 滑動(Swipe)
  • 以及其他基本操作如返回、退出等

更有趣的是它的學習方式。AppAgent 不需要 App 的原始碼或 API 文件,而是透過兩種途徑來學習如何完成複雜任務:

  1. 自主探索(Autonomous Exploration):在沒有任何先驗知識的情況下,代理會像新手一樣在 App 內隨意點擊、探索,並從中記錄下成功的操作路徑,形成自己的「知識庫」。
  2. 觀察人類示範(Observing Human Demonstrations):這是更高效的方式。研究表明,AppAgent 只要觀察過一次人類示範如何使用 App 內的某個複雜功能(例如在 Instagram 上發布一則帶有圖片和濾鏡的貼文),它就能學會並自主完成類似任務。

這種「看圖說故事」並直接操作的模式,讓 AppAgent 在橫跨 5 大類、共 10 款主流 App 的測試中展現了不錯的通用性,這是在純 API 驅動的框架下難以想像的。

為什麼「繞過 API」是關鍵一步?

繞過 API、直接與 GUI 互動,之所以如此關鍵,是因為它將代理從一個受限的「系統整合工具」解放為一個能在開放世界中運作的「通用問題解決者」。

API 就像是餐廳的菜單,你只能點菜單上有的菜。API 驅動的代理,其能力邊界被開發者預先定義好了。然而,真實世界的需求是開放且多變的,使用者想做的往往是菜單上沒有的「客製化料理」。GUI 則是那個開放的廚房,雖然充滿了油煙和混亂,但只要你懂得如何使用鍋碗瓢盆(點擊、滑動),理論上你可以做出任何菜餚。

這個轉變的本質,是將互動的介質從「結構化資料」轉向了「非結構化視覺資訊」。這也意味著,過去在自然語言處理(NLP)領域的進展需要與電腦視覺(CV)的能力深度結合。像 SeeAct 這類研究,專注於如何讓模型將語言指令與介面上的視覺元素(UI grounding)精準對應,正是這個領域的基石。當代理能像人一樣,聽懂「幫我把那張有貓的照片亮度調高一點」並準確地點到亮度滑桿時,通用操作才真正成為可能。

通用操作代理如何處理跨應用程式協作?

學會操作單一 App 只是第一步。真正能體現通用代理價值的,是處理那些需要跨越多個 App 才能完成的複雜任務。想像一下,一個指令是:「幫我規劃一條從公司到信義區 A 餐廳的路線,預估計程車費用,然後把路線截圖和費用資訊用 LINE 發給我的專案團隊。」這個任務至少涉及地圖(Google Maps)、叫車服務(Uber/LINE Taxi)和通訊軟體(LINE)等三個 App。代理必須先在地圖 App 中輸入起點和終點並理解路線規劃結果,接著切換到叫車 App 輸入相同資訊以讀取預估費用。最後,它還得截圖、複製文字,再切換到 LINE 找到正確的群組,貼上資訊並發送。這整個過程,需要代理在不同 App 間無縫切換,並在切換後依然記得上一步驟的上下文(例如目的地地址)。

這背後需要一個強大的「執行層」(Execution Layer)來負責任務分解、狀態維持和 App 間的切換。這對模型的長期記憶能力和規劃能力提出了極高的要求。目前的 AppAgent 主要還是在單一 App 內展現能力,而建立一個穩定的跨 App 協作框架,會是所有通用操作代理系統的下一個聖母峰。像是 Microsoft AutoGen 這類多代理協作框架,雖然主要應用於軟體開發,但其背後的任務指派與協調機制,對建構跨 App 操作代理極具參考價值。

通用操作代理的下一步挑戰是什麼?

從 AppAgent 的實踐中,我們可以看到一條清晰的發展路徑:從理解語言,到理解螢幕,再到理解跨越多個螢幕的複雜工作流。

我認為,未來的發展重點將不再是模型本身的智慧,而是如何建構一個穩定、可靠的「代理執行層」。這個執行層需要解決幾個棘手的工程問題:

  • 感知穩定性:如何應對 App 的 UI 改版、彈出式廣告、網路延遲等非預期狀況?代理的視覺感知系統需要具備極高的容錯性。
  • 操作復原力:如果代理點錯了按鈕或進入了錯誤頁面,它是否有能力「返回」並修正自己的行為?這需要強大的錯誤處理與恢復機制。
  • 效率與成本:每一次螢幕分析和決策都需調用昂貴的多模態模型。如何優化決策鏈,甚至使用更小的模型來處理簡單的識別任務,是產品化落地的關鍵。

手機螢幕只是一個開始。這種直接與 GUI 互動的範式,可以輕易地擴展到桌面作業系統、網頁瀏覽器,甚至是未來的 AR/VR 介面。我們正在見證的,是 AI 從語言世界走向視覺與操作世界的關鍵一步。這不僅僅是手機自動化,更是通往能夠在任何數位介面上為我們工作的通用助理的序章。相關的基準測試如 AITW (Agent-in-the-Wild) 也在推動這個領域的標準化,讓我們能更客觀地評估這些通用代理在真實世界中的能力。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。