mk-brain

從 AppAgent 看通用操作代理：當 AI 不再呼叫 API，而是直接「看懂」手機介面

想像一下，AI 不再只能呼叫程式碼，而是能像你我一樣，直接「看懂」手機螢幕、操作 App。這不僅是技術路徑的重大轉變，更宣告了 AI 代理的核心挑戰已從語言理解，轉向真實世界的環境感知與穩定操作。本文將以 AppAgent 為例，深入探討通用操作代理如何繞過傳統 API 限制，以及它在跨應用程式協作與真實介面中面臨的未來挑戰。

江中喬

12 5月 2026 • 8 min read

我認為，判斷一個 AI 代理（Agent）技術是否走向成熟，關鍵在於它能否擺脫對結構化 API 的依賴，直接在真實、混亂的數位環境中完成任務。最近一篇名為 AppAgent: Multimodal Agents as Smartphone Users 的研究，正體現了這個重要的轉變。當代理開始像人類一樣，透過「觀看」手機螢幕並「操作」介面來完成任務時，這意味著 mobile agent 的核心挑戰，已經從過去的語言理解與意圖轉譯，正式轉向了更根本的三大問題：精準的環境感知、高容錯的穩定操作，以及複雜的跨應用程式協作（cross-app orchestration）。

過去，多數手機自動化任務依賴的是 App 開發者預留的 API 或後端接口。這種方式穩定、可靠，但天花板極低——它無法處理 API 沒涵蓋的功能，也無法跨越多個沒有內建整合的 App。AppAgent 的思路則是釜底抽薪：讓一個多模態大型語言模型（LLM）直接「看懂」手機的圖形化使用者介面（GUI），並模擬人類的點擊、滑動等基本操作。這條路徑雖然更崎嶇，卻是通往通用操作代理（general-purpose agent）的必經之路。

AppAgent 如何模擬人類操作手機？

AppAgent 的核心概念相當直觀：它將自己定位成一個「數位使用者」，而不是一個「程式」。這個代理的運作方式，是基於一個強大的多模態模型（例如 GPT-4V）來分析手機螢幕的截圖，並根據使用者給予的自然語言指令，決定下一步該做什麼。

為了讓模型能有效操作，研究者將複雜的人類手勢簡化為一個僅有 8 種的離散動作空間，包含：

點擊（Tap）特定 UI 元素
輸入文字（Type Text）
滑動（Swipe）
以及其他基本操作如返回、退出等

更有趣的是它的學習方式。AppAgent 不需要 App 的原始碼或 API 文件，而是透過兩種途徑來學習如何完成複雜任務：

自主探索（Autonomous Exploration）：在沒有任何先驗知識的情況下，代理會像新手一樣在 App 內隨意點擊、探索，並從中記錄下成功的操作路徑，形成自己的「知識庫」。
觀察人類示範（Observing Human Demonstrations）：這是更高效的方式。研究表明，AppAgent 只要觀察過一次人類示範如何使用 App 內的某個複雜功能（例如在 Instagram 上發布一則帶有圖片和濾鏡的貼文），它就能學會並自主完成類似任務。

這種「看圖說故事」並直接操作的模式，讓 AppAgent 在橫跨 5 大類、共 10 款主流 App 的測試中展現了不錯的通用性，這是在純 API 驅動的框架下難以想像的。

為什麼「繞過 API」是關鍵一步？

繞過 API、直接與 GUI 互動，之所以如此關鍵，是因為它將代理從一個受限的「系統整合工具」解放為一個能在開放世界中運作的「通用問題解決者」。

API 就像是餐廳的菜單，你只能點菜單上有的菜。API 驅動的代理，其能力邊界被開發者預先定義好了。然而，真實世界的需求是開放且多變的，使用者想做的往往是菜單上沒有的「客製化料理」。GUI 則是那個開放的廚房，雖然充滿了油煙和混亂，但只要你懂得如何使用鍋碗瓢盆（點擊、滑動），理論上你可以做出任何菜餚。

這個轉變的本質，是將互動的介質從「結構化資料」轉向了「非結構化視覺資訊」。這也意味著，過去在自然語言處理（NLP）領域的進展需要與電腦視覺（CV）的能力深度結合。像 SeeAct 這類研究，專注於如何讓模型將語言指令與介面上的視覺元素（UI grounding）精準對應，正是這個領域的基石。當代理能像人一樣，聽懂「幫我把那張有貓的照片亮度調高一點」並準確地點到亮度滑桿時，通用操作才真正成為可能。

通用操作代理如何處理跨應用程式協作？

學會操作單一 App 只是第一步。真正能體現通用代理價值的，是處理那些需要跨越多個 App 才能完成的複雜任務。想像一下，一個指令是：「幫我規劃一條從公司到信義區 A 餐廳的路線，預估計程車費用，然後把路線截圖和費用資訊用 LINE 發給我的專案團隊。」這個任務至少涉及地圖（Google Maps）、叫車服務（Uber/LINE Taxi）和通訊軟體（LINE）等三個 App。代理必須先在地圖 App 中輸入起點和終點並理解路線規劃結果，接著切換到叫車 App 輸入相同資訊以讀取預估費用。最後，它還得截圖、複製文字，再切換到 LINE 找到正確的群組，貼上資訊並發送。這整個過程，需要代理在不同 App 間無縫切換，並在切換後依然記得上一步驟的上下文（例如目的地地址）。

這背後需要一個強大的「執行層」（Execution Layer）來負責任務分解、狀態維持和 App 間的切換。這對模型的長期記憶能力和規劃能力提出了極高的要求。目前的 AppAgent 主要還是在單一 App 內展現能力，而建立一個穩定的跨 App 協作框架，會是所有通用操作代理系統的下一個聖母峰。像是 Microsoft AutoGen 這類多代理協作框架，雖然主要應用於軟體開發，但其背後的任務指派與協調機制，對建構跨 App 操作代理極具參考價值。

通用操作代理的下一步挑戰是什麼？

從 AppAgent 的實踐中，我們可以看到一條清晰的發展路徑：從理解語言，到理解螢幕，再到理解跨越多個螢幕的複雜工作流。

我認為，未來的發展重點將不再是模型本身的智慧，而是如何建構一個穩定、可靠的「代理執行層」。這個執行層需要解決幾個棘手的工程問題：

感知穩定性：如何應對 App 的 UI 改版、彈出式廣告、網路延遲等非預期狀況？代理的視覺感知系統需要具備極高的容錯性。
操作復原力：如果代理點錯了按鈕或進入了錯誤頁面，它是否有能力「返回」並修正自己的行為？這需要強大的錯誤處理與恢復機制。
效率與成本：每一次螢幕分析和決策都需調用昂貴的多模態模型。如何優化決策鏈，甚至使用更小的模型來處理簡單的識別任務，是產品化落地的關鍵。

手機螢幕只是一個開始。這種直接與 GUI 互動的範式，可以輕易地擴展到桌面作業系統、網頁瀏覽器，甚至是未來的 AR/VR 介面。我們正在見證的，是 AI 從語言世界走向視覺與操作世界的關鍵一步。這不僅僅是手機自動化，更是通往能夠在任何數位介面上為我們工作的通用助理的序章。相關的基準測試如 AITW (Agent-in-the-Wild) 也在推動這個領域的標準化，讓我們能更客觀地評估這些通用代理在真實世界中的能力。

從 AppAgent 看通用操作代理：當 AI 不再呼叫 API，而是直接「看懂」手機介面

江中喬

AppAgent 如何模擬人類操作手機？

為什麼「繞過 API」是關鍵一步？

通用操作代理如何處理跨應用程式協作？

通用操作代理的下一步挑戰是什麼？

延伸閱讀

Sign up for more like this.