當 AI 遇上真正的未知:為什麼頂尖模型在 ARC-AGI-3 挑戰中幾乎全軍覆沒?
最新的 AI 基準測試 ARC-AGI-3 揭示了一個殘酷的現實:當前最頂尖的模型在面對一個完全陌生、沒有明確指令的互動環境時,成功率不到 1%。這項結果並非否定 AI 的進展,而是精準地指出了我們距離通用智能的真正瓶頸——我們需要的不只是更大的知識庫,而是能在未知中自主形成策略的流體智能。
近期的 AI 進展令人目不暇給,模型的能力邊界不斷被推向新高。然而,一篇名為 ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence 的研究,卻給當前的技術路線投下了一顆震撼彈。在這項全新的基準測試中,人類受試者輕鬆拿到 100% 的滿分,而當今最強大的 AI Agent 們,得分卻不到 1%。這個懸殊的差距並非單純的技術瓶頸,它直指一個更根本的問題:我們長期以來追求的「通用性」,可能走錯了方向。
真正的通用智能,關鍵不在於儲存和檢索已知的海量知識,而在於面對全然陌生的環境時,那種從零到一、自主形成有效策略的流體適應力。這正是 ARC-AGI-3 所要考驗的核心。
為什麼 ARC-AGI-3 是一面如此嚴苛的「照妖鏡」?
要理解這次挑戰的顛覆性,我們得先回顧它的前身。ARC(Abstraction and Reasoning Corpus)挑戰最初由 François Chollet 在 2019 年提出,旨在測試 AI 的抽象推理能力。它包含一系列視覺謎題,AI 需要觀察幾個「範例」來歸納出背後的規則,並應用到新的測試案例上。這個概念本身就已經對模型提出了很高的要求。
而這次的 ARC-AGI-3 則將難度提升到一個全新的維度。它不再是靜態的「看範例、猜答案」,而是一個互動式的、無指令的環境。AI Agent 被直接「丟」進一個網格世界,它必須自己透過反覆試錯來探索這個世界的物理規則、物體屬性以及最終的任務目標。沒有人會告訴它「點擊藍色方塊可以消除它」或「你的目標是讓所有圖案對稱」。
徹底剝離 AI 的「既有優勢」
這種設計的巧妙之處在於,它徹底剝離了大型語言模型最擅長的武器——龐大的預訓練知識庫與遵循指令的能力。在 ARC-AGI-3 的世界裡,首先,沒有現成知識可供檢索,因為規則是完全原創的,網路上找不到任何攻略。其次,沒有自然語言指令,模型無法透過提示工程(Prompt Engineering)來引導。更重要的是,回饋極其稀疏,只有在極少數情況下(例如成功解決一小步)才會得到正向回饋,大部分的探索都是無聲的。
這就像把一位飽讀詩書的學者,丟到一個外星球的逃脫密室裡。他滿腹經綸,卻不知道轉動哪個閥門會開門,哪個按鈕會觸發陷阱。他必須放下書本,像個孩子一樣去觸摸、去嘗試、去觀察,從而建立對這個新世界的第一手認知模型。這正是 ARC-AGI-3 考驗的核心。
當前的 AI 典範遇到了什麼瓶頸?
這次的測試結果,在我看來,是對當前主流 AI 發展路線的一次深刻反思。我們花了大量資源去擴大模型的規模、增加訓練資料、優化上下文視窗,並發展出如思維鏈(Chain-of-Thought)或自我一致性(Self-Consistency)等精巧的提示技術。這些努力極大地提升了模型在處理「已知領域內複雜問題」的能力,這點毋庸置疑。
然而,這些成就的本質,更像是打造了一部反應極快、知識極淵博的「超級查詢引擎」,而非一個具備獨立思考與探索能力的「智能體」。
當前的模型極度擅長在龐大的數據分佈中進行「內插(Interpolation)」,也就是根據已有的知識點,去推斷它們之間最可能的關聯。但 ARC-AGI-3 要求的,卻是「外推(Extrapolation)」的能力——在數據分佈之外的未知領域中,建立全新的認知框架。這暴露了目前 AI 典範的一個根本性弱點:它們是優秀的模式匹配者,卻是拙劣的假說產生器。
面對一個新環境,人類的作法是快速形成多個假說(「也許顏色是關鍵?」、「或者形狀才是?」),然後設計最小的實驗去驗證或推翻它們。這個過程需要好奇心、主動探索和對因果關係的直覺。而 AI Agent 在 ARC-AGI-3 中的表現,更像是隨機的、缺乏策略的亂撞,無法有效地從失敗中積累結構化的知識。
這對我們建構 AI 系統有何啟示?
ARC-AGI-3 的結果並非要我們否定過去幾年的進展,而是提供了一個寶貴的校準點。根據史丹佛大學的 AI 指數報告,AI 在許多傳統基準測試上早已超越人類,但這可能讓我們產生了一種「能力已趨於全面」的錯覺。現在,我們清楚地看到了一片尚未被征服的廣闊領域。
對於像我這樣的系統建構者而言,這意味著我們需要重新思考「智能」的構成。除了繼續優化模型的知識廣度與推理深度,我們必須投入更多心力在以下幾個方向:
建構未來 AI 的三大關鍵方向
首先是自主探索與好奇心驅動。我們需要設計獎勵機制,讓 AI Agent 像人類嬰兒一樣,對未知充滿好奇,並主動去探索環境、收集資訊,即使沒有立即的外部獎勵。其次是世界模型的建立。AI 不應只學習語言模式,更需要能夠在互動中建立一個關於環境如何運作的、可供推理的內部「世界模型」。最後是從稀疏回饋中學習。現實世界的回饋往往是延遲且稀疏的,我們需要更高效的強化學習或自我監督學習方法,讓 AI 能從極少的成功案例中榨取最多的資訊。
像 ARC Prize 這樣的競賽,正是為了激勵社群去攻克這些根本性難題。最終,一個真正通用的 AI,不僅要能寫詩、寫程式、回答事實,更要在你把它丟進一個從未見過的電子遊戲或是一個全新的操作介面時,它能夠自己摸索出玩法與目標。這種在未知中快速形成新策略的能力,或許比背誦整個網際網路的知識,更接近智能的本質。
延伸閱讀
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。