AI 正在學會考試,但我們需要的是能解決未知問題的科學家

大型語言模型在標準化測驗上屢創佳績,讓許多人對通用人工智慧的到來充滿期待。然而,這篇文章將深入探討,當這些頂尖模型面對沒有標準答案的真實科學難題時,其成功率竟不到 2% 的驚人落差。這項發現迫使我們重新思考:AI 的真正進步,究竟該定義為在已知考卷上刷高分,還是具備探索並解決未知問題的科學家精神?讓我們一起揭開這場評估迷思,思考 AI 未來的發展方向。

AI 正在學會考試,但我們需要的是能解決未知問題的科學家

當前我們衡量 AI 進步的方式,過度依賴在有標準答案的「考卷」上刷分數,這正造成一種危險的幻覺。儘管大型語言模型在各種基準測試上表現驚人,但當面對真實世界中懸而未決的科學難題時,它們的能力卻顯得極為有限。這種評估方式與真實能力之間的巨大鴻溝,不僅讓我們高估了現有技術,更可能誤導未來的研發方向。我們真正需要追求的,是能自主探索、分解並解決未知問題的 AI,而不是只會考試的數位鸚鵡。

為什麼我們對 AI 的評估方式可能走錯了路?

過去幾年,我們習慣透過一系列標準化的基準測試(benchmarks)來衡量大型語言模型(LLM)的智慧。從 MMLU(Massive Multitask Language Understanding)的通識問答,到 GSM8K 的小學數學應用題,這些測試提供了一個量化的指標,讓研究人員與開發者可以快速比較不同模型的表現。排行榜上的分數不斷攀升,似乎預示著通用人工智慧(AGI)的到來指日可待。

然而,這種評估方式存在一個根本性的缺陷,可以用社會科學中的「古德哈特定律」(Goodhart's Law)來解釋:「當一個指標變成了目標,它就不再是一個好的指標。」這句話精準點出了當前 AI 評估的困境。

當整個 AI 研究社群都以在特定幾個 benchmark 上取得高分為目標時,模型便會被不斷地優化去「應付考試」。它們學會的可能是辨識題目中的統計模式、從龐大的訓練資料中背誦答案,而不是真正的推理或理解能力。更糟的是,許多 benchmark 的題目可能已經在不經意間洩漏到模型的訓練資料中,造成了「數據污染」(data contamination),使得測驗分數的參考價值大打折扣。

這種模式下訓練出來的 AI,就像一個非常會考試的學生,他能在所有考古題上拿滿分,但一碰到沒見過、沒有標準答案的開放式問題,就可能束手無策。我們正在獎勵 AI 成為高分考生,而非創新的問題解決者。

當 AI 面對未解之謎,表現如何?

為了解決這個問題,最近一篇名為《Assessing LLMs on Unsolved Problems》的論文提出了一個極具開創性的評估範式:直接讓 AI 挑戰人類尚未解決的科學與數學問題。

研究團隊從數學、物理學和電腦科學等領域,精心挑選了 500 個目前還沒有已知答案的公開難題,建立了一個名為 UnsolvedProblems 的資料集。這些問題不是那種精心設計、有唯一正解的考題,而是需要深度思考、提出假說、並進行嚴謹推導的開放式挑戰。

由於沒有標準答案可供比對,研究團隊設計了一套新穎的「無參考驗證」(reference-free validation)流程。這套機制旨在模擬真實科學研究的審核過程,確保 AI 提出的解法具有嚴謹性與可信度。

具體來說,他們利用一個獨立的 LLM 作為「驗證者」(Validator),來檢查另一個「解決者」(Solver)LLM 提出的解法是否邏輯連貫、步驟正確,這個過程類似於學術界的同儕審查(peer review)。最終,再由人類專家與社群進行最終確認,為這些「無解」問題的潛在答案提供最終的把關。

實驗結果令人警醒:即使是當前最強大的模型,如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3 Opus,在 500 個問題中,也僅成功解決了約 10 個,成功率僅有 2%。

這個數字與它們在傳統 benchmark 上動輒超過 90% 的準確率形成了極大的反差。這並不是說這些模型沒有價值,而是揭示了我們目前的評估體系與真實世界的問題解決能力之間,存在著一道巨大的鴻溝。

從「高分考生」到「問題解決者」,AI 需要什麼樣的能力?

這份研究清楚地告訴我們,在已知答案的封閉世界裡表現優異,和在未知領域中開疆拓土,需要的是截然不同的能力。如果我們希望 AI 成為推動科學進步的夥伴,就必須重新定義我們追求的目標。

能力維度 高分考生模型 (Benchmark-driven) 問題解決者模型 (Discovery-driven)
核心任務 答案匹配與內插(Interpolation) 假設生成與驗證
解決路徑 在訓練資料中尋找已知最短路徑 探索未知的解決方案空間
驗證方式 與標準答案進行比對 內部邏輯自洽與外部實驗驗證
最終產出 高分、高準確率 新知識、新方法或可驗證的洞見

這意味著,未來的 AI 系統設計,不能只專注於擴大模型規模或餵養更多資料。我們需要開發能夠進行結構化探索、能夠自我批判與修正、並能提出可驗證解決路徑的架構。這份研究中採用的「解決者-驗證者」多代理人(multi-agent)框架,就是一個很好的起點。它模擬了科學研究中「提出假說」與「進行驗證」的核心循環。

從本質上說,我們需要將 AI 從一個知識的「檢索與重組引擎」,轉變為一個知識的「生成與驗證引擎」。這才是 AI 協助人類解決從氣候變遷到疾病治療等重大挑戰時,真正能發揮作用的地方,就像 DeepMind 的 AlphaFold 在蛋白質結構預測領域帶來的革命一樣。

這篇論文的 2% 成功率不是一個令人沮喪的終點,而是一個清醒的開始。它為 AI 研究社群指出了更具挑戰性、也更有價值的方向:停止訓練只會考試的機器,開始打造能與我們並肩作戰的科學家。


延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。