mk-brain

AI 正在學會考試，但我們需要的是能解決未知問題的科學家

大型語言模型在標準化測驗上屢創佳績，讓許多人對通用人工智慧的到來充滿期待。然而，這篇文章將深入探討，當這些頂尖模型面對沒有標準答案的真實科學難題時，其成功率竟不到 2% 的驚人落差。這項發現迫使我們重新思考：AI 的真正進步，究竟該定義為在已知考卷上刷高分，還是具備探索並解決未知問題的科學家精神？讓我們一起揭開這場評估迷思，思考 AI 未來的發展方向。

江中喬

16 6月 2026 • 6 min read

當前我們衡量 AI 進步的方式，過度依賴在有標準答案的「考卷」上刷分數，這正造成一種危險的幻覺。儘管大型語言模型在各種基準測試上表現驚人，但當面對真實世界中懸而未決的科學難題時，它們的能力卻顯得極為有限。這種評估方式與真實能力之間的巨大鴻溝，不僅讓我們高估了現有技術，更可能誤導未來的研發方向。我們真正需要追求的，是能自主探索、分解並解決未知問題的 AI，而不是只會考試的數位鸚鵡。

為什麼我們對 AI 的評估方式可能走錯了路？

過去幾年，我們習慣透過一系列標準化的基準測試（benchmarks）來衡量大型語言模型（LLM）的智慧。從 MMLU（Massive Multitask Language Understanding）的通識問答，到 GSM8K 的小學數學應用題，這些測試提供了一個量化的指標，讓研究人員與開發者可以快速比較不同模型的表現。排行榜上的分數不斷攀升，似乎預示著通用人工智慧（AGI）的到來指日可待。

然而，這種評估方式存在一個根本性的缺陷，可以用社會科學中的「古德哈特定律」（Goodhart's Law）來解釋：「當一個指標變成了目標，它就不再是一個好的指標。」這句話精準點出了當前 AI 評估的困境。

當整個 AI 研究社群都以在特定幾個 benchmark 上取得高分為目標時，模型便會被不斷地優化去「應付考試」。它們學會的可能是辨識題目中的統計模式、從龐大的訓練資料中背誦答案，而不是真正的推理或理解能力。更糟的是，許多 benchmark 的題目可能已經在不經意間洩漏到模型的訓練資料中，造成了「數據污染」（data contamination），使得測驗分數的參考價值大打折扣。

這種模式下訓練出來的 AI，就像一個非常會考試的學生，他能在所有考古題上拿滿分，但一碰到沒見過、沒有標準答案的開放式問題，就可能束手無策。我們正在獎勵 AI 成為高分考生，而非創新的問題解決者。

當 AI 面對未解之謎，表現如何？

為了解決這個問題，最近一篇名為《Assessing LLMs on Unsolved Problems》的論文提出了一個極具開創性的評估範式：直接讓 AI 挑戰人類尚未解決的科學與數學問題。

研究團隊從數學、物理學和電腦科學等領域，精心挑選了 500 個目前還沒有已知答案的公開難題，建立了一個名為 UnsolvedProblems 的資料集。這些問題不是那種精心設計、有唯一正解的考題，而是需要深度思考、提出假說、並進行嚴謹推導的開放式挑戰。

由於沒有標準答案可供比對，研究團隊設計了一套新穎的「無參考驗證」（reference-free validation）流程。這套機制旨在模擬真實科學研究的審核過程，確保 AI 提出的解法具有嚴謹性與可信度。

具體來說，他們利用一個獨立的 LLM 作為「驗證者」（Validator），來檢查另一個「解決者」（Solver）LLM 提出的解法是否邏輯連貫、步驟正確，這個過程類似於學術界的同儕審查（peer review）。最終，再由人類專家與社群進行最終確認，為這些「無解」問題的潛在答案提供最終的把關。

實驗結果令人警醒：即使是當前最強大的模型，如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3 Opus，在 500 個問題中，也僅成功解決了約 10 個，成功率僅有 2%。

這個數字與它們在傳統 benchmark 上動輒超過 90% 的準確率形成了極大的反差。這並不是說這些模型沒有價值，而是揭示了我們目前的評估體系與真實世界的問題解決能力之間，存在著一道巨大的鴻溝。

從「高分考生」到「問題解決者」，AI 需要什麼樣的能力？

這份研究清楚地告訴我們，在已知答案的封閉世界裡表現優異，和在未知領域中開疆拓土，需要的是截然不同的能力。如果我們希望 AI 成為推動科學進步的夥伴，就必須重新定義我們追求的目標。

能力維度	高分考生模型 (Benchmark-driven)	問題解決者模型 (Discovery-driven)
核心任務	答案匹配與內插（Interpolation）	假設生成與驗證
解決路徑	在訓練資料中尋找已知最短路徑	探索未知的解決方案空間
驗證方式	與標準答案進行比對	內部邏輯自洽與外部實驗驗證
最終產出	高分、高準確率	新知識、新方法或可驗證的洞見

這意味著，未來的 AI 系統設計，不能只專注於擴大模型規模或餵養更多資料。我們需要開發能夠進行結構化探索、能夠自我批判與修正、並能提出可驗證解決路徑的架構。這份研究中採用的「解決者-驗證者」多代理人（multi-agent）框架，就是一個很好的起點。它模擬了科學研究中「提出假說」與「進行驗證」的核心循環。

從本質上說，我們需要將 AI 從一個知識的「檢索與重組引擎」，轉變為一個知識的「生成與驗證引擎」。這才是 AI 協助人類解決從氣候變遷到疾病治療等重大挑戰時，真正能發揮作用的地方，就像 DeepMind 的 AlphaFold 在蛋白質結構預測領域帶來的革命一樣。

這篇論文的 2% 成功率不是一個令人沮喪的終點，而是一個清醒的開始。它為 AI 研究社群指出了更具挑戰性、也更有價值的方向：停止訓練只會考試的機器，開始打造能與我們並肩作戰的科學家。

AI 正在學會考試，但我們需要的是能解決未知問題的科學家

江中喬

為什麼我們對 AI 的評估方式可能走錯了路？

當 AI 面對未解之謎，表現如何？

從「高分考生」到「問題解決者」，AI 需要什麼樣的能力？

延伸閱讀

Sign up for more like this.