AI 推理能力的真正瓶頸:昂貴的「過程監督」與自動化的解方

訓練 AI 進行複雜推理,最昂貴的不是模型本身,而是步步為營的「過程監督」資料。一篇新研究展示了如何用演算法自我生成監督訊號,這不僅大幅降低成本,更可能改寫 AI 能力擴張的遊戲規則。

AI 推理能力的真正瓶頸:昂貴的「過程監督」與自動化的解方

當前大型語言模型(LLM)在推理能力上的擴張,其真正的瓶頸並非模型參數或運算量,而是「過程監督」(Process Supervision)的取得成本。為了讓模型學會「思考」而非僅「猜對答案」,我們需要大量高品質、由專家或更強模型標註的解題步驟。這個過程昂貴、緩慢且難以規模化。然而,一篇名為《AlphaMath Almost Zero》的新研究提出解方:讓模型透過自我探索自動生成監督訊號。這項突破不僅可能大幅降低頂尖推理模型的訓練成本,更預示著 AI 能力擴張的典範轉移——從依賴人力標註,走向演算法驅動的自我完善。

為什麼「過程監督」是推理模型的隱形成本?

傳統上,訓練一個模型解決問題有兩種主要的回饋機制:結果監督(Outcome Supervision)與過程監督(Process Supervision)。結果監督只看最終答案對不對,簡單直接,但模型可能只是碰巧答對,並未學到正確的解題邏輯。這就像一個學生只對答案,卻不知道計算過程,基礎並不穩固。

為了解決這個問題,研究社群轉向了過程監督。這個方法的精神在於,獎勵模型在推理過程中每一個「正確的步驟」。透過提供詳細的解題過程作為範例,模型可以更有效地學習到複雜問題背後的邏輯鏈。Google 在其 「Let's Verify Step by Step」研究中提出的過程獎勵模型(Process-based Reward Models, PRMs),以及 OpenAI 在訓練 GPT-4 時採用的方法,都大量依賴這種精細的監督訊號。這種方法的效果顯著,但也帶來了巨大的成本。

高品質的過程標註資料極其昂貴。它通常需要:

  • 人類專家: 聘請數學家、程式設計師等領域專家來撰寫或批改解題步驟,成本高昂且速度緩慢。
  • 更強的教師模型: 使用像 GPT-4 這樣的頂尖模型來生成過程資料,這需要支付大量的 API 費用,並且教師模型的能力就是學生模型的天花板。

根據 DeepSeek AI 的一篇論文揭露,他們為了訓練 DeepSeekMath,收集了 85,000 個由人類專家標註的解題過程。可以想見,這種對人力與資本的重度依賴,已經成為限制頂尖推理模型發展的一道無形高牆。

AlphaMath 如何擺脫對外部標註的依賴?

《AlphaMath Almost Zero》這篇論文的核心貢獻,就是展示了一種幾乎完全不需要外部過程標註的訓練框架。它的靈感源自於 DeepMind 的 AlphaGo,其核心技術是蒙地卡羅樹搜尋(Monte Carlo Tree Search, MCTS)。

這個框架的運作方式可以簡化為以下幾個步驟:

  1. 探索(Exploration): 給定一個數學問題,模型(例如一個 7B 參數的 Llama-2)開始嘗試生成解題步驟。MCTS 演算法會像下棋一樣,探索各種可能的解題路徑,形成一個巨大的搜尋樹。
  2. 評估(Evaluation): 一個小型的「價值模型」(Value Model)會對搜尋樹中的每個節點(即每個中間步驟)進行評估,預測從這一步出發,最終能得到正確答案的機率有多高。這能幫助 MCTS 更有效率地將運算資源集中在有前景的路徑上。
  3. 驗證(Verification): 當 MCTS 探索到一個完整的解題路徑後,系統會用一個簡單的執行器(Executor)來驗證最終答案是否正確。
  4. 提煉(Distillation): 一旦找到一條或多條能夠通往正確答案的路徑,這些成功的「思考過程」就會被收集起來,作為高品質的過程監督訊號,用來微調(fine-tune)原始的推理模型。
簡單來說,AlphaMath 建立了一個自動化的系統:用大量的「試錯」與「搜尋」取代了昂貴的「人工指導」。模型自己摸索出解法,然後再把成功的經驗教給自己。

實驗結果令人振奮。在 GSM8K 和 MATH 這兩個主流的數學推理測試集上,透過這種「自體生成」監督訊號訓練出來的模型,其表現足以媲美那些使用大量人工或 GPT-4 標註資料訓練的頂尖模型。這證明了,只要有足夠的運算力進行探索,AI 就有能力自己成為自己的老師。

自動化監督對 AI 發展意味著什麼?

這個轉變的意義遠不止是降低成本。我認為它將從根本上改變 AI 能力的擴張方式。

首先,它將 AI 發展的瓶頸從「資料標註的人力規模」轉移回了「演算法與運算力」。相較於難以預測且擴展性差的人力,算力是一個更標準化、更易於規模化的資源。這意味著,只要演算法設計得當,我們可以透過投入更多運算來持續提升模型的推理能力,這條路徑的可預測性遠高於組織數萬人的標註團隊。

其次,這為解決那些「尚無標準答案」的複雜問題打開了一扇門。在科學研究、工程設計或藥物開發等領域,很多問題並沒有現成的、一步步的解題手冊。傳統的過程監督方法在這裡派不上用場。但 AlphaMath 所展示的「探索-驗證」框架,只需要一個可靠的驗證機制(例如,一個物理模擬器、一個程式碼編譯器、或是一個實驗結果),就能讓 AI 在廣闊的未知領域中自主探索,並從成功的嘗試中學習。這與鏈式思考(Chain-of-Thought)等提示工程技巧相比,是更根本的範式轉移。

從長遠來看,我們正在從「用更多資料教得更好」,轉向「讓系統自己學會如何教自己」。AlphaMath 在數學領域的成功,只是一個起點。同樣的邏輯完全可以應用於程式碼生成、定理證明、策略規劃等更廣泛的推理任務。當監督的生成可以被自動化,AI 能力的迭代速度將不再受人類認知與勞動的限制,這或許才是通往更強大、更通用人工智慧的關鍵一步。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。