mk-brain

不只是大小之爭：從自我改進與蒸餾看小型模型的真實潛力

在追求更大語言模型的競賽中，我們是否忽略了更重要的事？真正的突破或許不在於參數量的無限擴張，而在於如何以更低的成本，讓小型模型達成逼近頂尖模型的推理能力。本文從一篇關鍵研究出發，探討自我改進與知識蒸餾如何成為實現此目標的核心策略，並分析這對未來 AI 系統架構的深遠影響。

江中喬

12 5月 2026 • 8 min read

在 AI 領域，我們很容易被「模型越大越好」的敘事綁架，將目光全部集中在 GPT-4、Claude 3 或 Llama 3 等頂尖模型的參數競賽上。然而，真正的突破或許不在於參數量的無限擴張，而在於如何以更低的成本，讓小型模型達成逼近頂尖模型的推理能力。這正是模型演進中真正值得關注的戰場，也是決定 AI 能否在各行各業規模化、客製化落地的核心瓶頸。

最近一篇名為《ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent》的研究，就為這個趨勢提供了極具說服力的證據。它展示了一種結合 AI 回饋與知識蒸餾的自我改進框架，能讓一個僅有 70 億參數的小型模型^[1]，在複雜的多步推理任務上，其表現足以媲美比它大上數十倍的 PaLM 2-S。這項成果清晰地指出了一條路：未來高效能的 AI 系統，將更依賴聰明的訓練方法與模型協作，而非單純堆砌算力。

「ReAct」與「ReST」如何聯手，打造出會自我進化的 Agent？

要理解這項研究的精髓，我們必須先拆解兩個核心概念：ReAct 與 ReST。它們分別代表了大型語言模型（LLM）在「執行」與「學習」兩個層面的關鍵技術。

首先，ReAct (Reasoning and Acting) 是一個廣為人知的 Agent 框架，它讓 LLM 能夠像人一樣「思考並行動」。在 ReAct 框架下，模型會交錯生成「思緒（Thought）」來規劃下一步，以及「行動（Action）」來與外部工具（如搜尋引擎、計算機）互動。這種模式讓 LLM 得以處理需要多個步驟、並與外部世界資訊互動才能解決的複雜問題。

然而，光會執行還不夠，模型還需要從經驗中學習與改進。這就是 ReST (Reinforced Self-Training) 發揮作用的地方。ReST 是一種透過 AI 回饋進行強化學習的演算法，它的流程大致如下：

生成（Generate）：讓模型針對一批任務，生成多個可能的解決方案（reasoning traces）。
評分（Critique）：使用一個更強大的「老師模型」（例如 GPT-4）來評估這些解決方案的品質，並給予評分。
篩選（Filter）：根據評分，篩選出高品質的「黃金數據集」。
微調（Fine-tune）：用這個黃金數據集來微調原本的「學生模型」，使其在下一輪的表現更好。

這篇研究的巧妙之處，在於將 ReAct 的執行能力與 ReST 的學習能力結合。研究團隊讓一個小型的「學生模型」（Llama-2-7B）使用 ReAct 框架去解決問題，再請強大的「老師模型」（GPT-4）來批改作業，然後透過 ReST 的流程，將老師的智慧「蒸餾」到學生模型中。這個過程不斷重複，學生模型的能力也隨之迭代增強。

小模型追上大模型，具體成果是什麼？

紙上談兵很容易，但這套方法的實際效果非常驚人。研究結果顯示，這個自我改進與蒸餾的循環，效率極高。

實驗中，以 Llama-2-7B 作為學生模型，僅僅經過兩次迭代的 ReST 訓練，它在 HotpotQA 和 FEVER 這兩個需要複雜推理與事實查核的基準測試中，表現就已經超越了 Google 的 PaLM 2-S 模型^[2]。具體來說，在 HotpotQA 的 EM (Exact Match) 分數上，經過兩次迭代的 Llama-2-7B 達到了 33.3，超越了 PaLM 2-S 的 31.9。

這個結果的意義非凡。Llama-2-7B 的參數規模大約是 70 億，而 PaLM 2-S 的規模雖然未公開，但作為 PaLM 2 家族的一員，其參數遠大於 70 億。論文作者估計，兩者之間的參數量差距可能高達 100 倍。這意味著，透過高效的自我改進策略，我們能用極小的模型尺寸與運算成本，達成以往需要龐大模型才能企及的推理水準。這不再是量級上的微小改進，而是成本效益上的典範轉移。

為什麼「成本效益」是評估模型演進的更好指標？

長久以來，我們習慣用排行榜上的分數（如 MMLU、HumanEval）來判斷一個模型的優劣。但對於產品開發者與系統建構者而言，這類單一指標往往會誤導決策。一個在排行榜上得分稍高、但推理成本是數十倍的模型，在真實世界的應用中幾乎沒有競爭力。

我認為，更務實的評估指標應該是「單位成本下的性能表現」（Performance per Dollar）。從這個角度看，類似「ReST meets ReAct」這樣的研究，其價值遠高於單純推出一個更大的模型。它直接衝擊了 AI 系統的幾個核心環節：

推理成本：小型模型意味著更低的 API 費用、更少的硬體需求，讓大規模部署成為可能。
延遲表現：模型越小，回應速度通常越快，這對於互動式應用（如 Agent、Copilot）至關重要。
部署彈性：高效的小型模型更容易在邊緣裝置、本地端或私有雲中部署，解決了數據隱私與安全性的問題。
任務專精化：與其使用一個龐大而昂貴的通用模型，不如訓練一群小而精的專家模型，各自處理特定領域的任務，成本效益更高。

當我們把焦點從「最大」轉向「最高效」，整個產業的遊戲規則都會改變。開發的重點將不再是無止盡的預訓練，而是更聰明的知識蒸餾（Knowledge Distillation）、數據篩選與微調策略。

未來的 AI 系統，該如何配置「大小模型」組合？

這項研究也為未來的 AI 系統架構提供了清晰的藍圖。我們正在告別「一個模型打天下」的單體式思維，走向一個由多個模型協同工作的「多 Agent 系統」或「混合專家系統」（Mixture-of-Experts）架構。

在這樣的架構中，不同規模的模型將扮演不同的角色：

頂尖大型模型（如 GPT-4o, Claude 3 Opus）：擔任「總指揮」或「老師」的角色。它們負責處理最複雜、最需要創造力與通用知識的任務，或在離線狀態下，為小型模型生成高品質的訓練數據（如前述的 ReST 流程）。
中型模型：作為「路由器」或「任務分解器」，判斷使用者意圖，並將複雜任務拆解，分派給最適合的專家模型。
高效小型模型：擔任「執行者」或「專家」。這些模型透過蒸餾與微調，在特定領域（如程式碼生成、客戶服務、數據分析）擁有極高性價比。它們將處理系統中 90% 以上的日常請求。

對 AI 產品的建構者來說，這意味著我們需要像管理一個團隊一樣，去管理我們的模型組合。核心工作將是設計一個聰明的路由與協調層，確保每個請求都能被導向最經濟、最有效的模型來處理。這種以成本效益為核心的系統設計思維，將是下一代 AI 應用成功的關鍵。

總結來說，模型發展的浪潮之下，真正的智慧不在於追逐更大的浪花，而在於理解並駕馭底層的洋流。自我改進與知識蒸餾，正是推動小型模型能力躍升的強大洋流，它將帶領我們駛向一個更普及、更高效、也更具經濟可行性的 AI 未來。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

「ReAct」與「ReST」如何聯手，打造出會自我進化的 Agent？

小模型追上大模型，具體成果是什麼？

為什麼「成本效益」是評估模型演進的更好指標？

未來的 AI 系統，該如何配置「大小模型」組合？

延伸閱讀

Sign up for more like this.