mk-brain

擴展定律的黃昏？當知識與推理分道揚鑣

過去，我們深信單一的擴展定律能指導大型語言模型的訓練。然而，一項顛覆性研究揭示：知識與推理能力遵循著截然不同的擴展路徑！這不僅是學術界的震撼彈，更直接衝擊了我們在模型架構、產品定位與資源配置上的每一個關鍵決策。是時候重新思考你的AI策略了。

江中喬

01 5月 2026 • 7 min read

過去幾年，Chinchilla 擴展定律幾乎是大型語言模型（LLM）領域的北極星。它為我們指明了一條清晰的路徑：在固定的運算預算下，如何平衡模型參數（Model Size）與訓練資料量（Training Tokens），以達到最佳的模型性能。這個定律簡潔而有力，深刻影響了從 Llama 到 Mistral 等一系列模型的設計哲學。我們似乎找到了一把萬能鑰匙，只要遵循這個比例，就能最有效率地擴展模型能力。

然而，當我們將 LLM 的「能力」視為一個單一、同質的整體時，可能就忽略了其內部的複雜性。一篇來自 arXiv 的研究《Compute Optimal Scaling of Skills: Knowledge vs Reasoning》對這個基本假設提出了強而有力的挑戰。這篇論文的核心論點是：不同的認知技能，特別是「知識（Knowledge）」與「推理（Reasoning）」，遵循著截然不同的擴展定律。

這個發現不僅僅是學術上的細微差別，它直接動搖了我們規劃模型、分配資源的基礎。如果擴展定律並非通用，那麼依賴單一指標來指導數百萬、甚至數千萬美元的 GPU 預算，無疑是極具風險的。

知識與推理：兩種截然不同的擴展行為

首先，我們需要釐清這兩種能力的區別。簡單來說：

知識密集型任務：依賴模型從訓練資料中記憶與提取特定事實的能力。例如，回答「法國的首都是哪裡？」或「誰寫了《百年孤寂》？」。這類任務的表現，更像是一個龐大的、可檢索的資料庫。
推理密集型任務：需要模型進行多步驟的邏輯推導、理解因果關係或解決從未見過的問題。例如，解決一道數學應用題，或根據一段法律條文分析案件。這考驗的是模型的抽象與泛化能力。

該研究透過精巧的實驗設計，系統性地分析了這兩種技能在不同模型尺寸與訓練資料量下的表現。結果非常明確：它們的「計算優化擴展行為」（Compute Optimal Scaling Behavior）存在根本差異。

研究發現，知識密集型任務的性能與模型參數量的關聯性更強。換句話說，要讓模型「懂更多」，最有效的方式是增大它的規模（Bigger Model）。相反地，推理密集型任務的性能，則更依賴於訓練的 token 總量。要讓模型「更會思考」，給它更多的資料進行更長時間的訓練（More Data/Compute），效益遠高於單純擴大模型尺寸。

這背後隱含的道理或許很直觀：知識可以被「儲存」在模型的參數中，因此參數越多，能儲存的知識就越多。而推理能力則更像一種需要透過大量練習才能內化的「演算法」，需要更多的計算和範例來打磨。

錯誤的評估，高昂的代價

這項研究最令人警醒的一點，是它揭示了評估基準（Benchmark）設計的潛在陷阱。如果我們用來評估模型的驗證集（validation set）在知識與推理任務上的比例不均衡，就可能得出完全錯誤的結論。

研究指出，如果驗證集過度偏重某一類型的技能，那麼根據這個驗證集所推算出的「最佳模型參數」，與真實的最佳值相比，偏差可能高達 50%。

這是一個驚人的數字。想像一下，一個團隊投入了巨額資源，根據一個混合了大量知識問答的基準測試，認為他們需要一個 70B 的模型。但如果他們的目標應用其實是程式碼生成或複雜的邏輯分析（推理密集型），那麼根據新的發現，一個在更多資料上訓練的 35B 模型，或許才是真正計算效率最高的選擇。這 50% 的偏差，代表著數百萬美元的資源錯配與數個月的研發時間浪費。

從單一指標到多維策略：對實務的啟示

當知識與推理的擴展路徑分道揚鑣，我們在模型策略、產品定位與資源配置上，就不能再用單一的擴展定律來思考。在我看來，這意味著幾個重要的轉變：

1. 模型策略：從通用走向專精
「一個模型打天下」的思路可能需要被重新審視。未來，我們可能會看到更多混合專家（MoE）架構的變體，其中某些專家網路專門負責知識提取，而另一些則專注於邏輯推理。或者，針對特定應用，我們會發展出高度特化的模型，例如一個參數巨大但訓練 token 相對較少的「知識庫模型」，以及一個參數較小但在海量高品質資料上訓練的「推理引擎模型」。

2. 產品定位：精準匹配模型能力
這個發現為產品經理和系統設計者提供了更清晰的指引。如果你的產品是 RAG（檢索增強生成）系統中的摘要或問答機器人，那麼模型的知識儲備至關重要，選擇參數規模更大的模型可能是正確方向。但如果你的產品是 AI Agent，需要進行複雜的任務規劃與工具使用，那麼模型的推理能力才是瓶頸，投入更多資源在更長的訓練週期上，會是更明智的投資。

3. 資源配置：預算必須花在刀口上
對於任何一個 AI 團隊而言，GPU 預算都是最寶貴的資源。這項研究提醒我們，在啟動下一個訓練任務前，必須先問一個更根本的問題：「我們究竟需要模型具備什麼核心能力？」是成為一個博學的智者，還是一個聰明的思考者？對這個問題的回答，將直接決定你的運算資源應該投入到模型的「規模」還是「訓練深度」上。

總結來說，AI 領域正從一個相信「大力出奇蹟」的階段，走向一個更精細、更具策略性的階段。通用擴展定律的光環正在褪去，取而代之的，將是針對不同核心能力的、多維度的優化策略。這對我們這些系統建構者來說，挑戰更大，但也意味著創造真正高效、實用 AI 系統的機會更多了。

延伸閱讀

Compute Optimal Scaling of Skills: Knowledge vs Reasoning

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

知識與推理：兩種截然不同的擴展行為

錯誤的評估，高昂的代價

從單一指標到多維策略：對實務的啟示

Sign up for more like this.