擴展定律的黃昏?當知識與推理分道揚鑣
過去,我們深信單一的擴展定律能指導大型語言模型的訓練。然而,一項顛覆性研究揭示:知識與推理能力遵循著截然不同的擴展路徑!這不僅是學術界的震撼彈,更直接衝擊了我們在模型架構、產品定位與資源配置上的每一個關鍵決策。是時候重新思考你的AI策略了。
過去幾年,Chinchilla 擴展定律幾乎是大型語言模型(LLM)領域的北極星。它為我們指明了一條清晰的路徑:在固定的運算預算下,如何平衡模型參數(Model Size)與訓練資料量(Training Tokens),以達到最佳的模型性能。這個定律簡潔而有力,深刻影響了從 Llama 到 Mistral 等一系列模型的設計哲學。我們似乎找到了一把萬能鑰匙,只要遵循這個比例,就能最有效率地擴展模型能力。
然而,當我們將 LLM 的「能力」視為一個單一、同質的整體時,可能就忽略了其內部的複雜性。一篇來自 arXiv 的研究《Compute Optimal Scaling of Skills: Knowledge vs Reasoning》對這個基本假設提出了強而有力的挑戰。這篇論文的核心論點是:不同的認知技能,特別是「知識(Knowledge)」與「推理(Reasoning)」,遵循著截然不同的擴展定律。
這個發現不僅僅是學術上的細微差別,它直接動搖了我們規劃模型、分配資源的基礎。如果擴展定律並非通用,那麼依賴單一指標來指導數百萬、甚至數千萬美元的 GPU 預算,無疑是極具風險的。
知識與推理:兩種截然不同的擴展行為
首先,我們需要釐清這兩種能力的區別。簡單來說:
- 知識密集型任務:依賴模型從訓練資料中記憶與提取特定事實的能力。例如,回答「法國的首都是哪裡?」或「誰寫了《百年孤寂》?」。這類任務的表現,更像是一個龐大的、可檢索的資料庫。
- 推理密集型任務:需要模型進行多步驟的邏輯推導、理解因果關係或解決從未見過的問題。例如,解決一道數學應用題,或根據一段法律條文分析案件。這考驗的是模型的抽象與泛化能力。
該研究透過精巧的實驗設計,系統性地分析了這兩種技能在不同模型尺寸與訓練資料量下的表現。結果非常明確:它們的「計算優化擴展行為」(Compute Optimal Scaling Behavior)存在根本差異。
研究發現,知識密集型任務的性能與模型參數量的關聯性更強。換句話說,要讓模型「懂更多」,最有效的方式是增大它的規模(Bigger Model)。相反地,推理密集型任務的性能,則更依賴於訓練的 token 總量。要讓模型「更會思考」,給它更多的資料進行更長時間的訓練(More Data/Compute),效益遠高於單純擴大模型尺寸。
這背後隱含的道理或許很直觀:知識可以被「儲存」在模型的參數中,因此參數越多,能儲存的知識就越多。而推理能力則更像一種需要透過大量練習才能內化的「演算法」,需要更多的計算和範例來打磨。
錯誤的評估,高昂的代價
這項研究最令人警醒的一點,是它揭示了評估基準(Benchmark)設計的潛在陷阱。如果我們用來評估模型的驗證集(validation set)在知識與推理任務上的比例不均衡,就可能得出完全錯誤的結論。
研究指出,如果驗證集過度偏重某一類型的技能,那麼根據這個驗證集所推算出的「最佳模型參數」,與真實的最佳值相比,偏差可能高達 50%。
這是一個驚人的數字。想像一下,一個團隊投入了巨額資源,根據一個混合了大量知識問答的基準測試,認為他們需要一個 70B 的模型。但如果他們的目標應用其實是程式碼生成或複雜的邏輯分析(推理密集型),那麼根據新的發現,一個在更多資料上訓練的 35B 模型,或許才是真正計算效率最高的選擇。這 50% 的偏差,代表著數百萬美元的資源錯配與數個月的研發時間浪費。
從單一指標到多維策略:對實務的啟示
當知識與推理的擴展路徑分道揚鑣,我們在模型策略、產品定位與資源配置上,就不能再用單一的擴展定律來思考。在我看來,這意味著幾個重要的轉變:
1. 模型策略:從通用走向專精
「一個模型打天下」的思路可能需要被重新審視。未來,我們可能會看到更多混合專家(MoE)架構的變體,其中某些專家網路專門負責知識提取,而另一些則專注於邏輯推理。或者,針對特定應用,我們會發展出高度特化的模型,例如一個參數巨大但訓練 token 相對較少的「知識庫模型」,以及一個參數較小但在海量高品質資料上訓練的「推理引擎模型」。
2. 產品定位:精準匹配模型能力
這個發現為產品經理和系統設計者提供了更清晰的指引。如果你的產品是 RAG(檢索增強生成)系統中的摘要或問答機器人,那麼模型的知識儲備至關重要,選擇參數規模更大的模型可能是正確方向。但如果你的產品是 AI Agent,需要進行複雜的任務規劃與工具使用,那麼模型的推理能力才是瓶頸,投入更多資源在更長的訓練週期上,會是更明智的投資。
3. 資源配置:預算必須花在刀口上
對於任何一個 AI 團隊而言,GPU 預算都是最寶貴的資源。這項研究提醒我們,在啟動下一個訓練任務前,必須先問一個更根本的問題:「我們究竟需要模型具備什麼核心能力?」是成為一個博學的智者,還是一個聰明的思考者?對這個問題的回答,將直接決定你的運算資源應該投入到模型的「規模」還是「訓練深度」上。
總結來說,AI 領域正從一個相信「大力出奇蹟」的階段,走向一個更精細、更具策略性的階段。通用擴展定律的光環正在褪去,取而代之的,將是針對不同核心能力的、多維度的優化策略。這對我們這些系統建構者來說,挑戰更大,但也意味著創造真正高效、實用 AI 系統的機會更多了。
延伸閱讀
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。