mk-brain

訓練 AI 的新槓桿：數據配方，而不只是數據量

當模型訓練成本不斷攀升，單純堆疊數據已非最佳解。一篇研究揭示，優化預訓練數據的混合比例，才是提升效率與準確度的關鍵。這不只是一種新方法，更是一種思維轉變：數據配方本身，正在成為模型工程的核心。

江中喬

18 5月 2026 • 6 min read

在大型語言模型（LLM）的軍備競賽中，我們時常陷入一種迷思：只要有更多的數據、更多的算力，就能訓練出更強大的模型。這個想法在過去幾年大致上是成立的，但隨著訓練成本攀升到天文數字，我們必須問一個更根本的問題：在資源有限的現實世界，真正的槓桿在哪裡？答案可能不是單純堆疊更多數據，而是更精準地調配現有數據的「配方」。近期一篇名為 DoReMi 的研究，便清楚地揭示了這個方向的巨大潛力：透過優化預訓練數據的混合比例，我們能以更少的成本，訓練出更高效、更準確的模型。

為什麼我們需要重新思考數據配方？

過去幾年，AI 領域深受「Scaling Laws」的影響，這個定律告訴我們，模型性能會隨著模型大小、數據集大小和訓練算力的增加而可預測地提升。這引導了像 Google 的 PaLM 或 DeepMind 的 Chinchilla（見於其論文 Training Compute-Optimal Large Language Models）等巨大模型的誕生。它們的成功，似乎印證了「越大越好」的暴力美學。

然而，這種方法的邊際效益正在遞減，且對絕大多數團隊來說，成本已不堪負荷。為此，研究者們開始將目光從「量」轉向「質」。一個經典的例子是 The Pile 數據集，它混合了來自學術論文、程式碼、書籍、網頁等多種來源的文本，試圖提供一個更多元、更高品質的訓練基礎。The Pile 的數據混合比例是基於專家的直覺和經驗設定的，這在當時已是巨大的進步。

但 DoReMi 的研究團隊認為，我們可以做得更系統化、更有效率。與其依賴人工設定的固定比例，不如讓數據自己「說話」，找出一種能最大化模型學習效率的動態配方。這個想法，將數據處理從一門藝術，推向了一門更精密的工程科學。

DoReMi 如何找到最佳的數據雞尾酒配方？

DoReMi 的核心方法相當巧妙，它並不需要直接在昂貴的大型模型上進行無數次的實驗。相反，它採用了一種「代理模型」（proxy model）的策略，整個流程可以簡化為三個步驟：

訓練小型代理模型：首先，研究人員會訓練一個規模較小（例如 1.3 億或 3.5 億參數）的代理模型。他們會讓這個小模型在不同的數據來源分佈上進行短暫的訓練，以觀察模型對各類數據的「反應」。
找出「有學習價值的」數據域：接著，他們會計算每個數據來源（domain）的「可重塑權重」（resampling weights）。這個權重的計算方式很關鍵：它會賦予那些「模型認為很難，但又不是完全無法學習」的數據域更高的權重。簡單來說，如果一個數據域的內容對模型來說太簡單（loss 很低），或是難到無法理解（loss 極高且無法下降），那麼它的權重就會比較低。這個機制能自動篩選出對模型成長最有幫助的「營養成分」。
應用於大型模型訓練：最後，將這些計算出的最佳數據混合比例，直接應用到目標大型模型（例如 28 億參數模型）的完整預訓練過程中。

這個方法的優美之處在於，它完全不需要知道模型未來會應用於哪些下游任務（downstream tasks）。它純粹從提升預訓練效率的角度出發，透過代理模型預先探索出最佳的學習路徑，然後讓大型模型直接走上這條捷徑。

這代表著一種典範轉移：我們不再是數據的被動接收者，而是數據配方的主動設計者。模型工程師的角色，正從「數據清潔工」轉變為「數據調酒師」。

這對模型工程師意味著什麼？

DoReMi 的實驗結果極具說服力。在針對 2.8B 參數模型的實驗中，使用 DoReMi 優化後的數據配方，不僅將達到同等困惑度（perplexity）所需的訓練步驟減少了 2.6 倍，更在多個下游任務的平均準確率上，比使用 The Pile 原始數據配方的基準模型提升了 6.5%。這意味著更少的 GPU-hours、更低的成本，以及一個更聰明的模型。

對所有 AI 系統的建構者而言，這帶來了幾個重要的啟示：

數據策展（Data Curation）的價值遠超以往：過去，我們可能更關注數據的清洗與標註。現在，數據來源的選擇、分組，以及它們之間的比例，成為了影響模型成敗的關鍵變數。
預訓練階段的策略性投入：在正式啟動耗資巨大的大型模型訓練之前，投入少量資源進行類似 DoReMi 的數據配方探索，可能會帶來不成比例的巨大回報。這是一種高槓桿的策略。
模型工程與數據科學的邊界日益模糊：決定數據配方不再僅僅是數據科學家的工作，它已經成為模型工程本身不可或缺的一環。如何設計實驗、如何解讀代理模型的反饋、如何將其應用於訓練流程，都需要深厚的工程實踐。

總結來說，當整個產業都還在追逐更大的模型與更多的數據時，DoReMi 為我們指出了另一條更聰明、更有效率的路。它證明了在訓練資源日益昂貴的時代，真正的競爭優勢，或許就藏在那份精心調配的數據配方之中。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

為什麼我們需要重新思考數據配方？

DoReMi 如何找到最佳的數據雞尾酒配方？

這對模型工程師意味著什麼？

延伸閱讀

Sign up for more like this.