訓練 AI 的新槓桿:數據配方,而不只是數據量

當模型訓練成本不斷攀升,單純堆疊數據已非最佳解。一篇研究揭示,優化預訓練數據的混合比例,才是提升效率與準確度的關鍵。這不只是一種新方法,更是一種思維轉變:數據配方本身,正在成為模型工程的核心。

訓練 AI 的新槓桿:數據配方,而不只是數據量

在大型語言模型(LLM)的軍備競賽中,我們時常陷入一種迷思:只要有更多的數據、更多的算力,就能訓練出更強大的模型。這個想法在過去幾年大致上是成立的,但隨著訓練成本攀升到天文數字,我們必須問一個更根本的問題:在資源有限的現實世界,真正的槓桿在哪裡?答案可能不是單純堆疊更多數據,而是更精準地調配現有數據的「配方」。近期一篇名為 DoReMi 的研究,便清楚地揭示了這個方向的巨大潛力:透過優化預訓練數據的混合比例,我們能以更少的成本,訓練出更高效、更準確的模型。

為什麼我們需要重新思考數據配方?

過去幾年,AI 領域深受「Scaling Laws」的影響,這個定律告訴我們,模型性能會隨著模型大小、數據集大小和訓練算力的增加而可預測地提升。這引導了像 Google 的 PaLM 或 DeepMind 的 Chinchilla(見於其論文 Training Compute-Optimal Large Language Models)等巨大模型的誕生。它們的成功,似乎印證了「越大越好」的暴力美學。

然而,這種方法的邊際效益正在遞減,且對絕大多數團隊來說,成本已不堪負荷。為此,研究者們開始將目光從「量」轉向「質」。一個經典的例子是 The Pile 數據集,它混合了來自學術論文、程式碼、書籍、網頁等多種來源的文本,試圖提供一個更多元、更高品質的訓練基礎。The Pile 的數據混合比例是基於專家的直覺和經驗設定的,這在當時已是巨大的進步。

但 DoReMi 的研究團隊認為,我們可以做得更系統化、更有效率。與其依賴人工設定的固定比例,不如讓數據自己「說話」,找出一種能最大化模型學習效率的動態配方。這個想法,將數據處理從一門藝術,推向了一門更精密的工程科學。

DoReMi 如何找到最佳的數據雞尾酒配方?

DoReMi 的核心方法相當巧妙,它並不需要直接在昂貴的大型模型上進行無數次的實驗。相反,它採用了一種「代理模型」(proxy model)的策略,整個流程可以簡化為三個步驟:

  1. 訓練小型代理模型:首先,研究人員會訓練一個規模較小(例如 1.3 億或 3.5 億參數)的代理模型。他們會讓這個小模型在不同的數據來源分佈上進行短暫的訓練,以觀察模型對各類數據的「反應」。
  2. 找出「有學習價值的」數據域:接著,他們會計算每個數據來源(domain)的「可重塑權重」(resampling weights)。這個權重的計算方式很關鍵:它會賦予那些「模型認為很難,但又不是完全無法學習」的數據域更高的權重。簡單來說,如果一個數據域的內容對模型來說太簡單(loss 很低),或是難到無法理解(loss 極高且無法下降),那麼它的權重就會比較低。這個機制能自動篩選出對模型成長最有幫助的「營養成分」。
  3. 應用於大型模型訓練:最後,將這些計算出的最佳數據混合比例,直接應用到目標大型模型(例如 28 億參數模型)的完整預訓練過程中。

這個方法的優美之處在於,它完全不需要知道模型未來會應用於哪些下游任務(downstream tasks)。它純粹從提升預訓練效率的角度出發,透過代理模型預先探索出最佳的學習路徑,然後讓大型模型直接走上這條捷徑。

這代表著一種典範轉移:我們不再是數據的被動接收者,而是數據配方的主動設計者。模型工程師的角色,正從「數據清潔工」轉變為「數據調酒師」。

這對模型工程師意味著什麼?

DoReMi 的實驗結果極具說服力。在針對 2.8B 參數模型的實驗中,使用 DoReMi 優化後的數據配方,不僅將達到同等困惑度(perplexity)所需的訓練步驟減少了 2.6 倍,更在多個下游任務的平均準確率上,比使用 The Pile 原始數據配方的基準模型提升了 6.5%。這意味著更少的 GPU-hours、更低的成本,以及一個更聰明的模型。

對所有 AI 系統的建構者而言,這帶來了幾個重要的啟示:

  • 數據策展(Data Curation)的價值遠超以往:過去,我們可能更關注數據的清洗與標註。現在,數據來源的選擇、分組,以及它們之間的比例,成為了影響模型成敗的關鍵變數。
  • 預訓練階段的策略性投入:在正式啟動耗資巨大的大型模型訓練之前,投入少量資源進行類似 DoReMi 的數據配方探索,可能會帶來不成比例的巨大回報。這是一種高槓桿的策略。
  • 模型工程與數據科學的邊界日益模糊:決定數據配方不再僅僅是數據科學家的工作,它已經成為模型工程本身不可或缺的一環。如何設計實驗、如何解讀代理模型的反饋、如何將其應用於訓練流程,都需要深厚的工程實踐。

總結來說,當整個產業都還在追逐更大的模型與更多的數據時,DoReMi 為我們指出了另一條更聰明、更有效率的路。它證明了在訓練資源日益昂貴的時代,真正的競爭優勢,或許就藏在那份精心調配的數據配方之中。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。