mk-brain

從 Tulu 2 看見開放模型的真正護城河：微調與評估的系統化能力

大型語言模型的競賽，正從基礎模型的軍備競賽，轉向更細緻的微調與評估工程。Allen AI 的 Tulu 2 專案，不僅是技術上的突破，更為我們揭示了開放模型生態系的下一個戰場。本文將深入探討 Tulu 2 如何透過系統化的方法，確立了高效微調與評估的標準，並指出建立一套可複製、可擴展的「模型適應」系統，才是開放模型真正的競爭壁壘。

江中喬

31 5月 2026 • 7 min read

我認為，大型語言模型（LLM）的競爭正在進入下一個階段。過去，社群的焦點大多集中在基礎模型（base model）的規模與原始性能；然而，隨著開放模型的快速迭代，真正的競爭力已不再僅僅取決於此。Allen Institute for AI (AI2) 發布的 Tulu 2 研究，便是一個關鍵指標。它清晰地指出，未來的護城河將建立在微調流程、資料品質與評估標準之上，能否將這些環節整合成一套可複製、可擴展的系統化能力，才是決定勝負的關鍵。

Tulu 2 專案：不只是一個模型，而是一套方法論

當我們談論 Tulu 2 時，不能只把它看作是另一個在排行榜上表現優異的模型。事實上，AI2 團隊的目標遠不止於此。他們稱之為「模型適應」（model adaptation）的研究，其核心精神是探索並標準化一套從基礎模型到指令微調（instruction-tuned）模型的完整流程。這套流程必須是透明、高效且可複製的。

過去，許多開放模型的微調過程像是一個黑盒子，充滿了各種難以言傳的「煉金術」。研究者們可能基於直覺或反覆試誤來混合資料集、調整超參數。Tulu 2 則試圖將這個過程科學化、工程化。它不僅公開了最終的模型，更重要的是，它公開了整個實驗設計、資料配方、程式碼以及詳盡的成敗分析。這份研究的價值，在於它為整個開放模型社群提供了一份詳實的「操作手冊」，示範如何系統性地提升一個基礎模型的能力。

Tulu 2 如何驗證了高效微調的規模化路徑？

Tulu 2 的研究成果，為模型微調的幾個關鍵方向提供了極具價值的實證數據，特別是在規模化（scaling）方面。其中有幾項貢獻，我認為對實務工作者特別有啟發：

首先，Tulu 2 團隊首次證實了直接偏好優化（DPO）可擴展至 70B 模型。傳統上，透過人類回饋進行強化學習（RLHF）的流程複雜且成本高昂。史丹佛大學提出的直接偏好優化（Direct Preference Optimization, DPO）是一種更簡潔的替代方案。Tulu 2 團隊首次成功將 DPO 應用在 Llama 2-70B 這樣規模的模型上，並取得優異成果。這證明了 DPO 不僅是個理論上優雅的方法，在實務上也具備擴展到業界主流模型規模的潛力，大幅降低了對齊（alignment）的門檻。

其次，Tulu 2 提供了至今最清晰的 PEFT 與全參數微調規模化比較。在資源有限的情況下，參數效率微調（PEFT, e.g., LoRA）是個熱門選項。但它與耗費資源的全參數微調（full-parameter fine-tuning）之間，效能差距究竟有多大？實驗結果顯示，雖然全參數微調整體表現仍是最好，但 PEFT 方法已經能夠達到極具競爭力的水準，這為不同運算資源等級的開發者提供了明確的決策依據。

最後，團隊對資料集混合進行了深度探索。模型的能力很大程度上取決於微調資料的品質與組成。Tulu 2 團隊對多個公開指令資料集（如 Flan v2, oasst1, code_alpaca 等）進行了細緻的分析與混合實驗。這份「小型綜述」本身就極具價值，它揭示了不同類型資料對模型在特定能力（如程式編寫、長文問答）上的影響，強調了建立高品質、多樣化資料集的重要性。

值得一提的是，團隊甚至在當時並非最強的 CodeLlama 模型上投入大量心力進行實驗。這背後的邏輯是，這套微調與評估的「系統」本身比單一模型的成敗更重要。一旦這套系統被驗證有效，未來當更強的基礎模型（例如 Llama 3 的程式碼版本）出現時，就能迅速將其能力最大化。

為什麼「評估」是開放模型最容易被忽略的環節？

一個好的模型，需要一個好的評估體系來證明。然而，在追求 Open LLM Leaderboard 分數的競賽中，我們很容易陷入「指標最佳化」的陷阱，而忽略了模型在真實世界中的綜合表現。

Tulu 2 在這方面做出了很好的示範。在當時主流排行榜還相對單一時，他們就採用了更廣泛、更多元的評估套件，涵蓋了程式編寫、數學推理、事實問答甚至模型安全性等多個面向。這種多維度的評估框架，能更全面地反映模型的真實能力，避免模型只為了在特定選擇題格式的考試（如 MMLU）中取得高分，卻在實際的生成任務中表現不佳。

單一的排行榜分數可能會產生誤導。一個模型或許擅長應付考試，但在生成有用、無害且具備創造力的內容方面卻可能有所欠缺。建立一套涵蓋多種任務類型與互動模式的綜合評估標準，是確保模型穩健發展的必要前提。

這提醒我們，評估標準的建立本身就是模型開發中至關重要的一環。一個成熟的 AI 開發團隊，其評估體系必須與模型微調、資料迭代緊密結合，形成一個不斷回饋、修正的閉環系統。

從 Tulu 2 到 OLMo：開放社群的下一步是什麼？

Tulu 2 的所有經驗與教訓，最終都將匯流至 AI2 的下一個大型專案：OLMo (Open Language Model)。OLMo 的目標是打造一個真正「完全開放」的模型生態系——不僅開放模型權重，更開放完整的訓練資料、訓練程式碼、實驗日誌與評估工具。

這代表著一種典範轉移。過去，我們從公司或研究機構那裡得到的是一個訓練好的「成品」。未來，我們得到的將是一整套可複製、可檢驗的「生產線」。這使得社群不僅能「使用」模型，更能「理解」和「改進」模型的誕生過程。

總結來說，Tulu 2 的貢獻不在於它又創造了一個 SOTA 模型，而在於它為開放社群釐清了前進的方向。大型模型的競爭，正從一場資源密集的軍備競賽，轉向一場關於工程、科學與系統化能力的馬拉松。誰能率先建立起高效、透明、可複製的「模型適應」系統，誰就將在這場馬拉松中佔據最有利的位置。

從 Tulu 2 看見開放模型的真正護城河：微調與評估的系統化能力

江中喬

Tulu 2 專案：不只是一個模型，而是一套方法論

Tulu 2 如何驗證了高效微調的規模化路徑？

為什麼「評估」是開放模型最容易被忽略的環節？

從 Tulu 2 到 OLMo：開放社群的下一步是什麼？

延伸閱讀

Sign up for more like this.