我們以為在教模型變聰明,其實很多時候只是在教它怎麼說話

很多團隊把模型表現不穩,直覺歸咎於微調不夠或對齊資料不足。但 LIMA 這篇研究提醒我:真正該被重新思考的,不只是訓練方法,而是我們如何分辨能力問題、表達問題與系統問題。

我們以為在教模型變聰明,其實很多時候只是在教它怎麼說話

當我們談 AI 系統進步時,很容易把注意力放在 instruction tuning、alignment,或更多人工標註資料上。

這條路當然重要,但我最近越來越強烈的一個感受是:很多時候,我們以為自己在讓模型變聰明,實際上做的事,更像是在教它怎麼把原本就有的能力表達出來。

很多團隊把模型表現不穩,直覺歸咎於微調不夠或對齊資料不足。但真正該被重新思考的,不只是訓練方法,而是我們如何分辨能力問題、表達問題與系統問題。

LIMA 這篇研究之所以值得注意,不只是因為它做出了一個「少量資料也能有不錯效果」的案例,而是它重新挑戰了一個很多人默默接受的前提:高品質對齊,真的一定要靠海量 instruction data 與複雜的 RLHF 流程嗎?

先講結論:LIMA 真正刺中的問題是什麼?

LIMA 的設定很簡潔:

  • 基座模型是 65B 的 LLaMA
  • 訓練方式是標準 supervised fine-tuning
  • 資料量只有 1000 組精選 prompt-response
  • 沒有使用 RLHF
  • 沒有人類偏好建模的大規模流程

但它仍然展現出相當強的表現。更重要的是,它給出了一個清楚訊號:大模型的大部分知識,很可能早在 pretraining 階段就已經學進去了;後續的 instruction tuning,更多是在教它如何把能力表達成使用者想要的樣子。

這會改變我們看待模型問題的方式

我覺得很多團隊最容易混淆的,是下面這兩件事:

  1. 模型知道什麼
  2. 模型怎麼把它知道的東西說出來

表面上這兩件事很像,但工程上它們不是同一層問題。實務裡常見的失敗,不一定是模型完全不懂,而更常是:

  • 不知道該用什麼格式回答
  • 不知道這個場景裡哪些資訊該先講
  • 不會把輸出收斂到你要的風格
  • 不會在多步工作流中穩定表現

這些問題,有些跟知識有關,但很多其實更接近表達介面與系統安排。

圖 1|AI 系統能力的三層分工:基礎能力、行為對齊與工作流架構

把問題拆開來看,很多判斷就會不一樣

如果從系統建構的角度來看,至少可以把 AI 產品中的問題拆成三層。

第一層:Pretraining

  • 知識邊界
  • 世界模型
  • 泛化能力
  • 基本語言與推理底盤

第二層:Fine-tuning / Alignment

  • 回答風格
  • 指令遵循
  • 格式穩定度
  • 任務偏好與回應傾向

第三層:System Design

  • 檢索
  • 工具調用
  • 記憶
  • 工作流控制
  • 輸出驗證
  • 權限與風險邊界

真正容易出錯的地方在於:很多團隊會把原本屬於第三層的問題,誤判成第二層,最後再把它們一股腦地丟回微調流程。

一張表看懂三層分工

層次主要解決的問題最常見誤判
Pretraining模型知道多少、能泛化到哪裡以為後續微調可以補齊基座能力缺口
Fine-tuning模型怎麼回、怎麼遵守格式、怎麼貼近任務把它當成萬能能力增強器
System Design模型如何在真實流程中可靠工作以為只要模型更強,工作流問題自然會消失

Agent 時代,這個問題只會更明顯

到了 agent workflow 的場景,LIMA 這種提醒變得更重要。因為 agent 系統失敗時,最常見的誤判就是:只要把模型再調得更好一點,問題就會消失。

但真實情況通常不是這樣。一個 agent 系統失敗,常常可能來自四種不同來源:

  1. 模型本體能力不足
  2. 任務說明不清
  3. 檢索或工具層有缺口
  4. 狀態管理、handoff 或記憶設計不完整

只有第一種問題,主要該交給更強的 base model 或真正必要的訓練去處理。後面三種,如果全部丟給 fine-tuning,最後通常只會得到一個昂貴而脆弱的補丁系統。

與其問要不要再微調,不如先問這四件事

  1. 這是知識不足,還是輸出失真? 模型是真的不知道,還是只是沒有用對方式回答?
  2. 這是模型問題,還是上下文問題? 很多失敗其實來自 prompt 組裝錯誤、資訊缺漏,或檢索內容不足。
  3. 這是單輪回答問題,還是 workflow 問題? 在 agent 系統裡,問題常常出在多步任務拆解、handoff 或狀態延續,而不在單次回應。
  4. 這個問題,真的值得用訓練成本解嗎? 如果規則、檢索、工具鏈或驗證層就能處理,那未必需要先進入昂貴的訓練流程。

圖 2|當模型表現不穩時,應先判斷是哪一層出問題,而不是直接走向微調

我認為很多團隊的資源配置順序其實反了

LIMA 還讓我重新確認一件事:很多 AI 團隊太早投資在後訓練,太晚投資在系統層。因為後訓練看起來最像「真的在教模型新東西」,但很多真正影響產品穩定性的問題,其實來自更基礎的系統安排。

  • 上下文怎麼組
  • 任務怎麼拆
  • 哪些資訊該檢索
  • 哪些輸出要驗證
  • 哪些步驟需要 human-in-the-loop
  • 什麼時候應該讓模型停下來而不是繼續猜

如果這些事情都還沒做好,就先把大量資源壓在微調與標註上,很多時候只是在用更貴的方法,掩蓋架構上本來該被正面處理的問題。

對產品與架構決策來說,這比論文本身更重要

如果把 LIMA 當成一篇純研究結果,最容易記住的是:少量高品質資料也可能有效。但如果把它放回 AI 系統建構的脈絡裡,我覺得真正有價值的是另一個結論:好的 AI 團隊,不只是會做 alignment,而是知道什麼問題應該交給哪一層解。

結語

很多時候,我們不是把模型訓練得更強,而是終於比較懂得怎麼把它原本已有的能力用對地方。如果模型的大部分知識,早在 pretraining 階段就已經形成,那我們後續真正該做的,往往不是盲目堆疊更多對齊流程,而是更成熟地設計:什麼時候該喚起它、什麼時候該限制它、什麼時候該驗證它,以及什麼時候該把問題交給工具、檢索或工作流來解。

AI 時代真正稀缺的,不只是能訓練模型的人,而是能正確分配模型、資料、工具與流程角色的人。


我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。