我們以為在教模型變聰明，其實很多時候只是在教它怎麼說話

很多團隊把模型表現不穩，直覺歸咎於微調不夠或對齊資料不足。但 LIMA 這篇研究提醒我：真正該被重新思考的，不只是訓練方法，而是我們如何分辨能力問題、表達問題與系統問題。

江中喬

18 4月 2026 • 7 min read

當我們談 AI 系統進步時，很容易把注意力放在 instruction tuning、alignment，或更多人工標註資料上。

這條路當然重要，但我最近越來越強烈的一個感受是：很多時候，我們以為自己在讓模型變聰明，實際上做的事，更像是在教它怎麼把原本就有的能力表達出來。

很多團隊把模型表現不穩，直覺歸咎於微調不夠或對齊資料不足。但真正該被重新思考的，不只是訓練方法，而是我們如何分辨能力問題、表達問題與系統問題。

LIMA 這篇研究之所以值得注意，不只是因為它做出了一個「少量資料也能有不錯效果」的案例，而是它重新挑戰了一個很多人默默接受的前提：高品質對齊，真的一定要靠海量 instruction data 與複雜的 RLHF 流程嗎？

先講結論：LIMA 真正刺中的問題是什麼？

LIMA 的設定很簡潔：

基座模型是 65B 的 LLaMA
訓練方式是標準 supervised fine-tuning
資料量只有 1000 組精選 prompt-response
沒有使用 RLHF
沒有人類偏好建模的大規模流程

但它仍然展現出相當強的表現。更重要的是，它給出了一個清楚訊號：大模型的大部分知識，很可能早在 pretraining 階段就已經學進去了；後續的 instruction tuning，更多是在教它如何把能力表達成使用者想要的樣子。

這會改變我們看待模型問題的方式

我覺得很多團隊最容易混淆的，是下面這兩件事：

模型知道什麼
模型怎麼把它知道的東西說出來

表面上這兩件事很像，但工程上它們不是同一層問題。實務裡常見的失敗，不一定是模型完全不懂，而更常是：

不知道該用什麼格式回答
不知道這個場景裡哪些資訊該先講
不會把輸出收斂到你要的風格
不會在多步工作流中穩定表現

這些問題，有些跟知識有關，但很多其實更接近表達介面與系統安排。

圖 1｜AI 系統能力的三層分工：基礎能力、行為對齊與工作流架構

把問題拆開來看，很多判斷就會不一樣

如果從系統建構的角度來看，至少可以把 AI 產品中的問題拆成三層。

第一層：Pretraining

知識邊界
世界模型
泛化能力
基本語言與推理底盤

第二層：Fine-tuning / Alignment

回答風格
指令遵循
格式穩定度
任務偏好與回應傾向

第三層：System Design

檢索
工具調用
記憶
工作流控制
輸出驗證
權限與風險邊界

真正容易出錯的地方在於：很多團隊會把原本屬於第三層的問題，誤判成第二層，最後再把它們一股腦地丟回微調流程。

一張表看懂三層分工

層次	主要解決的問題	最常見誤判
Pretraining	模型知道多少、能泛化到哪裡	以為後續微調可以補齊基座能力缺口
Fine-tuning	模型怎麼回、怎麼遵守格式、怎麼貼近任務	把它當成萬能能力增強器
System Design	模型如何在真實流程中可靠工作	以為只要模型更強，工作流問題自然會消失

Agent 時代，這個問題只會更明顯

到了 agent workflow 的場景，LIMA 這種提醒變得更重要。因為 agent 系統失敗時，最常見的誤判就是：只要把模型再調得更好一點，問題就會消失。

但真實情況通常不是這樣。一個 agent 系統失敗，常常可能來自四種不同來源：

模型本體能力不足
任務說明不清
檢索或工具層有缺口
狀態管理、handoff 或記憶設計不完整

只有第一種問題，主要該交給更強的 base model 或真正必要的訓練去處理。後面三種，如果全部丟給 fine-tuning，最後通常只會得到一個昂貴而脆弱的補丁系統。

與其問要不要再微調，不如先問這四件事

這是知識不足，還是輸出失真？ 模型是真的不知道，還是只是沒有用對方式回答？
這是模型問題，還是上下文問題？ 很多失敗其實來自 prompt 組裝錯誤、資訊缺漏，或檢索內容不足。
這是單輪回答問題，還是 workflow 問題？ 在 agent 系統裡，問題常常出在多步任務拆解、handoff 或狀態延續，而不在單次回應。
這個問題，真的值得用訓練成本解嗎？ 如果規則、檢索、工具鏈或驗證層就能處理，那未必需要先進入昂貴的訓練流程。

圖 2｜當模型表現不穩時，應先判斷是哪一層出問題，而不是直接走向微調

我認為很多團隊的資源配置順序其實反了

LIMA 還讓我重新確認一件事：很多 AI 團隊太早投資在後訓練，太晚投資在系統層。因為後訓練看起來最像「真的在教模型新東西」，但很多真正影響產品穩定性的問題，其實來自更基礎的系統安排。

上下文怎麼組
任務怎麼拆
哪些資訊該檢索
哪些輸出要驗證
哪些步驟需要 human-in-the-loop
什麼時候應該讓模型停下來而不是繼續猜

如果這些事情都還沒做好，就先把大量資源壓在微調與標註上，很多時候只是在用更貴的方法，掩蓋架構上本來該被正面處理的問題。

對產品與架構決策來說，這比論文本身更重要

如果把 LIMA 當成一篇純研究結果，最容易記住的是：少量高品質資料也可能有效。但如果把它放回 AI 系統建構的脈絡裡，我覺得真正有價值的是另一個結論：好的 AI 團隊，不只是會做 alignment，而是知道什麼問題應該交給哪一層解。

結語

很多時候，我們不是把模型訓練得更強，而是終於比較懂得怎麼把它原本已有的能力用對地方。如果模型的大部分知識，早在 pretraining 階段就已經形成，那我們後續真正該做的，往往不是盲目堆疊更多對齊流程，而是更成熟地設計：什麼時候該喚起它、什麼時候該限制它、什麼時候該驗證它，以及什麼時候該把問題交給工具、檢索或工作流來解。

AI 時代真正稀缺的，不只是能訓練模型的人，而是能正確分配模型、資料、工具與流程角色的人。

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。