不改權重也能微調，logits 差異法的實用意義

logits 差異法用小模型學習微調偏差，讓多個輕量適配器共用同一個基礎模型，但推理延遲翻倍的代價需要認真評估。

11 4月 2026 • 3 min read

權重凍結微調的真正問題

傳統微調 LLM 的成本主要不在計算，而在部署。一旦微調，你得存儲新的權重檔案、管理版本、在推理時切換模型。如果要對同一個基礎模型做多個微調版本（不同任務、不同領域、不同客戶），複雜度會線性增長。

Sebastian Raschka 提到的這個方法試圖繞過這個問題：不動原模型的權重，只保存一個小模型的 logits 差異。

概念很直接：

這樣做的好處顯而易見：小模型的參數量可能只有基礎模型的 1-5%，存儲成本大幅下降。而且多個微調任務可以共用同一個基礎模型，只需要切換不同的小模型。

論文或推文通常只說「效能接近全量微調」，但沒講清楚的是：

延遲成本。推理時需要先跑一次基礎模型，再跑一次小模型，再做 logits 融合。這是兩次前向傳播。在端到端延遲敏感的場景（比如對話系統），這可能抵消掉存儲省下來的收益。

小模型的設計空間。小模型怎麼設計？它是簡單的線性層，還是有幾層 transformer？不同設計下，學習曲線和最終效能會差很多。我沒看到有系統的對比。

多任務干擾。如果基礎模型被多個小模型同時用，它們會互相影響嗎？或者基礎模型的 logits 分佈本身會因為不同小模型的訓練而漂移？

如果你的瓶頸確實是存儲和版本管理，而不是延遲，這個方向有意義。比如：

但如果延遲本身就是約束條件，兩次前向傳播可能是致命傷。

這不是新技術本身有問題，而是：每個優化都在交換什麼。這個方法交換的是推理速度換存儲效率。值不值得，得看你的實際約束。

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。