微調不是唯一解:用模組化思維組合 LLM,打造可擴展的 AI Agent 能力庫
傳統上,擴展 LLM 能力總想到微調,但這不僅成本高昂,還可能讓模型「忘記」原有知識。Google DeepMind 的最新研究提出了一種革命性思維:將 LLM 視為可組合的模組,透過「增強」而非「修改」來擴展能力。這不只是一項技術突破,更是為 AI Agent 打造靈活技能庫的未來藍圖。
擴展大型語言模型(LLM)的能力,直覺上總會想到微調(fine-tuning)。然而,這條路徑不僅成本高昂,更潛藏著「災難性遺忘」的風險,可能讓模型為了學習新技能而犧牲原有的通用知識。我認為,一個更具擴展性與未來性的方向,是將模型視為可組裝的模組。透過組合而非修改,我們不僅能低成本地擴增特定能力,更重要的是,這套思維模式更接近未來 AI Agent 所需的動態技能庫與能力組合工程,為建構更複雜、更穩定的 AI 系統鋪平了道路。
為什麼微調是一把雙面刃?
微調是目前擴展 LLM 能力最主流的方法之一,它透過在特定任務的資料集上繼續訓練預訓練好的模型,使其適應特定領域。例如,我們可以微調一個通用模型,來提升它在法律文件分析或醫療報告撰寫上的表現。然而,這個看似直接的過程,卻存在兩個核心痛點:
- 災難性遺忘(Catastrophic Forgetting):當模型權重為了適應新任務而更新時,它可能會遺忘或削弱在預訓練階段學到的通用知識。想像一個精通法律術語的模型,卻因此失去了原本流暢的創意寫作能力,這就是災難性遺忘的寫照。這使得維護一個「全能」模型變得極其困難,我們往往需要為不同任務維護不同版本的微調模型,管理成本也隨之飆升。
- 高昂的運算成本:即使是使用像 LoRA 這樣的參數效率微調(Parameter-Efficient Fine-Tuning, PEFT)技術,對數十億甚至百億參數的模型進行訓練,依然需要大量的 GPU 資源與時間。對於需要快速迭代、實驗多種新能力的團隊來說,這無疑是一筆巨大的開銷。
這些限制不禁讓我們思考:有沒有一種方法,可以在不「傷害」基礎模型的前提下,為其「附加」新的能力,而不是修改它?
CALM 框架如何實現模組化增強?
Google DeepMind 研究者發表的一篇論文《LLM Augmented LLMs: Expanding Capabilities through Composition》,提出了一個名為 CALM(Composition to Augment Language Models)的框架,完美地回應了這個問題。CALM 的核心思想非常直觀:與其修改一個大型基礎模型,不如訓練一個小型的、特定任務的「增強模型」(augmenting model),並讓它與保持「凍結」的基礎模型協同工作。
CALM 的運作機制是什麼?
這個巧妙的協作機制,是透過在基礎模型的每一層中插入輕量的「跨注意力」(cross-attention)模組來實現的。運作流程大致如下:
- 基礎模型(Base LLM):一個大型的、通用的預訓練模型,例如 Llama-2 7B。在 CALM 框架下,它的所有權重都保持凍結,確保其龐大的世界知識與通用能力絲毫不受影響。
- 增強模型(Augmenting LLM):一個規模小得多的模型(例如 1.3B 參數),專門針對某個特定任務(如程式碼生成)進行訓練。
- 跨注意力層:作為兩者之間的橋樑。在生成每一個 token 時,增強模型會先處理上下文,並將其隱藏狀態(hidden states)傳遞給跨注意力層。基礎模型則透過這些注意力層「參考」增強模型的專業知識,從而生成更精準的輸出。
整個訓練過程中,只有增強模型和跨注意力層的權重會被更新。這就像一位經驗豐富的通才(基礎模型)在處理專業問題時,旁邊有一位年輕的專家(增強模型)隨時提供顧問建議,而這位通才無需改變自己的知識體系,就能整合專家的洞見。這種「增強」而非「修改」的策略,正是 CALM 的精髓所在。
我們正在從「訓練一個萬能模型」的思維,轉向「建構一個由專家模型協作的系統」。CALM 的方法,正是這個轉變中一個具體而微的實踐。
組合式擴展在實務上有哪些優勢?
CALM 的架構不僅在理論上優雅,實驗結果也證明了其在實務上的巨大潛力。研究團隊在低資源語言翻譯和程式碼生成這兩項截然不同的任務上進行了測試,成果斐然。
CALM 如何提升程式碼生成能力?
以程式碼生成任務為例,研究團隊使用 Code Llama 7B 作為基礎模型,並訓練了一個僅 1.3B 參數的增強模型。在權威的 HumanEval 基準測試中,標準的 Code Llama 7B 模型 pass@1 分數為 29.9%。透過 CALM 框架增強後,這個數字顯著提升到了 33.5%。這 3.6 個百分點的提升,是在完全不改動原始 70 億參數模型的前提下實現的,其成本效益遠超傳統微調。
模組化思維如何重塑 AI Agent 的未來?
更重要的是,這種模組化的方法為 AI 系統的工程實踐帶來了新的想像。我們可以建立一個「能力市集」,其中包含各種針對不同專業領域的增強模型:一個用於 SQL 生成、一個用於生物醫學文獻分析、另一個用於特定 API 的呼叫。當 AI Agent 需要執行某項任務時,它可以動態地載入並組合相應的增強模型來「增強」其基礎能力。
這不僅大幅降低了開發與維護成本,也讓 Agent 的能力擴展變得前所未有的靈活。這種思維與近年來流行的混合專家模型(Mixture of Experts, MoE)架構遙相呼應,但又更具靈活性。MoE 是在模型內部建構專家網路,而 CALM 則是在模型外部進行能力組合,讓系統設計者擁有更高的自由度。
從模型訓練到系統建構,我們正在見證一場深刻的範式轉移。未來,衡量一個 AI 系統能力的標準,或許不再只是其基礎模型的參數大小,更是其動態組合、調用各種專業模組的架構設計與工程智慧。
延伸閱讀
- Bansal, R., et al. (2024). LLM Augmented LLMs: Expanding Capabilities through Composition. arXiv:2401.02412.
- Hu, E. J., et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。