超越單一模型的神話:如何用 FrugalGPT 思維,打造兼顧成本與準確度的次世代 AI 系統
當我們還在追逐最強大的單一 LLM 時,真正的系統優化競賽早已轉向。本文將探討如何透過智慧路由與模型組合,在不犧牲準確度的前提下,大幅降低 AI 系統的營運成本,實現效能與成本的最佳平衡。
在建構大型語言模型(LLM)應用時,我們常陷入一個迷思:要追求頂尖效能,就必須承擔高昂的運算成本。然而,我認為下一代 LLM 系統的關鍵優化,或許不在於尋找單一最強模型,而是學會如何聰明地「路由」與「組合」多個模型。透過一套動態分工的策略,我們不僅能達到與頂尖模型(如 GPT-4)相當的準確率,更能將成本降低達 98%,徹底擺脫效能與成本的二元對立。這不只是理論,而是已經被具體實踐的系統思維,也是所有 AI 產品建構者都應該關注的方向。
為什麼「單一最強模型」的思維有其極限?
過去幾年,我們見證了 LLM 規模與能力的爆炸性成長,從 GPT-3 到 GPT-4,再到各家推出的旗艦模型,大家都在追逐 SOTA(State-of-the-art)的效能指標。但這種軍備競賽的背後,是急速膨脹的 API 呼叫費用與維運成本。一個簡單的事實是:最強大的模型,通常也是最昂貴、最慢的。
然而,並非所有任務都需要動用「核武級」的模型。一個簡單的文本分類、摘要或情緒分析任務,或許用一個輕量級的開源模型就能完美解決,成本可能只有 GPT-4 的百分之一。如果我們的系統架構僵化,只能選擇單一模型來應對所有請求,那無疑是在用牛刀殺雞,造成巨大的資源浪費。這種「一體適用」(one-size-fits-all)的作法,正是導致許多 AI 應用難以規模化、難以獲利的根本原因之一。
當我們將視角從「模型」拉高到「系統」,就會發現真正的挑戰在於:如何為每一個進來的請求,動態匹配最適合、最具成本效益的模型?
FrugalGPT:一個務實的組合式解決方案
史丹佛大學在 2023 年 5 月發表的一篇論文 FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance,就針對這個問題提出了一個極具啟發性的框架。它不僅是一個理論,更是一套可以動手實作的策略,目標就是在不犧牲品質的前提下,最大化地降低成本。
FrugalGPT 的核心精神在於:沒有一個模型是萬能的,但一個聰明的「調度系統」可以逼近萬能。
這個框架主要包含了三種核心策略,它們可以獨立或組合使用:
- 提示適應 (Prompt Adaptation):這是最簡單的一招。有時候,一個較弱的模型無法理解複雜的提示,但只要稍微改寫、簡化或提供更清晰的範例(few-shot prompting),它就能給出正確答案。與其直接升級模型,不如先試著優化提示,這幾乎沒有額外成本。
- 模型近似 (Model Approximation):我們可以利用一個強大但昂貴的模型(例如 GPT-4)作為「老師」,來微調或訓練一個小巧、便宜的「學生」模型。當系統接到大量重複性高或相似的請求時,就可以讓這個學生模型來處理,只有在遇到它無法解決的新問題時,才去請教老師模型。這本質上是一種智慧快取(intelligent caching)機制。
- 模型串聯 (Model Cascading):這是我認為最實用、也最能體現「路由」精神的策略。作法是建立一個由廉價到昂貴的模型序列。當一個請求進來時,系統會先把它交給最便宜的模型。如果該模型的回應信心度高於某個預設閾值,就直接採用其答案;如果信心度不足,系統就自動將請求「升級」到下一個更強大、也更昂貴的模型。這個過程會一直持續下去,直到某個模型給出足夠可信的答案,或最終交由最強的「兜底」模型處理。
透過這三種策略的組合,FrugalGPT 的實驗結果顯示,它能夠在多項任務上達到與 GPT-4 幾乎相同的準確率,但整體成本卻能驚人地降低 98%。這個數字證明了,智慧的系統設計遠比盲目追求最強模型來得更重要。
如何將這種「組合式」思維擴展到系統架構?
FrugalGPT 的概念其實並不孤單,它反映了整個領域從「單體式 AI」走向「分散式、協作式 AI」的趨勢。這種「讓對的工具做對的事」的哲學,在其他研究中也屢見不鮮。
例如,近年來在大型模型架構中非常流行的 Mixture-of-Experts (MoE) 架構,其內核思想就與模型串聯非常相似。MoE 模型(如 Google 的 Switch Transformers)內部包含了多個「專家子網路」,一個路由網路會根據輸入的 token 決定要啟動哪個或哪些專家來處理。這就像是在模型內部建立了一個 FrugalGPT,動態調配運算資源。
另一個相關的研究是 LLM-Blender,它探討如何將多個不同 LLM 的輸出結果進行「融合」(ensemble),以產生比任何單一模型都更好的答案。這又是另一種形式的組合策略,著重於後端的答案整合,而非前端的請求路由。
甚至在更底層的推論優化(inference optimization)層面,像 Speculative Decoding 這樣的技術,也是利用一個小模型來預測大模型的輸出,以加速整體生成速度,這同樣蘊含了大小模型協同工作的思想。
對我們這些 AI 系統的建構者而言,這意味著思考的重心需要轉移。我們不該再問「哪個模型最好?」,而應該開始問「我該如何建立一個能動態調度多個模型的系統,來達成成本與效能的最佳平衡?」這需要我們更深入地理解業務場景,定義好品質的衡量標準,並設計出靈活、可擴展的路由與決策引擎。
最終,AI 應用的成熟度,將取決於我們能否駕馭一個由多樣化模型組成的「團隊」,而不是僅僅依賴某個單打獨鬥的「超級英雄」。
延伸閱讀
- FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance
- Mixture-of-Experts with Expert Choice Routing
- LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。