算力不是越多越好:Mixture-of-Depths 如何教我們聰明地「跳過」計算
傳統上,我們追求更強大的 AI 模型,總習慣無止盡地堆疊算力。然而,Google DeepMind 的最新研究《Mixture-of-Depths》提出了一種更聰明的途徑:讓模型動態決定哪些計算值得投入,哪些可以直接跳過。這種「選擇性計算」的思維,不僅能將推理速度提升超過 50%,更為下一代 AI 的效率與成本效益指出了明確方向,預示著算力運用模式的典範轉移
追求更強大的語言模型,長久以來似乎等同於不斷堆疊更多的運算層與 FLOPs。然而,這種以力大磚飛為核心的暴力美學,正逐漸觸碰到成本與延遲的物理天花板。下一代模型優化的關鍵,或許不再是無差別地灌滿算力,而是讓算力像智慧的活水,只流向真正值得深思熟慮的位置。Google DeepMind 的一篇新論文,便為這個「選擇性計算」的典範轉移,提供了一個極具說服力的實證,展示了如何透過動態分配資源,在不犧牲品質的前提下,大幅提升模型效率。
為什麼「所有 token 都平等」是個昂貴的假設?
自從 Attention Is All You Need 論文問世以來,Transformer 架構已成為現代 AI 的基石。其核心設計有個隱含的假設:輸入序列中的每一個 token,在模型的每一層都應受到同等的計算對待。無論是一個句子的主詞、動詞,還是一個無關緊要的連接詞或標點符號,它們都必須完整地通過數十甚至上百個 Transformer block 的轉換。
這個「計算民主」的原則雖然確保了模型的表達能力,但也帶來了巨大的浪費。想像一下,在處理一篇長文時,某些段落的核心概念可能只需要在模型的深層進行精細推理,而許多補充說明的細節,或許在淺層網絡就已處理完畢。讓所有 token 在所有層級都消耗同樣的 FLOPs,就像要求一位資深經理對每一封郵件——無論是來自 CEO 的緊急指令還是無關緊要的行銷通知——都投入相同的時間與精力進行分析。這顯然是低效的。
當模型規模持續擴張,這種無差別的計算模式,正是造成訓練成本高昂與推理延遲過高的主因之一。
Mixture-of-Depths 是什麼?它如何讓模型學會「挑重點」?
為了解決這個問題,Google DeepMind 的研究者們提出了 Mixture-of-Depths (MoD) 架構。其核心思想非常直觀:與其強迫每個 token 通過所有層,不如讓模型在每一層動態地決定,哪些 token 值得投入完整的計算資源,而哪些可以「跳過」。
MoD 的實現方式是在每個 Transformer block 中加入一個輕量級的「路由器」(router network)。這個路由器的任務很簡單:評估當前層的所有 token,並從中選出「最重要」的 top-k 個。只有這 k 個被選中的 token 會進入該層計算最密集的 Feed-Forward Network (FFN) 進行深度處理。其餘的 token 則會直接透過殘差連接(residual connection)跳到下一層,幾乎不消耗額外的計算資源。
實驗結果相當驚人。在與標準 Transformer 模型擁有相同參數數量與訓練 FLOPs 的前提下,採用 MoD 架構的模型在推理時,由於只需計算部分 token,其前向傳遞(forward pass)所需的 FLOPs 大幅降低,從而實現了超過 50% 的推理速度提升。這證明了,只要分配得當,我們並不需要讓所有算力都投入運作,也能達到相近甚至更好的模型品質。
這與 Mixture-of-Experts (MoE) 有何不同?
看到動態路由,許多人可能會立刻聯想到 Mixture-of-Experts (MoE),例如 Mixtral 8x7B 所採用的架構。雖然兩者都屬於「條件式計算」(conditional computation)的範疇,但它們的運作維度截然不同。
- Mixture-of-Experts (MoE):處理的是模型的「寬度」。在同一層中,它會為 token 選擇一或多個「專家」(即不同的 FFN 權重集)來進行處理。這就像為一個問題指派最適合的領域專家。所有 token 都會被處理,只是由不同的專家來處理。
- Mixture-of-Depths (MoD):處理的是模型的「深度」。它決定一個 token 是否值得在「當前層級」進行深度計算。這更像是決定一個問題是否需要升級給更高層的專家,或者在當前層級就可以直接放行。
簡言之,MoE 決定的是「由誰算」,而 MoD 決定的是「算不算」。這兩種方法並非互斥,未來甚至可能結合,創造出在寬度和深度上都能動態分配算力的、更有效率的架構。
算力運用如何從暴力堆疊走向智慧分配?
Mixture-of-Depths 的意義不僅僅是另一種模型優化技巧,它更代表了一種思維上的轉變。過去,我們專注於如何把模型做得更大、更深,相信只要 FLOPs 夠多,能力就會湧現。現在,我們開始意識到,真正的智慧不在於擁有無限的算力,而在於如何高效地使用有限的算力。
這種「選擇性計算」的理念,為 AI 的未來發展帶來了許多實際的好處:
- 降低推理成本:對於需要大規模部署模型的企業而言,超過 50% 的速度提升意味著硬體成本與營運費用的顯著下降。
- 實現即時互動:更低的延遲讓複雜模型能應用於對話式 AI、即時翻譯、程式碼輔助等需要快速反應的場景。
- 賦能邊緣裝置:更有效率的模型,意味著未來更強大的 AI 或許能直接在手機、筆電甚至汽車等終端裝置上運行,而無需完全依賴雲端。
從稠密模型到 MoE,再到現在的 MoD,我們看到一條清晰的演進路線:從無差別的暴力計算,走向基於輸入內容動態調整的、精細化的資源分配。這不僅是技術上的演進,更是我們對「智慧」本質理解的深化——真正的智慧,或許就體現在這種權衡與取捨的能力之中。
延伸閱讀
- Mixture-of-Depths: Dynamically allocating compute in transformer-based language models (arXiv)
- Mixture of Experts Explained (Hugging Face Blog)
- Attention Is All You Need (arXiv)
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。