mk-brain

算力不是越多越好：Mixture-of-Depths 如何教我們聰明地「跳過」計算

傳統上，我們追求更強大的 AI 模型，總習慣無止盡地堆疊算力。然而，Google DeepMind 的最新研究《Mixture-of-Depths》提出了一種更聰明的途徑：讓模型動態決定哪些計算值得投入，哪些可以直接跳過。這種「選擇性計算」的思維，不僅能將推理速度提升超過 50%，更為下一代 AI 的效率與成本效益指出了明確方向，預示著算力運用模式的典範轉移

江中喬

27 5月 2026 • 6 min read

追求更強大的語言模型，長久以來似乎等同於不斷堆疊更多的運算層與 FLOPs。然而，這種以力大磚飛為核心的暴力美學，正逐漸觸碰到成本與延遲的物理天花板。下一代模型優化的關鍵，或許不再是無差別地灌滿算力，而是讓算力像智慧的活水，只流向真正值得深思熟慮的位置。Google DeepMind 的一篇新論文，便為這個「選擇性計算」的典範轉移，提供了一個極具說服力的實證，展示了如何透過動態分配資源，在不犧牲品質的前提下，大幅提升模型效率。

為什麼「所有 token 都平等」是個昂貴的假設？

自從 Attention Is All You Need 論文問世以來，Transformer 架構已成為現代 AI 的基石。其核心設計有個隱含的假設：輸入序列中的每一個 token，在模型的每一層都應受到同等的計算對待。無論是一個句子的主詞、動詞，還是一個無關緊要的連接詞或標點符號，它們都必須完整地通過數十甚至上百個 Transformer block 的轉換。

這個「計算民主」的原則雖然確保了模型的表達能力，但也帶來了巨大的浪費。想像一下，在處理一篇長文時，某些段落的核心概念可能只需要在模型的深層進行精細推理，而許多補充說明的細節，或許在淺層網絡就已處理完畢。讓所有 token 在所有層級都消耗同樣的 FLOPs，就像要求一位資深經理對每一封郵件——無論是來自 CEO 的緊急指令還是無關緊要的行銷通知——都投入相同的時間與精力進行分析。這顯然是低效的。

當模型規模持續擴張，這種無差別的計算模式，正是造成訓練成本高昂與推理延遲過高的主因之一。

Mixture-of-Depths 是什麼？它如何讓模型學會「挑重點」？

為了解決這個問題，Google DeepMind 的研究者們提出了 Mixture-of-Depths (MoD) 架構。其核心思想非常直觀：與其強迫每個 token 通過所有層，不如讓模型在每一層動態地決定，哪些 token 值得投入完整的計算資源，而哪些可以「跳過」。

MoD 的實現方式是在每個 Transformer block 中加入一個輕量級的「路由器」（router network）。這個路由器的任務很簡單：評估當前層的所有 token，並從中選出「最重要」的 top-k 個。只有這 k 個被選中的 token 會進入該層計算最密集的 Feed-Forward Network (FFN) 進行深度處理。其餘的 token 則會直接透過殘差連接（residual connection）跳到下一層，幾乎不消耗額外的計算資源。

實驗結果相當驚人。在與標準 Transformer 模型擁有相同參數數量與訓練 FLOPs 的前提下，採用 MoD 架構的模型在推理時，由於只需計算部分 token，其前向傳遞（forward pass）所需的 FLOPs 大幅降低，從而實現了超過 50% 的推理速度提升。這證明了，只要分配得當，我們並不需要讓所有算力都投入運作，也能達到相近甚至更好的模型品質。

這與 Mixture-of-Experts (MoE) 有何不同？

看到動態路由，許多人可能會立刻聯想到 Mixture-of-Experts (MoE)，例如 Mixtral 8x7B 所採用的架構。雖然兩者都屬於「條件式計算」（conditional computation）的範疇，但它們的運作維度截然不同。

Mixture-of-Experts (MoE)：處理的是模型的「寬度」。在同一層中，它會為 token 選擇一或多個「專家」（即不同的 FFN 權重集）來進行處理。這就像為一個問題指派最適合的領域專家。所有 token 都會被處理，只是由不同的專家來處理。
Mixture-of-Depths (MoD)：處理的是模型的「深度」。它決定一個 token 是否值得在「當前層級」進行深度計算。這更像是決定一個問題是否需要升級給更高層的專家，或者在當前層級就可以直接放行。

簡言之，MoE 決定的是「由誰算」，而 MoD 決定的是「算不算」。這兩種方法並非互斥，未來甚至可能結合，創造出在寬度和深度上都能動態分配算力的、更有效率的架構。

算力運用如何從暴力堆疊走向智慧分配？

Mixture-of-Depths 的意義不僅僅是另一種模型優化技巧，它更代表了一種思維上的轉變。過去，我們專注於如何把模型做得更大、更深，相信只要 FLOPs 夠多，能力就會湧現。現在，我們開始意識到，真正的智慧不在於擁有無限的算力，而在於如何高效地使用有限的算力。

這種「選擇性計算」的理念，為 AI 的未來發展帶來了許多實際的好處：

降低推理成本：對於需要大規模部署模型的企業而言，超過 50% 的速度提升意味著硬體成本與營運費用的顯著下降。
實現即時互動：更低的延遲讓複雜模型能應用於對話式 AI、即時翻譯、程式碼輔助等需要快速反應的場景。
賦能邊緣裝置：更有效率的模型，意味著未來更強大的 AI 或許能直接在手機、筆電甚至汽車等終端裝置上運行，而無需完全依賴雲端。

從稠密模型到 MoE，再到現在的 MoD，我們看到一條清晰的演進路線：從無差別的暴力計算，走向基於輸入內容動態調整的、精細化的資源分配。這不僅是技術上的演進，更是我們對「智慧」本質理解的深化——真正的智慧，或許就體現在這種權衡與取捨的能力之中。

算力不是越多越好：Mixture-of-Depths 如何教我們聰明地「跳過」計算

江中喬

為什麼「所有 token 都平等」是個昂貴的假設？

Mixture-of-Depths 是什麼？它如何讓模型學會「挑重點」？

這與 Mixture-of-Experts (MoE) 有何不同？

算力運用如何從暴力堆疊走向智慧分配？

延伸閱讀

Sign up for more like this.