mk-brain

不只堆疊更多層：當模型架構本身成為可學習的設計空間

深度學習的未來，不再只是堆疊更多層或餵養更多資料。一篇名為《Deep Delta Learning》的開創性研究，正引領我們重新思考模型架構的本質：當殘差連接不再是固定的「加法」，而是可學習的「動態變換」，資訊流動的路徑本身，也能成為模型學習的設計空間。這不僅提升了模型效能，更預示著一個模型結構能自我演化的新時代。

江中喬

28 5月 2026 • 7 min read

近年來，AI 模型的顯著進步，已不再單純依賴規模或資料量，而是源於對其內部結構的根本性反思。過去被視為固定不變的連接方式，例如殘差連接，正逐漸被重新參數化，成為可學習、動態調整的設計空間。一篇名為《Deep Delta Learning》的研究便是一個絕佳例證，它將資訊流動從固定的「加法」轉變為可控的「變換」，這不僅提升了模型效能，更預示著一個模型架構本身即是學習目標的新方向。

為什麼我們需要重新思考殘差連接？

要理解這項轉變的意義，我們得先回到 2015 年。當時，Kaiming He 等人提出的 ResNet (Residual Network) 徹底改變了深度學習的遊戲規則。在 ResNet 出現之前，單純地堆疊更多神經網路層數，往往會導致「網路退化」（degradation）問題——更深的模型在訓練集上的表現反而更差，這並非源於過擬合，而是因為梯度在反向傳播過程中難以有效地流動。

ResNet 的核心洞見極其簡潔：與其讓每一層去學習一個完整的特徵映射 H(x)，不如讓它去學習一個殘差函數 F(x) = H(x) - x。如此一來，原始的映射就變成了 F(x) + x。這個「+ x」的恆等映射（identity mapping）被稱為殘差連接或捷徑（shortcut connection），它允許梯度直接跳過某些層，暢通無阻地向後傳播，從而讓我們能夠成功訓練數百甚至上千層的深度網路。

這個設計幾乎成為了現代深度學習模型的標準配備，從卷積網路到 Transformer，無處不見其身影。它提供了一個強大的歸納偏誤（inductive bias）：預設情況下，最簡單的資訊傳遞方式就是直接複製貼上。然而，當我們處理日益複雜的任務時，這個固定的「捷徑」也可能成為一種限制。

固定的「捷徑」設計，會帶來哪些潛在限制？

標準的殘差連接本質上是一個固定的、非參數化的操作。它假設，對於每一層的輸入 x，最好的基線（baseline）轉換就是恆等轉換。換句話說，它假設前一層的表示（representation）應該被無損、無修改地傳遞到下一層，而新的計算（F(x)）只是在這個基礎上進行微調。

這個假設在很多情況下是有效的，但並非總是最佳解。在處理複雜的隱狀態轉移（hidden state transition）時，模型可能需要的不只是一個簡單的「加法」。例如，它可能需要縮放（Scaling）某些特徵的重要性，將其放大或縮小；或者在表示空間中進行旋轉（Rotation），以調整特徵之間的方向關係；甚至需要執行濾波（Filtering），選擇性地保留或遺忘前一層的部分資訊。

傳統的殘差連接無法直接對「捷徑」本身進行這些精細操作。所有這些調整都必須由 F(x) 這個非線性區塊來完成，這無疑增加了它的學習負擔。如果我們能讓捷徑本身變得更「聰明」，情況會不會有所不同？

Deep Delta Learning 如何將連接「動態化」？

這正是《Deep Delta Learning》(DDL) 這篇研究試圖解決的問題。它的核心思想是將固定的恆等映射，替換成一個可學習的、與狀態相關的線性算子（a learnable, state-dependent linear operator）。

想像一下，原本的殘差塊是 x_next = x_current + F(x_current)，其中 x_current 是當前層的輸入，F(x_current) 則是該層學習到的新資訊。

在 DDL 的框架下，這個公式被巧妙地泛化為 x_next = A(x_current) * x_current + F(x_current)。這裡的關鍵在於 A(x_current)，它不再是一個固定的恆等矩陣，而是一個由當前狀態 x_current 動態生成的矩陣（或算子）。這個算子能夠學習執行更複雜的線性變換，例如前面提到的縮放、旋轉等。論文中將其描述為一種可控的「譜變換」（spectral transformation），意即它可以靈活地調整表示向量在頻譜上的分佈。

透過將殘差連接從一個靜態的結構，轉變為一個動態的、可參數化的函數，DDL 賦予了模型根據上下文，自行決定如何傳承與轉換歷史資訊的能力。

這意味著，資訊流動的路徑不再是預先焊死的電路，而更像一個由訊號本身控制的智慧路由器。實驗結果顯示，在 Transformer 語言模型中應用 DDL，相較於傳統的殘差連接，能夠在驗證集（validation set）上取得更好的效能。

這證明了在不增加過多計算成本的前提下，賦予模型結構更多靈活性，確實能帶來實質的效益。

從固定結構到可學習的資訊流：這股趨勢如何體現？

DDL 的概念並非孤例，它反映了一個更宏大的趨勢：將深度學習的設計重心，從單純堆疊同質化的計算單元，轉向設計更具表達力的、可學習的資訊流動機制。

我們可以從其他幾個成功的架構中看到類似的哲學。例如，注意力機制（Attention Mechanism），作為Transformer 的核心，本質上就是一種動態的連接機制。它讓模型在每個時間步，根據當前的查詢（Query），學習一個加權平均，決定要從輸入序列的哪些部分「讀取」資訊，其連接權重是動態計算而非固定的。

此外，門控架構（Gated Architectures）也早已出現。早在 1997 年的 LSTM 中，就已經透過「門」（gate）來學習控制資訊流動（保留、遺忘、輸出），讓循環神經網路能更好地處理長期依賴問題。

而專家混合模型（Mixture of Experts, MoE）則更進一步，其中一個「門控網路」（gating network）會學習將每個輸入 token 動態地路由到最適合處理它的「專家」子網路。這種將計算路徑參數化的方法，最早可以追溯到 1991 年的研究。

這些方法的共同點，在於它們都放棄了「一刀切」的固定結構，轉而讓模型自行學習如何根據輸入來配置內部連接或計算路徑。這不僅提升了模型的容量與效率，也使其更具解釋性與彈性。

DDL 的貢獻，在於將這個思想應用到了深度學習中最基礎、最普遍的殘差連接上。它提醒我們，許多我們習以為常的架構設計，或許都還存在著被「參數化」的空間。未來的模型進步，可能不只來自於更大的模型，更來自於對這些基礎結構的深刻洞察與重新發明。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

為什麼我們需要重新思考殘差連接？

固定的「捷徑」設計，會帶來哪些潛在限制？

Deep Delta Learning 如何將連接「動態化」？

從固定結構到可學習的資訊流：這股趨勢如何體現？

延伸閱讀

Sign up for more like this.