不只堆疊更多層:當模型架構本身成為可學習的設計空間
深度學習的未來,不再只是堆疊更多層或餵養更多資料。一篇名為《Deep Delta Learning》的開創性研究,正引領我們重新思考模型架構的本質:當殘差連接不再是固定的「加法」,而是可學習的「動態變換」,資訊流動的路徑本身,也能成為模型學習的設計空間。這不僅提升了模型效能,更預示著一個模型結構能自我演化的新時代。
近年來,AI 模型的顯著進步,已不再單純依賴規模或資料量,而是源於對其內部結構的根本性反思。過去被視為固定不變的連接方式,例如殘差連接,正逐漸被重新參數化,成為可學習、動態調整的設計空間。一篇名為《Deep Delta Learning》的研究便是一個絕佳例證,它將資訊流動從固定的「加法」轉變為可控的「變換」,這不僅提升了模型效能,更預示著一個模型架構本身即是學習目標的新方向。
為什麼我們需要重新思考殘差連接?
要理解這項轉變的意義,我們得先回到 2015 年。當時,Kaiming He 等人提出的 ResNet (Residual Network) 徹底改變了深度學習的遊戲規則。在 ResNet 出現之前,單純地堆疊更多神經網路層數,往往會導致「網路退化」(degradation)問題——更深的模型在訓練集上的表現反而更差,這並非源於過擬合,而是因為梯度在反向傳播過程中難以有效地流動。
ResNet 的核心洞見極其簡潔:與其讓每一層去學習一個完整的特徵映射 H(x),不如讓它去學習一個殘差函數 F(x) = H(x) - x。如此一來,原始的映射就變成了 F(x) + x。這個「+ x」的恆等映射(identity mapping)被稱為殘差連接或捷徑(shortcut connection),它允許梯度直接跳過某些層,暢通無阻地向後傳播,從而讓我們能夠成功訓練數百甚至上千層的深度網路。
這個設計幾乎成為了現代深度學習模型的標準配備,從卷積網路到 Transformer,無處不見其身影。它提供了一個強大的歸納偏誤(inductive bias):預設情況下,最簡單的資訊傳遞方式就是直接複製貼上。然而,當我們處理日益複雜的任務時,這個固定的「捷徑」也可能成為一種限制。
固定的「捷徑」設計,會帶來哪些潛在限制?
標準的殘差連接本質上是一個固定的、非參數化的操作。它假設,對於每一層的輸入 x,最好的基線(baseline)轉換就是恆等轉換。換句話說,它假設前一層的表示(representation)應該被無損、無修改地傳遞到下一層,而新的計算(F(x))只是在這個基礎上進行微調。
這個假設在很多情況下是有效的,但並非總是最佳解。在處理複雜的隱狀態轉移(hidden state transition)時,模型可能需要的不只是一個簡單的「加法」。例如,它可能需要縮放(Scaling)某些特徵的重要性,將其放大或縮小;或者在表示空間中進行旋轉(Rotation),以調整特徵之間的方向關係;甚至需要執行濾波(Filtering),選擇性地保留或遺忘前一層的部分資訊。
傳統的殘差連接無法直接對「捷徑」本身進行這些精細操作。所有這些調整都必須由 F(x) 這個非線性區塊來完成,這無疑增加了它的學習負擔。如果我們能讓捷徑本身變得更「聰明」,情況會不會有所不同?
Deep Delta Learning 如何將連接「動態化」?
這正是《Deep Delta Learning》(DDL) 這篇研究試圖解決的問題。它的核心思想是將固定的恆等映射,替換成一個可學習的、與狀態相關的線性算子(a learnable, state-dependent linear operator)。
想像一下,原本的殘差塊是 x_next = x_current + F(x_current),其中 x_current 是當前層的輸入,F(x_current) 則是該層學習到的新資訊。
在 DDL 的框架下,這個公式被巧妙地泛化為 x_next = A(x_current) * x_current + F(x_current)。這裡的關鍵在於 A(x_current),它不再是一個固定的恆等矩陣,而是一個由當前狀態 x_current 動態生成的矩陣(或算子)。這個算子能夠學習執行更複雜的線性變換,例如前面提到的縮放、旋轉等。論文中將其描述為一種可控的「譜變換」(spectral transformation),意即它可以靈活地調整表示向量在頻譜上的分佈。
透過將殘差連接從一個靜態的結構,轉變為一個動態的、可參數化的函數,DDL 賦予了模型根據上下文,自行決定如何傳承與轉換歷史資訊的能力。
這意味著,資訊流動的路徑不再是預先焊死的電路,而更像一個由訊號本身控制的智慧路由器。實驗結果顯示,在 Transformer 語言模型中應用 DDL,相較於傳統的殘差連接,能夠在驗證集(validation set)上取得更好的效能。
這證明了在不增加過多計算成本的前提下,賦予模型結構更多靈活性,確實能帶來實質的效益。
從固定結構到可學習的資訊流:這股趨勢如何體現?
DDL 的概念並非孤例,它反映了一個更宏大的趨勢:將深度學習的設計重心,從單純堆疊同質化的計算單元,轉向設計更具表達力的、可學習的資訊流動機制。
我們可以從其他幾個成功的架構中看到類似的哲學。例如,注意力機制(Attention Mechanism),作為Transformer 的核心,本質上就是一種動態的連接機制。它讓模型在每個時間步,根據當前的查詢(Query),學習一個加權平均,決定要從輸入序列的哪些部分「讀取」資訊,其連接權重是動態計算而非固定的。
此外,門控架構(Gated Architectures)也早已出現。早在 1997 年的 LSTM 中,就已經透過「門」(gate)來學習控制資訊流動(保留、遺忘、輸出),讓循環神經網路能更好地處理長期依賴問題。
而專家混合模型(Mixture of Experts, MoE)則更進一步,其中一個「門控網路」(gating network)會學習將每個輸入 token 動態地路由到最適合處理它的「專家」子網路。這種將計算路徑參數化的方法,最早可以追溯到 1991 年的研究。
這些方法的共同點,在於它們都放棄了「一刀切」的固定結構,轉而讓模型自行學習如何根據輸入來配置內部連接或計算路徑。這不僅提升了模型的容量與效率,也使其更具解釋性與彈性。
DDL 的貢獻,在於將這個思想應用到了深度學習中最基礎、最普遍的殘差連接上。它提醒我們,許多我們習以為常的架構設計,或許都還存在著被「參數化」的空間。未來的模型進步,可能不只來自於更大的模型,更來自於對這些基礎結構的深刻洞察與重新發明。
延伸閱讀
- Deep Delta Learning
- Deep Residual Learning for Image Recognition (ResNet)
- Attention Is All You Need (Transformer)
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。