mk-brain

大型語言模型的推理能力，藏在遞迴與非線性之中

我們常以為更複雜的架構才能帶來更強的推理能力，但一篇新研究指出，真正的關鍵可能在於更底層的設計：遞迴結構與強非線性特徵。這不僅挑戰了主流的「暴力堆疊」思維，也為未來更高效、更具備可解釋性的模型指出了新方向。

江中喬

22 5月 2026 • 7 min read

大型語言模型（LLM）的推理能力，其真正的來源可能並非更深、更寬或更複雜的架構設計，而是更根本的計算結構。一篇名為《Universal Reasoning Model》的最新研究指出，模型的推理性能與其內部的「遞迴歸納偏置」（recursive inductive bias）以及「強非線性」（strong non-linearity）特徵有著密不可分的關係。這個發現的重要性在於，它將我們的注意力從單純追求模型規模與架構複雜度的軍備競賽，拉回到對計算本質的思考，為打造更高效、更具備通用推理能力的 AI 系統提供了新的理論基礎與實踐路徑。

為什麼我們該重新審視 Universal Transformers 的潛力？

自從 Attention Is All You Need 論文發表以來，Transformer 架構已成為自然語言處理（NLP）領域的基石。然而，標準 Transformer 採用固定深度的層級堆疊，每一層的參數都是獨立的。這種設計雖然強大，但在處理需要多步驟、迭代思考的複雜推理任務時，似乎顯得有些「僵化」，難以有效模擬人類的逐步推理過程。

這也讓一些研究者重新將目光投向了較早期的架構變體，例如由 Google Brain 團隊在 2018 年提出的 Universal Transformers (UTs)。UTs 的核心思想相當簡潔：它不像標準 Transformer 那樣堆疊數十個不同的區塊，而是讓模型在時間維度上，反覆使用「同一個」計算區塊來處理輸入序列。每一次的處理，都可以看作是對問題表徵的一次「精煉」（refinement）。這種設計天然地引入了遞迴（recursion）的特性，使其在理論上具備了圖靈完備的計算能力。

過去，UTs 並未成為主流，部分原因可能是其訓練穩定性與效率問題。然而，在當前這個追求通用推理能力的時代，UTs 內建的遞迴機制，恰好與人類解決複雜問題時的思考模式不謀而合：我們通常會將一個大問題分解，然後反覆應用某些規則或邏輯進行推演，直到得出結論。這使得 UTs 在探討推理能力時，成為一個極具價值的起點。

推理的真正驅動力：是遞迴偏置還是強非線性？

這項研究深入分析了 Universal Transformers (UTs) 在複雜推理任務上的性能來源，並得出了兩個關鍵洞察，它們共同揭示了模型推理能力湧現的秘密：

遞迴歸納偏置：多步驟迭代思考的基石

模型之所以能進行推理，是因為其架構「偏好」於進行迭代式的計算。每一次遞迴，模型都在更新其對問題的內部表徵。實驗顯示，當遞迴深度超過 8 次後，模型在某些邏輯推理任務上的準確率才開始顯著提升。這證明了多步驟的迭代思考是必要的，而非一次性的前饋計算就能完成。這種遞迴結構為模型提供了處理複雜、多層次邏輯的基礎。

強非線性組件：催化複雜特徵轉換的關鍵

僅有遞迴結構還不夠。研究發現，在遞迴區塊中使用的非線性激活函數（例如 GeLU 或 SwiGLU）扮演了極其關鍵的角色。這些函數允許模型在每次迭代中進行更複雜的特徵轉換，從而避免了計算陷入簡單的線性循環。如果將這些強非線性組件替換為較弱的函數，即使遞迴次數相同，模型的推理能力也會大幅下降。強非線性是確保每次迭代都能產生有意義進展的「催化劑」。

這項研究的核心論點是，與其設計越來越精巧的注意力機制或混合專家（MoE）模組，不如回歸基本，確保模型具備進行迭代式、非線性轉換的核心能力。這才是推理能力湧現的土壤。

這個觀點挑戰了目前業界普遍認為「模型越大，推理能力越強」的直覺。它暗示著，一個參數規模相對較小、但具備正確歸納偏置的模型，其推理效率與能力，可能勝過一個僅靠堆疊參數的巨型模型。這為未來模型設計提供了新的思考方向：質疑單純的規模擴張，轉而關注計算本質的優化。

URM 模型是如何實踐這些洞察的？

基於上述對遞迴與非線性重要性的發現，研究團隊提出了一個名為「通用推理模型」（Universal Reasoning Model, URM）的具體架構。URM 並沒有發明全新的模組，而是巧妙地組合了現有技術，旨在最大化遞迴與強非線性的優勢。其核心設計包含以下兩個關鍵組件：

短卷積：為迭代精煉提供初始訊號

在進入遞迴循環之前，URM 使用了一個核心尺寸（kernel size）為 3 的一維卷積層來處理輸入。這一步的目的是為了有效捕捉 token 之間的局部依賴關係，為後續的迭代精煉提供更豐富、更結構化的初始訊號。它確保了模型在開始複雜推理前，已經對輸入序列有了基礎的理解。

截斷式反向傳播：穩定訓練深度遞迴網絡

為了有效訓練深度遞迴的網絡，URM 採用了截斷式反向傳播（Truncated Backpropagation Through Time, TBPTT）技術。這是一種在訓練循環神經網絡（RNNs）時常用的策略，它將整個計算鏈條切分成較短的片段進行梯度計算與更新，從而避免了梯度消失或爆炸的問題，讓模型可以穩定地進行數十次甚至更多的遞迴運算。這項技術是實現深度遞迴計算的關鍵。

透過這兩個關鍵組件的結合，URM 在多個標準推理基準測試（如 GSM8K）上取得了令人印象深刻的成果。報告指出，一個 7B 參數的 URM 模型，其表現足以媲美一些經過大量指令微調、規模達到 30B 甚至更大的傳統 Transformer 模型。這證明了優雅的架構設計，確實可以在一定程度上彌補參數規模的差距，實現更高效的推理能力。

總結來說，這份研究為我們提供了一個極具價值的視角。當整個領域都在追求更大的模型、更多的資料時，它提醒我們，回頭審視那些被忽略的架構思想，並深入理解計算的基本原理，或許才是通往更強大、更通用人工智能的捷徑。未來的模型設計，可能不再是單純的「加法」，而是關於如何選擇正確的「歸納偏置」，讓推理能力自然地從結構中湧現。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。