大型語言模型的推理能力,藏在遞迴與非線性之中

我們常以為更複雜的架構才能帶來更強的推理能力,但一篇新研究指出,真正的關鍵可能在於更底層的設計:遞迴結構與強非線性特徵。這不僅挑戰了主流的「暴力堆疊」思維,也為未來更高效、更具備可解釋性的模型指出了新方向。

大型語言模型的推理能力,藏在遞迴與非線性之中

大型語言模型(LLM)的推理能力,其真正的來源可能並非更深、更寬或更複雜的架構設計,而是更根本的計算結構。一篇名為《Universal Reasoning Model》的最新研究指出,模型的推理性能與其內部的「遞迴歸納偏置」(recursive inductive bias)以及「強非線性」(strong non-linearity)特徵有著密不可分的關係。這個發現的重要性在於,它將我們的注意力從單純追求模型規模與架構複雜度的軍備競賽,拉回到對計算本質的思考,為打造更高效、更具備通用推理能力的 AI 系統提供了新的理論基礎與實踐路徑。

為什麼我們該重新審視 Universal Transformers 的潛力?

自從 Attention Is All You Need 論文發表以來,Transformer 架構已成為自然語言處理(NLP)領域的基石。然而,標準 Transformer 採用固定深度的層級堆疊,每一層的參數都是獨立的。這種設計雖然強大,但在處理需要多步驟、迭代思考的複雜推理任務時,似乎顯得有些「僵化」,難以有效模擬人類的逐步推理過程。

這也讓一些研究者重新將目光投向了較早期的架構變體,例如由 Google Brain 團隊在 2018 年提出的 Universal Transformers (UTs)。UTs 的核心思想相當簡潔:它不像標準 Transformer 那樣堆疊數十個不同的區塊,而是讓模型在時間維度上,反覆使用「同一個」計算區塊來處理輸入序列。每一次的處理,都可以看作是對問題表徵的一次「精煉」(refinement)。這種設計天然地引入了遞迴(recursion)的特性,使其在理論上具備了圖靈完備的計算能力。

過去,UTs 並未成為主流,部分原因可能是其訓練穩定性與效率問題。然而,在當前這個追求通用推理能力的時代,UTs 內建的遞迴機制,恰好與人類解決複雜問題時的思考模式不謀而合:我們通常會將一個大問題分解,然後反覆應用某些規則或邏輯進行推演,直到得出結論。這使得 UTs 在探討推理能力時,成為一個極具價值的起點。

推理的真正驅動力:是遞迴偏置還是強非線性?

這項研究深入分析了 Universal Transformers (UTs) 在複雜推理任務上的性能來源,並得出了兩個關鍵洞察,它們共同揭示了模型推理能力湧現的秘密:

遞迴歸納偏置:多步驟迭代思考的基石

模型之所以能進行推理,是因為其架構「偏好」於進行迭代式的計算。每一次遞迴,模型都在更新其對問題的內部表徵。實驗顯示,當遞迴深度超過 8 次後,模型在某些邏輯推理任務上的準確率才開始顯著提升。這證明了多步驟的迭代思考是必要的,而非一次性的前饋計算就能完成。這種遞迴結構為模型提供了處理複雜、多層次邏輯的基礎。

強非線性組件:催化複雜特徵轉換的關鍵

僅有遞迴結構還不夠。研究發現,在遞迴區塊中使用的非線性激活函數(例如 GeLU 或 SwiGLU)扮演了極其關鍵的角色。這些函數允許模型在每次迭代中進行更複雜的特徵轉換,從而避免了計算陷入簡單的線性循環。如果將這些強非線性組件替換為較弱的函數,即使遞迴次數相同,模型的推理能力也會大幅下降。強非線性是確保每次迭代都能產生有意義進展的「催化劑」。

這項研究的核心論點是,與其設計越來越精巧的注意力機制或混合專家(MoE)模組,不如回歸基本,確保模型具備進行迭代式、非線性轉換的核心能力。這才是推理能力湧現的土壤。

這個觀點挑戰了目前業界普遍認為「模型越大,推理能力越強」的直覺。它暗示著,一個參數規模相對較小、但具備正確歸納偏置的模型,其推理效率與能力,可能勝過一個僅靠堆疊參數的巨型模型。這為未來模型設計提供了新的思考方向:質疑單純的規模擴張,轉而關注計算本質的優化。

URM 模型是如何實踐這些洞察的?

基於上述對遞迴與非線性重要性的發現,研究團隊提出了一個名為「通用推理模型」(Universal Reasoning Model, URM)的具體架構。URM 並沒有發明全新的模組,而是巧妙地組合了現有技術,旨在最大化遞迴與強非線性的優勢。其核心設計包含以下兩個關鍵組件:

短卷積:為迭代精煉提供初始訊號

在進入遞迴循環之前,URM 使用了一個核心尺寸(kernel size)為 3 的一維卷積層來處理輸入。這一步的目的是為了有效捕捉 token 之間的局部依賴關係,為後續的迭代精煉提供更豐富、更結構化的初始訊號。它確保了模型在開始複雜推理前,已經對輸入序列有了基礎的理解。

截斷式反向傳播:穩定訓練深度遞迴網絡

為了有效訓練深度遞迴的網絡,URM 採用了截斷式反向傳播(Truncated Backpropagation Through Time, TBPTT)技術。這是一種在訓練循環神經網絡(RNNs)時常用的策略,它將整個計算鏈條切分成較短的片段進行梯度計算與更新,從而避免了梯度消失或爆炸的問題,讓模型可以穩定地進行數十次甚至更多的遞迴運算。這項技術是實現深度遞迴計算的關鍵。

透過這兩個關鍵組件的結合,URM 在多個標準推理基準測試(如 GSM8K)上取得了令人印象深刻的成果。報告指出,一個 7B 參數的 URM 模型,其表現足以媲美一些經過大量指令微調、規模達到 30B 甚至更大的傳統 Transformer 模型。這證明了優雅的架構設計,確實可以在一定程度上彌補參數規模的差距,實現更高效的推理能力。

總結來說,這份研究為我們提供了一個極具價值的視角。當整個領域都在追求更大的模型、更多的資料時,它提醒我們,回頭審視那些被忽略的架構思想,並深入理解計算的基本原理,或許才是通往更強大、更通用人工智能的捷徑。未來的模型設計,可能不再是單純的「加法」,而是關於如何選擇正確的「歸納偏置」,讓推理能力自然地從結構中湧現。

延伸閱讀


我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。