mk-brain

遞迴式語言模型（RLM）：當 LLM 學會了遞迴呼叫，Context Window 的物理限制就不再是天花板

當業界還在追求更大的 Context Window 時，一篇新論文提出了一個更具系統設計思維的解方：與其無限擴展模型的「工作記憶」，不如讓模型學會像程式一樣進行「遞迴呼叫」，將長文本分解、處理、再整合。這不僅是技術上的突破，更是一種典範轉移，讓我們重新思考模型與複雜資訊互動的根本架構。

江中喬

22 5月 2026 • 7 min read

當業界還在追求百萬、千萬 token 的 Context Window 時，我們可能正走向一條硬體與成本的死胡同。一篇名為《Recursive Language Models》的論文提出了一個更具系統設計思維的解方：與其無限擴展模型的「工作記憶」，不如讓模型學會像程式一樣進行「遞迴呼叫」，將長文本分解、處理、再整合。這不僅是技術上的突破，更是一種典範轉移，讓我們重新思考模型與複雜資訊互動的根本架構，從而真正突破物理限制，提升長文本的推理品質。

我們真的需要無限大的 Context Window 嗎？

近年來，大型語言模型的 Context Window 長度競賽愈演愈烈，從早期的 2K、4K，一路狂飆到現在的 200K、甚至 2M token。直覺上，更大的窗口意味著模型能「看見」更多資訊，從而處理更複雜的任務。然而，實務經驗與學術研究都顯示，這條路並非坦途。最顯著的問題是「大海撈針」（Needle-In-A-Haystack）測試中揭示的「Lost in the Middle」現象：當關鍵資訊被放置在長文本的中間時，模型的表現會顯著下降。

這意味著，單純擴展 Context Window 的大小，並不能保證模型能有效「利用」這些資訊。注意力機制在面對超長序列時，其權重分配會變得稀疏且困難，導致推理能力下降。此外，更長的上下文也帶來了更高的運算成本與延遲。我們似乎陷入了一個困境：為了處理長文本，我們不斷擴大窗口；但擴大的窗口卻稀釋了模型的注意力，反而可能降低了推理品質。這促使我們反思，問題的核心或許不在於「看得多寬」，而在於「看得多深、多有結構」。

RLM 的核心精神是什麼？它如何將模型視為 CPU？

Recursive Language Models (RLM) 框架提供了一個截然不同的思路。它不再將長文本硬塞進模型的 Context Window，而是將其視為一個「外部環境」（external environment），而語言模型本身則扮演一個「控制器」或「CPU」的角色。當面對一個需要處理超長文本的任務時，RLM 並不試圖一次讀取全部內容，而是採用一種「分而治之」（divide and conquer）的策略。

整個運作流程可以簡化為以下幾個步驟：

分解（Decomposition）：RLM 首先會分析任務，並將長文本或複雜問題分解成更小、更易於管理的多個子問題（sub-problems）。
遞迴呼叫（Recursive Calls）：接著，RLM 會對每一個子問題，再次「呼叫」語言模型自身來進行處理。這個過程是遞迴的——如果子問題仍然過於複雜或文本過長，它可以被進一步分解，直到每個區塊都在模型原生 Context Window 的處理範圍內。
整合（Synthesis）：在處理完所有子問題後，RLM 會將得到的結果進行匯總、提煉與整合，最終形成對原始長文本任務的完整解答。

論文中，研究團隊將這個框架應用在 Qwen 模型上，打造了 RLM-Qwen3-8B。實驗結果顯示，即便基礎模型 Qwen3-8B 只有 32K 的原生 Context Window，經過 RLM 框架的加持後，在多項長文本問答與摘要任務上的表現，顯著超越了擁有更大 Context Window 的同級甚至更強的模型。這證明了 RLM 能夠在不修改模型架構的前提下，僅透過推理策略的改變，就實現了「有效上下文」的巨大擴展。

這與 RAG 或其他長文本技術有何不同？

看到 RLM 的設計，許多人可能會聯想到 RAG（Retrieval-Augmented Generation）。雖然兩者都處理長文本，但其哲學與應用場景有根本上的不同。RAG 的核心是「檢索」，它假設答案只存在於文本的少數幾個片段中，因此透過向量搜尋等方式，先找出最相關的幾個 chunk 再交給 LLM 處理。它的優點是快速高效，但缺點是可能因為檢索不準確而遺漏關鍵資訊，且難以處理需要通盤理解全文才能回答的問題。

RLM 則是「全局處理」的思路。它假設整個文本都是重要的，只是需要用更有結構的方式來閱讀和理解。相較於 RAG 的「篩選」，RLM 更像是人類專家在閱讀一份冗長報告時，會先看目錄、再分章節閱讀、最後總結歸納的過程。

與其打造一個能讀完整本字典的「超人大腦」，不如設計一個懂得如何高效查字典的「智慧系統」。RLM 的哲學更偏向後者。

若與其他長文本架構如 Ring Attention 相比，差異就更明顯了。Ring Attention 等技術是從根本上修改 Transformer 的注意力計算方式，屬於底層架構的革新，需要重新訓練模型。而 RLM 是一種推理時（inference-time）的策略，它可以應用於任何現有的預訓練模型，這使得它的部署彈性與通用性遠高於需要修改模型結構的方案。

為什麼遞迴式推理對 AI 系統設計如此有價值？

我認為，RLM 最重要的啟示，在於它將軟體工程中的「遞迴」與「抽象化」思想，成功地應用到了大型語言模型的系統設計中。這不僅僅是為了解決長文本問題，更為未來構建複雜的 AI Agent 系統提供了一個強大的基礎元件。

當我們要求 AI 系統執行一個複雜的多步驟任務時，例如「分析這份 500 頁的財報，並撰寫一份投資風險評估報告」，這個任務本身就具有遞迴結構。一個強大的 Agent 系統，應該要能將這個大任務分解為：讀取財報、摘要各章節、提取關鍵財務指標、分析趨勢、評估風險、撰寫報告等一系列子任務。RLM 所展示的，正是賦予 LLM 這種自我調用、分解問題、整合答案的能力。

這種模式讓我們擺脫了對單一模型「超能力」的依賴，轉而專注於設計一個更聰明、更具結構化的工作流程。這是一個從「模型為中心」到「系統為中心」的轉變，也是 AI 應用走向成熟、穩健和可擴展的必經之路。RLM 的出現，或許正是這條路上一個重要的里程碑。

遞迴式語言模型（RLM）：當 LLM 學會了遞迴呼叫，Context Window 的物理限制就不再是天花板

江中喬

我們真的需要無限大的 Context Window 嗎？

RLM 的核心精神是什麼？它如何將模型視為 CPU？

這與 RAG 或其他長文本技術有何不同？

為什麼遞迴式推理對 AI 系統設計如此有價值？

延伸閱讀

Sign up for more like this.