遞迴式語言模型(RLM):當 LLM 學會了遞迴呼叫,Context Window 的物理限制就不再是天花板
當業界還在追求更大的 Context Window 時,一篇新論文提出了一個更具系統設計思維的解方:與其無限擴展模型的「工作記憶」,不如讓模型學會像程式一樣進行「遞迴呼叫」,將長文本分解、處理、再整合。這不僅是技術上的突破,更是一種典範轉移,讓我們重新思考模型與複雜資訊互動的根本架構。
當業界還在追求百萬、千萬 token 的 Context Window 時,我們可能正走向一條硬體與成本的死胡同。一篇名為《Recursive Language Models》的論文提出了一個更具系統設計思維的解方:與其無限擴展模型的「工作記憶」,不如讓模型學會像程式一樣進行「遞迴呼叫」,將長文本分解、處理、再整合。這不僅是技術上的突破,更是一種典範轉移,讓我們重新思考模型與複雜資訊互動的根本架構,從而真正突破物理限制,提升長文本的推理品質。
我們真的需要無限大的 Context Window 嗎?
近年來,大型語言模型的 Context Window 長度競賽愈演愈烈,從早期的 2K、4K,一路狂飆到現在的 200K、甚至 2M token。直覺上,更大的窗口意味著模型能「看見」更多資訊,從而處理更複雜的任務。然而,實務經驗與學術研究都顯示,這條路並非坦途。最顯著的問題是「大海撈針」(Needle-In-A-Haystack)測試中揭示的「Lost in the Middle」現象:當關鍵資訊被放置在長文本的中間時,模型的表現會顯著下降。
這意味著,單純擴展 Context Window 的大小,並不能保證模型能有效「利用」這些資訊。注意力機制在面對超長序列時,其權重分配會變得稀疏且困難,導致推理能力下降。此外,更長的上下文也帶來了更高的運算成本與延遲。我們似乎陷入了一個困境:為了處理長文本,我們不斷擴大窗口;但擴大的窗口卻稀釋了模型的注意力,反而可能降低了推理品質。這促使我們反思,問題的核心或許不在於「看得多寬」,而在於「看得多深、多有結構」。
RLM 的核心精神是什麼?它如何將模型視為 CPU?
Recursive Language Models (RLM) 框架提供了一個截然不同的思路。它不再將長文本硬塞進模型的 Context Window,而是將其視為一個「外部環境」(external environment),而語言模型本身則扮演一個「控制器」或「CPU」的角色。當面對一個需要處理超長文本的任務時,RLM 並不試圖一次讀取全部內容,而是採用一種「分而治之」(divide and conquer)的策略。
整個運作流程可以簡化為以下幾個步驟:
- 分解(Decomposition):RLM 首先會分析任務,並將長文本或複雜問題分解成更小、更易於管理的多個子問題(sub-problems)。
- 遞迴呼叫(Recursive Calls):接著,RLM 會對每一個子問題,再次「呼叫」語言模型自身來進行處理。這個過程是遞迴的——如果子問題仍然過於複雜或文本過長,它可以被進一步分解,直到每個區塊都在模型原生 Context Window 的處理範圍內。
- 整合(Synthesis):在處理完所有子問題後,RLM 會將得到的結果進行匯總、提煉與整合,最終形成對原始長文本任務的完整解答。
論文中,研究團隊將這個框架應用在 Qwen 模型上,打造了 RLM-Qwen3-8B。實驗結果顯示,即便基礎模型 Qwen3-8B 只有 32K 的原生 Context Window,經過 RLM 框架的加持後,在多項長文本問答與摘要任務上的表現,顯著超越了擁有更大 Context Window 的同級甚至更強的模型。這證明了 RLM 能夠在不修改模型架構的前提下,僅透過推理策略的改變,就實現了「有效上下文」的巨大擴展。
這與 RAG 或其他長文本技術有何不同?
看到 RLM 的設計,許多人可能會聯想到 RAG(Retrieval-Augmented Generation)。雖然兩者都處理長文本,但其哲學與應用場景有根本上的不同。RAG 的核心是「檢索」,它假設答案只存在於文本的少數幾個片段中,因此透過向量搜尋等方式,先找出最相關的幾個 chunk 再交給 LLM 處理。它的優點是快速高效,但缺點是可能因為檢索不準確而遺漏關鍵資訊,且難以處理需要通盤理解全文才能回答的問題。
RLM 則是「全局處理」的思路。它假設整個文本都是重要的,只是需要用更有結構的方式來閱讀和理解。相較於 RAG 的「篩選」,RLM 更像是人類專家在閱讀一份冗長報告時,會先看目錄、再分章節閱讀、最後總結歸納的過程。
與其打造一個能讀完整本字典的「超人大腦」,不如設計一個懂得如何高效查字典的「智慧系統」。RLM 的哲學更偏向後者。
若與其他長文本架構如 Ring Attention 相比,差異就更明顯了。Ring Attention 等技術是從根本上修改 Transformer 的注意力計算方式,屬於底層架構的革新,需要重新訓練模型。而 RLM 是一種推理時(inference-time)的策略,它可以應用於任何現有的預訓練模型,這使得它的部署彈性與通用性遠高於需要修改模型結構的方案。
為什麼遞迴式推理對 AI 系統設計如此有價值?
我認為,RLM 最重要的啟示,在於它將軟體工程中的「遞迴」與「抽象化」思想,成功地應用到了大型語言模型的系統設計中。這不僅僅是為了解決長文本問題,更為未來構建複雜的 AI Agent 系統提供了一個強大的基礎元件。
當我們要求 AI 系統執行一個複雜的多步驟任務時,例如「分析這份 500 頁的財報,並撰寫一份投資風險評估報告」,這個任務本身就具有遞迴結構。一個強大的 Agent 系統,應該要能將這個大任務分解為:讀取財報、摘要各章節、提取關鍵財務指標、分析趨勢、評估風險、撰寫報告等一系列子任務。RLM 所展示的,正是賦予 LLM 這種自我調用、分解問題、整合答案的能力。
這種模式讓我們擺脫了對單一模型「超能力」的依賴,轉而專注於設計一個更聰明、更具結構化的工作流程。這是一個從「模型為中心」到「系統為中心」的轉變,也是 AI 應用走向成熟、穩健和可擴展的必經之路。RLM 的出現,或許正是這條路上一個重要的里程碑。
延伸閱讀
- Recursive Language Models (arXiv)
- Lost in the Middle: How Language Models Use Long Contexts (Stanford University)
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Princeton University & Google DeepMind)
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。