超越百萬 Token 上下文:LLM 的下一步不是更大的窗,而是更好的工作記憶
長上下文的未來,不一定是把視窗做得更大,而是替模型補上一層可循環、可壓縮、可檢索的工作記憶。這種架構也許比單純堆高 token 上限,更接近真正可用的長程推理能力。
我們對大型語言模型(LLM)長上下文能力的競逐,或許正走在一條看似直觀、實則充滿限制的道路上。業界主流的作法是持續擴展 Transformer 的注意力視窗,從數千、數萬,一路推向百萬級 Token。然而,一篇近期研究卻揭示了另一種可能性:真正的長上下文能力,其本質可能不是一個無限大的視窗,而是一套更有效率的「工作記憶」機制。研究證明,透過為既有模型加上可循環的記憶模組,即使是像 GPT-2 這樣相對陳舊的架構,也能在超過一千萬 Token 的資訊海洋中,完成精準的「大海撈針」任務,其表現遠超當前主流的長上下文方案。
為什麼無限擴展上下文視窗是一條死胡同?
Transformer 架構的核心是自注意力(self-attention)機制,它允許模型計算輸入序列中任意兩個 Token 之間的關聯性。這個設計是 LLM 強大語義理解能力的基石,但也帶來了它的阿基里斯之踵:運算複雜度會隨著序列長度(N)的平方(O(N²))增長。這意味著將上下文視窗加倍,所需的運算資源和時間遠不止兩倍,而是呈指數級攀升。
儘管業界已發展出如 FlashAttention 等多種優化演算法,試圖緩解這個問題,但它們並未從根本上改變這個限制。當前如 Gemini 1.5 Pro 這樣擁有百萬級 Token 視窗的模型,固然是工程上的巨大成就,但更像是將現有範式推向極致的結果。若要處理更龐大的資料流——例如分析數小時的會議錄音、一本完整的法律卷宗,或維持一個 Agent 長達數週的對話記憶——單純依賴暴力擴展視窗,很快就會遇到物理與成本的極限。
如何為 Transformer 裝上可循環的外部記憶?
面對這個瓶頸,由 DeepMind、MIT 與 ILIAD 合作的研究團隊提出了一個反向的思路:與其改造 Transformer 的核心,不如為它外掛一個專門處理記憶的模組。他們的方法是將一個 Transformer 模型(實驗中使用了僅有 2.8 億參數的 GPT-2)與一個循環神經網路(RNN)相結合。
這個架構的運作方式相當直觀:首先,模型會將極長的輸入序列切分成一個個小區塊(chunk)。接著,Transformer 負責處理當前區塊的內容,進行深度語義理解。此時,循環神經網路(RNN)便扮演起「記憶管理員」的角色,它會讀取 Transformer 處理完畢後的隱藏狀態(hidden state),並將其中的關鍵資訊壓縮成一個緊湊的「記憶狀態」(memory state)。當 Transformer 開始處理下一個區塊時,這個記憶狀態會被一併送入,作為先前所有內容的摘要與脈絡,確保模型能持續追蹤整個長序列的上下文。
這種「Transformer + Recurrent Memory」的混合架構,本質上是為模型建構了一層可循環、可壓縮、可檢索的外部工作記憶。
千萬級 Token 的大海撈針,結果如何?
為了驗證這套方法的有效性,研究團隊設計了一個名為 BABILong 的基準測試,這是一個極端的「大海撈針」(Needle-in-a-Haystack)任務。他們將一個簡單的事實(例如「Jason is in the kitchen」)隨機插入到一段極長的、充滿無關資訊的文本中,然後要求模型回答關於這個事實的問題(例如「Where is Jason?」)。
實驗結果令人震驚。當序列長度增加時,目前常見的長上下文處理方法,如檢索增強生成(RAG)或滑動視窗(sliding window),在處理超過約一萬個元素(token)的序列時,成功率便開始急遽下降。
然而,結合了循環記憶的 GPT-2 模型,卻成功地在長達 1,100 萬個 Token 的序列中,精準地找到了目標資訊並正確回答問題。這項成就非同小可,它相當於在約 20 本《魔戒》三部曲的總字數中,找到一個特定的人名及其位置,展現了驚人的記憶與檢索能力。
這個結果的關鍵意義在於,它證明了要實現超長上下文的理解,我們或許不需要一個能「看見」所有內容的巨大視窗,而只需要一個能有效「記住」關鍵內容的記憶系統。模型的基礎能力(以 GPT-2 為代表)甚至不需要是最頂尖的,只要記憶機制設計得當,就能實現能力的躍升。
真正的長上下文能力,是否預示著認知架構的轉移?
這項研究為我們思考 AI 系統的未來架構帶來了重要啟示。我們追求的或許不該是單一、巨大、無所不包的 monolithic 模型,而是一種更模組化、更符合認知科學原理的混合式系統。一個高效的 AI 系統,可能就像我們的大腦一樣,由不同功能的模組所組成:
Transformer 的注意力視窗可以扮演「短期工作記憶」的角色,負責處理當下即時且複雜的資訊;而循環記憶模組或類似機制則負責「長期記憶的壓縮與提取」,將處理過的資訊轉化為穩定的、可供日後檢索的知識。至於 LLM 的核心,則能專注於「決策與推理」,不再需要承擔記住一切的重擔,而是可以輕量地向記憶模組查詢所需的脈絡,大幅提升其效率與擴展性。
從這個角度看,長上下文能力的競賽,重點將從「視窗大小」轉向「記憶品質」。如何更有效地壓縮資訊?如何建立索引以便快速檢索?如何處理隨時間變化的記憶?這些問題將成為下一代 AI 系統架構的核心。這不僅是一條在技術上更具可擴展性的路徑,也可能讓我們更接近打造出具備持續學習與長期記憶能力的通用智慧體。
延伸閱讀
- In Search of Needles in a 11M Haystack: Recurrent Memory Finds What LLMs Miss (原始研究論文)
- The Illustrated Transformer (Jay Alammar 對 Transformer 架構的經典圖解)
- Neural Turing Machines (早期關於神經網路結合外部記憶的開創性研究)
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。