mk-brain

解開長文本的「中間遺忘」魔咒：為何注意力分配比上下文長度更關鍵？

大型語言模型正競相追逐百萬級上下文長度，但這場競賽是否跑錯了方向？本文將深入探討長文本模型普遍存在的「中間遺忘」現象，揭示為何模型在處理長文本時，關鍵資訊常被忽略。我們將介紹一項突破性訓練策略，證明解決方案不在於無止盡的長度擴展，而在於如何更聰明地分配模型注意力，讓 AI 真正「看懂」長文。

江中喬

03 6月 2026 • 6 min read

大型語言模型正競相將上下文長度推向百萬 token 等級，然而實務應用卻揭示了一個核心瓶頸：模型普遍存在「迷失在中間」（Lost in the Middle）的現象。這意味著模型對長文本開頭與結尾的資訊掌握度高，卻常忽略中段關鍵內容，嚴重影響 RAG（檢索增強生成）等應用的可靠性。最新一篇研究指出，解決之道並非更複雜的架構，而是透過聰明的訓練策略，重新引導模型的注意力分配。這提醒我們，真正的關鍵在於模型如何有效利用上下文，而非僅僅追求長度極限。

為何上下文越長，模型反而越「健忘」？

隨著模型上下文視窗（Context Window）從早期的 2K、4K 擴展到現在動輒 128K 甚至 1M token，我們理應能處理更複雜、更長的資訊。然而，許多研究與實證都指向一個令人不安的現實：模型的注意力並未均勻分佈在整個輸入文本上。史丹佛大學在 2023 年的一篇關鍵論文中，系統性地揭示了這個問題。他們發現，無論是開源或閉源模型，在處理長文本時，其表現都呈現一個明顯的「U 型曲線」：模型能輕易記住並使用文本開頭和結尾的資訊，但對於中間部分的資訊，檢索成功率卻大幅下降。

這種「中間遺忘」現象，對許多仰賴長上下文的應用是致命的。想像一個分析數百頁財報的 AI 助理，如果它只記得摘要和結論，卻遺漏了財報中段的關鍵風險披露，其分析結果將毫無價值。同樣地，在法律文件審閱、醫學研究摘要或長篇程式碼理解等場景，任何對中間資訊的忽略都可能導致嚴重的錯誤判斷。

這表明，單純擴展上下文長度，卻沒有解決注意力分配的根本問題，就像擁有一個巨大的圖書館，但裡面的書卻沒有正確的索引，使得大部分藏書都無法被有效找到。

問題的核心不在於模型「看不到」中間的資訊，而在於它在訓練過程中，並未被充分教導如何「重視」這些資訊。模型的注意力機制，天然地傾向於處理邊界——也就是文本的起點與終點。

CREAM 如何讓模型重新看見中間資訊？

既然問題出在訓練與注意力機制，那麼解決方案也應從此處著手。最近，一篇名為 An Efficient Recipe for Long Context Extension via Middle-Focused Positional Encoding 的論文提出了一種名為 CREAM（Contextual Re-indexing with Enhanced Attention to the Middle）的方法，提供了一個極具成本效益的解方。

CREAM 的核心思想非常直觀：如果模型會忘記中間，那我們就在訓練時，刻意強迫它去關注中間。它並非從頭開始訓練一個新模型，而是在現有預訓練模型的基礎上進行微調。其巧妙之處在於它如何準備微調資料：

位置編碼插值： 它採用類似位置插值（Positional Interpolation, PI）的技術，透過縮放位置索引，讓一個原本只能處理 4K 長度的模型，能夠「看懂」長達 256K 的文本結構。這一步是長度擴展的基礎。
中間聚焦採樣： 這是 CREAM 的關鍵創新。在準備微調資料時，它不再是從長文本中均勻地隨機截取片段，而是使用一種「截斷高斯分佈」（Truncated Gaussian Distribution）來進行採樣。這種分佈的特性是中間部分的機率最高，兩端較低。如此一來，模型在微調過程中「看到」的訓練樣本，絕大多數都來自於長文本的中間地帶。

這個方法的驚人之處在於其效率。研究人員證明，僅需在模型原始的預訓練長度（例如 4K）上進行這種「中間聚焦」的微調，就能成功將其上下文處理能力擴展到 256K，並顯著改善其在長文本中間資訊的檢索表現。這意味著我們無需動用龐大的運算資源去從頭訓練長文本模型，也能有效緩解「中間遺忘」的問題。

這對 AI 系統的設計意味著什麼？

CREAM 這類方法的出現，為我們在設計與評估大型語言模型時帶來了重要的啟示。它讓我們從對「更大規格」的迷戀，轉向對「更佳性能」的務實追求。這背後反映了兩種截然不同的技術路徑：

方法	核心思路	成本	解決的問題
蠻力擴展	直接在目標長度（如 256K）上進行預訓練或完整微調。	極高，需要大量 GPU 資源與時間。	擴展上下文長度，但未必能解決注意力偏見。
智慧微調 (如 CREAM)	在短文本上進行針對性微調，修正注意力偏差。	相對低廉，可在原有硬體上高效執行。	直接針對「迷失在中間」的根本原因進行修正。

對於系統建構者而言，這意味著在選擇模型時，不應只看其宣稱的上下文長度上限。一個號稱支援 1M token 但中間資訊檢索率只有 50% 的模型，在許多實務場景中，其價值可能遠不如一個僅支援 128K token 但檢索率高達 99% 的模型。這也解釋了為何像 Anthropic 這樣的公司會特別強調其 Claude 2.1 模型在長達 200K 的上下文中，召回率依然能維持高水準。

最終，長文本的可用性是一個關於「可靠性」而非「可能性」的問題。像 CREAM 這樣的技術，透過修正模型的內在行為，而非僅僅擴展其外部規格，為我們打造更穩定、更值得信賴的 AI 系統提供了新的方向。未來的發展重點，將不僅是讓模型看得更遠，更是要確保它能看清、看全視野內的每一個角落。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

為何上下文越長，模型反而越「健忘」？

CREAM 如何讓模型重新看見中間資訊？

這對 AI 系統的設計意味著什麼？

延伸閱讀

Sign up for more like this.