mk-brain

長上下文的幻覺：我們真的需要百萬 token 的記憶嗎？

業界對超長上下文（Long Context）的競逐日益激烈，但我們可能問錯了問題。一篇新的研究顯示，大型模型在長上下文中的優異表現，並非來自於對資訊的深度「理解」或「記憶」，而更像是一種高效的「即時工具檢索」。這意味著，盲目擴大 context window 未必是建構強大 AI 系統的最佳路徑；更聰明的任務拆解、外部記憶體整合與工具使用，或許才是更務實且高

江中喬

24 5月 2026 • 7 min read

大型語言模型（LLM）的上下文長度競賽已進入白熱化，從數萬到百萬 token，似乎成了衡量模型能力的關鍵指標。然而，我們可能高估了「長度」本身的價值。一篇近期的研究深入探討了模型在極長上下文中的學習行為，其結果揭示了一個反直覺的真相：模型效能的提升，並非源於對海量資訊的深層編碼或記憶累積，而更像是在龐大的文本中，找到並利用最相關的「工具」或「範例」。這意味著，盲目追求無限大的 context window 可能是一條歧路；真正有效的 AI 系統，往往來自於更聰明的架構設計，例如任務拆解、外部記憶體與工具整合。

為什麼我們對長上下文如此著迷？

長上下文的承諾極具吸引力。理論上，一個擁有百萬級 token 視窗的模型，例如 Google 的 Gemini 1.5 Pro，能夠一次性「讀完」整部小說、分析龐大的程式碼庫，或消化數百頁的財報文件。這讓我們想像，模型可以像人類專家一樣，基於完整的背景資訊做出精準判斷。過去，受限於幾千個 token 的短視窗，開發者需要費力地進行文本摘要、切塊、以及複雜的檢索增強生成（RAG）流程，才能處理大規模資料。

長上下文的出現，看似為這一切提供了簡單粗暴的解決方案：全部丟進去，讓模型自己處理。從 Anthropic 的 Claude 3 提供的 200K 上下文，到各種開源模型的持續突破，這股趨勢反映了業界對「更大等於更好」的普遍信仰。但如果模型使用上下文的方式和我們想的不一樣呢？

長上下文學習的真相：是記憶還是檢索？

一篇由馬里蘭大學與 Databricks 合作的論文《In-Context Learning with Long-Context Models: An In-Depth Exploration》，對這個問題進行了極具啟發性的探索。研究團隊測試了模型在處理包含數千個（最高達 8,000 個）範例的超長上下文時的表現，並得出了幾個關鍵發現。

首先，研究發現，即使將上下文中的數千個範例隨機打亂，模型的最終表現也並未顯著下降[1]。這是一個重要的線索，因為如果模型是透過循序漸進地「學習」來累積知識，那麼範例的呈現順序理應非常重要。這個結果暗示，模型並非在「讀書」，而更像是在一個無序的資料庫中進行查找。

其次，更令人驚訝的是，如果將相同標籤（label）的範例刻意分組放在一起，模型的表現反而會急遽下降[2]。這與我們直覺中「整理資訊有助於學習」的認知大相徑庭。研究人員推測，這種分組方式可能會讓模型過度關注局部模式，從而忽略了全局的任務指令，導致一種「注意力偏見」。

這項研究最令人玩味的結論是：模型似乎並未將長上下文視為一個連貫的知識體系來學習，而是將其當作一個臨時的、可供查詢的外部工具集。它在回答問題時，會從上下文中「借用」最相關的範例格式或資訊片段，而不是形成一個抽象的、可泛化的概念。

換句話說，長上下文的強大之處，可能更接近於一種內建的、高效的 RAG 機制，而非真正的長期記憶。模型在龐大的文本中迅速定位「可用之物」，並加以利用。這解釋了為什麼打亂順序影響不大，因為只要工具還在工具箱裡，放在哪都沒關係；但如果把同樣的工具都堆在一起，模型反而會被迷惑。

如何建構更聰明的 AI 系統？

理解了長上下文的「工具箱」本質後，我們在設計 AI 系統時的思路就應該有所轉變。與其將所有希望寄託於一個無限大的 context window，不如專注於如何為模型打造一個更高效、更可靠的「外部環境」。這意味著從「單一大腦」的思維，轉向「大腦 + 工具」的系統化架構。

以下是兩種路徑的簡單比較：

單純長上下文路徑：這種做法是將一份 500 頁的 PDF 文件直接丟給模型，並要求它回答特定問題。這種方法的優點是操作簡單，看似一勞永逸。然而，其缺點顯而易見：成本高昂、處理速度慢，且如上述研究所示，模型可能會被無關資訊干擾，甚至難以進行真正複雜的多步推理。它強迫模型在龐大的資訊中自行摸索，效率並不高。

系統化架構路徑：相較之下，更聰明的做法是先將 PDF 文件進行預處理，存入一個向量資料庫。當使用者提問時，系統會首先從資料庫中精準檢索出最相關的 2-3 個段落，然後將這些精簡後的資訊連同問題一起交給模型。同時，賦予模型呼叫外部計算機或 API 的能力（即 Function Calling），以處理需要精確計算或即時資訊的任務。這種方式將模型的「記憶」與「工具使用」能力分開，讓模型專注於推理。

後者雖然在建構初期更為複雜，但它更穩健、更具成本效益，也更符合模型運作的真實模式。我們不是強迫模型去「記住」所有東西，而是訓練它如何聰明地「使用」外部記憶與工具。這不僅僅是 RAG 的概念，更是對多代理人（Multi-Agent）系統與認知架構的探索，其核心是任務拆解與資源調度，這也是現代 AI 系統設計的趨勢。

長上下文無疑是一項重要的技術突破，它極大地擴展了 LLM 的應用邊界。然而，我們不應將其神化為解決一切問題的萬靈丹。上述研究提醒我們，AI 系統的智慧不僅僅來自於模型本身，更來自於我們如何設計它與世界互動的方式。與其等待一個能吞下整個網際網路的巨獸，不如現在就動手，打造一個雖然記憶有限、但懂得如何善用工具的聰明夥伴。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

為什麼我們對長上下文如此著迷？

長上下文學習的真相：是記憶還是檢索？

如何建構更聰明的 AI 系統？

延伸閱讀

Sign up for more like this.