長上下文的幻覺:我們真的需要百萬 token 的記憶嗎?
業界對超長上下文(Long Context)的競逐日益激烈,但我們可能問錯了問題。一篇新的研究顯示,大型模型在長上下文中的優異表現,並非來自於對資訊的深度「理解」或「記憶」,而更像是一種高效的「即時工具檢索」。這意味著,盲目擴大 context window 未必是建構強大 AI 系統的最佳路徑;更聰明的任務拆解、外部記憶體整合與工具使用,或許才是更務實且高
大型語言模型(LLM)的上下文長度競賽已進入白熱化,從數萬到百萬 token,似乎成了衡量模型能力的關鍵指標。然而,我們可能高估了「長度」本身的價值。一篇近期的研究深入探討了模型在極長上下文中的學習行為,其結果揭示了一個反直覺的真相:模型效能的提升,並非源於對海量資訊的深層編碼或記憶累積,而更像是在龐大的文本中,找到並利用最相關的「工具」或「範例」。這意味著,盲目追求無限大的 context window 可能是一條歧路;真正有效的 AI 系統,往往來自於更聰明的架構設計,例如任務拆解、外部記憶體與工具整合。
為什麼我們對長上下文如此著迷?
長上下文的承諾極具吸引力。理論上,一個擁有百萬級 token 視窗的模型,例如 Google 的 Gemini 1.5 Pro,能夠一次性「讀完」整部小說、分析龐大的程式碼庫,或消化數百頁的財報文件。這讓我們想像,模型可以像人類專家一樣,基於完整的背景資訊做出精準判斷。過去,受限於幾千個 token 的短視窗,開發者需要費力地進行文本摘要、切塊、以及複雜的檢索增強生成(RAG)流程,才能處理大規模資料。
長上下文的出現,看似為這一切提供了簡單粗暴的解決方案:全部丟進去,讓模型自己處理。從 Anthropic 的 Claude 3 提供的 200K 上下文,到各種開源模型的持續突破,這股趨勢反映了業界對「更大等於更好」的普遍信仰。但如果模型使用上下文的方式和我們想的不一樣呢?
長上下文學習的真相:是記憶還是檢索?
一篇由馬里蘭大學與 Databricks 合作的論文《In-Context Learning with Long-Context Models: An In-Depth Exploration》,對這個問題進行了極具啟發性的探索。研究團隊測試了模型在處理包含數千個(最高達 8,000 個)範例的超長上下文時的表現,並得出了幾個關鍵發現。
首先,研究發現,即使將上下文中的數千個範例隨機打亂,模型的最終表現也並未顯著下降[1]。這是一個重要的線索,因為如果模型是透過循序漸進地「學習」來累積知識,那麼範例的呈現順序理應非常重要。這個結果暗示,模型並非在「讀書」,而更像是在一個無序的資料庫中進行查找。
其次,更令人驚訝的是,如果將相同標籤(label)的範例刻意分組放在一起,模型的表現反而會急遽下降[2]。這與我們直覺中「整理資訊有助於學習」的認知大相徑庭。研究人員推測,這種分組方式可能會讓模型過度關注局部模式,從而忽略了全局的任務指令,導致一種「注意力偏見」。
這項研究最令人玩味的結論是:模型似乎並未將長上下文視為一個連貫的知識體系來學習,而是將其當作一個臨時的、可供查詢的外部工具集。它在回答問題時,會從上下文中「借用」最相關的範例格式或資訊片段,而不是形成一個抽象的、可泛化的概念。
換句話說,長上下文的強大之處,可能更接近於一種內建的、高效的 RAG 機制,而非真正的長期記憶。模型在龐大的文本中迅速定位「可用之物」,並加以利用。這解釋了為什麼打亂順序影響不大,因為只要工具還在工具箱裡,放在哪都沒關係;但如果把同樣的工具都堆在一起,模型反而會被迷惑。
如何建構更聰明的 AI 系統?
理解了長上下文的「工具箱」本質後,我們在設計 AI 系統時的思路就應該有所轉變。與其將所有希望寄託於一個無限大的 context window,不如專注於如何為模型打造一個更高效、更可靠的「外部環境」。這意味著從「單一大腦」的思維,轉向「大腦 + 工具」的系統化架構。
以下是兩種路徑的簡單比較:
單純長上下文路徑:這種做法是將一份 500 頁的 PDF 文件直接丟給模型,並要求它回答特定問題。這種方法的優點是操作簡單,看似一勞永逸。然而,其缺點顯而易見:成本高昂、處理速度慢,且如上述研究所示,模型可能會被無關資訊干擾,甚至難以進行真正複雜的多步推理。它強迫模型在龐大的資訊中自行摸索,效率並不高。
系統化架構路徑:相較之下,更聰明的做法是先將 PDF 文件進行預處理,存入一個向量資料庫。當使用者提問時,系統會首先從資料庫中精準檢索出最相關的 2-3 個段落,然後將這些精簡後的資訊連同問題一起交給模型。同時,賦予模型呼叫外部計算機或 API 的能力(即 Function Calling),以處理需要精確計算或即時資訊的任務。這種方式將模型的「記憶」與「工具使用」能力分開,讓模型專注於推理。
後者雖然在建構初期更為複雜,但它更穩健、更具成本效益,也更符合模型運作的真實模式。我們不是強迫模型去「記住」所有東西,而是訓練它如何聰明地「使用」外部記憶與工具。這不僅僅是 RAG 的概念,更是對多代理人(Multi-Agent)系統與認知架構的探索,其核心是任務拆解與資源調度,這也是現代 AI 系統設計的趨勢。
長上下文無疑是一項重要的技術突破,它極大地擴展了 LLM 的應用邊界。然而,我們不應將其神化為解決一切問題的萬靈丹。上述研究提醒我們,AI 系統的智慧不僅僅來自於模型本身,更來自於我們如何設計它與世界互動的方式。與其等待一個能吞下整個網際網路的巨獸,不如現在就動手,打造一個雖然記憶有限、但懂得如何善用工具的聰明夥伴。
延伸閱讀
- In-Context Learning with Long-Context Models: An In-Depth Exploration (arXiv:2405.00200)
- Our next-generation model: Gemini 1.5
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (arXiv:2005.11401)
- Function calling - OpenAI API
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。