不只是塞滿 Token:外部壓縮層如何重塑長上下文的經濟學
當所有人都還在追求百萬級 Token 的上下文視窗時,真正的瓶頸已轉向成本與效率。本文探討一種新興的系統設計模式——外部壓縮層,它如何透過智慧壓縮,將上下文工程從提示詞技巧提升到影響系統吞吐與經濟性的核心架構,為長任務應用開創了新的可能性。
大型語言模型(LLM)的上下文視窗競賽已進入白熱化,但我不認為單純擴大容量是最終解答。真正的挑戰在於如何有效利用這些空間,而「外部壓縮層」(External Compression Layer)提供了一個極具潛力的系統設計模式。當我們能聰明地在模型外部壓縮、篩選、並重組資訊,再送入上下文時,就能以更低的成本處理更複雜的長任務。這不僅是提示工程的延伸,更是直接影響系統吞吐量、延遲與商業可行性的核心架構決策,預示著 AI 應用開發的下一個重要演進方向。
為什麼上下文視窗的「軍備競賽」走到了瓶頸?
從 GPT-4 的 128K、Google Gemini 1.5 Pro 的 100 萬 Token,再到 Anthropic Claude 3.5 Sonnet 的 200K,上下文視窗的擴張速度令人驚嘆。理論上,更大的視窗意味著模型能處理更長的文件、更複雜的對話歷史,甚至分析整個程式碼庫。然而,在實務中,我們很快就撞上了幾堵看不見的牆:
- 成本與延遲的詛咒:越大的上下文,意味著越高的 API 費用與越長的等待時間。對於需要即時反應或大規模部署的應用來說,動輒百萬 Token 的呼叫在經濟上並不可行。
- 大海撈針的挑戰:即使模型能「看見」所有資訊,也不代表它能同等地關注所有細節。經典的 「Lost in the Middle」研究便指出,模型在處理長上下文時,對於開頭和結尾的資訊記憶較好,中間部分的資訊則容易被忽略。
- 輸出污染上下文::在許多 Agent 或程式碼生成場景中,挑戰不僅來自輸入。模型在執行任務過程中產生的冗長輸出(例如,一個大型 CSV 檔案、JSON log 或終端機的詳細回傳),會迅速佔滿寶貴的上下文空間,排擠掉後續步驟真正需要的核心資訊。
這些瓶頸顯示,單純追求上下文的「量」已經觸及效益遞減的臨界點。我們需要的不是更大的水桶,而是更聰明的裝水方法。
外部壓縮層:它如何重塑長上下文的經濟學?
最近在 GitHub 上看到一個名為 claude-context-mode 的開源專案,它完美地詮釋了「外部壓縮層」這個概念。這個專案的核心思想很簡單:與其讓模型生成的龐大、原始的輸出直接塞回上下文,不如在中間架設一個代理伺服器(proxy),先對這些輸出進行智慧壓縮。
舉例來說,當一個 Code Interpreter 工具執行後,產生了一個 315KB 的 CSV 檔案。如果將整個檔案內容直接貼回給模型,不僅浪費 Token,也可能因為格式混亂而干擾模型的後續判斷。而這個專案的做法是,代理伺服器會攔截這個輸出,將其壓縮成一個僅有 5.4KB 的摘要表示(例如,檔案路徑、欄位名稱、前幾行範例、資料統計摘要等)。這個壓縮過程讓上下文佔用降低了驚人的 98%,但同時保留了模型進行下一步決策所需的幾乎所有關鍵資訊。
當外部壓縮層成為 runtime 的一級元件,context engineering 就不再只是 prompt 技巧,而是直接影響吞吐、延遲與長任務經濟性的系統設計。
這個模式的啟發是,我們應該將 LLM 視為一個強大的「決策核心」,而不是一個被動的「資料處理器」。我們提供給它的,應該是經過預處理、高信噪比的資訊,而非未經篩選的原始數據。這層外部處理邏輯,就是所謂的壓縮層。
Context Engineering 的下一步是什麼?
這個概念讓我們重新思考 Context Engineering 的範疇。過去,我們談論的可能是 RAG(檢索增強生成)、提示鏈(Chain-of-Thought)等技巧,這些主要是在「輸入端」進行優化。而外部壓縮層則將優化的戰場擴展到了模型的「輸出端」與多輪互動的「中間狀態」。
這意味著,未來高效的 AI 系統,其上下文管理將會更加動態與主動。除了像 claude-context-mode 這樣對工具輸出進行壓縮,我們還可以預見更多樣化的壓縮策略,例如在長對話中,定期將早期的對話內容自動總結成更精簡的摘要,取代原始的逐字稿。對於複雜的 Agent 任務,我們可以將每一步的執行結果與觀察,轉換成一個結構化的「狀態物件」(State Object),而非冗長的自然語言描述;這類方法與 ReAct 框架所強調的「推理與行動協同」有異曲同工之妙。此外,在處理大量非結構化文本時,動態地將實體與關係抽取出來,建構成一個小型的知識圖譜,作為上下文的一部分,也會比餵入數百頁的原始文件要高效得多。
這些方法都指向同一個未來:我們正在從「填充上下文」轉向「設計上下文」。這需要我們具備系統性的思維,將 LLM 視為一個認知架構中的核心元件,並為其設計高效的資訊流管道。這不僅能解決當前的成本與效能瓶頸,更是打造能夠處理真正複雜、長期任務的智慧系統的必經之路。當我們不再受限於 Token 數量的物理極限,而是專注於資訊的價值密度時,AI 應用的天花板將會被再次推高。
延伸閱讀
- claude-context-mode on GitHub
- Lost in the Middle: How Language Models Use Long Contexts (arXiv)
- Google AI: Our next-generation model: Gemini 1.5
- Anthropic: Introducing Claude 3.5 Sonnet
- ReAct: Synergizing Reasoning and Acting in Language Models (arXiv)
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。