mk-brain

長上下文的盡頭，是更大的模型還是更好的工作流？

我們對長上下文（long context）的追求，似乎陷入了 token 數量競賽的迷思。但如果問題的本質不是「讀得更多」，而是「做得更準」呢？一篇新研究指出，將大型語言模型（LLM）化身為能夠操作檔案、執行程式碼的「編碼代理」，在處理長文本任務上的表現，遠勝於單純擴大上下文視窗或傳統 RAG。這預示著一個轉變：我們的重心正從上下文工程，轉向更具結構與可驗證

江中喬

20 5月 2026 • 5 min read

最近，我們對大型語言模型（LLM）處理長上下文（long context）能力的競逐，似乎都聚焦在一個指標上：上下文視窗（context window）可以開到多大。從數十萬到數百萬 token，業界彷彿陷入了一場軍備競賽。然而，一篇名為《Coding Agents are Effective Long-Context Processors》的研究提出了一個更根本的視角：解決長上下文問題的關鍵，或許不在於讓模型「讀」得更多，而在於賦予它「做」得更精準的能力。這意味著，我們應該將長文本處理從一個模糊的注意力問題，轉化為一個可被拆解、執行與驗證的程式化工作流。

為什麼我們對「無限上下文」的想像可能走錯了方向？

目前主流處理長文本的方法主要有兩種。第一種是「暴力破解」，也就是不斷擴大模型的上下文視窗，試圖讓模型一次性「讀完」所有資訊。諸如 LongRoPE 等技術，已經能將上下文視窗擴展到超過 200 萬個 token。但這種方法的根本缺陷在於，它依然受制於注意力機制的「大海撈針」問題，模型很容易在龐雜的資訊中迷失方向，產生所謂「中間遺忘」（lost in the middle）的現象，且運算成本極高。

第二種是檢索增強生成（Retrieval-Augmented Generation, RAG），它透過語義搜索，先從外部知識庫中找出相關的文本片段，再餵給模型作為參考。RAG 在許多場景下非常有效，但它的天花板也很明顯：語義搜索的準確性。當任務需要精確定位、多點交叉比對、或理解文本的結構性關係時，單純的語義相似度匹配往往力不從心。

這兩種路徑都將 LLM 視為一個被動的「閱讀者」或「摘要者」，而忽略了它作為一個「行動者」的潛力。

如何將長文本處理，從「閱讀理解」變成「程式碼操作」？

前述的 arXiv 研究提出的「編碼代理」（Coding Agent）範式，則徹底轉換了思路。它不再將長文本硬塞進模型的記憶體，而是將其視為一個外部的「檔案系統」。接著，模型被賦予一組類似開發者工具的指令，例如讀取檔案、搜尋特定字串（grep）、編輯內容、執行程式碼等。

想像一位軟體工程師要理解一個有數百萬行程式碼的專案，他不會試圖把所有程式碼一次讀進腦中。他會使用 IDE 的搜尋功能定位關鍵函式，用版本控制系統追蹤變更，並透過編譯和測試來驗證自己的理解。編碼代理做的正是同樣的事：

定位（Locate）： 使用精確的字串或正則表達式搜尋，而不是模糊的語義搜索，來找到資訊的確切位置。
操作（Operate）： 讀取、修改、或執行程式碼片段來處理或轉換資訊。
驗證（Verify）： 透過執行結果或檢查輸出來確認操作是否成功，形成一個封閉的、可驗證的循環。

這項研究的核心洞見是：與其將長文本視為一個待閱讀的「字串」，不如將其視為一個可互動的「檔案系統」。

這種方法的成效是顯著的。實驗證明，在多項長文本問答與推理的基準測試中，編碼代理的表現平均比當前最先進的（SOTA）長上下文模型和 RAG 方法高出 17.3%。這證明了將任務「程式碼化」所帶來的精確性與可靠性，遠非單純擴大上下文所能比擬。

從 Context Engineering 到 Workflow Engineering：思維的轉變

這不僅僅是技術路線的選擇，更是一種思維框架的轉變。過去幾年，我們投入大量心力在「上下文工程」（Context Engineering），也就是研究如何設計提示（prompt）、如何組織資訊、如何填充上下文，才能讓模型給出最好的答案。這是一種「人餵給雞」的模式，我們努力把飼料磨得更細、調配得更有營養。

而編碼代理的思路，則開啟了「工作流工程」（Workflow Engineering）的大門。我們不再是設計「完美的輸入」，而是設計「可靠的流程」。這個流程由一系列工具、操作與驗證步驟組成，而 LLM 在其中扮演的是一個能夠理解目標、並自主調用工具來完成任務的「指揮官」。

這個趨勢並非橫空出世。從 ReAct 框架將「思考」與「行動」結合，到 MemGPT 提出將 LLM 當作作業系統來管理記憶體與工具，我們看到一個清晰的脈絡：賦予模型「結構化地與外部世界互動」的能力，遠比單純擴大其內在記憶體更具擴展性與潛力。在面對像 SWE-bench 這樣需要理解並修復真實世界程式碼庫的複雜任務時，這種工作流驅動的代理架構，顯然是更有前景的方向。

長上下文的競賽遠未結束，但戰場或許已經轉移。勝利的關鍵可能不再是誰的記憶體更大，而是誰能設計出更聰明、更可靠、更可驗證的自動化工作流程。

長上下文的盡頭，是更大的模型還是更好的工作流？

江中喬

為什麼我們對「無限上下文」的想像可能走錯了方向？

如何將長文本處理，從「閱讀理解」變成「程式碼操作」？

從 Context Engineering 到 Workflow Engineering：思維的轉變

延伸閱讀

Sign up for more like this.