長上下文的盡頭,是更大的模型還是更好的工作流?

我們對長上下文(long context)的追求,似乎陷入了 token 數量競賽的迷思。但如果問題的本質不是「讀得更多」,而是「做得更準」呢?一篇新研究指出,將大型語言模型(LLM)化身為能夠操作檔案、執行程式碼的「編碼代理」,在處理長文本任務上的表現,遠勝於單純擴大上下文視窗或傳統 RAG。這預示著一個轉變:我們的重心正從上下文工程,轉向更具結構與可驗證

長上下文的盡頭,是更大的模型還是更好的工作流?

最近,我們對大型語言模型(LLM)處理長上下文(long context)能力的競逐,似乎都聚焦在一個指標上:上下文視窗(context window)可以開到多大。從數十萬到數百萬 token,業界彷彿陷入了一場軍備競賽。然而,一篇名為《Coding Agents are Effective Long-Context Processors》的研究提出了一個更根本的視角:解決長上下文問題的關鍵,或許不在於讓模型「讀」得更多,而在於賦予它「做」得更精準的能力。這意味著,我們應該將長文本處理從一個模糊的注意力問題,轉化為一個可被拆解、執行與驗證的程式化工作流。

為什麼我們對「無限上下文」的想像可能走錯了方向?

目前主流處理長文本的方法主要有兩種。第一種是「暴力破解」,也就是不斷擴大模型的上下文視窗,試圖讓模型一次性「讀完」所有資訊。諸如 LongRoPE 等技術,已經能將上下文視窗擴展到超過 200 萬個 token。但這種方法的根本缺陷在於,它依然受制於注意力機制的「大海撈針」問題,模型很容易在龐雜的資訊中迷失方向,產生所謂「中間遺忘」(lost in the middle)的現象,且運算成本極高。

第二種是檢索增強生成(Retrieval-Augmented Generation, RAG),它透過語義搜索,先從外部知識庫中找出相關的文本片段,再餵給模型作為參考。RAG 在許多場景下非常有效,但它的天花板也很明顯:語義搜索的準確性。當任務需要精確定位、多點交叉比對、或理解文本的結構性關係時,單純的語義相似度匹配往往力不從心。

這兩種路徑都將 LLM 視為一個被動的「閱讀者」或「摘要者」,而忽略了它作為一個「行動者」的潛力。

如何將長文本處理,從「閱讀理解」變成「程式碼操作」?

前述的 arXiv 研究提出的「編碼代理」(Coding Agent)範式,則徹底轉換了思路。它不再將長文本硬塞進模型的記憶體,而是將其視為一個外部的「檔案系統」。接著,模型被賦予一組類似開發者工具的指令,例如讀取檔案、搜尋特定字串(grep)、編輯內容、執行程式碼等。

想像一位軟體工程師要理解一個有數百萬行程式碼的專案,他不會試圖把所有程式碼一次讀進腦中。他會使用 IDE 的搜尋功能定位關鍵函式,用版本控制系統追蹤變更,並透過編譯和測試來驗證自己的理解。編碼代理做的正是同樣的事:

  • 定位(Locate): 使用精確的字串或正則表達式搜尋,而不是模糊的語義搜索,來找到資訊的確切位置。
  • 操作(Operate): 讀取、修改、或執行程式碼片段來處理或轉換資訊。
  • 驗證(Verify): 透過執行結果或檢查輸出來確認操作是否成功,形成一個封閉的、可驗證的循環。
這項研究的核心洞見是:與其將長文本視為一個待閱讀的「字串」,不如將其視為一個可互動的「檔案系統」。

這種方法的成效是顯著的。實驗證明,在多項長文本問答與推理的基準測試中,編碼代理的表現平均比當前最先進的(SOTA)長上下文模型和 RAG 方法高出 17.3%。這證明了將任務「程式碼化」所帶來的精確性與可靠性,遠非單純擴大上下文所能比擬。

從 Context Engineering 到 Workflow Engineering:思維的轉變

這不僅僅是技術路線的選擇,更是一種思維框架的轉變。過去幾年,我們投入大量心力在「上下文工程」(Context Engineering),也就是研究如何設計提示(prompt)、如何組織資訊、如何填充上下文,才能讓模型給出最好的答案。這是一種「人餵給雞」的模式,我們努力把飼料磨得更細、調配得更有營養。

而編碼代理的思路,則開啟了「工作流工程」(Workflow Engineering)的大門。我們不再是設計「完美的輸入」,而是設計「可靠的流程」。這個流程由一系列工具、操作與驗證步驟組成,而 LLM 在其中扮演的是一個能夠理解目標、並自主調用工具來完成任務的「指揮官」。

這個趨勢並非橫空出世。從 ReAct 框架將「思考」與「行動」結合,到 MemGPT 提出將 LLM 當作作業系統來管理記憶體與工具,我們看到一個清晰的脈絡:賦予模型「結構化地與外部世界互動」的能力,遠比單純擴大其內在記憶體更具擴展性與潛力。在面對像 SWE-bench 這樣需要理解並修復真實世界程式碼庫的複雜任務時,這種工作流驅動的代理架構,顯然是更有前景的方向。

長上下文的競賽遠未結束,但戰場或許已經轉移。勝利的關鍵可能不再是誰的記憶體更大,而是誰能設計出更聰明、更可靠、更可驗證的自動化工作流程。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。