後台任務的 Token 成本會被低估十倍

後台自動化任務的 Token 成本會因為 Session Context 累積而被低估十倍，需要在架構設計階段就考慮 Context 清理策略。

看得見的成本往往不是最大的

估算 AI Agent 系統的成本時，大多數人會關注對話輪數、API 呼叫次數這些「可見」的操作。但真正的成本炸彈，往往來自那些看起來無害的後台任務。

有個開發者分享了一個案例：一個簡單的 cron job，每天自動巡查 Instagram 留言。任務本身很輕——就是定期檢查、分類、回應。但運行幾週後，他發現這個任務的 token 消耗已經超過所有用戶交互的總和。原因是什麼？Session context 從最初的 856 字，膨脹到了 3,570 萬字。

這不是 bug，這是架構問題。

Session Context 的隱形累積

長時間運行的 session 會自動累積歷史記錄。每次任務執行，新的對話、決策、觀察都被加入 context。對於交互式應用，這通常不是問題——用戶結束對話，session 就結束了。但對於 cron job，session 可能連續運行數週甚至數月。

結果是什麼？同樣的任務邏輯，每次執行的 token 成本都在指數增長。第一週可能花 $10，第二週 $50，第三週 $200。不是因為任務變複雜了，而是純粹的 context 堆積。

這意味著「監控和定期清理 session context」不應該是事後優化，而是部署時的必做項。

視覺輸入的隱藏成本

多模態 AI 時代，開發者容易假設「截圖會帶來更準確的結果」。但現實是：每張截圖消耗 15-80KB 的 token。在自動化任務中，這些「輔助信息」會快速累積。

對於定期執行的巡查任務，決定「何時用截圖、何時用文本」變成了關鍵的成本/效果權衡。不是「更多信息更好」，而是「這張截圖值不值這個成本」。

後台任務需要不同的成本模型

交互式 Agent 和 cron job 的成本特性完全不同，但很少人分開設計。

常見的成本估算方法是：「月活用戶 × 平均對話輪數」。這對聊天應用有效。但對於後台自動化任務，這個公式會嚴重低估成本。一個看似輕量的監控任務，可能在三個月後成為整個系統的最大開銷。

如果你在設計需要長期運行的監控、巡查、定期更新類任務，應該採用不同的架構策略：

短生命週期的 session——每次執行後立即清理，而不是連續累積
定期 context 清理——保留必要的狀態，丟棄歷史記錄
輕量級的非 LLM 篩選——用簡單的規則先過濾，只把需要判斷的部分交給 LLM
分層成本設計——區分「每次執行必須用 LLM」和「可以用更便宜方案」的邏輯

這不只是優化問題

我見過不少團隊，在成本爆炸後才開始考慮這些問題。那時候往往已經積累了一堆技術債。

關鍵是前期的架構決策。當你決定用 LLM 驅動一個後台任務時，同時要決定：session 的生命週期是多長？什麼時候清理 context？哪些信息必須用視覺，哪些可以用文本？

這不是效率問題，這是一個選擇。而選擇的時間點，決定了後續的成本軌跡。

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。

原始來源：https://www.threads.com/@hsiinho/post/DVk4uxFkT-B

後台任務的 Token 成本會被低估十倍

看得見的成本往往不是最大的

Session Context 的隱形累積

視覺輸入的隱藏成本

後台任務需要不同的成本模型

這不只是優化問題

Read next

LLM 只能是驗證者，不能是決策者

我把 memcite 裝進自己的專案，記錄下真實的數字

從「能記住」到「能審計」：為什麼 AI 記憶層需要 Source Code 級歸因