一個人需要訂閱幾家 LLM 才夠用？答案是 0 家

Claude Max、ChatGPT Plus、Perplexity Max、Gemini Advanced、Cursor Pro、GitHub Copilot……

江中喬

15 4月 2026 • 6 min read

Claude Max、ChatGPT Plus、Perplexity Max、Gemini Advanced、Cursor Pro、GitHub Copilot……

認真算一下，如果你是重度使用者，一個月訂閱費破 150 美金是基本盤。更誇張的是，訂了之後你還是覺得不夠——這家強 code、那家強 research、另一家強長文。於是繼續加訂閱、繼續付費、繼續覺得少一塊。

我想說一件反直覺的事：這不是訂閱數量的問題，是架構的問題。

一個設計得好的 agent council，用 1 個免費雲端模型 + 幾個本地小模型，完整度不會輸給月費 150 鎂的組合。我把它叫做**「六位一體」**。

換個角度看 AI 產能

多數人有一個隱藏假設：「我的 AI 工具強不強 = 我訂了哪幾家頂級模型」。

但真正決定產能的不是單點模型強度，是 orchestration——誰決定誰做什麼、資訊怎麼流動、結果怎麼匯整。

同一顆 GPT-5，被亂用時只能寫邊角料；被好好 orchestrate 時可以扛起整個系統。差別不在模型，在架構。

於是問題變成：有沒有一種架構，讓我不必訂閱任何一家大模型也能完整運作？

有。

六位一體（零訂閱版）

六位一體架構圖

六個角色，零月費：

#	角色	實作	成本
1	Chair	人類（你）	—
2	Orchestrator / Judge	Gemini CLI（2.5 Pro 免費版，1000 req/day）	免費
3	Analyst	本地 · Qwen2.5-32B	電費
4	Engineer	本地 · Qwen-Coder-14B	電費
5	Utility	本地 · Phi-4 14B	電費
6	Memory	本地 · mem0 + Qdrant	電費

硬體需求：任何能塞下 32B Q4 量化模型的機器都行——舊筆電 + 外接 GPU、二手工作站、幾台 Mac mini、甚至幾台 NUC 串起來。你不需要 H100，只需要 48GB 以上 RAM 和一點耐心。

Gemini CLI 是 Google 官方的命令列工具，用 Google 帳號登入就有每天 1000 次免費額度，對個人使用者幾乎等於無限。它負責當 orchestrator，本地模型當 worker。

反差小標：那為什麼不用 AutoGen / CrewAI / LangGraph？

這是會被問的第一個問題。這些框架推銷「讓 agent 自己討論出答案」，聽起來很先進。

實際上三個致命問題：

一、抽象層會吃掉你換模型的自由

這些框架為了支援 "multi-agent conversation" 做了大量抽象，結果你綁死在框架的 agent 生命週期管理裡。哪天想把 GPT 換成本地 Qwen，或想把記憶從 Redis 換成 mem0，要改的不只是一兩行 config——是重構。

二、agent 自主性越高，失控機率越高

Multi-agent 框架的賣點是「agent 會互相協作」，但實際跑起來常常是：它們繞過你預設的分工互相聊天，丟出一個你沒要的答案。小模型尤其嚴重——它們的「創意」通常是幻覺。

三、多 agent 對話 = token 大爆炸

每個 agent 的上下文都要塞進其他 agent 說過的話，token 消耗是幾何級數增長。你以為省了錢，實際是 context 爆量 + 推論時間爆量。

所以我的選擇是——自幹 300 行 bash/python + 檔案 I/O，完勝 3000 行框架。每個 agent 只看自己那一輪要處理的 briefing.md，寫回 answer.md，乾乾淨淨。

四條核心原則

Orchestrator 只做決策，不寫 code
Gemini 只做三件事：判斷路由、包 briefing、綜合 answer。要技術答案就丟給對應 worker，不讓 orchestrator 自己回答。
CLI + File I/O，不走長 context
所有 agent 透過 ~/agent-workspace/briefing.md 和 answer.md 溝通。每次 call 都是獨立的，避免 context 漂移。
禁止 agent 自由發揮
System prompt 死死框住：「Only do X. Do NOT propose other actions. Do NOT ask follow-up questions.」小模型的創意 = 幻覺。
敏感資料不上雲
Gemini 免費版會被拿去訓練。隱私任務（內部 code、私人記憶）一律路由到本地 Analyst；只有公開資訊、技術 Q&A 才丟給 Gemini。

四層北極星：為什麼要這樣設計

做這套系統前，先想清楚你的北極星在哪。我的排序：

L1 省錢：不訂閱雲端大模型
L2 去 vendor 綁定：Gemini 掛了換 Qwen，Ollama 掛了換 llama.cpp
L3 長期存續：硬體是自己的，模型是本地的，帳號被封不會死
L4 保護注意力（最重要）：你不該盯著 dashboard，agent 應該在背景默默完成

L4 是終局。省錢只是表面，真正重要的是把 Claude / ChatGPT 從 default 變成 explicit choice——你不再每件事都先開聊天視窗，而是想好 "這件事該交給誰" 再動作。

建議的啟動順序

不要一次架六顆。從最小迴路開始：

第一階段：Gemini CLI → 1 顆本地 Analyst → 回 Gemini
第二階段：加第二個 worker（Engineer），教 Gemini 判斷 "這題該丟誰"
第三階段：接 mem0 記憶層
永遠保留 fast path：急事直接開 Gemini CLI 問，不走 orchestrator

每一階段都要穩定跑 1-2 週再加下一個。多數人失敗在一次全上，然後每個組件都半殘。

結語

如果你現在每個月被 LLM 訂閱費追著跑，不是你該換便宜的那家，是該換架構。

六位一體不是規模問題，是觀念問題。它不需要你有 H100、不需要你訂 Claude Max、不需要你是 infra 工程師。它只需要你接受一件事——

AI 的產能不在訂閱費，在 orchestration。

你可以用 0 元月費組出一個完整的 agent council。前提是你願意放棄「讓 agent 自己聰明起來」的幻想，改成你親手設計每個 agent 的邊界、讓它們乖乖 input/output。

這不是技術問題，是設計哲學。

如果你對完整的實作細節（Ollama 安裝、mem0 自架、Gemini CLI 串接）有興趣，後續會出 part 2。

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。