本地跑萬億參數模型，雲端算力危機來了？

AMD 用 4 台桌機跑 1 萬億參數模型，讓本地推理變得可能，雲端算力的價值會被挑戰，你會怎麼選？

你有看到 AMD 那套 4 台桌機跑萬億參數模型嗎？

前陣子在 Threads 上刷到 MeowCoder 的貼文，說 AMD 用四台 Framework Desktop 把 Kimi K2.5（1 萬億參數）給跑起來。聽起來像是科幻小說，但實際上他們是用 llama.cpp 的 RPC 功能把四台機器變成一個超大 GPU，總顯存 480 GB，剛好塞進 375 GB 的模型檔。

「AI 計算的去中心化真的在發生」——MeowCoder

我的第一反應是：這玩意兒不只把雲端算力的價格砍到一半，還把資料隱私直接搬回本地，感覺像是把大公司的秘密武器交到開發者手裡。

本地分散式推理到底怎麼降成本？

傳統上跑這種等級的模型，租雲端 GPU 叢集每小時要幾十美元，算下來一年得幾千到上萬。現在一次性投資四台配備 Ryzen AI Max+ 395、128 GB 記憶體的桌機，硬體成本大概在 6‑8 萬台幣左右。一次性付清，長期看起來會比租雲端便宜不少。

根據 CSDN 上的 llama.cpp 報告，llama.cpp 支援量化與多 GPU 並行，讓消費級顯卡也能跑量化模型，成本下降的幅度相當驚人。再加上 DeepSeek 的 SGLang 分散式推理實踐，張量並行讓多機協同更順暢，門檻真的在降。

技術門檻 vs 資源門檻：到底誰更重要？

說真的，四台機器的硬體錢不便宜，網路要 5 Gbps 以上，Linux 核心參數還得調校。這些屬於「技術門檻」：需要懂硬體、系統調校、分布式框架。相較之下，「資源門檻」——例如顯存、算力——在過去是阻礙小團隊的主要因素。現在硬體越來越強，技術門檻才是瓶頸。

我在家也試過把兩台 RTX 4090 用 SGLang 並行跑 70B 模型，調校過程比起買新卡還要折騰。但只要把這套流程寫成腳本，後續的部署成本就會大幅下降，算是把「技術門檻」也在慢慢平滑化。

雲端服務還有什麼價值？

如果本地就能跑萬億參數模型，雲端算力的賣點會被迫轉型。現在的雲端服務大多靠彈性、可擴展以及即時維護來收費。未來可能會變成「專業化」服務：提供模型微調、資料標註、API 監控等增值功能，而非單純的算力出租。

我個人覺得，對於資料隱私要求高的醫療或金融領域，自己掌握算力會更有吸引力。雲端則需要在安全合規、快速迭代上找新定位。

延伸閱讀

如果把萬億參數模型搬回家裡跑，你會選擇自己搞一套本地叢集，還是繼續租雲端算力？

原始來源：https://www.threads.com/@meow.coder/post/DVU3c1vGOqh

本地跑萬億參數模型，雲端算力危機來了？

你有看到 AMD 那套 4 台桌機跑萬億參數模型嗎？

本地分散式推理到底怎麼降成本？

技術門檻 vs 資源門檻：到底誰更重要？

雲端服務還有什麼價值？

延伸閱讀

Read next

LLM 只能是驗證者，不能是決策者

後台任務的 Token 成本會被低估十倍

我把 memcite 裝進自己的專案，記錄下真實的數字