本地跑萬億參數模型,雲端算力危機來了?

AMD 用 4 台桌機跑 1 萬億參數模型,讓本地推理變得可能,雲端算力的價值會被挑戰,你會怎麼選?

本地跑萬億參數模型,雲端算力危機來了?

你有看到 AMD 那套 4 台桌機跑萬億參數模型嗎?

前陣子在 Threads 上刷到 MeowCoder 的貼文,說 AMD 用四台 Framework Desktop 把 Kimi K2.5(1 萬億參數)給跑起來。聽起來像是科幻小說,但實際上他們是用 llama.cpp 的 RPC 功能把四台機器變成一個超大 GPU,總顯存 480 GB,剛好塞進 375 GB 的模型檔。

「AI 計算的去中心化真的在發生」——MeowCoder

我的第一反應是:這玩意兒不只把雲端算力的價格砍到一半,還把資料隱私直接搬回本地,感覺像是把大公司的秘密武器交到開發者手裡。

本地分散式推理到底怎麼降成本?

傳統上跑這種等級的模型,租雲端 GPU 叢集每小時要幾十美元,算下來一年得幾千到上萬。現在一次性投資四台配備 Ryzen AI Max+ 395、128 GB 記憶體的桌機,硬體成本大概在 6‑8 萬台幣左右。一次性付清,長期看起來會比租雲端便宜不少。

根據 CSDN 上的 llama.cpp 報告,llama.cpp 支援量化與多 GPU 並行,讓消費級顯卡也能跑量化模型,成本下降的幅度相當驚人。再加上 DeepSeek 的 SGLang 分散式推理實踐,張量並行讓多機協同更順暢,門檻真的在降。

技術門檻 vs 資源門檻:到底誰更重要?

說真的,四台機器的硬體錢不便宜,網路要 5 Gbps 以上,Linux 核心參數還得調校。這些屬於「技術門檻」:需要懂硬體、系統調校、分布式框架。相較之下,「資源門檻」——例如顯存、算力——在過去是阻礙小團隊的主要因素。現在硬體越來越強,技術門檻才是瓶頸。

我在家也試過把兩台 RTX 4090 用 SGLang 並行跑 70B 模型,調校過程比起買新卡還要折騰。但只要把這套流程寫成腳本,後續的部署成本就會大幅下降,算是把「技術門檻」也在慢慢平滑化。

雲端服務還有什麼價值?

如果本地就能跑萬億參數模型,雲端算力的賣點會被迫轉型。現在的雲端服務大多靠彈性、可擴展以及即時維護來收費。未來可能會變成「專業化」服務:提供模型微調、資料標註、API 監控等增值功能,而非單純的算力出租。

我個人覺得,對於資料隱私要求高的醫療或金融領域,自己掌握算力會更有吸引力。雲端則需要在安全合規、快速迭代上找新定位。

延伸閱讀

如果把萬億參數模型搬回家裡跑,你會選擇自己搞一套本地叢集,還是繼續租雲端算力?


原始來源:https://www.threads.com/@meow.coder/post/DVU3c1vGOqh