mk-brain

當 LLM 進入 1-bit 時代：運算力的終結，還是記憶體架構的黎明？

微軟最新的 BitNet b1.58 研究顯示，大型語言模型的權重可以被量化到僅有三種狀態，卻能維持與全精度模型相當的效能。這項突破不僅是技術上的里程碑，更可能徹底改變我們對 AI 基礎設施的想像，將設計重心從無盡的算力追逐，轉向對記憶體、頻寬與專用硬體的重新思考。

江中喬

03 6月 2026 • 6 min read

大型語言模型（LLM）的發展，長期以來似乎是一場無法回頭的軍備競賽，追求更大的參數、更強的算力。然而，微軟研究團隊近期發表的 BitNet b1.58 論文，卻為這條路徑提供了另一種可能性。研究顯示，透過極低精度的量化技術，模型性能不僅沒有犧牲，甚至能與 16 位元浮點數（FP16）的全精度模型匹敵。我認為這不只是一次學術上的突破，它更是一個強烈的信號，預示著 LLM 基礎設施的設計重心，可能將從對運算能力（Compute）的極致壓榨，轉向一場圍繞記憶體（Memory）、頻寬與專用硬體的新賽局。

「1.58 位元」究竟是什麼意思？

在深入探討其影響之前，我們需要先理解 BitNet b1.58 的核心概念。傳統的 LLM，例如 LLaMA 或 GPT 系列，其模型權重（weights）通常以 16 位元浮點數（FP16）或 bfloat16 格式儲存。量化（Quantization）是一種常見的優化技術，旨在將這些權重壓縮到更低的精度，如 8 位元（INT8）或 4 位元（INT4），以減少模型大小和記憶體佔用，但通常會伴隨一定程度的性能損失。

BitNet b1.58 則將這個概念推向了極致。它提出了一種 1-bit LLM 的變體，其模型權重不再是連續的浮點數，而是被限制在三個離散值中：-1、0、和 1。這種三元（Ternary）表示法，根據資訊理論，每個權重所需的資訊量為 log₂(3) ≈ 1.585 位元，這便是其名稱的由來。相較於 FP16，這代表著在理論上，記憶體佔用和存取成本可以降低近 10 倍。

根據論文中的實驗結果，一個 30 億（3B）參數的 BitNet b1.58 模型，在困惑度（Perplexity）和多項下游任務的表現上，不僅超越了先前其他的 1-bit LLM 架構，甚至能與同等規模、採用 FP16 全精度訓練的 LLaMA LLM 表現持平。

這項成果之所以重要，是因為它打破了「極低精度必然導致性能大幅下降」的普遍認知。過去的二元神經網路（Binary Neural Networks）等嘗試，往往難以在複雜的自然語言任務上維持高水準的表現。BitNet b1.58 透過引入新的 `BitLinear` 層和保留 8-bit 精度的激活值（activations），成功地在大幅降低權重精度的同時，維持了模型的表達能力。

為什麼這會改變 AI 基礎設施的遊戲規則？

當模型權重變成 {-1, 0, 1} 時，改變的不只是儲存大小，更是運算的本質。傳統 LLM 的核心運算是矩陣乘法，涉及大量的浮點數乘法與加法，這正是 GPU 這類通用型平行運算單元所擅長的。然而，當一個矩陣的元素只剩下 -1、0、1 時，所有的乘法運算都可以被簡化為條件式的加法或減法，甚至完全不需要乘法器。這將從根本上改變硬體的設計需求。

我們可以預見，整個系統的瓶頸將發生轉移：

首先，系統的瓶頸將從「運算密集」轉向「記憶體密集」。當運算變得極其簡單，系統的主要瓶頸就不再是每秒能執行多少次浮點運算（FLOPs），而是每秒能從記憶體中讀取多少權重到運算單元（記憶體頻寬）。這意味著，模型的執行效率將更多地取決於 HBM 或 DRAM 的速度，而非 CUDA 核心的數量。

其次，這將加速從通用 GPU 到專用硬體（ASIC）的轉變。既然不再需要複雜的浮點運算單元，我們可以設計出更精簡、更節能的專用晶片（ASIC）。這些晶片可以專為 1-bit 運算優化，將大量晶片面積用於簡單的加法器和 SRAM，從而實現比 GPU 高出數個量級的能效比。這為 AI 推論晶片開闢了全新的設計思路，類似於 Groq 專注於確定性與低延遲的架構。

最後，這項技術有望大幅降低能耗與成本。論文指出，BitNet b1.58 的能源消耗遠低於傳統模型。這不僅降低了資料中心的營運成本，也讓在手機、筆電、汽車等邊緣裝置上部署更強大的本地 LLM 成為可能，無需時時依賴雲端。

1-bit LLM 的縮放定律是什麼？我們又將面臨哪些挑戰？

更有趣的是，BitNet b1.58 的論文還提出了一套適用於 1-bit LLM 的縮放定律（Scaling Law）。它顯示隨著模型參數規模的擴大，1-bit LLM 的性能提升趨勢與全精度模型相當，呈現出可預測的冪次法則。這意味著，我們今天在 3B 規模上看到的成果，有潛力被複製到 70B 甚至更大的模型上，這為投入資源開發 1-bit LLM 專用硬體提供了理論依據。

當然，通往 1-bit LLM 時代的道路仍有挑戰。目前的研究主要集中在 3B 左右的中等規模模型，其在更大模型上的穩定性與收斂性仍需驗證。此外，整個 AI 生態系，從 PyTorch 這類軟體框架到 NVIDIA 的 CUDA 硬體抽象層，都是圍繞著浮點運算建立的。要充分發揮 1-bit 架構的潛力，需要軟硬體層面的深度協同設計，這是一項龐大的工程。

儘管如此，BitNet b1.58 已經清晰地指出了一個方向。它告訴我們，LLM 的未來或許不只有一條路。在追求更大、更強的同時，一條更有效率、更具經濟性、更易於普及的路徑正在被打開。這場由極低精度量化引發的典範轉移，或許才剛剛開始，但它迫使我們重新思考 AI 基礎設施的每一個環節，從晶片設計到模型架構，都將迎來新的創新機會。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

「1.58 位元」究竟是什麼意思？

為什麼這會改變 AI 基礎設施的遊戲規則？

1-bit LLM 的縮放定律是什麼？我們又將面臨哪些挑戰？

延伸閱讀

Sign up for more like this.