當 LLM 進入 1-bit 時代:運算力的終結,還是記憶體架構的黎明?

微軟最新的 BitNet b1.58 研究顯示,大型語言模型的權重可以被量化到僅有三種狀態,卻能維持與全精度模型相當的效能。這項突破不僅是技術上的里程碑,更可能徹底改變我們對 AI 基礎設施的想像,將設計重心從無盡的算力追逐,轉向對記憶體、頻寬與專用硬體的重新思考。

當 LLM 進入 1-bit 時代:運算力的終結,還是記憶體架構的黎明?

大型語言模型(LLM)的發展,長期以來似乎是一場無法回頭的軍備競賽,追求更大的參數、更強的算力。然而,微軟研究團隊近期發表的 BitNet b1.58 論文,卻為這條路徑提供了另一種可能性。研究顯示,透過極低精度的量化技術,模型性能不僅沒有犧牲,甚至能與 16 位元浮點數(FP16)的全精度模型匹敵。我認為這不只是一次學術上的突破,它更是一個強烈的信號,預示著 LLM 基礎設施的設計重心,可能將從對運算能力(Compute)的極致壓榨,轉向一場圍繞記憶體(Memory)、頻寬與專用硬體的新賽局。

「1.58 位元」究竟是什麼意思?

在深入探討其影響之前,我們需要先理解 BitNet b1.58 的核心概念。傳統的 LLM,例如 LLaMA 或 GPT 系列,其模型權重(weights)通常以 16 位元浮點數(FP16)或 bfloat16 格式儲存。量化(Quantization)是一種常見的優化技術,旨在將這些權重壓縮到更低的精度,如 8 位元(INT8)或 4 位元(INT4),以減少模型大小和記憶體佔用,但通常會伴隨一定程度的性能損失。

BitNet b1.58 則將這個概念推向了極致。它提出了一種 1-bit LLM 的變體,其模型權重不再是連續的浮點數,而是被限制在三個離散值中:-1、0、和 1。這種三元(Ternary)表示法,根據資訊理論,每個權重所需的資訊量為 log₂(3) ≈ 1.585 位元,這便是其名稱的由來。相較於 FP16,這代表著在理論上,記憶體佔用和存取成本可以降低近 10 倍。

根據論文中的實驗結果,一個 30 億(3B)參數的 BitNet b1.58 模型,在困惑度(Perplexity)和多項下游任務的表現上,不僅超越了先前其他的 1-bit LLM 架構,甚至能與同等規模、採用 FP16 全精度訓練的 LLaMA LLM 表現持平。

這項成果之所以重要,是因為它打破了「極低精度必然導致性能大幅下降」的普遍認知。過去的二元神經網路(Binary Neural Networks)等嘗試,往往難以在複雜的自然語言任務上維持高水準的表現。BitNet b1.58 透過引入新的 `BitLinear` 層和保留 8-bit 精度的激活值(activations),成功地在大幅降低權重精度的同時,維持了模型的表達能力。

為什麼這會改變 AI 基礎設施的遊戲規則?

當模型權重變成 {-1, 0, 1} 時,改變的不只是儲存大小,更是運算的本質。傳統 LLM 的核心運算是矩陣乘法,涉及大量的浮點數乘法與加法,這正是 GPU 這類通用型平行運算單元所擅長的。然而,當一個矩陣的元素只剩下 -1、0、1 時,所有的乘法運算都可以被簡化為條件式的加法或減法,甚至完全不需要乘法器。這將從根本上改變硬體的設計需求。

我們可以預見,整個系統的瓶頸將發生轉移:

首先,系統的瓶頸將從「運算密集」轉向「記憶體密集」。當運算變得極其簡單,系統的主要瓶頸就不再是每秒能執行多少次浮點運算(FLOPs),而是每秒能從記憶體中讀取多少權重到運算單元(記憶體頻寬)。這意味著,模型的執行效率將更多地取決於 HBM 或 DRAM 的速度,而非 CUDA 核心的數量。

其次,這將加速從通用 GPU 到專用硬體(ASIC)的轉變。既然不再需要複雜的浮點運算單元,我們可以設計出更精簡、更節能的專用晶片(ASIC)。這些晶片可以專為 1-bit 運算優化,將大量晶片面積用於簡單的加法器和 SRAM,從而實現比 GPU 高出數個量級的能效比。這為 AI 推論晶片開闢了全新的設計思路,類似於 Groq 專注於確定性與低延遲的架構。

最後,這項技術有望大幅降低能耗與成本。論文指出,BitNet b1.58 的能源消耗遠低於傳統模型。這不僅降低了資料中心的營運成本,也讓在手機、筆電、汽車等邊緣裝置上部署更強大的本地 LLM 成為可能,無需時時依賴雲端。

1-bit LLM 的縮放定律是什麼?我們又將面臨哪些挑戰?

更有趣的是,BitNet b1.58 的論文還提出了一套適用於 1-bit LLM 的縮放定律(Scaling Law)。它顯示隨著模型參數規模的擴大,1-bit LLM 的性能提升趨勢與全精度模型相當,呈現出可預測的冪次法則。這意味著,我們今天在 3B 規模上看到的成果,有潛力被複製到 70B 甚至更大的模型上,這為投入資源開發 1-bit LLM 專用硬體提供了理論依據。

當然,通往 1-bit LLM 時代的道路仍有挑戰。目前的研究主要集中在 3B 左右的中等規模模型,其在更大模型上的穩定性與收斂性仍需驗證。此外,整個 AI 生態系,從 PyTorch 這類軟體框架到 NVIDIA 的 CUDA 硬體抽象層,都是圍繞著浮點運算建立的。要充分發揮 1-bit 架構的潛力,需要軟硬體層面的深度協同設計,這是一項龐大的工程。

儘管如此,BitNet b1.58 已經清晰地指出了一個方向。它告訴我們,LLM 的未來或許不只有一條路。在追求更大、更強的同時,一條更有效率、更具經濟性、更易於普及的路徑正在被打開。這場由極低精度量化引發的典範轉移,或許才剛剛開始,但它迫使我們重新思考 AI 基礎設施的每一個環節,從晶片設計到模型架構,都將迎來新的創新機會。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。