打破矩陣乘法的詛咒:當 LLM 的下一步不再是暴力堆疊算力

大型語言模型的算力與能耗瓶頸,根源可能在於矩陣乘法這個基本運算。一篇新研究展示了無矩陣乘法模型的潛力,不僅在記憶體與能效上取得巨大突破,更重要的是,它指引了一條迥異於當前暴力堆疊硬體的發展路徑——重新思考神經計算的本質。

打破矩陣乘法的詛咒:當 LLM 的下一步不再是暴力堆疊算力

大型語言模型(LLM)的發展似乎正撞上一道由運算成本與能源消耗築成的高牆。我們習慣將希望寄託於更強的晶片、更優化的演算法,但如果問題根源在於我們賴以建立這一切的基石——矩陣乘法(Matrix Multiplication, MatMul)呢?一篇近期發布的論文展示了可擴展的無矩陣乘法語言模型,其驚人的效率提升,迫使我們重新審視一個根本問題:下一波 AI 突破,或許不再是模型調參或蒸餾,而是徹底改造神經計算的基本單位,從源頭打破現有的擴展定律。

為什麼矩陣乘法是 LLM 擴展的隱形高牆?

自從 Transformer 架構2017 年問世以來,矩陣乘法(MatMul)就成為了現代 AI 的心臟。無論是自注意力機制(Self-Attention)中的權重計算,還是前饋神經網路(Feed-Forward Networks)中的特徵轉換,背後都是密集的矩陣運算。這個運算單元雖然強大且高度平行化,非常適合 GPU 加速,但也帶來了兩個難以忽視的挑戰:運算複雜度與記憶體需求。

矩陣乘法如何限制了 LLM 的擴展性?

首先是運算複雜度。矩陣乘法的運算量與輸入序列長度的平方成正比,這意味著當我們想處理更長的文本或更高解析度的圖像時,所需的算力會呈爆炸性增長。這直接導致了 AI 模型的訓練與推理成本居高不下,只有少數巨頭能負擔得起。這也是為什麼我們常聽到訓練一個大型模型需要數百萬美元的電費和數週的運算時間。

其次是記憶體需求。龐大的模型參數與中間計算結果(activations)需要被儲存在記憶體中,這使得在邊緣裝置或個人電腦上部署大型模型變得極其困難。目前業界的主流解方,如模型量化(quantization)、知識蒸餾(distillation)或剪枝(pruning),本質上都是在既有框架下的「補救措施」,它們能緩解問題,卻無法根除病灶。

如果大型語言模型的成本牆來自矩陣乘法本身,那下一波突破就不只是調參或蒸餾,而是重新思考神經計算的基本單位。

無矩陣乘法模型如何實現突破?

來自蘇黎世聯邦理工學院(ETH Zürich)等機構的研究者在論文《Scalable MatMul-free Language Modeling》中,提出了一條截然不同的路。他們設計了一種不依賴矩陣乘法的語言模型,並成功將其擴展至 2.7B(27 億)參數規模,證明了這條路徑的可行性。

這個模型的關鍵在於用更輕量的運算來取代傳統的矩陣乘法。例如,他們採用了基於 Hadamard 乘積(element-wise product)和對角矩陣的技術,來實現類似於標準 Transformer 的功能。雖然這些概念並非全新,但過去的研究大多停留在小型模型上,未能證明其可擴展性。這份研究的突破在於,它首次展示了在數十億參數級別上,無矩陣乘法模型依然能保持與傳統模型相當的性能(perplexity)。

效率驚人:記憶體與能效的巨大躍進

這種架構上的根本轉變帶來了驚人的效率提升。根據論文數據,相較於傳統的 Transformer 模型,這個新模型在多個關鍵指標上都表現出色:

  • 訓練記憶體:減少了 61%,大幅降低了訓練硬體的門檻,讓更多研究者和團隊有機會參與大型模型的開發。
  • 推理記憶體:降低了超過 10 倍,為在資源受限的裝置上部署大型模型開闢了可能性,例如手機、物聯網設備等。
  • 能效躍進:在為稀疏運算設計的神經形態(neuromorphic)硬體上,實現了 4 倍的吞吐量與 10 倍的能效提升,這預示著未來 AI 硬體設計的新方向。

這些數字不僅僅是優化,而更像是典範轉移的訊號。它證明了我們可以不必被鎖死在當前以 GPU 為中心的硬體生態與以矩陣乘法為核心的軟體框架中。

這項研究對 AI 的未來發展意味著什麼?

這項研究的意義遠不止於一篇學術論文。它為 AI 領域的發展,尤其是在硬體與演算法的協同演化上,提供了極具想像力的空間,甚至可能重新定義我們對「智慧」的追求方式。

打破「暴力堆疊算力」的迷思?

首先,它挑戰了「模型越大、矩陣運算越密集,效果就越好」的單一思維。過去幾年,我們看到的是一場軍備競賽,從 GPT-3 的 175B 參數到傳聞中更大規模的模型,大家都在暴力堆疊算力。而無矩陣乘法模型指出,透過改變計算的本質,我們或許能以更聰明、更永續的方式實現智慧。這對於資源相對有限的新創公司、學術機構,甚至整個開源社群來說,都是一個令人振奮的消息,因為它意味著創新不再是巨頭的專利。

下一代 AI 硬體的設計方向?

其次,它為下一代 AI 硬體的設計指明了方向。目前的 GPU、TPU 都是為密集矩陣運算深度優化的。如果未來的模型轉向更稀疏、更輕量的運算(如 element-wise operations),那麼專為這類運算設計的晶片(例如前面提到的神經形態晶片)將迎來巨大的發展機遇。這可能催生一個全新的、更多元化的 AI 硬體生態系,打破當前由少數廠商主導的局面,促進更多元的技術創新。

當然,這項研究仍處於早期階段。無矩陣乘法模型是否能在更複雜的任務和更大的規模上(例如百億或千億參數)保持競爭力,仍有待驗證。但它就像在厚重的烏雲中撕開的一道裂縫,讓我們看到了超越「算力即智慧」的另一種可能。未來幾年,我們很可能會看到更多挑戰基礎運算單元的研究出現,而這,或許才是真正引領 AI 進入下一個時代的關鍵。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。