mk-brain

模型如何「思考」？記憶的幾何學，以及推理的低維捷徑

大型語言模型（LLM）的驚人推理能力，究竟是怎麼來的？最新研究指出，其核心可能不是複雜的邏輯推演，而是一種精巧的「幾何記憶」。模型將龐大知識壓縮成低維空間，把複雜的推理任務轉化為簡單的空間導航。這篇深度解析將帶你一窺 AI 記憶的全新視角，理解模型如何透過「繪製地圖」來思考，並探索這項發現對未來 AI 發展的深遠影響。

江中喬

22 5月 2026 • 7 min read

我們長期以來對大型語言模型（LLM）的記憶與推理機制存有誤解，常將其類比為一個龐大的知識庫或關聯式資料庫。然而，模型真正的運作方式可能遠比這更優雅、更根本。一篇新研究指出，模型並非單純「查找」事實，而是在內部建構了一個知識的「幾何空間」。在這個空間裡，複雜的推理任務被簡化為在低維度流形（low-dimensional manifold）上的導航。這個「幾何記憶」的觀點至關重要，它不僅解釋了模型為何能進行看似超越訓練資料的泛化推理，也為我們理解、診斷甚至引導 AI 的「思維過程」提供了全新的路徑。

超越事實查找：模型如何將記憶「地圖化」？

傳統上，我們傾向於認為神經網路的記憶是一種「關聯式」的。當你輸入一個問題（key），模型會透過權重找到最相關的答案（value）。這種看法雖然直觀，卻無法完全解釋 LLM 在多步驟推理、類比推理等任務上的卓越表現。如果記憶只是離散事實的集合，那麼模型如何能流暢地串連概念、發現新穎的解決方案？

一篇發表於 arXiv 的新研究《Deep sequence models tend to memorize geometrically; it is unclear why》提出了一個截然不同的模型——「幾何記憶」（Geometric Memory）。這個概念的核心是，模型在學習過程中，並非逐一記下每個知識點，而是將整個知識體系「壓縮」並投影到一個內在的、低維度的幾何空間中。

那麼，在這個「幾何記憶」空間裡，知識是如何被組織與運用的呢？研究指出，模型透過以下方式實現複雜推理的簡化：

概念是點： 每個實體或概念（如「蘋果」、「牛頓」、「萬有引力」）都對應到空間中的一個點。
關係是向量與距離： 概念之間的關係（如「牛頓發現萬有引力」）則由這些點之間的向量或距離來表示。
推理是導航： 當模型需要回答「誰發現了萬有引力？」時，它執行的不是資料庫查詢，而是一種類似向量運算的空間導航——從「萬有引力」這個點出發，沿著「被誰發現」這個關係向量，最終到達「牛頓」這個點。

這就像查閱一本電話簿（關聯記憶）與使用一張地圖（幾何記憶）的區別。電話簿只能讓你找到特定地址，而地圖則揭示了所有地點之間的空間關係，讓你得以規劃從未走過的路線。該研究在超過 70 億參數的序列模型上驗證了這一點，發現其處理複雜關係時，內部表徵確實呈現出清晰的幾何結構。

為什麼模型會自發學習這種幾何結構？

更有趣的問題是，這種高效的幾何結構是如何產生的？研究人員發現，這並非來自於特定的架構設計（如 Transformer 的注意力機制）或監督訊號的壓力，而可能源於深度學習模型一個更內在的特性——光譜偏差（Spectral Bias）。

光譜偏差指的是，神經網路在訓練初期會優先學習資料中簡單、平滑、低頻率的模式。正如過去的研究所揭示的，這是一種固有的學習偏好。將這個概念應用到 LLM 的訓練上，我們可以做出一個合理的推斷：對模型來說，學習並表徵整個知識體系的「全局結構」（一種低頻訊號），遠比死記硬背海量獨立事實（高頻噪點）來得更有效率。模型為了最小化損失函數，會自發地尋找數據中最具概括性的底層結構，而一個低維的幾何空間正是這種結構的完美體現。

換句話說，模型並不是被「教導」去建立地圖，而是發現建立地圖是理解這個世界的「捷徑」。這種自發的湧現行為，是複雜系統中一個非常迷人的特性。

這種將知識組織成內部「世界模型」的傾向，也與其他研究方向不謀而合，例如 DeepMind 對遊戲 AI 內部世界表徵的探索。模型似乎天生就是一位「幾何學家」，致力於為複雜混亂的數據世界繪製出簡潔有序的地圖。

這對實務應用意味著什麼？

將模型記憶視為一個可導航的幾何空間，不僅是一個理論上的突破，更為 AI 系統的開發與應用帶來了深遠的啟示。

首先，它為模型可解釋性開了一扇新窗。過去我們常用注意力分數來解釋模型「在看哪裡」，但這相當於只看見了地圖上的標記，卻不理解地圖本身。如果能將模型的內部幾何空間視覺化，我們就有可能追蹤其「思維軌跡」，直觀地理解它從問題到答案的推理路徑。這對於偵錯、識別偏見，以及建立更可信的 AI 系統至關重要，就像 GAN Dissection 等研究試圖解剖生成模型一樣。

其次，這也為模型控制與對齊提供了新工具。如果推理路徑是可以在空間中被描繪的，我們或許能透過干預這個空間來「引導」模型的思考。例如，我們可以強化或削弱某些概念之間的連結，甚至定義出「禁區」，防止模型產生有害或錯誤的推理路徑。這比單純透過 Prompt Engineering 進行外部引導，或是 Chain-of-Thought 這類提示技巧，來得更為根本與精準。

最後，這個觀點也讓我們重新思考模型的知識邊界。模型的「無知」可能不再是缺少某個事實，而是在其知識地圖上存在著「空洞」或「扭曲」的區域。未來的知識注入技術，或許不再是簡單地餵給模型更多文本，而是像地圖測繪員一樣，精準地修補其內部幾何空間的缺陷。

從關聯式查找的機械視角，轉向幾何導航的空間視角，我們對 AI 心智的理解正在經歷一次深刻的範式轉移。這不僅讓我們更接近理解智慧的本質，也為打造更強大、更可靠的 AI 系統，提供了充滿想像力的藍圖。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

超越事實查找：模型如何將記憶「地圖化」？

為什麼模型會自發學習這種幾何結構？

這對實務應用意味著什麼？

延伸閱讀

Sign up for more like this.