LLM - Maki Chiang｜Notes (Page 2)

Maki Chiang｜Notes

Sign in Subscribe

LLM

A collection of 82 posts

跳出 BPE 的局部最佳解：用 Convex Optimization 重新思考 Tokenization

跳出 BPE 的局部最佳解：用 Convex Optimization 重新思考 Tokenization

大多數人把 tokenizer 當成模型訓練前的固定工序，但這篇新論文提醒我們：tokenization 本身其實就是一個近似最適化問題。當研究者把它從 BPE 這類貪婪法，重寫成可鬆弛、可求界的 convex optimization 問題後，tokenizer 不再只是工程習慣，而開始變成能被系統性設計與驗證的模型基礎設施。

超越草稿模型：Medusa 如何從系統架構層面重塑 LLM 推理效率

超越草稿模型：Medusa 如何從系統架構層面重塑 LLM 推理效率

當我們追求大型語言模型（LLM）的極致推理速度時，多數人會直覺地想到「推測解碼」（Speculative Decoding）。然而，Medusa 框架卻提出了顛覆性的觀點：真正的瓶頸並非需要一個更快的草稿模型，而是如何從根本的系統架構上，打破 LLM 自回歸的序列限制。本文將深入探討 Medusa 如何透過巧妙的多個解碼頭設計，實現並行預測與驗證，將推理延遲

LangGraph 在客服流程上輸 18 倍——但這篇論文的射程比標題小很多

LangGraph 在客服流程上輸 18 倍——但這篇論文的射程比標題小很多

一篇標題寫著「Obsoletes」的 arxiv 論文。讀完發現：它打的不是 orchestrator 本身，是「single-model 跑 procedural workflow 還反射性包 LangGraph」這個動作。1,200 對話、effect size d=0.37-1.01，證據很硬——但射程比標題小很多。

為何我們需要專職的「AI 糾察隊」，而非更大的通用模型？

為何我們需要專職的「AI 糾察隊」，而非更大的通用模型？

追求更大的模型並非提升 AI 可靠性的唯一解方。近期研究顯示，透過專職的小型「評審」模型，對大型模型的生成內容進行監督與修正，不僅成本更低，成效也更卓越。這種角色分工的架構，將是未來 AI 系統走向工程化與可治理的關鍵。

GPQA 之後：當 AI 踏入專家領域，我們真正該解決的問題是「可擴展監督」

GPQA 之後：當 AI 踏入專家領域，我們真正該解決的問題是「可擴展監督」

GPQA 基準測驗揭示，前沿 AI 在專業領域仍遠遜人類專家，且傳統準確率已不足以衡量其風險。這不僅暴露了頂尖模型在專家級知識上的極限，更凸顯了我們在監督高風險 AI 應用上的巨大缺口。當 AI 的答案連非專家都難以驗證時，我們該如何建立信任與安全網？本文將深入探討，為何「可擴展監督」是建構下一代 AI 系統不可或缺的基石。

從 MathPile 看 AI 推理的下一步：為何高品質的結構化資料，比無盡的數據更重要？

從 MathPile 看 AI 推理的下一步：為何高品質的結構化資料，比無盡的數據更重要？

當大型語言模型（LLM）的軍備競賽從「規模」轉向「推理」時，我們該如何突破瓶頸？本文將深入探討近期備受矚目的數學語料庫 MathPile，揭示為何精心策劃、具備清晰結構的高品質資料，遠比無盡的數據量更能有效提升 AI 的推理能力，並為 AI 系統建構者提供實用的資料策略與 Agent 設計啟示。

從「提示詞魔法」到「提示系統工程」：我們真正需要的 Prompting 成熟路線圖

從「提示詞魔法」到「提示系統工程」：我們真正需要的 Prompting 成熟路線圖

Prompt engineering 的未來，不再是追逐難以捉摸的「魔法」，而是建立一套可共享、可測試、可維護的系統化方法。一篇近期的研究論文，為我們揭示了從個人「煉金術」走向團隊「工程學」的清晰路徑，這條路徑的核心，是原則、系統與治理。

超越 AGI 迷霧：為什麼「推理」能力正在重塑 AI 系統的設計思維

超越 AGI 迷霧：為什麼「推理」能力正在重塑 AI 系統的設計思維

AI 領域對「推理」的熱議，正從遙遠的 AGI 願景，轉變為一場務實的工程典範轉移。當單一模型能力觸及天花板，焦點便從模型本身轉向系統設計。本文將深入探討推理能力的演進，揭示基礎模型的極限，並引導我們思考如何建構更複雜、更具彈性的 AI 系統架構，重新定義下一代 AI 工程師的核心價值。

不只是追求新 Benchmark：為什麼標準化評估才是 Production AI 的真正瓶頸

不只是追求新 Benchmark：為什麼標準化評估才是 Production AI 的真正瓶頸

當 AI 系統從實驗室走向產品，我們面臨的挑戰不再是單純的性能競賽。這篇文章從 PromptBench 這個統一評估框架出發，探討為何建立兼顧安全、穩定與可比較性的評估標準，才是推動 AI 治理與可持續工程決策的關鍵。

從 Gemini Pro 與 GPT-3.5 的對決，看 AI 產品的多模型協作策略

從 Gemini Pro 與 GPT-3.5 的對決，看 AI 產品的多模型協作策略

模型評測的真正價值，不在於誰贏誰輸的排行榜，而在於它如何揭示我們該如何設計更聰明、更有效率的 AI 系統。這篇文章將從 Gemini Pro 與 GPT-3.5 的最新評測出發，深入探討產品開發者應如何思考模型選型、任務分工與多模型路由策略，以打造更具成本效益與韌性的 AI 應用，引領你進入多模型協作的 AI 新時代。

從幻覺到治理：大型語言模型進入高風險生產環境的最後一哩路

從幻覺到治理：大型語言模型進入高風險生產環境的最後一哩路

LLM 的幻覺問題不只是技術瑕疵，更是進入高風險應用的信任門檻。當模型開始處理金融、醫療等關鍵任務，我們需要的就不只是更聰明的 AI，而是一套完整的風險控制、可觀測性與治理框架。本文將從幻覺的根源談起，探討如何建立真正能上線的 AI 系統。

我們真的需要百萬 token 模型嗎？重新思考長上下文任務的真正瓶頸

我們真的需要百萬 token 模型嗎？重新思考長上下文任務的真正瓶頸

在業界競相追逐更長的上下文視窗時，一篇研究點出了一個反直覺卻關鍵的觀點：長上下文任務的瓶頸，或許不在模型本身，而在於我們如何設計檢索與規劃策略。一個聰明的框架，甚至能讓短上下文模型高效解決長文件挑戰。

思考的工程學：當高品質的推理範本，勝過更大的模型

思考的工程學：當高品質的推理範本，勝過更大的模型

我們總以為追求更強的 AI 推理能力，就等於追求更大的模型。但一篇新研究「Buffer of Thoughts」提出了一個反直覺卻極具啟發性的方向：與其不斷擴大模型的規模，不如將高品質的思考流程「工程化」，使其成為可重複使用的模板。這不僅讓小模型的表現媲美頂尖模型，成本更僅有複雜框架的 12%。

AI 推理的下一步：為何我們需要超越「流暢」，擁抱可驗證的符號邏輯？

AI 推理的下一步：為何我們需要超越「流暢」，擁抱可驗證的符號邏輯？

大型語言模型擅長生成看似合理的推理過程，但這些過程往往經不起嚴格檢驗。當答案的「忠實度」比「流暢度」更重要時，我們該如何構建更可靠的 AI 系統？一篇新研究提出的 SymbCoT 框架，或許指出了關鍵方向：將語言的模糊性轉化為符號的確定性。

超越 Transformer 與 Mamba 之爭：一個統一模型架構的新起點

超越 Transformer 與 Mamba 之爭：一個統一模型架構的新起點

長期以來，AI 模型架構的發展彷彿一場路線之爭：究竟是選擇 Transformer 強大的表達能力，還是擁抱 Mamba 等狀態空間模型（SSM）的線性效率？一篇突破性的研究論文揭示，這兩者並非對立，而是一個更深層結構的兩種表現形式。這項發現不僅終結了長期的辯論，更為下一代 AI 系統的設計開闢了全新的可能性。

語言模型之後，Agent 的下一步：打造可操作的世界知識模型

語言模型之後，Agent 的下一步：打造可操作的世界知識模型

大型語言模型雖然語言流暢，但在理解物理世界與常識時常顯得笨拙，導致 AI Agent 在規劃任務時頻頻出錯。最近一篇研究提出「世界知識模型」的概念，試圖將抽象的知識參數化，讓 Agent 的規劃不再只是機率猜測，而是基於對世界的真實理解。這或許是通往更可靠自主 Agent 的關鍵一步。

AI 對齊的尺度困境：從人工標註到自動化系統設計

AI 對齊的尺度困境：從人工標註到自動化系統設計

過去我們依賴大量人力來「教導」AI 何謂對錯，但當模型的知識與推理能力超越人類時，這種「人工監工」模式還能走多遠？AI 對齊（Alignment）正從一個勞力密集的標註問題，轉變為一個更根本的自動化系統設計挑戰。

解碼 AI 黑盒子：當可解釋性成為大型模型的基礎設施

解碼 AI 黑盒子：當可解釋性成為大型模型的基礎設施

大型語言模型（LLM）的強大能力令人驚嘆，但其內部運作的「黑盒子」特性，卻讓AI的安全性與可靠性蒙上陰影。現在，Anthropic 的一項突破性研究，成功利用稀疏自動編碼器（SAE）大規模解鎖 Claude 3 Sonnet 的內部語義特徵。這不僅是學術上的里程碑，更預示著可解釋性將從研究工具，一躍成為未來AI審計與治理的核心基礎設施。

AI 的「我不知道」，比答對更重要：從信心分數到自我反思的信任躍升

AI 的「我不知道」，比答對更重要：從信心分數到自我反思的信任躍升

大型語言模型（LLM）常過度自信，即使答案錯誤也理直氣壯。一篇最新研究指出，AI 的真正可靠性，不在於給出冰冷的信心分數，而是讓它學會「自我反思」，清楚解釋其不確定性的理由。這不僅是技術校準，更是建立可信任、可治理 AI 系統的關鍵一步，讓 AI 從黑箱神諭轉變為坦誠的協作夥伴。

拆解複雜決策：從資料填鴨到可治理的工作流

拆解複雜決策：從資料填鴨到可治理的工作流

當我們面對複雜問題時，直覺反應是給 AI 更多資料，期待它能「自行理解」。但這種作法往往適得其反。真正的關鍵不在於資料的量，而在於建立一套清晰的決策流程，將龐大問題拆解為規劃、檢索、執行等可控的步驟。

RAG 的真相：模型為何放棄內在記憶，選擇依賴上下文？

RAG 的真相：模型為何放棄內在記憶，選擇依賴上下文？

我們常以為 RAG 是為 LLM 補充新知，但最新研究揭示了驚人真相：模型竟傾向放棄自身記憶，過度依賴提供的上下文。這不是知識的融合，而是一種強烈的「走捷徑」偏誤。本文將深入探討這現象對 RAG 系統設計的深遠影響，並思考我們該如何從檢索量迷思，轉向更精妙的記憶分工與 Agent 架構。

擴展定律的黃昏？當知識與推理分道揚鑣

擴展定律的黃昏？當知識與推理分道揚鑣

過去，我們深信單一的擴展定律能指導大型語言模型的訓練。然而，一項顛覆性研究揭示：知識與推理能力遵循著截然不同的擴展路徑！這不僅是學術界的震撼彈，更直接衝擊了我們在模型架構、產品定位與資源配置上的每一個關鍵決策。是時候重新思考你的AI策略了。

從神秘黑箱到可復現系統：推理模型的新護城河

從神秘黑箱到可復現系統：推理模型的新護城河

長久以來，頂尖大型語言模型的推理能力，尤其透過強化學習（RL）達成的突破，一直被視為不可外傳的「煉金術」。但現在，一篇名為 DAPO 的研究，正悄悄預示著一個新時代的來臨：未來競爭的關鍵，將不再是神秘的模型權重，而是開放、可復現的系統工程能力。

Ollama 默默把你的 Gemma4 KV cache 撐到 256K：DGX Spark 配置優化的真實坑

Ollama 默默把你的 Gemma4 KV cache 撐到 256K：DGX Spark 配置優化的真實坑

DGX Spark + Gemma4 31B + Ollama 預設配置會默默把 KV cache 拉到 256K context，21GB unified memory 蒸發，inference 卡 28 分鐘。記錄 root cause 與最佳配置：FA=0、KV cache f16、num_ctx 鎖 8K、用 /api/chat 不用 /v1/chat/completions。

一個範例，撬動模型的推理能力：RLVR 如何挑戰大數據訓練的迷思

一個範例，撬動模型的推理能力：RLVR 如何挑戰大數據訓練的迷思

當我們習慣用海量數據來堆砌模型能力時，一篇研究展示了截然不同的路徑。僅用一個訓練範例，就能讓小型語言模型的數學推理能力翻倍，其關鍵不在數據的量，而在於回饋機制的質。這項發現可能為 AI 的訓練與對齊帶來新的典範。