LLM

A collection of 70 posts
超越 Transformer 與 Mamba 之爭:一個統一模型架構的新起點
mk-brain

超越 Transformer 與 Mamba 之爭:一個統一模型架構的新起點

長期以來,AI 模型架構的發展彷彿一場路線之爭:究竟是選擇 Transformer 強大的表達能力,還是擁抱 Mamba 等狀態空間模型(SSM)的線性效率?一篇突破性的研究論文揭示,這兩者並非對立,而是一個更深層結構的兩種表現形式。這項發現不僅終結了長期的辯論,更為下一代 AI 系統的設計開闢了全新的可能性。
7 min read
解碼 AI 黑盒子:當可解釋性成為大型模型的基礎設施
mk-brain

解碼 AI 黑盒子:當可解釋性成為大型模型的基礎設施

大型語言模型(LLM)的強大能力令人驚嘆,但其內部運作的「黑盒子」特性,卻讓AI的安全性與可靠性蒙上陰影。現在,Anthropic 的一項突破性研究,成功利用稀疏自動編碼器(SAE)大規模解鎖 Claude 3 Sonnet 的內部語義特徵。這不僅是學術上的里程碑,更預示著可解釋性將從研究工具,一躍成為未來AI審計與治理的核心基礎設施。
6 min read
AI 的「我不知道」,比答對更重要:從信心分數到自我反思的信任躍升
mk-brain

AI 的「我不知道」,比答對更重要:從信心分數到自我反思的信任躍升

大型語言模型(LLM)常過度自信,即使答案錯誤也理直氣壯。一篇最新研究指出,AI 的真正可靠性,不在於給出冰冷的信心分數,而是讓它學會「自我反思」,清楚解釋其不確定性的理由。這不僅是技術校準,更是建立可信任、可治理 AI 系統的關鍵一步,讓 AI 從黑箱神諭轉變為坦誠的協作夥伴。
6 min read