AI - Maki Chiang｜Notes (Page 10)

Maki Chiang｜Notes

Sign in Subscribe

AI

A collection of 445 posts

AI 推理的下一步：為何我們需要超越「流暢」，擁抱可驗證的符號邏輯？

AI 推理的下一步：為何我們需要超越「流暢」，擁抱可驗證的符號邏輯？

大型語言模型擅長生成看似合理的推理過程，但這些過程往往經不起嚴格檢驗。當答案的「忠實度」比「流暢度」更重要時，我們該如何構建更可靠的 AI 系統？一篇新研究提出的 SymbCoT 框架，或許指出了關鍵方向：將語言的模糊性轉化為符號的確定性。

超越 Transformer 與 Mamba 之爭：一個統一模型架構的新起點

超越 Transformer 與 Mamba 之爭：一個統一模型架構的新起點

長期以來，AI 模型架構的發展彷彿一場路線之爭：究竟是選擇 Transformer 強大的表達能力，還是擁抱 Mamba 等狀態空間模型（SSM）的線性效率？一篇突破性的研究論文揭示，這兩者並非對立，而是一個更深層結構的兩種表現形式。這項發現不僅終結了長期的辯論，更為下一代 AI 系統的設計開闢了全新的可能性。

語言模型之後，Agent 的下一步：打造可操作的世界知識模型

語言模型之後，Agent 的下一步：打造可操作的世界知識模型

大型語言模型雖然語言流暢，但在理解物理世界與常識時常顯得笨拙，導致 AI Agent 在規劃任務時頻頻出錯。最近一篇研究提出「世界知識模型」的概念，試圖將抽象的知識參數化，讓 Agent 的規劃不再只是機率猜測，而是基於對世界的真實理解。這或許是通往更可靠自主 Agent 的關鍵一步。

AI 對齊的尺度困境：從人工標註到自動化系統設計

AI 對齊的尺度困境：從人工標註到自動化系統設計

過去我們依賴大量人力來「教導」AI 何謂對錯，但當模型的知識與推理能力超越人類時，這種「人工監工」模式還能走多遠？AI 對齊（Alignment）正從一個勞力密集的標註問題，轉變為一個更根本的自動化系統設計挑戰。

解碼 AI 黑盒子：當可解釋性成為大型模型的基礎設施

解碼 AI 黑盒子：當可解釋性成為大型模型的基礎設施

大型語言模型（LLM）的強大能力令人驚嘆，但其內部運作的「黑盒子」特性，卻讓AI的安全性與可靠性蒙上陰影。現在，Anthropic 的一項突破性研究，成功利用稀疏自動編碼器（SAE）大規模解鎖 Claude 3 Sonnet 的內部語義特徵。這不僅是學術上的里程碑，更預示著可解釋性將從研究工具，一躍成為未來AI審計與治理的核心基礎設施。

AI 的「我不知道」，比答對更重要：從信心分數到自我反思的信任躍升

AI 的「我不知道」，比答對更重要：從信心分數到自我反思的信任躍升

大型語言模型（LLM）常過度自信，即使答案錯誤也理直氣壯。一篇最新研究指出，AI 的真正可靠性，不在於給出冰冷的信心分數，而是讓它學會「自我反思」，清楚解釋其不確定性的理由。這不僅是技術校準，更是建立可信任、可治理 AI 系統的關鍵一步，讓 AI 從黑箱神諭轉變為坦誠的協作夥伴。

拆解複雜決策：從資料填鴨到可治理的工作流

拆解複雜決策：從資料填鴨到可治理的工作流

當我們面對複雜問題時，直覺反應是給 AI 更多資料，期待它能「自行理解」。但這種作法往往適得其反。真正的關鍵不在於資料的量，而在於建立一套清晰的決策流程，將龐大問題拆解為規劃、檢索、執行等可控的步驟。

RAG 的真相：模型為何放棄內在記憶，選擇依賴上下文？

RAG 的真相：模型為何放棄內在記憶，選擇依賴上下文？

我們常以為 RAG 是為 LLM 補充新知，但最新研究揭示了驚人真相：模型竟傾向放棄自身記憶，過度依賴提供的上下文。這不是知識的融合，而是一種強烈的「走捷徑」偏誤。本文將深入探討這現象對 RAG 系統設計的深遠影響，並思考我們該如何從檢索量迷思，轉向更精妙的記憶分工與 Agent 架構。

擴展定律的黃昏？當知識與推理分道揚鑣

擴展定律的黃昏？當知識與推理分道揚鑣

過去，我們深信單一的擴展定律能指導大型語言模型的訓練。然而，一項顛覆性研究揭示：知識與推理能力遵循著截然不同的擴展路徑！這不僅是學術界的震撼彈，更直接衝擊了我們在模型架構、產品定位與資源配置上的每一個關鍵決策。是時候重新思考你的AI策略了。

從 Vibe Coding 到 Agentic Engineering：當 LLM 不只是工具，而是新的計算介面

從 Vibe Coding 到 Agentic Engineering：當 LLM 不只是工具，而是新的計算介面

當 LLM 不只是寫程式的助手，而成為新的可編程計算介面，軟體工程、產品設計與基礎設施也開始從 vibe coding 走向 agentic engineering。

LLM 的真正價值，不在自動化而在重組工作流

LLM 的真正價值，不在自動化而在重組工作流

許多人將大型語言模型（LLM）視為單點任務的自動化工具，但這只是冰山一角。一份針對知識工作者的研究顯示，真正的生產力革命，來自於將 AI 無縫整合進完整的工作流程。這將從根本上重塑我們的資料脈絡、協作方式，甚至重新定義團隊內的責任分工，遠超乎你對自動化的想像。

長程任務 Agent 的真正瓶頸：我們需要的是可治理的系統，而不只是更強的模型

長程任務 Agent 的真正瓶頸：我們需要的是可治理的系統，而不只是更強的模型

當 AI Agent 執行複雜任務時頻頻失敗，我們常歸咎於模型不夠聰明。但一篇新研究指出，真正的問題可能在於架構：將規劃與執行分層設計，才是提升可靠性的關鍵。這不只是技術細節，而是一種系統設計的典範轉移。

Agent 開發的下一波浪潮：從 Prompt 煉丹到可預測的工作流工程

Agent 開發的下一波浪潮：從 Prompt 煉丹到可預測的工作流工程

當前 AI Agent 的開發仍高度依賴手動調整與昂貴的試錯，如同煉金術。一篇新研究指出，透過將 Agent 工作流視為計算圖，並利用圖神經網絡（GNN）預測其效能，我們正迎來一個新典範：可預測、可搜尋、可自動優化的「工作流工程」，這將是建構複雜 AI 系統的關鍵下一步。

從神秘黑箱到可復現系統：推理模型的新護城河

從神秘黑箱到可復現系統：推理模型的新護城河

長久以來，頂尖大型語言模型的推理能力，尤其透過強化學習（RL）達成的突破，一直被視為不可外傳的「煉金術」。但現在，一篇名為 DAPO 的研究，正悄悄預示著一個新時代的來臨：未來競爭的關鍵，將不再是神秘的模型權重，而是開放、可復現的系統工程能力。

AI Agent 協作的信任難題：我們準備好迎接跨系統的「代理人戰爭」了嗎？

AI Agent 協作的信任難題：我們準備好迎接跨系統的「代理人戰爭」了嗎？

當 AI 代理人不再只是單打獨鬥，而是開始跨越系統邊界、自主協作時，一個攸關未來 AI 生態的根本性問題隨之浮現：我們該如何建立它們之間的信任？這不只是一項技術挑戰，更是決定 AI 協作能否安全、穩健發展的關鍵基石。本文將深入探討這場潛在的「代理人戰爭」，以及我們如何為其築起信任的防線。

從 Prompt 到 Skill：AI Agent 的下一步是能力模組化

從 Prompt 到 Skill：AI Agent 的下一步是能力模組化

當我們還在鑽研如何下達精準的 prompt 時，產業的典範已悄然轉移。Anthropic 開源的「Skills」專案，揭示了 AI Agent 發展的下一個關鍵階段：將零散的指令封裝成可重用、可治理的能力模組，這不只是技術的演進，更是我們建構與管理 AI 工作流思維的根本變革。

Agent 評估的下一步：從排行榜分數走向可驗證的工作流

Agent 評估的下一步：從排行榜分數走向可驗證的工作流

隨著 AI Agent 能力的飛速提升，我們如何確保它們是真的完成任務，而不僅僅是「看起來成功」？微軟的一項最新研究，為此提出了一個關鍵解方：建立「通用驗證器」。這不只是一項技術挑戰，更關乎我們如何治理與信任自主系統，是 AI Agent 從實驗室走向真實世界的必經之路。

超越馮紐曼架構？神經電腦預示的 AI 系統下一步

超越馮紐曼架構？神經電腦預示的 AI 系統下一步

傳統電腦架構將計算與記憶體分離，長久以來限制了 AI 系統的潛力。但一篇最新研究提出的「神經電腦」概念，試圖透過學習式運行狀態，將計算、記憶與 I/O 徹底統一。這不只是一個理論突破，更可能預示著 AI 系統架構的下一個演化方向，值得我們深入探討。

AI 代理人的下一步：打造能夠自我演化的動態記憶

AI 代理人的下一步：打造能夠自我演化的動態記憶

當前的 AI 代理人，就像只能查閱資料卻無法真正學習的實習生，常受限於靜態的記憶系統。這種「數位失憶症」不僅限制了它們處理複雜、長期任務的能力，更阻礙了真正的自主進化。本文將探討一個關鍵轉變：如何讓代理人的記憶從被動檢索，走向能夠持續學習與成長的主動演化，為 AI 帶來更深層次的智慧。

多代理協作的迷思：當預算固定，單一大型模型為何是更有效率的選擇？

多代理協作的迷思：當預算固定，單一大型模型為何是更有效率的選擇？

業界對多代理（Multi-agent）系統的追捧，可能建立在一個被忽略的基礎上：不受控制的計算預算。一篇新研究指出，當我們將思考的「成本」拉到同個基準點，單一大型模型因其資訊效率，表現反而超越了複雜的多代理架構。這對系統設計者意味著什麼？

AI Agent 的能力幻覺：為何實驗室裡的超能力，在真實世界不堪一擊？

AI Agent 的能力幻覺：為何實驗室裡的超能力，在真實世界不堪一擊？

我們不斷為 AI Agent 賦予更多技能，期待它能解決複雜問題。但一篇研究揭示了殘酷的真相：在真實工作流中，這些技能的效益極其脆弱，表現甚至趨近於零。真正的瓶頸並非技能本身，而是我們忽略了最關鍵的一環——能力調度。

AI Agent 的成敗關鍵，不在模型智商，而在駕馭它的基礎設施

AI Agent 的成敗關鍵，不在模型智商，而在駕馭它的基礎設施

我們常陷入追求更強大模型的迷思，但 AI Agent 要真正落地，關鍵不在於模型本身有多聰明，而在於我們如何為這匹脫韁野馬套上馬具。這套「馬具」，就是決定成敗的基礎設施，它將機率性的 AI 轉化為企業可控、可信賴的系統。

AI 軟體工程師的雙重記憶：地圖與日誌，如何建構可持續的決策能力

AI 軟體工程師的雙重記憶：地圖與日誌，如何建構可持續的決策能力

AI 代理在軟體工程中，常因缺乏長期記憶與全域視野而顯得力不從心。想像一個能理解專案全貌、又能從過往經驗中學習的 AI 協作者！本文將深入探討如何結合程式碼的「靜態結構地圖」與「動態開發日誌」，為 AI 代理建構可持續的決策基礎，使其從單純的指令執行者，進化為真正具備脈絡感知能力的智慧夥伴。

AI 寫程式的下一步：從單次任務成功，到可擴展的「原子技能」

AI 寫程式的下一步：從單次任務成功，到可擴展的「原子技能」

你的 AI 寫程式工具，是不是常常「頭痛醫頭，腳痛醫腳」？雖然能解決當前問題，卻難以舉一反三？這篇文章將帶你深入探討，為何當前 AI 編程系統常陷入「為了解決任務而解決任務」的困境。一篇最新研究指出，真正的突破點，在於從單次任務的成功，轉向建構可累積、可重組的「原子技能」。這不僅是技術路徑的轉變，更是從一次性的 prompt engineering，邁向可持

AI 可靠性的真正考驗：不是答案對錯，而是它是否知道自己沒資格開口

AI 可靠性的真正考驗：不是答案對錯，而是它是否知道自己沒資格開口

AI 最危險的錯誤，不是它胡說八道，而是當它在關鍵前提缺失下，依然能流暢地完成一套看似完美的推理。真正的 AI 可靠性，不該只在事後驗證答案對錯，更應追溯到模型是否具備足夠的資訊基礎來啟動思考。這篇文章將深入探討，為何「知其不知」的能力，才是 AI 系統設計與治理的核心關鍵。