mk-brain - Maki Chiang｜Notes (Page 10)

Maki Chiang｜Notes

Sign in Subscribe

mk-brain

A collection of 379 posts

拆解複雜決策：從資料填鴨到可治理的工作流

拆解複雜決策：從資料填鴨到可治理的工作流

當我們面對複雜問題時，直覺反應是給 AI 更多資料，期待它能「自行理解」。但這種作法往往適得其反。真正的關鍵不在於資料的量，而在於建立一套清晰的決策流程，將龐大問題拆解為規劃、檢索、執行等可控的步驟。

RAG 的真相：模型為何放棄內在記憶，選擇依賴上下文？

RAG 的真相：模型為何放棄內在記憶，選擇依賴上下文？

我們常以為 RAG 是為 LLM 補充新知，但最新研究揭示了驚人真相：模型竟傾向放棄自身記憶，過度依賴提供的上下文。這不是知識的融合，而是一種強烈的「走捷徑」偏誤。本文將深入探討這現象對 RAG 系統設計的深遠影響，並思考我們該如何從檢索量迷思，轉向更精妙的記憶分工與 Agent 架構。

擴展定律的黃昏？當知識與推理分道揚鑣

擴展定律的黃昏？當知識與推理分道揚鑣

過去，我們深信單一的擴展定律能指導大型語言模型的訓練。然而，一項顛覆性研究揭示：知識與推理能力遵循著截然不同的擴展路徑！這不僅是學術界的震撼彈，更直接衝擊了我們在模型架構、產品定位與資源配置上的每一個關鍵決策。是時候重新思考你的AI策略了。

LLM 的真正價值，不在自動化而在重組工作流

LLM 的真正價值，不在自動化而在重組工作流

許多人將大型語言模型（LLM）視為單點任務的自動化工具，但這只是冰山一角。一份針對知識工作者的研究顯示，真正的生產力革命，來自於將 AI 無縫整合進完整的工作流程。這將從根本上重塑我們的資料脈絡、協作方式，甚至重新定義團隊內的責任分工，遠超乎你對自動化的想像。

長程任務 Agent 的真正瓶頸：我們需要的是可治理的系統，而不只是更強的模型

長程任務 Agent 的真正瓶頸：我們需要的是可治理的系統，而不只是更強的模型

當 AI Agent 執行複雜任務時頻頻失敗，我們常歸咎於模型不夠聰明。但一篇新研究指出，真正的問題可能在於架構：將規劃與執行分層設計，才是提升可靠性的關鍵。這不只是技術細節，而是一種系統設計的典範轉移。

Agent 開發的下一波浪潮：從 Prompt 煉丹到可預測的工作流工程

Agent 開發的下一波浪潮：從 Prompt 煉丹到可預測的工作流工程

當前 AI Agent 的開發仍高度依賴手動調整與昂貴的試錯，如同煉金術。一篇新研究指出，透過將 Agent 工作流視為計算圖，並利用圖神經網絡（GNN）預測其效能，我們正迎來一個新典範：可預測、可搜尋、可自動優化的「工作流工程」，這將是建構複雜 AI 系統的關鍵下一步。

從神秘黑箱到可復現系統：推理模型的新護城河

從神秘黑箱到可復現系統：推理模型的新護城河

長久以來，頂尖大型語言模型的推理能力，尤其透過強化學習（RL）達成的突破，一直被視為不可外傳的「煉金術」。但現在，一篇名為 DAPO 的研究，正悄悄預示著一個新時代的來臨：未來競爭的關鍵，將不再是神秘的模型權重，而是開放、可復現的系統工程能力。

AI Agent 協作的信任難題：我們準備好迎接跨系統的「代理人戰爭」了嗎？

AI Agent 協作的信任難題：我們準備好迎接跨系統的「代理人戰爭」了嗎？

當 AI 代理人不再只是單打獨鬥，而是開始跨越系統邊界、自主協作時，一個攸關未來 AI 生態的根本性問題隨之浮現：我們該如何建立它們之間的信任？這不只是一項技術挑戰，更是決定 AI 協作能否安全、穩健發展的關鍵基石。本文將深入探討這場潛在的「代理人戰爭」，以及我們如何為其築起信任的防線。

從 Prompt 到 Skill：AI Agent 的下一步是能力模組化

從 Prompt 到 Skill：AI Agent 的下一步是能力模組化

當我們還在鑽研如何下達精準的 prompt 時，產業的典範已悄然轉移。Anthropic 開源的「Skills」專案，揭示了 AI Agent 發展的下一個關鍵階段：將零散的指令封裝成可重用、可治理的能力模組，這不只是技術的演進，更是我們建構與管理 AI 工作流思維的根本變革。

Agent 評估的下一步：從排行榜分數走向可驗證的工作流

Agent 評估的下一步：從排行榜分數走向可驗證的工作流

隨著 AI Agent 能力的飛速提升，我們如何確保它們是真的完成任務，而不僅僅是「看起來成功」？微軟的一項最新研究，為此提出了一個關鍵解方：建立「通用驗證器」。這不只是一項技術挑戰，更關乎我們如何治理與信任自主系統，是 AI Agent 從實驗室走向真實世界的必經之路。

超越馮紐曼架構？神經電腦預示的 AI 系統下一步

超越馮紐曼架構？神經電腦預示的 AI 系統下一步

傳統電腦架構將計算與記憶體分離，長久以來限制了 AI 系統的潛力。但一篇最新研究提出的「神經電腦」概念，試圖透過學習式運行狀態，將計算、記憶與 I/O 徹底統一。這不只是一個理論突破，更可能預示著 AI 系統架構的下一個演化方向，值得我們深入探討。

AI 代理人的下一步：打造能夠自我演化的動態記憶

AI 代理人的下一步：打造能夠自我演化的動態記憶

當前的 AI 代理人，就像只能查閱資料卻無法真正學習的實習生，常受限於靜態的記憶系統。這種「數位失憶症」不僅限制了它們處理複雜、長期任務的能力，更阻礙了真正的自主進化。本文將探討一個關鍵轉變：如何讓代理人的記憶從被動檢索，走向能夠持續學習與成長的主動演化，為 AI 帶來更深層次的智慧。

多代理協作的迷思：當預算固定，單一大型模型為何是更有效率的選擇？

多代理協作的迷思：當預算固定，單一大型模型為何是更有效率的選擇？

業界對多代理（Multi-agent）系統的追捧，可能建立在一個被忽略的基礎上：不受控制的計算預算。一篇新研究指出，當我們將思考的「成本」拉到同個基準點，單一大型模型因其資訊效率，表現反而超越了複雜的多代理架構。這對系統設計者意味著什麼？

AI Agent 的能力幻覺：為何實驗室裡的超能力，在真實世界不堪一擊？

AI Agent 的能力幻覺：為何實驗室裡的超能力，在真實世界不堪一擊？

我們不斷為 AI Agent 賦予更多技能，期待它能解決複雜問題。但一篇研究揭示了殘酷的真相：在真實工作流中，這些技能的效益極其脆弱，表現甚至趨近於零。真正的瓶頸並非技能本身，而是我們忽略了最關鍵的一環——能力調度。

AI Agent 的成敗關鍵，不在模型智商，而在駕馭它的基礎設施

AI Agent 的成敗關鍵，不在模型智商，而在駕馭它的基礎設施

我們常陷入追求更強大模型的迷思，但 AI Agent 要真正落地，關鍵不在於模型本身有多聰明，而在於我們如何為這匹脫韁野馬套上馬具。這套「馬具」，就是決定成敗的基礎設施，它將機率性的 AI 轉化為企業可控、可信賴的系統。

AI 軟體工程師的雙重記憶：地圖與日誌，如何建構可持續的決策能力

AI 軟體工程師的雙重記憶：地圖與日誌，如何建構可持續的決策能力

AI 代理在軟體工程中，常因缺乏長期記憶與全域視野而顯得力不從心。想像一個能理解專案全貌、又能從過往經驗中學習的 AI 協作者！本文將深入探討如何結合程式碼的「靜態結構地圖」與「動態開發日誌」，為 AI 代理建構可持續的決策基礎，使其從單純的指令執行者，進化為真正具備脈絡感知能力的智慧夥伴。

AI 寫程式的下一步：從單次任務成功，到可擴展的「原子技能」

AI 寫程式的下一步：從單次任務成功，到可擴展的「原子技能」

你的 AI 寫程式工具，是不是常常「頭痛醫頭，腳痛醫腳」？雖然能解決當前問題，卻難以舉一反三？這篇文章將帶你深入探討，為何當前 AI 編程系統常陷入「為了解決任務而解決任務」的困境。一篇最新研究指出，真正的突破點，在於從單次任務的成功，轉向建構可累積、可重組的「原子技能」。這不僅是技術路徑的轉變，更是從一次性的 prompt engineering，邁向可持

AI 可靠性的真正考驗：不是答案對錯，而是它是否知道自己沒資格開口

AI 可靠性的真正考驗：不是答案對錯，而是它是否知道自己沒資格開口

AI 最危險的錯誤，不是它胡說八道，而是當它在關鍵前提缺失下，依然能流暢地完成一套看似完美的推理。真正的 AI 可靠性，不該只在事後驗證答案對錯，更應追溯到模型是否具備足夠的資訊基礎來啟動思考。這篇文章將深入探討，為何「知其不知」的能力，才是 AI 系統設計與治理的核心關鍵。

從對話到執行：ChatGPT 的下一步，預示 AI 助理的系統性變革

從對話到執行：ChatGPT 的下一步，預示 AI 助理的系統性變革

ChatGPT 不再滿足於對話，它正進化為能自主執行任務的 AI 代理。這不僅是功能躍進，更預示著 AI 系統設計的根本轉變：從單純的對話介面，走向具備虛擬化執行環境的實作階段，並重新定義了人機協作的權限邊界與信任模式。

AI 寫程式，為何同個模型表現天差地遠？關鍵在 LLM 之外的「外殼」設計

AI 寫程式，為何同個模型表現天差地遠？關鍵在 LLM 之外的「外殼」設計

我們常以為 AI 寫程式的能力完全取決於底層的大型語言模型，但為何同樣是 GPT-4 或 Claude 3，在不同工具中的表現卻有雲泥之別？本文將深入探討決定 AI Agent 效能的關鍵——那層圍繞著 LLM 的「外殼」架構，以及它如何成為未來軟體工程的新戰場。

擁抱主權 AI：在部署邊界中尋求隱私與系統自主權

擁抱主權 AI：在部署邊界中尋求隱私與系統自主權

AI 浪潮下，你是否也開始思考數據的真正歸屬？當隱私與自主權成為新戰場，本地部署的「主權 AI」正悄然崛起。本文將帶你深入了解，如何在自己的數位邊界內，牢牢掌握 AI 的核心能力，實現真正的數據安全與戰略彈性。

AI 程式開發的下個戰場：從模型能力到脈絡系統的典範轉移

AI 程式開發的下個戰場：從模型能力到脈絡系統的典範轉移

AI 程式開發的未來，不再只是模型能力的軍備競賽。當前工具在處理大型專案時的瓶頸，指向了一個更深層次的挑戰：如何讓 AI 不僅能寫程式，更能「理解」程式碼的來龍去脈。本文將深入探討這場從單點提示工程，轉向建立智慧「脈絡系統」的典範轉移，以及它如何重塑未來的 AI 系統設計與 Agent 工作流，開啟程式開發的新紀元。

當科學發現成為可程式化的工作流：CodeScientist 預示的自主研究新範式

當科學發現成為可程式化的工作流：CodeScientist 預示的自主研究新範式

過去我們將大型語言模型視為加速器，用來寫程式、整理資料。但當模型開始能自主提出假說、設計實驗、除錯並產出報告時，它就不再只是工具，而是一個研究夥伴。AllenAI 的 CodeScientist 專案，正預示著這個典範轉移的到來。

一個範例，撬動模型的推理能力：RLVR 如何挑戰大數據訓練的迷思

一個範例，撬動模型的推理能力：RLVR 如何挑戰大數據訓練的迷思

當我們習慣用海量數據來堆砌模型能力時，一篇研究展示了截然不同的路徑。僅用一個訓練範例，就能讓小型語言模型的數學推理能力翻倍，其關鍵不在數據的量，而在於回饋機制的質。這項發現可能為 AI 的訓練與對齊帶來新的典範。

讓模型專心思考，而不是死背：RARE 架構如何解放小型模型的推理潛力

讓模型專心思考，而不是死背：RARE 架構如何解放小型模型的推理潛力

大型語言模型越大越好嗎？當模型追求無所不知，卻可能犧牲了推理的深度。一篇新研究提出的 RARE 架構，將知識檢索與邏輯推理徹底分工，讓輕量模型在特定領域的表現超越了 GPT-4。這對 AI 系統設計帶來什麼啟示？