Maki Chiang|Notes

Maki Chiang|Notes

Longform notes on work, products, and reality.

超越人類回饋:自我獎勵模型如何重塑 AI 的進化路徑
mk-brain

超越人類回饋:自我獎勵模型如何重塑 AI 的進化路徑

大型語言模型的能力進化,長期受限於昂貴且緩慢的人類回饋。但如果模型不僅能生成答案,還能自己定義「好答案」的標準、自我評分並迭代呢?一篇來自 Google DeepMind 的研究展示了這種可能性,揭示了一條讓模型能力與評分標準同步進化的新路徑,這不僅是單次表現的提升,更是整個 AI 訓練與評估流程的根本變革。
6 min read
從 Tulu 2 看見開放模型的真正護城河:微調與評估的系統化能力
mk-brain

從 Tulu 2 看見開放模型的真正護城河:微調與評估的系統化能力

大型語言模型的競賽,正從基礎模型的軍備競賽,轉向更細緻的微調與評估工程。Allen AI 的 Tulu 2 專案,不僅是技術上的突破,更為我們揭示了開放模型生態系的下一個戰場。本文將深入探討 Tulu 2 如何透過系統化的方法,確立了高效微調與評估的標準,並指出建立一套可複製、可擴展的「模型適應」系統,才是開放模型真正的競爭壁壘。
7 min read
RAG 的下一步:別再堆疊檢索器,讓模型自己決定怎麼搜
mk-brain

RAG 的下一步:別再堆疊檢索器,讓模型自己決定怎麼搜

RAG 系統越堆越複雜,卻發現效率不增反降?一篇名為 A-RAG 的最新研究,為我們指出了一條新路:與其不斷疊加檢索模組,不如將決策權交還給大型語言模型(LLM),讓它像一位經驗豐富的研究員,自主判斷何時、如何、以何種粒度進行資訊檢索。這不僅是技術上的突破,更預示著 AI 系統設計思維的根本性轉變,準備好一窺 RAG 的未來了嗎?
6 min read
AI Agent 的下一步:為何記憶體與系統設計,比純算力更關鍵?
mk-brain

AI Agent 的下一步:為何記憶體與系統設計,比純算力更關鍵?

當我們追求更強大的 AI Agent 時,真正的瓶頸已悄悄轉移。這篇文章將帶你深入探討,為何記憶體頻寬與系統架構,而非單純的算力堆疊,才是決定未來 AI Agent 效能與應用廣度的關鍵。一篇最新研究揭示,只有透過硬體與模型的協同設計,我們才能真正突破當前困境,讓 Agent 應用在現實世界中發光發熱。
7 min read
不只堆疊更多層:當模型架構本身成為可學習的設計空間
mk-brain

不只堆疊更多層:當模型架構本身成為可學習的設計空間

深度學習的未來,不再只是堆疊更多層或餵養更多資料。一篇名為《Deep Delta Learning》的開創性研究,正引領我們重新思考模型架構的本質:當殘差連接不再是固定的「加法」,而是可學習的「動態變換」,資訊流動的路徑本身,也能成為模型學習的設計空間。這不僅提升了模型效能,更預示著一個模型結構能自我演化的新時代。
7 min read
別再逐字抄寫系統提示詞了:從 Claude 內部文件,看見模型行為的真實設計藍圖
mk-brain

別再逐字抄寫系統提示詞了:從 Claude 內部文件,看見模型行為的真實設計藍圖

最近一份號稱 Claude Opus 4.7 的系統提示詞文件在網路上流傳,但深究其內容,你會發現真正的價值不在於那些可以複製貼上的指令,而在於它揭示了 Anthropic 如何透過結構化的角色、工具與約束,來塑造 AI 的核心行為模式。這份文件就像一份設計藍圖,教我們如何思考,而非如何抄寫,為我們提供了理解頂尖模型運作邏輯的獨特視角。
6 min read
MCP 原型的詛咒:為何成功的 PoC 反而走向技術債的懸崖?
mk-brain

MCP 原型的詛咒:為何成功的 PoC 反而走向技術債的懸崖?

許多團隊在開發多輪對話協定(MCP)系統時,常因追求快速驗證而忽略初期架構的嚴謹性。本文將深入探討,為何這種「先求有再求好」的思維,會讓看似成功的原型在邁向生產環境時,撞上名為「安全之崖」的絕壁,最終導致難以挽回的技術債。這是一篇關於如何避免 MCP 專案從成功走向失敗的警世文。
6 min read
AI Agent 的「無伺服器」時刻:當 AWS Bedrock 將開發重心從編碼轉向系統設計
mk-brain

AI Agent 的「無伺服器」時刻:當 AWS Bedrock 將開發重心從編碼轉向系統設計

AWS Bedrock AgentCore 的「Managed Agent Harness」預覽功能,讓 AI Agent 開發從繁瑣的編碼轉向簡潔的宣告式配置。這不僅大幅降低了開發門檻,更預示著產業重心將從流程控制,轉移至更深層次的系統設計與治理。當 Agent 核心循環成為託管服務,真正的競爭力將來自於我們如何設計穩健工具、規劃有效知識庫,並建立完善的監
7 min read
AI Agent 上線前的最後一哩路:為何我們需要從「結果驗收」走向「軌跡評估」?
mk-brain

AI Agent 上線前的最後一哩路:為何我們需要從「結果驗收」走向「軌跡評估」?

AI Agent 在生產環境中表現不穩定,傳統測試方法束手無策?本文深入解析為何我們必須將品質保證的重心,從單純的「結果驗收」轉向對 Agent 完整「執行軌跡」的嚴格評估。這不僅是為了提升可控性與可追溯性,更是打造可信賴、可診斷 AI 系統的關鍵策略,助您掌握 Agent 上線前的最後一哩路。
7 min read
多代理系統的下一步:從預設流程圖到動態遞迴分工
mk-brain

多代理系統的下一步:從預設流程圖到動態遞迴分工

目前的多代理系統,常依賴我們預先畫好的流程圖來協作。但如果系統能根據任務的複雜度,動態生成解決問題的團隊呢?一個名為 ReDel 的新框架,正在探索這種「遞迴分工」的可能性。這或許才是讓 AI Agent 真正處理複雜、開放式問題的關鍵一步,讓它們從單純的執行者,進化為能夠自主規劃與組織的協作者。
7 min read