mk-brain - Maki Chiang｜Notes (Page 6)

Maki Chiang｜Notes

Sign in Subscribe

mk-brain

A collection of 379 posts

從 Prompt Chaining 到狀態機：為什麼 Agent Workflow 需要真正的工程化思維

從 Prompt Chaining 到狀態機：為什麼 Agent Workflow 需要真正的工程化思維

許多開發者將 Agent workflow 視為一系列的 prompt chaining，這種方法脆弱且難以維護。本文將探討為何我們應該將其視為一個可工程化的狀態機系統，並以 LangGraph 為例，說明如何透過明確的狀態、轉移條件與錯誤處理，打造更穩定、可控的 AI 應用。

超越 PoC：打造可維運 RAG 系統的四大支柱

超越 PoC：打造可維運 RAG 系統的四大支柱

許多 RAG 專案在概念驗證（PoC）階段看起來很成功，但進入正式環境後卻頻頻碰壁。本文探討如何跨越這道鴻溝，從一次性的成功走向可持續的系統。關鍵不在於完美的單次回答，而在於建立一套包含評估、監控、版本控制與回饋的穩固運維閉環，這才是 RAG 專案能否長期創造價值的核心。

從工具串接到可信系統：MCP 如何為高風險領域的 LLM 賦予可驗證的專業能力

從工具串接到可信系統：MCP 如何為高風險領域的 LLM 賦予可驗證的專業能力

大型語言模型在法律、稅務等高風險領域的應用，最大挑戰是幻覺與缺乏可驗證性。一個日本開發者的專案，透過 MCP 協定標準化官方數據接口，展示了如何從簡單的工具串接，走向真正可信賴的 AI 系統。這不僅是技術實踐，更是對未來專業 AI 系統架構的深刻啟示。

超越單一分數：我們需要新的 AI Agent 風險治理框架

超越單一分數：我們需要新的 AI Agent 風險治理框架

AI Agent 的風險評估，還在用單一分數嗎？本文將深入剖析為何 CVSS 這類傳統指標，在面對 AI Agent 複雜的權限組合與多變的執行環境時已顯不足。我們將揭示真正的威脅如何從「危險三位一體」的權限交織中浮現，並提出一個創新框架，強調權限分離與環境上下文的重要性。這不僅是技術思維的轉變，更是確保未來 AI 系統安全、可控的關鍵策略，帶你跳脫數字迷思

Agent 的穩定性幻覺：為何關鍵不在模型，而在工具契約與失效設計

Agent 的穩定性幻覺：為何關鍵不在模型，而在工具契約與失效設計

AI Agent 的穩定性，真的只關乎模型聰不聰明？許多開發者在追求更強大 LLM 的同時，卻忽略了生產環境中更關鍵的挑戰：Agent 與外部工具間的互動介面。本文將帶你深入探討，如何透過軟體工程的「工具契約」、版本管理與周全的失效保護機制，打造出真正穩固、可維護的 AI Agent 系統，擺脫模型能力的幻覺。

從個人提示詞到組織記憶：Praxia 如何為企業 AI 流程建立可治理的骨幹

從個人提示詞到組織記憶：Praxia 如何為企業 AI 流程建立可治理的骨幹

當資深員工的「神提示詞」成為個人資產，企業的 AI 導入便會陷入無法規模化的困境。這不僅是技術問題，更是組織知識管理的挑戰。一個新興的開源專案 Praxia，透過多代理人編排與組織記憶循環機制，展示了如何將碎片化的個人經驗，系統性地轉化為可治理、可追溯、可擴展的企業 AI 工作流程，為真正的業務自動化鋪平道路。

多目標強化學習的隱藏陷阱：為何我們需要解耦獎勵信號？

多目標強化學習的隱藏陷阱：為何我們需要解耦獎勵信號？

當我們訓練大型語言模型時，如何讓它同時兼顧準確性、安全性與實用性？這正是多目標強化學習的核心挑戰。傳統上，我們習慣將所有獎勵信號統一正規化，卻可能因此抹煞關鍵的「弱勢」信號，導致訓練不穩、模型表現受限。一篇名為 GDPO 的最新研究，提出了解耦獎勵正規化的創新思路，不僅有效提升了模型在複雜任務上的收斂品質與穩定性，更為多目標強化學習指引了一條更精準、更穩健的

Google 的新賭注：用 Agent-native 思維重塑 Android 開發

Google 的新賭注：用 Agent-native 思維重塑 Android 開發

Google 近期發布的 Android CLI 與 Skills 工具集，不僅是提升開發效率的工具，更是一次深刻的典範轉移。這代表著 Google 正在為 AI Agent 打造一個原生的開發介面，透過指令與工具協定的標準化，從根本上解決大型語言模型在複雜軟體開發任務中的幻覺問題，為人機協作的下一步奠定基礎。

LLM 系統降本九成，但不動搖品質：編排與執行分層的 Subagent 架構實踐

LLM 系統降本九成，但不動搖品質：編排與執行分層的 Subagent 架構實踐

想在不犧牲品質的前提下，大幅降低 LLM 系統的營運成本嗎？本文將揭露一個實戰案例，教你如何運用「編排與執行分層」的 Subagent 架構，讓昂貴的頂級模型專注於決策，而將實際執行交由更經濟的本地模型。這種聰明的策略，不僅能將成本降低超過 90%，更能為你的 AI 應用找到永續發展的關鍵解方。

AI 編碼的下一道坎：從單點修補到系統演進，為何多檔案協調是關鍵？

AI 編碼的下一道坎：從單點修補到系統演進，為何多檔案協調是關鍵？

AI 寫程式很強，但能搞定複雜的「系統演進」嗎？當前的 AI 編碼工具在單點修補上表現亮眼，卻在多檔案協調、理解長期專案脈絡時顯得力不從心。一篇新研究揭示了這道能力鴻溝，指出 AI 要從「程式碼助手」進化成「軟體工程師」，多檔案協調能力將是下一個突破口。這篇文章將深入探討這項挑戰，以及 AI 該如何跨越。

為大規模 Code Agent 建立可擴展的工程鷹架：來自 Confucius Code Agent 的啟示

為大規模 Code Agent 建立可擴展的工程鷹架：來自 Confucius Code Agent 的啟示

目前的 AI Agent 開發多停留在概念驗證，難以應對真實世界的複雜性。一篇近期的研究提出了一套系統化的工程方法，透過模組化的 Agent SDK 與自動優化的 Meta-Agent 閉環，為建構能處理百萬行級別程式碼的生產級 Agent 提供了清晰的藍圖。

生成與驗證分離：AI 科學家如何實現自我進化？

生成與驗證分離：AI 科學家如何實現自我進化？

一篇新研究展示了如何讓 AI 自主學習規劃科學研究。透過自動從論文中提取評分標準，AI 能建立一個生成與驗證分離的回饋循環，不需人類監督就能持續提升研究計畫的品質，為自動化科學發現帶來新可能。

AI 不只是工具，更是研究夥伴：SciSciGPT 如何重塑科學探索的樣貌

AI 不只是工具，更是研究夥伴：SciSciGPT 如何重塑科學探索的樣貌

大型語言模型正從單純的指令執行者，演變為能自主規劃、執行複雜任務的協作者。一篇《自然》期刊的研究展示了 SciSciGPT 原型，揭示 AI 如何系統性地參與科學研究，從而改變我們對研究流程、團隊分工與人才培育的想像。

遞迴式語言模型（RLM）：當 LLM 學會了遞迴呼叫，Context Window 的物理限制就不再是天花板

遞迴式語言模型（RLM）：當 LLM 學會了遞迴呼叫，Context Window 的物理限制就不再是天花板

當業界還在追求更大的 Context Window 時，一篇新論文提出了一個更具系統設計思維的解方：與其無限擴展模型的「工作記憶」，不如讓模型學會像程式一樣進行「遞迴呼叫」，將長文本分解、處理、再整合。這不僅是技術上的突破，更是一種典範轉移，讓我們重新思考模型與複雜資訊互動的根本架構。

模型如何「思考」？記憶的幾何學，以及推理的低維捷徑

模型如何「思考」？記憶的幾何學，以及推理的低維捷徑

大型語言模型（LLM）的驚人推理能力，究竟是怎麼來的？最新研究指出，其核心可能不是複雜的邏輯推演，而是一種精巧的「幾何記憶」。模型將龐大知識壓縮成低維空間，把複雜的推理任務轉化為簡單的空間導航。這篇深度解析將帶你一窺 AI 記憶的全新視角，理解模型如何透過「繪製地圖」來思考，並探索這項發現對未來 AI 發展的深遠影響。

AGI 的最後一塊拼圖：為何「協調層」比更大的模型更重要

AGI 的最後一塊拼圖：為何「協調層」比更大的模型更重要

我們距離通用人工智慧（AGI）還有多遠？一篇新論文指出，關鍵瓶頸不在於模型大小或資料量，而在於一個被忽略的「協調層」。本文將探討為何這種系統整合思維，而非單純的能力堆疊，才是實現真正目標導向智慧的關鍵，並解釋我們該如何從「模式煉金術」轉向更具結構性的「協調物理學」。

AI 協作的真正樣貌：為什麼資深開發者選擇「控制」而非「信任」？

AI 協作的真正樣貌：為什麼資深開發者選擇「控制」而非「信任」？

一份針對資深軟體開發者的研究，揭示了頂尖專業人士如何駕馭 AI Agent。他們並非被動接受產出，而是主動、精準地「控制」AI，將其視為可被引導的強力工具。這種從「信任」轉向「控制」的心態，不僅是確保品質的關鍵，更定義了未來人機協作的真實樣貌：人類的專業知識與判斷力，將是駕馭 AI 的核心。

大型語言模型的推理能力，藏在遞迴與非線性之中

大型語言模型的推理能力，藏在遞迴與非線性之中

我們常以為更複雜的架構才能帶來更強的推理能力，但一篇新研究指出，真正的關鍵可能在於更底層的設計：遞迴結構與強非線性特徵。這不僅挑戰了主流的「暴力堆疊」思維，也為未來更高效、更具備可解釋性的模型指出了新方向。

AI 開始自主解決 AI 對齊問題：研究範式的轉移，還是新風險的開端？

AI 開始自主解決 AI 對齊問題：研究範式的轉移，還是新風險的開端？

Anthropic 的最新研究展示了 AI 系統能自主推進前沿的 AI 對齊研究，其效率與成本效益遠超人類團隊。這不只是一個技術里程碑，更可能預示著科學研究範式的根本轉移。當 AI 開始自主迭代解決自身的核心難題時，我們該如何看待這項進展，又該如何應對隨之而來的潛在風險？

AI 研究的下一個典範：當研究員本身成為可自動化的系統

AI 研究的下一個典範：當研究員本身成為可自動化的系統

Anthropic 的最新研究展示了一種能自主進行實驗、迭代想法的 AI 研究員。這不只是一個實驗，它揭示了 AI 研究流程的根本轉變：從依賴人類靈感，走向可規模化的系統性探索。這對 AI 安全與未來的工作流程意味著什麼？本文將深入探討這項突破性進展。

讓 Agent 在執行中進化：解耦推理與記憶的 MemRL 框架

讓 Agent 在執行中進化：解耦推理與記憶的 MemRL 框架

LLM Agent 難以在不重新訓練下從經驗中學習？一篇新研究《MemRL》提出革命性解方：透過將推理核心與外部記憶解耦，Agent 能在執行任務時，即時利用環境回饋進行強化學習，實現無需微調權重的自我進化。這不僅解決了災難性遺忘，更為建構能持續適應新環境的自主系統，開啟了全新的實踐路徑。

AI 推理能力的下一步：從單一算力到內在的「思想社會」

AI 推理能力的下一步：從單一算力到內在的「思想社會」

大型語言模型的推理能力為何出現飛躍？最新研究指出，關鍵可能不在於無止盡的算力堆疊，而在於模型內部逐漸形成一個多觀點對抗、協商的「思想社會」。這項發現將深刻影響我們未來設計 AI 推理系統的思路與架構。

AI 寫程式的真正分水嶺：從函式補完到系統建構，VibeTensor 帶來了什麼啟示？

AI 寫程式的真正分水嶺：從函式補完到系統建構，VibeTensor 帶來了什麼啟示？

過去我們談論 AI 寫程式，多半關注它能多快完成一個函式或修復一個 bug。但一篇新研究 VibeTensor 揭示了真正的分水嶺：AI Agent 已能獨立構建具備一致抽象與可維護介面的完整系統軟體。這不僅是生產力的提升，更是對軟體開發本質的挑戰。

超越手寫 Prompt：多 Agent 系統產品化的真正瓶頸與解方

超越手寫 Prompt：多 Agent 系統產品化的真正瓶頸與解方

目前多 Agent 系統的開發，多半還停留在為每個 Agent 手寫詳細的角色 Prompt。這種直觀卻脆弱的作法，正成為產品化的一大瓶頸。一篇新研究提出了「Agent Primitives」的概念，主張將複雜的協作行為拆解成可重用、可組合的「原語」，這正是讓多 Agent 系統真正走向穩定與規模化的關鍵一步。

Agent 的能力試金石：為什麼 CLI 才是比聊天室更真實的考驗？

Agent 的能力試金石：為什麼 CLI 才是比聊天室更真實的考驗？

你的 AI Agent 在聊天室裡表現優異，但一進入真實的開發環境就捉襟見肘嗎？本文將深入探討，為何命令列介面（CLI）才是評估 Agent 自主規劃、錯誤恢復與工具使用能力的終極試煉場，並指出我們該如何透過更嚴苛的基準，來建構真正有用的 AI 系統。