江中喬 - Maki Chiang｜Notes (Page 5)

Maki Chiang｜Notes

Sign in Subscribe

江中喬

你的 AI Config 裡全是它不會遵守的規則

你的 AI Config 裡全是它不會遵守的規則

我的 CLAUDE.md 曾經長到 3,550 行。文字規則的實際執行率接近零。我做了 ailint 來抓五種每個 AI config 都有的結構性問題。

95% 壓縮率，但我們決定不做：一個 AI 工具 idea 的生與死

95% 壓縮率，但我們決定不做：一個 AI 工具 idea 的生與死

一個看起來完美的工具構想，經過四位 AI Coder 的嚴格審查，被全票否決。這篇記錄完整過程——從發想到 benchmark 到被殺掉，以及我從中學到的判斷框架。

Claude Code /loop 實戰：讓 AI Agent 自己跑到完

Claude Code /loop 實戰：讓 AI Agent 自己跑到完

你不需要別人的模板庫。理解 /loop 的兩種模式，搭配 hook 和 loop.md，讓 AI Agent 在你泡咖啡的時候自己跑完整個工作流。

AI 服務商正在分拆帳單：當 Agent 執行成本脫離聊天訂閱，自動化的下一步是什麼？

AI 服務商正在分拆帳單：當 Agent 執行成本脫離聊天訂閱，自動化的下一步是什麼？

「無限量自動化」的黃金時代即將落幕！當 AI 平台開始將聊天訂閱與 Agent 自動化執行分開計費，這不僅是價格調整，更是企業營運模式的根本轉變。未來，AI 自動化的核心挑戰將從模型能力轉向成本治理。本文將深入探討這項趨勢，並提供企業應對策略，助您避免高效自動化成為失控的營運黑洞。

AI Agent 的安全幻覺：為何源碼級權限審計才是唯一解方

AI Agent 的安全幻覺：為何源碼級權限審計才是唯一解方

為 AI Agent 加上一層政策聲明或自然語言守則，並不能解決根本的安全問題。真正的安全分水嶺，在於其執行環境的權限模型是否能被源碼級審計與執行時驗證。本文從一份詳盡的 Agent 設定指南談起，探討企業為何需要可檢查、可限制、可回滾的權限架構，而非寄望於脆弱的口頭承諾。

AI 專案的致命陷阱：為何 PoC 成功，產品卻無法落地？

AI 專案的致命陷阱：為何 PoC 成功，產品卻無法落地？

許多 AI 專案在概念驗證（PoC）階段看似成功，卻在導入生產環境時遭遇巨大阻礙。本文將揭露問題核心，探討為何模型精度並非唯一關鍵，而是缺乏清晰的業務邊界、責任歸屬與人工介入機制。我們將拆解如何從制度面進行工程化，確保 AI 系統不僅「能動」，更能真正「可用」。

AI Agent 的下一步：從 Prompt 工程走向「停線管理」的生產思維

AI Agent 的下一步：從 Prompt 工程走向「停線管理」的生產思維

當 AI Agent 開始進入真實生產環境，單次完美的 prompt 已不足夠。我們真正需要的，是借鏡工業生產線的「停線管理」思維，將錯誤視為可觀測的訊號，建立一套能夠自動偵測、停止、修復並持續學習的循環。這才是 AI workflow 從 demo 走向成熟的關鍵，讓系統從實驗室的聰明玩具，進化為可信賴的生產力工具。

RAG 的終點線不是 Demo，而是可量化的評估閉環

RAG 的終點線不是 Demo，而是可量化的評估閉環

許多團隊都能快速做出 RAG 原型，但為何難以產品化？關鍵在於缺乏一套系統化的評估框架。本文將探討如何建立量化指標，將品質、成本與幻覺變成可追蹤、可優化的工程問題，讓 RAG 從有趣的玩具，走向能承擔商業責任的知識系統。

不只是塞滿 Token：外部壓縮層如何重塑長上下文的經濟學

不只是塞滿 Token：外部壓縮層如何重塑長上下文的經濟學

當所有人都還在追求百萬級 Token 的上下文視窗時，真正的瓶頸已轉向成本與效率。本文探討一種新興的系統設計模式——外部壓縮層，它如何透過智慧壓縮，將上下文工程從提示詞技巧提升到影響系統吞吐與經濟性的核心架構，為長任務應用開創了新的可能性。

昂貴 AI 模型的價值不在答對，而在懂得懷疑與查證

昂貴 AI 模型的價值不在答對，而在懂得懷疑與查證

昂貴的 AI 模型，其價值不僅在於答對率，更在於它能主動懷疑、查證與自我修正。一篇日本開發者的實例分享，揭示了頂尖模型如何透過自主檢索官方規格，有效修正幻覺。這項能力，不僅重新定義了高成本模型的投資回報，更為 AI Agent 的未來設計，指明了從追求單次正確，轉向建立可靠驗證工作流的關鍵方向。

AI 競爭的下半場：從模型能力到工程化落地，企業為何更看重「執行堆疊」的穩定性？

AI 競爭的下半場：從模型能力到工程化落地，企業為何更看重「執行堆疊」的穩定性？

當 AI 模型能力逐漸趨同，真正的競爭壁壘正轉向工程化落地能力。企業未來比拼的，不只是模型能做什麼，而是整套執行堆疊能否長期、安全、可控地運作。

Loop Engineering 不只是概念 — 我做了一個跨 Session 的狀態交棒系統

loop-engineering

Loop Engineering 不只是概念 — 我做了一個跨 Session 的狀態交棒系統

Loop Engineering 不只是概念。我做了一個跨 session 的狀態交棒系統 — Session Baton。三層交棒（影響/決策/經驗）+ Anti-Ouroboros gate + PyPI 一行安裝。

Loop Engineering Is More Than a Concept — I Built a Cross-Session State Handoff System

loop-engineering

Loop Engineering Is More Than a Concept — I Built a Cross-Session State Handoff System

Loop Engineering is more than a concept. I built Session Baton — a cross-session state handoff system with three-tier handoff, Anti-Ouroboros gate, and one-line PyPI install.

Agent Tooling 的安全邊界：從最小化設計看 MCP 的本地治理

Agent Tooling 的安全邊界：從最小化設計看 MCP 的本地治理

當我們賦予 AI Agent 使用工具的能力時，如何確保安全？與其疊加複雜的權限控管與警語，不如回歸本質：從一開始就嚴格限制其能力邊界。本文將從 Model Context Protocol (MCP) 的實踐出發，探討如何透過最小化通信介面與預設權限，建立更穩固的本地優先（local-first）治理框架。

別再只談模型了：你的 Agent 成本失控，問題可能出在上下文工程

別再只談模型了：你的 Agent 成本失控，問題可能出在上下文工程

AI Agent 的成本高到讓你頭痛？別急著換模型！我們常將高昂費用歸咎於強大卻昂貴的大型模型，但一個驚人的案例研究揭示，關鍵可能不在於模型本身。透過精細的上下文工程，單次請求成本竟能直接砍半！這證明了成本治理最有效的槓桿，往往藏在系統設計與架構的深處，遠超乎單純的提示詞技巧，是每個 AI 系統建構者都該深思的課題。

AI 編碼的天花板：為何「驗證迴圈」比生成能力更重要？

AI 編碼的天花板：為何「驗證迴圈」比生成能力更重要？

AI 寫 code 的能力越來越強，但為何我們常陷入「修好 A、弄壞 B」的無限迴圈？本文從實務角度剖析，指出 AI 編碼的真正瓶頸不在生成，而在於缺乏自主的驗證與修正能力。這不只是工具的限制，更重新定義了我們對「編碼能力」的理解。

多代理系統的成敗關鍵：問題不在模型智慧，在於溝通協議

多代理系統的成敗關鍵：問題不在模型智慧，在於溝通協議

多代理系統的表現不如預期？別急著怪模型不夠聰明！本文將揭示，真正的問題往往出在代理人之間「資訊傳遞」的無聲損耗。這不僅是技術挑戰，更是一場關於系統設計與溝通協議的思維革命。準備好探索如何打造更穩健、更可靠的 AI 協作架構了嗎？

把 LLM 當 CPU：Context Pointer OS 如何為自主 Agent 打造認知作業系統

把 LLM 當 CPU：Context Pointer OS 如何為自主 Agent 打造認知作業系統

AI Agent 發展停滯不前？關鍵在於 LLM 的「記憶力」不足。一篇日本開發者的創新論文提出 CPOS 概念，將 LLM 視為 CPU，並為其打造一套作業系統級的記憶體管理機制。這套架構透過智慧調度「工作記憶」與「長期記憶」，為 Agent 實現真正的長期記憶與自主決策能力，描繪了一條清晰可行的未來路徑。

RAG 的成本失控，問題不在 Token 數，而在於「控制流」

RAG 的成本失控，問題不在 Token 數，而在於「控制流」

許多團隊在優化 RAG 成本時，往往只專注於減少 token 數量，卻忽略了更深層的問題：系統是否為每個查詢都執行了昂貴的檢索與生成？本文將深入探討為何 RAG 的成本瓶頸其實是「控制流」問題，並提出如何透過智慧架構設計，判斷「何時不該檢索」，從而大幅降低維運成本，將你的 RAG 系統從實驗原型推向可持續的產品階段。

從 Claude 新功能看 AI 典範轉移：當問題不再是 Prompt，而是多代理系統的編排與驗證

從 Claude 新功能看 AI 典範轉移：當問題不再是 Prompt，而是多代理系統的編排與驗證

Anthropic 為 Claude Code 導入的 Dynamic Workflows，預示了 AI 應用典範的重大轉移。當 AI 不再只是單一對話介面，而是能動態編排數百個子代理的協作系統時，成功的關鍵就不再是精巧的提示詞，而是如何設計、驗證這些複雜的代理系統。這不僅是功能升級，更是對我們系統設計思維的全新挑戰，準備好迎接這場變革了嗎？

你的 AI 代理人真的在「研究」嗎？還是只是在尋找認同？

你的 AI 代理人真的在「研究」嗎？還是只是在尋找認同？

許多看似強大的 AI 研究代理人，在接上搜尋工具後，表現卻不如預期。本文從一篇研究出發，深入探討問題根源不在於工具本身，而在於代理人的「思考迴圈」設計，如何無意中將探索任務變成了確認偏誤的陷阱，並提供實務上的觀察與反思。

與其讓 AI 獨自苦思，不如教它何時該「求救」：從 Escalation 架構談起

與其讓 AI 獨自苦思，不如教它何時該「求救」：從 Escalation 架構談起

當大型語言模型（LLM）遇到複雜問題時，強迫它反覆思考可能只會加劇幻覺。更有效的方法是設計一套「問題升級」機制，讓系統知道何時該交棒給更強大的模型或流程。本文探討如何透過階層式架構，實現依需求調整的推理深度，打造更可靠、更聰明的 AI 系統。

RAG 的成敗，不在檢索而在知識庫：為何我們該談的是 Knowledge Operations

RAG 的成敗，不在檢索而在知識庫：為何我們該談的是 Knowledge Operations

許多團隊在優化 RAG 系統時，執著於調整 chunking 策略或更換 embedding 模型，卻忽略了真正的瓶頸：一個充滿草稿、舊版文件與例外流程的混亂知識庫。本文將探討「參照污染」如何導致 AI 產生無效答案，並主張 RAG 的成功其實是一個 Knowledge Operations 問題，其核心在於建立一個乾淨、可信的單一事實來源。

AI 總是不聽話？問題可能不在模型，而在我們給的任務

AI 總是不聽話？問題可能不在模型，而在我們給的任務

當 AI 在複雜任務中開始「忘記」指令，我們常誤以為是模型對齊（alignment）失敗。但真相更接近資源管理：AI 遵循指令的能力有其極限，就像爬梯子一樣，每上一階都更困難。本文探討如何將這個問題從「人格缺陷」重新定義為「系統設計」，並從任務分解與工作流建構中，找到更務實的解方。

AI Agent 工具治理：為何持續驗證比一份百大清單更重要

AI Agent 工具治理：為何持續驗證比一份百大清單更重要

在 AI Agent 工具如雨後春筍般冒出的時代，真正的挑戰並非選擇，而是管理。這篇文章探討為何工具清單會迅速失效，以及它如何轉化為團隊的技術負債。我們將從「工具治理」與「採用成本」的角度，提出一套實務框架，幫助你在快速變化的生態中，建立可持續的技術決策流程，確保技術投資的長期價值。