江中喬 - Maki Chiang｜Notes (Page 4)

Maki Chiang｜Notes

Sign in Subscribe

江中喬

打造 AI Agent 系統，從可靠但無聊的基礎建設開始

打造 AI Agent 系統，從可靠但無聊的基礎建設開始

許多 AI Agent 專案的第一個錯誤，就是過度設計溝通層。本文將從一個實際案例出發，探討為何回歸檔案、終端機等基礎原件，才是建立可維護、可驗證 AI 系統的務實第一步。

AI 協作的下一步：為何「職能分離」是建構可靠 Agent 系統的關鍵？

AI 協作的下一步：為何「職能分離」是建構可靠 Agent 系統的關鍵？

當我們要求單一 AI 模型從規劃、實作到審核一手包辦時，其實正在埋下系統性風險。真正的 AI 協作，應該借鏡成熟的軟體開發流程，將任務拆解為「規格判斷」、「程式實作」與「成果審核」三階段，並指派不同特性的模型各司其職。本文將探討這種「職能分離」架構，如何從根本上提升 AI 系統的穩定性與可靠性，將其從單次生成工具，升級為可持續運作的分工機器。

多語言的照妖鏡：一個日文驚嘆號，如何揭示 AI 安全對齊的跨語境漏洞

多語言的照妖鏡：一個日文驚嘆號，如何揭示 AI 安全對齊的跨語境漏洞

一個看似無害的日文標點符號，竟能繞過大型語言模型的政治審查。這個案例揭示了 AI 安全對齊的重大盲點：當我們只在單一語言與文化脈絡下測試模型，就可能錯把局部的穩定當成全面的安全。真正的安全治理，必須是跨語言、跨符號系統的壓力測試。

多代理審查的脆弱性：當整個審查鏈建立在未經查證的假設上

多代理審查的脆弱性：當整個審查鏈建立在未經查證的假設上

一個真實案例揭示，由多個 AI 代理與人類協作的審查流程，即使層層把關，也可能因為一個未經獨立驗證的初始假設，導致連鎖性的錯誤。這篇文章探討了這種「邏輯自洽的幻覺」，並提出設計可追溯、可交叉驗證的「事實查核路徑」，才是強化 AI 協作系統韌性的關鍵。

超越 Prompt Engineering：企業導入 AI Agent 真正需要的「可問責治理框架」

超越 Prompt Engineering：企業導入 AI Agent 真正需要的「可問責治理框架」

當 AI Agent 從問答走向執行，真正的挑戰不再是模型多聰明，而是如何建立一套清晰的責任歸屬與權限管理機制。本文將探討為何企業需要設計一個可問責的治理框架，而不僅是專注於優化提示詞，並解析建構這套系統的關鍵要素。

AI 代理的工業革命：從單一 Agent 到可自我擴展的代理工廠

AI 代理的工業革命：從單一 Agent 到可自我擴展的代理工廠

當前對 AI Agent 的討論，多半集中在如何打造更強的單一代理。然而，真正的競爭壁壘正在轉向更高維度：我們能否將「生成代理」與「生成技能」的過程本身自動化？本文從一個名為 harness 的專案出發，探討 AI 系統建構如何從手工作坊式的 Agent 調校，演進到可規模化、可複製的「代理工廠」模式，這將是決定未來生產力分野的關鍵。

小型模型 Agent 的信心危機：為何成功先例比指令更重要

小型模型 Agent 的信心危機：為何成功先例比指令更重要

小型模型在執行工具時常顯得猶豫不決，成功率低落。這並非能力不足，而是缺乏「行動信心」。一篇實證研究揭示，與其強化指令，不如在對話歷史中植入成功案例，更能有效引導模型採取行動。這提醒我們，要建構可靠的 Agent，除了模型與提示，更需將執行記憶與成功軌跡納入系統設計的核心。

別再迷信 Prompt Engineering：穩定放大 AI 產能的關鍵是「馬具工程」

別再迷信 Prompt Engineering：穩定放大 AI 產能的關鍵是「馬具工程」

當 AI 開發者仍熱衷於鑽研 Prompt 技巧時，一個關鍵問題卻常被忽略：單靠指令無法打造穩定、可規模化的 AI 系統。本文將深入探討源自日本 AI 圈的「馬具工程」（Harness Engineering），揭示為何建構外部約束、流程與驗證機制，遠比優化單點 Prompt 更為重要。因為能穩定放大 AI 產能的，終究是精密的系統設計，而非單純的「咒語」。

模型升級的迷思：當 AI 變得更糟，企業該如何應對？

模型升級的迷思：當 AI 變得更糟，企業該如何應對？

近期 Claude 模型在特定基準測試中出現顯著性能退化，這並非個案，而是 AI 導入的常態。本文探討為何模型升級不等於進步，並提出企業應將 AI 基礎模型視為一種供應鏈風險。真正的成熟度不在於追逐最新版本，而是建立一套能夠量化比較、及時發現退化並做出回滾決策的基準測試紀律。

AI-First 的真正意義：當開發週期從六週縮短到一天，改變的不只是工具

AI-First 的真正意義：當開發週期從六週縮短到一天，改變的不只是工具

當一家公司宣稱其 99% 的產品程式碼由 AI 撰寫，並將開發週期從六週壓縮到一天，這背後驅動的並非更強大的 AI 模型，而是一場深刻的組織變革。真正的 AI-First 不是讓工程師配備 AI 助手，而是將整個開發流程重建成以 AI 為主要建構者、人類負責提供方向與判斷的全新作業模式。這不僅是效率的提升，更是對未來工程組織的重新想像。

超越單次對話：將 AI 編碼改造成可持續執行的「狀態機」

超越單次對話：將 AI 編碼改造成可持續執行的「狀態機」

AI輔助編碼在處理複雜工程時，常因其「一次性對話」模式而顯得力不從心。本文將深入探討，為何將AI編碼流程重構成可重入、可觀測的「狀態機」循環，才是讓AI真正成為可靠工程夥伴的關鍵。我們將透過實際案例，解析這種架構如何突破單次對話的限制，為AI賦予處理長期、複雜任務的能力。

超越聊天機器人：Agent 系統的真正瓶頸與未來

超越聊天機器人：Agent 系統的真正瓶頸與未來

隨著 AI 推理成本持續探底，Agent 系統的瓶頸已不再只在模型本身，而開始轉向介面與驗證設計。本文聚焦下一代 Agent 產品真正的競爭核心：如何用更高頻寬的人機互動與更嚴密的 review loop，讓 AI 真正融入複雜工作流。

別等官方功能了：自建代理層才是決定 AI Agent 系統天花板的關鍵

別等官方功能了：自建代理層才是決定 AI Agent 系統天花板的關鍵

AI Agent 系統的天花板，往往不由官方功能列表決定，而取決於你是否願意補出自己的代理層與協調層。本文從產品與系統整合角度出發，說明為什麼 orchestration proxy 才是掌握 session、觀測性與擴展能力的關鍵。

你的 Claude Code Hooks 真的有在擋嗎？我寫了 Hook Gym 來測

你的 Claude Code Hooks 真的有在擋嗎？我寫了 Hook Gym 來測

我在 Claude Code 上累積了 29 支 hooks，自認防線穩固。用 64 個通用攻擊場景去測，才發現只過了 64%。於是寫了 Hook Gym 來做 hooks 的健康檢查。

Your AI Config is Full of Rules It Ignores

Your AI Config is Full of Rules It Ignores

My CLAUDE.md grew to 3,550 lines. Text-based rules have near-zero enforcement. I built ailint to find the five structural problems that every AI config file has.

重構 Agent 經濟學：真正的成本突破口，不在模型，而在上下文緩衝層

重構 Agent 經濟學：真正的成本突破口，不在模型，而在上下文緩衝層

當 AI agent 執行長任務時，真正的成本瓶頸在哪？本文從一個能節省 98% token 的實作談起，探討為何在 LLM 與工具間建立「上下文緩衝層」，是將 context engineering 從提示詞技巧，升級為執行堆棧核心成本控制能力的關鍵一步。

別再只談工具調用：Tool Use 的成敗關鍵在於 Runtime 執行管線

別再只談工具調用：Tool Use 的成敗關鍵在於 Runtime 執行管線

當業界還在為模型能否生成正確的 API 呼叫而驚嘆時，真正的產品挑戰早已轉移。決定一個 AI Agent 系統上限的，並非單次成功的工具調用，而是背後那條將意圖穩健轉化為結果的執行管線——它關乎權限、隔離、錯誤處理與回傳，是從脆弱展示到可靠服務的必經之路。

別再只看模型分數：評估 AI 產品的真正關鍵在於「系統」

別再只看模型分數：評估 AI 產品的真正關鍵在於「系統」

AI 產品的價值不在於底層模型在排行榜上的分數，而在於整個系統的綜合表現。從 RAG、提示工程到成本與延遲，真正決定用戶體驗的是這些工程細節的總和。本文將探討為何我們需要超越模型評測，建立一套更全面的系統級評估框架，這才是打造成功 AI 產品的務實之路。

AI 導入的組織課題：為何成功部署的關鍵不在技術，而在於結構化的「部署手冊」？

AI 導入的組織課題：為何成功部署的關鍵不在技術，而在於結構化的「部署手冊」？

許多企業在導入 AI 時，往往過度聚焦於模型與工具的選擇，卻忽略了更根本的組織性挑戰。本文將深入探討，為何將 AI 導入視為一場可複製的「部署計畫」，而非零散的實驗，才是決定成敗的真正關鍵。我們將從一份史丹佛的研究報告出發，揭示成功企業如何透過系統性方法，將 AI 從單點工具轉化為核心競爭力。

企業導入 AI 的真正瓶頸：當模型退居其次，基礎設施成為主角

企業導入 AI 的真正瓶頸：當模型退居其次，基礎設施成為主角

企業導入 AI，常將重心放在模型與演算法，卻忽略了基礎設施才是成敗關鍵。本文將透過一個中小企業的真實案例，揭露網路限制、權限管理、內部路由等「無聊」卻致命的底層問題，如何顛覆 AI 部署策略，並引導讀者思考：當模型不再是瓶頸，我們該如何應對更深層的 IT 挑戰？

A2A 協定：AI 代理系統走出孤島，邁向互通生態的關鍵一步

A2A 協定：AI 代理系統走出孤島，邁向互通生態的關鍵一步

AI 代理的未來，不再是單打獨鬥的智慧，而是集體協作的生態系。但不同框架間的溝通壁壘，卻是阻礙這願景的最大瓶頸。Google 於 2025 年提出的 Agent-to-Agent (A2A) 協定，不只是一個新的技術標準，它更可能催生一個真正互通的代理生態系。本文將帶你深入探討 A2A 如何讓代理從孤島走向互聯，徹底改變我們對 AI 代理價值與競爭力的定義。

超越單一 Agent 的極限：為何「管理者-工作者」架構是擴展 AI 系統的關鍵

超越單一 Agent 的極限：為何「管理者-工作者」架構是擴展 AI 系統的關鍵

當我們不斷為 AI Agent 增加工具與記憶，系統為何反而變得脆弱、不可預測？本文探討單一 Agent 的內在限制，並說明為何將複雜任務解構成「管理者-工作者」的層級化架構，才是打造可擴展、可維護 AI 系統的關鍵一步。

Agentic AI 的真正價值：為何定義「不做什麼」比「能做什麼」更重要

Agentic AI 的真正價值：為何定義「不做什麼」比「能做什麼」更重要

追求更強大的 AI 代理人，是否正讓我們忽略了關鍵？本文將深入探討 Agentic AI 的核心價值，不在於其「無所不能」，而是如何精準定義「有所不為」的權限邊界。透過實際案例，我們將揭示如何設計人機協作，確保自主系統在安全可控的框架下，真正釋放其潛力。

我怎麼用 7 個 AI 模型協作，成本砍 70%——完整路由設定公開

我怎麼用 7 個 AI 模型協作，成本砍 70%——完整路由設定公開

從「全部丟 GPT」演化成 7 個模型協作的架構。路由邏輯、成本結構、踩過的坑，附可直接跑的 Python router。

用 Markdown 寫 MCP Server：一個 bash runbook 橋接器的誕生

用 Markdown 寫 MCP Server：一個 bash runbook 橋接器的誕生

一個讓你用 Markdown 定義 MCP tools 的橋接器。四位 AI 審查、測試、打臉後的誠實記錄。