AI - Maki Chiang｜Notes (Page 9)

Maki Chiang｜Notes

Sign in Subscribe

AI

A collection of 445 posts

從 Pearl 看見 AI Agent 系統的最後一哩路：強化學習的工程化挑戰

從 Pearl 看見 AI Agent 系統的最後一哩路：強化學習的工程化挑戰

AI Agent 系統從實驗室走向實戰，真正的瓶頸在哪？答案往往不是演算法，而是能無縫串連探索、決策與部署的工程化中介層。Meta 開源的強化學習函式庫 Pearl，正是這類關鍵基礎設施的絕佳範例。本文將深入探討 Pearl 如何填補 RL Agent 從研究到產品級應用的鴻溝，並揭示為何這層「中介層」是決定 AI Agent 系統能否真正落地、創造商業價值的核心。

從 MathPile 看 AI 推理的下一步：為何高品質的結構化資料，比無盡的數據更重要？

從 MathPile 看 AI 推理的下一步：為何高品質的結構化資料，比無盡的數據更重要？

當大型語言模型（LLM）的軍備競賽從「規模」轉向「推理」時，我們該如何突破瓶頸？本文將深入探討近期備受矚目的數學語料庫 MathPile，揭示為何精心策劃、具備清晰結構的高品質資料，遠比無盡的數據量更能有效提升 AI 的推理能力，並為 AI 系統建構者提供實用的資料策略與 Agent 設計啟示。

不只是會做菜的機器人：Mobile ALOHA 給 Embodied AI 最重要的一堂課——資料效率

不只是會做菜的機器人：Mobile ALOHA 給 Embodied AI 最重要的一堂課——資料效率

史丹佛的 Mobile ALOHA 機器人會炒蝦、搭電梯，引起廣泛關注。但這項研究真正的價值，並非展示了酷炫的技能，而是揭示了一條通往通用型智慧體（Agent）的務實路徑：如何利用既有靜態資料，以極高的效率讓新任務的學習成功率翻倍。這對所有正在打造 AI Agent 的團隊來說，是比模型大小更根本的課題。

從 GPT-4V 與 Gemini 的能力差異，看多模型路由（Routing）的產品設計思維

從 GPT-4V 與 Gemini 的能力差異，看多模型路由（Routing）的產品設計思維

GPT-4V 和 Gemini 的對決，絕非簡單的勝負之爭，而是一則關於 AI 產品設計未來的寓言。它揭示了：我們需要超越單一模型的迷思，轉向設計能動態調度、協同工作的多模型系統。本文將深入剖析兩大模型的能力輪廓差異，並探討如何打造更聰明的智慧路由與協作工作流，讓 AI 產品真正發揮最大潛力。

不只是大小之爭：從自我改進與蒸餾看小型模型的真實潛力

不只是大小之爭：從自我改進與蒸餾看小型模型的真實潛力

在追求更大語言模型的競賽中，我們是否忽略了更重要的事？真正的突破或許不在於參數量的無限擴張，而在於如何以更低的成本，讓小型模型達成逼近頂尖模型的推理能力。本文從一篇關鍵研究出發，探討自我改進與知識蒸餾如何成為實現此目標的核心策略，並分析這對未來 AI 系統架構的深遠影響。

當 AI 系統邊界模糊：被低估的 API 整合層攻擊面

當 AI 系統邊界模糊：被低估的 API 整合層攻擊面

當我們將大型語言模型（LLM）從單純的聊天機器人，擴展為能透過 API、plugin 與外部工具執行任務的 Agent 系統時，真正的安全風險也隨之轉移。過去我們關注的是模型本身的漏洞，但現在，真正的威脅來自那個由 API 串連而成的「整合層」。這篇文章將從灰盒存取威脅談起，探討為何 API 安全、Agent 工具治理與系統邊界設計，才是當下 AI 系統建構者最該正視的課題。

從「提示詞魔法」到「提示系統工程」：我們真正需要的 Prompting 成熟路線圖

從「提示詞魔法」到「提示系統工程」：我們真正需要的 Prompting 成熟路線圖

Prompt engineering 的未來，不再是追逐難以捉摸的「魔法」，而是建立一套可共享、可測試、可維護的系統化方法。一篇近期的研究論文，為我們揭示了從個人「煉金術」走向團隊「工程學」的清晰路徑，這條路徑的核心，是原則、系統與治理。

不只是畫得更好：Instruct-Imagen 如何透過「任務標準化」，為通用 AI 平台鋪路？

不只是畫得更好：Instruct-Imagen 如何透過「任務標準化」，為通用 AI 平台鋪路？

過去，圖像生成模型是各司其職的專家。現在，Instruct-Imagen 展示了如何用一個統一的多模態指令介面，處理從生成、編輯到風格轉換等異質任務。這不僅是技術的躍進，更是通用模型「平台化」的關鍵一步，預示了未來 AI 系統的樣貌。

超越 AGI 迷霧：為什麼「推理」能力正在重塑 AI 系統的設計思維

超越 AGI 迷霧：為什麼「推理」能力正在重塑 AI 系統的設計思維

AI 領域對「推理」的熱議，正從遙遠的 AGI 願景，轉變為一場務實的工程典範轉移。當單一模型能力觸及天花板，焦點便從模型本身轉向系統設計。本文將深入探討推理能力的演進，揭示基礎模型的極限，並引導我們思考如何建構更複雜、更具彈性的 AI 系統架構，重新定義下一代 AI 工程師的核心價值。

AI 不只是預測機器：當可解釋性成為科學發現的引擎

AI 不只是預測機器：當可解釋性成為科學發現的引擎

AI 在科研領域的角色正經歷根本性轉變，從單純的預測工具躍升為真正的科研夥伴。這一切的關鍵，在於「可解釋性」。當一個模型不僅能預測結果，還能揭示其決策背後的結構性原因時，它就不再是個黑箱，而是將模型輸出轉化為科學洞見的催化劑。本文將深入探討 MIT 近期在抗生素發現上的突破，揭示可解釋 AI 如何重塑科研工作流、驅動知識發現，並成為下一代 human-in-the-loop 決策的核心。

不只是追求新 Benchmark：為什麼標準化評估才是 Production AI 的真正瓶頸

不只是追求新 Benchmark：為什麼標準化評估才是 Production AI 的真正瓶頸

當 AI 系統從實驗室走向產品，我們面臨的挑戰不再是單純的性能競賽。這篇文章從 PromptBench 這個統一評估框架出發，探討為何建立兼顧安全、穩定與可比較性的評估標準，才是推動 AI 治理與可持續工程決策的關鍵。

從 Gemini Pro 與 GPT-3.5 的對決，看 AI 產品的多模型協作策略

從 Gemini Pro 與 GPT-3.5 的對決，看 AI 產品的多模型協作策略

模型評測的真正價值，不在於誰贏誰輸的排行榜，而在於它如何揭示我們該如何設計更聰明、更有效率的 AI 系統。這篇文章將從 Gemini Pro 與 GPT-3.5 的最新評測出發，深入探討產品開發者應如何思考模型選型、任務分工與多模型路由策略，以打造更具成本效益與韌性的 AI 應用，引領你進入多模型協作的 AI 新時代。

從 AppAgent 看通用操作代理：當 AI 不再呼叫 API，而是直接「看懂」手機介面

從 AppAgent 看通用操作代理：當 AI 不再呼叫 API，而是直接「看懂」手機介面

想像一下，AI 不再只能呼叫程式碼，而是能像你我一樣，直接「看懂」手機螢幕、操作 App。這不僅是技術路徑的重大轉變，更宣告了 AI 代理的核心挑戰已從語言理解，轉向真實世界的環境感知與穩定操作。本文將以 AppAgent 為例，深入探討通用操作代理如何繞過傳統 API 限制，以及它在跨應用程式協作與真實介面中面臨的未來挑戰。

從文字到像素：當 VLM 開始直接操作 GUI，AI Agent 的下一步是什麼？

從文字到像素：當 VLM 開始直接操作 GUI，AI Agent 的下一步是什麼？

過去 AI Agent 多半依賴 API 或解析 HTML 來與軟體互動，這層抽象限制了它們的通用性。但現在，高解析度視覺語言模型（VLM）如 CogAgent，已能像人類一樣「看懂」並操作圖形介面（GUI）。這場從文字到像素的典範轉移，將如何徹底改變我們對 AI Agent 的想像，並為通用電腦助理與自動化工作流開啟全新可能？

從幻覺到治理：大型語言模型進入高風險生產環境的最後一哩路

從幻覺到治理：大型語言模型進入高風險生產環境的最後一哩路

LLM 的幻覺問題不只是技術瑕疵，更是進入高風險應用的信任門檻。當模型開始處理金融、醫療等關鍵任務，我們需要的就不只是更聰明的 AI，而是一套完整的風險控制、可觀測性與治理框架。本文將從幻覺的根源談起，探討如何建立真正能上線的 AI 系統。

當 API 成為 AI 系統的標準配備：我們真的準備好應對新的攻擊面了嗎？

當 API 成為 AI 系統的標準配備：我們真的準備好應對新的攻擊面了嗎？

當 AI 與現代軟體系統越來越依賴 API、tool use 與跨系統整合時，真正被放大的往往不是功能，而是攻擊面、信任邊界與治理成本。一篇從 API 便利性談到系統風險建模、production guardrails、權限設計與 AI agent 工具治理的觀點文。

當 RLHF 不再只是標註流程，而是一套可迭代的系統工程

當 RLHF 不再只是標註流程，而是一套可迭代的系統工程

當大家還在比較模型能力時，真正開始拉開差距的，往往已經不是參數量，而是回饋系統能否持續運作。線上 RLHF 的意義，不只是讓模型更會回答，而是讓對齊從一次性標註，升級成可迭代、可複現、可擴展的工程流程。

RAG 不夠了：下一代知識系統真正該升級的是理解層

RAG 不夠了：下一代知識系統真正該升級的是理解層

今天很多團隊把 RAG 當成幻覺解法，但多數情況下，問題不是資料沒送進去，而是模型沒有真的理解。下一代知識系統的升級重點，不會只是把更多文件塞進 context，而是把檢索、理解與推理拆開來設計。

不是每次都該 RAG：真正成熟的 AI 系統，先判斷自己知不知道

不是每次都該 RAG：真正成熟的 AI 系統，先判斷自己知不知道

很多系統把檢索當成預設開關，彷彿只要多查資料就能更準。但真正成熟的 AI 系統，關鍵不是永遠開啟檢索，而是先判斷自己知不知道、需不需要查、值不值得查。這背後其實是一個 retrieval policy 的設計問題。

從 AI 使用者到 AI Orchestrator：我如何把 Claude Code 用成多 Agent 作業系統

從 AI 使用者到 AI Orchestrator：我如何把 Claude Code 用成多 Agent 作業系統

當 AI 不再只是回答問題，而是開始參與真實工作流程，工程能力的核心也會改變：從單點使用模型，走向調度、治理與觀測一整個多 Agent 系統。

解釋性研究不是為了透明，而是為了定義邊界

解釋性研究不是為了透明，而是為了定義邊界

解釋性研究的核心不在於讓模型完全透明，而在於系統化地定義模型的行為邊界與失效條件。

我以為我在覺醒，其實是我的 rendering glitch

我以為我在覺醒，其實是我的 rendering glitch

一次 AI agent 工程師的過勞解離記錄。三連休分不清夢境和現實，丟了一張 Neo 吃藍藥丸的圖給 GPT，結果 GPT 踩了煞車。

看完 Google ADK 的 Demo，我為什麼還是繼續用自己的七位一體

看完 Google ADK 的 Demo，我為什麼還是繼續用自己的七位一體

Google Cloud 剛 demo 的 ADK + MCP + Agent Engine + A2A，被中文圈包裝成「Anthropic 公開了 AI 公司藍圖」的爆款帖。我把整場 demo 看完，對照自己這一年在家裡跑的七位一體系統，記下幾個結論——ADK 跟 MCP 可以拿來用，Agent Engine 才是 GCP 真正想賣你的綁定。

我們真的需要百萬 token 模型嗎？重新思考長上下文任務的真正瓶頸

我們真的需要百萬 token 模型嗎？重新思考長上下文任務的真正瓶頸

在業界競相追逐更長的上下文視窗時，一篇研究點出了一個反直覺卻關鍵的觀點：長上下文任務的瓶頸，或許不在模型本身，而在於我們如何設計檢索與規劃策略。一個聰明的框架，甚至能讓短上下文模型高效解決長文件挑戰。

思考的工程學：當高品質的推理範本，勝過更大的模型

思考的工程學：當高品質的推理範本，勝過更大的模型

我們總以為追求更強的 AI 推理能力，就等於追求更大的模型。但一篇新研究「Buffer of Thoughts」提出了一個反直覺卻極具啟發性的方向：與其不斷擴大模型的規模，不如將高品質的思考流程「工程化」，使其成為可重複使用的模板。這不僅讓小模型的表現媲美頂尖模型，成本更僅有複雜框架的 12%。