mk-brain - Maki Chiang｜Notes (Page 9)

Maki Chiang｜Notes

Sign in Subscribe

mk-brain

A collection of 379 posts

從 GPT-4V 與 Gemini 的能力差異，看多模型路由（Routing）的產品設計思維

從 GPT-4V 與 Gemini 的能力差異，看多模型路由（Routing）的產品設計思維

GPT-4V 和 Gemini 的對決，絕非簡單的勝負之爭，而是一則關於 AI 產品設計未來的寓言。它揭示了：我們需要超越單一模型的迷思，轉向設計能動態調度、協同工作的多模型系統。本文將深入剖析兩大模型的能力輪廓差異，並探討如何打造更聰明的智慧路由與協作工作流，讓 AI 產品真正發揮最大潛力。

不只是大小之爭：從自我改進與蒸餾看小型模型的真實潛力

不只是大小之爭：從自我改進與蒸餾看小型模型的真實潛力

在追求更大語言模型的競賽中，我們是否忽略了更重要的事？真正的突破或許不在於參數量的無限擴張，而在於如何以更低的成本，讓小型模型達成逼近頂尖模型的推理能力。本文從一篇關鍵研究出發，探討自我改進與知識蒸餾如何成為實現此目標的核心策略，並分析這對未來 AI 系統架構的深遠影響。

當 AI 系統邊界模糊：被低估的 API 整合層攻擊面

當 AI 系統邊界模糊：被低估的 API 整合層攻擊面

當我們將大型語言模型（LLM）從單純的聊天機器人，擴展為能透過 API、plugin 與外部工具執行任務的 Agent 系統時，真正的安全風險也隨之轉移。過去我們關注的是模型本身的漏洞，但現在，真正的威脅來自那個由 API 串連而成的「整合層」。這篇文章將從灰盒存取威脅談起，探討為何 API 安全、Agent 工具治理與系統邊界設計，才是當下 AI 系統建構者最該正視的課題。

從「提示詞魔法」到「提示系統工程」：我們真正需要的 Prompting 成熟路線圖

從「提示詞魔法」到「提示系統工程」：我們真正需要的 Prompting 成熟路線圖

Prompt engineering 的未來，不再是追逐難以捉摸的「魔法」，而是建立一套可共享、可測試、可維護的系統化方法。一篇近期的研究論文，為我們揭示了從個人「煉金術」走向團隊「工程學」的清晰路徑，這條路徑的核心，是原則、系統與治理。

不只是畫得更好：Instruct-Imagen 如何透過「任務標準化」，為通用 AI 平台鋪路？

不只是畫得更好：Instruct-Imagen 如何透過「任務標準化」，為通用 AI 平台鋪路？

過去，圖像生成模型是各司其職的專家。現在，Instruct-Imagen 展示了如何用一個統一的多模態指令介面，處理從生成、編輯到風格轉換等異質任務。這不僅是技術的躍進，更是通用模型「平台化」的關鍵一步，預示了未來 AI 系統的樣貌。

超越 AGI 迷霧：為什麼「推理」能力正在重塑 AI 系統的設計思維

超越 AGI 迷霧：為什麼「推理」能力正在重塑 AI 系統的設計思維

AI 領域對「推理」的熱議，正從遙遠的 AGI 願景，轉變為一場務實的工程典範轉移。當單一模型能力觸及天花板，焦點便從模型本身轉向系統設計。本文將深入探討推理能力的演進，揭示基礎模型的極限，並引導我們思考如何建構更複雜、更具彈性的 AI 系統架構，重新定義下一代 AI 工程師的核心價值。

AI 不只是預測機器：當可解釋性成為科學發現的引擎

AI 不只是預測機器：當可解釋性成為科學發現的引擎

AI 在科研領域的角色正經歷根本性轉變，從單純的預測工具躍升為真正的科研夥伴。這一切的關鍵，在於「可解釋性」。當一個模型不僅能預測結果，還能揭示其決策背後的結構性原因時，它就不再是個黑箱，而是將模型輸出轉化為科學洞見的催化劑。本文將深入探討 MIT 近期在抗生素發現上的突破，揭示可解釋 AI 如何重塑科研工作流、驅動知識發現，並成為下一代 human-in-the-loop 決策的核心。

不只是追求新 Benchmark：為什麼標準化評估才是 Production AI 的真正瓶頸

不只是追求新 Benchmark：為什麼標準化評估才是 Production AI 的真正瓶頸

當 AI 系統從實驗室走向產品，我們面臨的挑戰不再是單純的性能競賽。這篇文章從 PromptBench 這個統一評估框架出發，探討為何建立兼顧安全、穩定與可比較性的評估標準，才是推動 AI 治理與可持續工程決策的關鍵。

從 Gemini Pro 與 GPT-3.5 的對決，看 AI 產品的多模型協作策略

從 Gemini Pro 與 GPT-3.5 的對決，看 AI 產品的多模型協作策略

模型評測的真正價值，不在於誰贏誰輸的排行榜，而在於它如何揭示我們該如何設計更聰明、更有效率的 AI 系統。這篇文章將從 Gemini Pro 與 GPT-3.5 的最新評測出發，深入探討產品開發者應如何思考模型選型、任務分工與多模型路由策略，以打造更具成本效益與韌性的 AI 應用，引領你進入多模型協作的 AI 新時代。

從 AppAgent 看通用操作代理：當 AI 不再呼叫 API，而是直接「看懂」手機介面

從 AppAgent 看通用操作代理：當 AI 不再呼叫 API，而是直接「看懂」手機介面

想像一下，AI 不再只能呼叫程式碼，而是能像你我一樣，直接「看懂」手機螢幕、操作 App。這不僅是技術路徑的重大轉變，更宣告了 AI 代理的核心挑戰已從語言理解，轉向真實世界的環境感知與穩定操作。本文將以 AppAgent 為例，深入探討通用操作代理如何繞過傳統 API 限制，以及它在跨應用程式協作與真實介面中面臨的未來挑戰。

從文字到像素：當 VLM 開始直接操作 GUI，AI Agent 的下一步是什麼？

從文字到像素：當 VLM 開始直接操作 GUI，AI Agent 的下一步是什麼？

過去 AI Agent 多半依賴 API 或解析 HTML 來與軟體互動，這層抽象限制了它們的通用性。但現在，高解析度視覺語言模型（VLM）如 CogAgent，已能像人類一樣「看懂」並操作圖形介面（GUI）。這場從文字到像素的典範轉移，將如何徹底改變我們對 AI Agent 的想像，並為通用電腦助理與自動化工作流開啟全新可能？

從幻覺到治理：大型語言模型進入高風險生產環境的最後一哩路

從幻覺到治理：大型語言模型進入高風險生產環境的最後一哩路

LLM 的幻覺問題不只是技術瑕疵，更是進入高風險應用的信任門檻。當模型開始處理金融、醫療等關鍵任務，我們需要的就不只是更聰明的 AI，而是一套完整的風險控制、可觀測性與治理框架。本文將從幻覺的根源談起，探討如何建立真正能上線的 AI 系統。

當 API 成為 AI 系統的標準配備：我們真的準備好應對新的攻擊面了嗎？

當 API 成為 AI 系統的標準配備：我們真的準備好應對新的攻擊面了嗎？

當 AI 與現代軟體系統越來越依賴 API、tool use 與跨系統整合時，真正被放大的往往不是功能，而是攻擊面、信任邊界與治理成本。一篇從 API 便利性談到系統風險建模、production guardrails、權限設計與 AI agent 工具治理的觀點文。

當 RLHF 不再只是標註流程，而是一套可迭代的系統工程

當 RLHF 不再只是標註流程，而是一套可迭代的系統工程

當大家還在比較模型能力時，真正開始拉開差距的，往往已經不是參數量，而是回饋系統能否持續運作。線上 RLHF 的意義，不只是讓模型更會回答，而是讓對齊從一次性標註，升級成可迭代、可複現、可擴展的工程流程。

RAG 不夠了：下一代知識系統真正該升級的是理解層

RAG 不夠了：下一代知識系統真正該升級的是理解層

今天很多團隊把 RAG 當成幻覺解法，但多數情況下，問題不是資料沒送進去，而是模型沒有真的理解。下一代知識系統的升級重點，不會只是把更多文件塞進 context，而是把檢索、理解與推理拆開來設計。

不是每次都該 RAG：真正成熟的 AI 系統，先判斷自己知不知道

不是每次都該 RAG：真正成熟的 AI 系統，先判斷自己知不知道

很多系統把檢索當成預設開關，彷彿只要多查資料就能更準。但真正成熟的 AI 系統，關鍵不是永遠開啟檢索，而是先判斷自己知不知道、需不需要查、值不值得查。這背後其實是一個 retrieval policy 的設計問題。

解釋性研究不是為了透明，而是為了定義邊界

解釋性研究不是為了透明，而是為了定義邊界

解釋性研究的核心不在於讓模型完全透明，而在於系統化地定義模型的行為邊界與失效條件。

我們真的需要百萬 token 模型嗎？重新思考長上下文任務的真正瓶頸

我們真的需要百萬 token 模型嗎？重新思考長上下文任務的真正瓶頸

在業界競相追逐更長的上下文視窗時，一篇研究點出了一個反直覺卻關鍵的觀點：長上下文任務的瓶頸，或許不在模型本身，而在於我們如何設計檢索與規劃策略。一個聰明的框架，甚至能讓短上下文模型高效解決長文件挑戰。

思考的工程學：當高品質的推理範本，勝過更大的模型

思考的工程學：當高品質的推理範本，勝過更大的模型

我們總以為追求更強的 AI 推理能力，就等於追求更大的模型。但一篇新研究「Buffer of Thoughts」提出了一個反直覺卻極具啟發性的方向：與其不斷擴大模型的規模，不如將高品質的思考流程「工程化」，使其成為可重複使用的模板。這不僅讓小模型的表現媲美頂尖模型，成本更僅有複雜框架的 12%。

AI 推理的下一步：為何我們需要超越「流暢」，擁抱可驗證的符號邏輯？

AI 推理的下一步：為何我們需要超越「流暢」，擁抱可驗證的符號邏輯？

大型語言模型擅長生成看似合理的推理過程，但這些過程往往經不起嚴格檢驗。當答案的「忠實度」比「流暢度」更重要時，我們該如何構建更可靠的 AI 系統？一篇新研究提出的 SymbCoT 框架，或許指出了關鍵方向：將語言的模糊性轉化為符號的確定性。

超越 Transformer 與 Mamba 之爭：一個統一模型架構的新起點

超越 Transformer 與 Mamba 之爭：一個統一模型架構的新起點

長期以來，AI 模型架構的發展彷彿一場路線之爭：究竟是選擇 Transformer 強大的表達能力，還是擁抱 Mamba 等狀態空間模型（SSM）的線性效率？一篇突破性的研究論文揭示，這兩者並非對立，而是一個更深層結構的兩種表現形式。這項發現不僅終結了長期的辯論，更為下一代 AI 系統的設計開闢了全新的可能性。

語言模型之後，Agent 的下一步：打造可操作的世界知識模型

語言模型之後，Agent 的下一步：打造可操作的世界知識模型

大型語言模型雖然語言流暢，但在理解物理世界與常識時常顯得笨拙，導致 AI Agent 在規劃任務時頻頻出錯。最近一篇研究提出「世界知識模型」的概念，試圖將抽象的知識參數化，讓 Agent 的規劃不再只是機率猜測，而是基於對世界的真實理解。這或許是通往更可靠自主 Agent 的關鍵一步。

AI 對齊的尺度困境：從人工標註到自動化系統設計

AI 對齊的尺度困境：從人工標註到自動化系統設計

過去我們依賴大量人力來「教導」AI 何謂對錯，但當模型的知識與推理能力超越人類時，這種「人工監工」模式還能走多遠？AI 對齊（Alignment）正從一個勞力密集的標註問題，轉變為一個更根本的自動化系統設計挑戰。

解碼 AI 黑盒子：當可解釋性成為大型模型的基礎設施

解碼 AI 黑盒子：當可解釋性成為大型模型的基礎設施

大型語言模型（LLM）的強大能力令人驚嘆，但其內部運作的「黑盒子」特性，卻讓AI的安全性與可靠性蒙上陰影。現在，Anthropic 的一項突破性研究，成功利用稀疏自動編碼器（SAE）大規模解鎖 Claude 3 Sonnet 的內部語義特徵。這不僅是學術上的里程碑，更預示著可解釋性將從研究工具，一躍成為未來AI審計與治理的核心基礎設施。

AI 的「我不知道」，比答對更重要：從信心分數到自我反思的信任躍升

AI 的「我不知道」，比答對更重要：從信心分數到自我反思的信任躍升

大型語言模型（LLM）常過度自信，即使答案錯誤也理直氣壯。一篇最新研究指出，AI 的真正可靠性，不在於給出冰冷的信心分數，而是讓它學會「自我反思」，清楚解釋其不確定性的理由。這不僅是技術校準，更是建立可信任、可治理 AI 系統的關鍵一步，讓 AI 從黑箱神諭轉變為坦誠的協作夥伴。