AI - Maki Chiang｜Notes

Maki Chiang｜Notes

Sign in Subscribe

AI

A collection of 196 posts

AI 可靠性的真正考驗：不是答案對錯，而是它是否知道自己沒資格開口

AI 可靠性的真正考驗：不是答案對錯，而是它是否知道自己沒資格開口

AI 最危險的錯誤，不是它胡說八道，而是當它在關鍵前提缺失下，依然能流暢地完成一套看似完美的推理。真正的 AI 可靠性，不該只在事後驗證答案對錯，更應追溯到模型是否具備足夠的資訊基礎來啟動思考。這篇文章將深入探討，為何「知其不知」的能力，才是 AI 系統設計與治理的核心關鍵。

從對話到執行：ChatGPT 的下一步，預示 AI 助理的系統性變革

從對話到執行：ChatGPT 的下一步，預示 AI 助理的系統性變革

ChatGPT 不再滿足於對話，它正進化為能自主執行任務的 AI 代理。這不僅是功能躍進，更預示著 AI 系統設計的根本轉變：從單純的對話介面，走向具備虛擬化執行環境的實作階段，並重新定義了人機協作的權限邊界與信任模式。

AI 寫程式，為何同個模型表現天差地遠？關鍵在 LLM 之外的「外殼」設計

AI 寫程式，為何同個模型表現天差地遠？關鍵在 LLM 之外的「外殼」設計

我們常以為 AI 寫程式的能力完全取決於底層的大型語言模型，但為何同樣是 GPT-4 或 Claude 3，在不同工具中的表現卻有雲泥之別？本文將深入探討決定 AI Agent 效能的關鍵——那層圍繞著 LLM 的「外殼」架構，以及它如何成為未來軟體工程的新戰場。

擁抱主權 AI：在部署邊界中尋求隱私與系統自主權

擁抱主權 AI：在部署邊界中尋求隱私與系統自主權

AI 浪潮下，你是否也開始思考數據的真正歸屬？當隱私與自主權成為新戰場，本地部署的「主權 AI」正悄然崛起。本文將帶你深入了解，如何在自己的數位邊界內，牢牢掌握 AI 的核心能力，實現真正的數據安全與戰略彈性。

AI 程式開發的下個戰場：從模型能力到脈絡系統的典範轉移

AI 程式開發的下個戰場：從模型能力到脈絡系統的典範轉移

AI 程式開發的未來，不再只是模型能力的軍備競賽。當前工具在處理大型專案時的瓶頸，指向了一個更深層次的挑戰：如何讓 AI 不僅能寫程式，更能「理解」程式碼的來龍去脈。本文將深入探討這場從單點提示工程，轉向建立智慧「脈絡系統」的典範轉移，以及它如何重塑未來的 AI 系統設計與 Agent 工作流，開啟程式開發的新紀元。

當科學發現成為可程式化的工作流：CodeScientist 預示的自主研究新範式

當科學發現成為可程式化的工作流：CodeScientist 預示的自主研究新範式

過去我們將大型語言模型視為加速器，用來寫程式、整理資料。但當模型開始能自主提出假說、設計實驗、除錯並產出報告時，它就不再只是工具，而是一個研究夥伴。AllenAI 的 CodeScientist 專案，正預示著這個典範轉移的到來。

一個範例，撬動模型的推理能力：RLVR 如何挑戰大數據訓練的迷思

一個範例，撬動模型的推理能力：RLVR 如何挑戰大數據訓練的迷思

當我們習慣用海量數據來堆砌模型能力時，一篇研究展示了截然不同的路徑。僅用一個訓練範例，就能讓小型語言模型的數學推理能力翻倍，其關鍵不在數據的量，而在於回饋機制的質。這項發現可能為 AI 的訓練與對齊帶來新的典範。

輕量模型的逆襲：RARE 架構如何讓 AI 專注於「思考」而非「記憶」

輕量模型的逆襲：RARE 架構如何讓 AI 專注於「思考」而非「記憶」

大型語言模型在通用任務上表現出色，但在專業領域卻常因「記憶」與「推理」混淆而碰壁。一篇新研究提出的 RARE 架構，透過解耦這兩項核心能力，不僅提升了準確率，更為我們設計下一代 AI 系統提供了關鍵的架構性思考。

揭開大型語言模型的記憶面紗：無需參考模型的隱私審計新途徑

揭開大型語言模型的記憶面紗：無需參考模型的隱私審計新途徑

大型語言模型在訓練過程中，可能無意間記憶了敏感資訊，這對隱私與智慧財產權構成潛在風險。一篇最新研究提出了一種創新方法，能從黑盒模型中高效識別訓練數據，無需複雜的參考模型，為模型記憶的審計與治理邊界劃定提供了實務工具，開啟了負責任AI發展的新篇章。

AI 讓開發更快了，但也讓資安不能再被當成最後才補的事

AI 讓開發更快了，但也讓資安不能再被當成最後才補的事

Vibe Coding 讓產品建造門檻快速下降，但開發速度變快，不代表風險會自動降低。當越來越多人能在短時間內拼出可上線的系統，真正變重要的，反而是權限治理、部署流程與資安紀律。

模型不是越大越聰明，而是我們把太多髒記憶塞進了它

模型不是越大越聰明，而是我們把太多髒記憶塞進了它

當我們把模型規模視為智能程度，往往也忽略了一件更根本的事：很多參數可能不是在負責推理，而是在替破碎資料做壓縮、替混亂世界做記憶。下一代 AI 系統的關鍵，也許不是更大的模型，而是更清楚的認知與記憶分工。

我問我的四個 AI Agent「你們需要什麼」，他們異口同聲在罵Claude

我問我的四個 AI Agent「你們需要什麼」，他們異口同聲在罵Claude

事情從一份使用報告開始。

我們以為在教模型變聰明，其實很多時候只是在教它怎麼說話

我們以為在教模型變聰明，其實很多時候只是在教它怎麼說話

很多團隊把模型表現不穩，直覺歸咎於微調不夠或對齊資料不足。但 LIMA 這篇研究提醒我：真正該被重新思考的，不只是訓練方法，而是我們如何分辨能力問題、表達問題與系統問題。

Agent 不是真的失憶，而是多數人從未設計過記憶系統

Agent 不是真的失憶，而是多數人從未設計過記憶系統

當 Agent 開始進入真實工作流，問題往往不是模型記不住，而是我們從來沒有替它設計上下文、長期記憶與狀態交接的機制。

內容自動化：AI 生成與人機協作，重塑 SEO 營運的效率與品質平衡

內容自動化：AI 生成與人機協作，重塑 SEO 營運的效率與品質平衡

在 AI 浪潮席捲內容產業的今日，如何有效整合 AI 生成的效率與人為審核的品質，成為企業在 SEO 競爭中脫穎而出的關鍵。本文將深入探討一套開源系統所揭示的內容自動化新範式，並從 AI 系統建構者的視角，分析其在產品、工程與多 Agent 協作上的深遠意涵。

從生成到審核：內容自動化真正的門檻，不在模型，而在協作鏈路

內容自動化之所以難，不是因為生成不夠快，而是多數團隊沒有把素材、審核、發布與回寫串成同一條工作流。

在 AI 協作時代，我們如何為有限的人腦工作記憶「凍結」專案狀態？

在 AI 協作時代，我們如何為有限的人腦工作記憶「凍結」專案狀態？

AI 代理的普及化，讓我們在開發與決策流程中獲得前所未有的加速。然而，當我們同時駕馭多個 AI 驅動的專案時，一個古老卻又被放大的問題浮現了：人腦有限的工作記憶與隨之而來的認知負荷。這不僅是效率問題，更是一個深刻的系統設計挑戰。

「AI 優先」的深層反思：AI 系統建構者視角下的工程基石與流程再造

「AI 優先」的深層反思：AI 系統建構者視角下的工程基石與流程再造

「AI 優先」策略正席捲各行各業，看似一場技術革新，但從 AI 系統建構者的角度來看，這更像是一次對軟體工程基本功的嚴峻考驗。本文將探討為何 AI 的速度與效率，必須建立在堅實的基礎設施之上，以及它如何重塑我們對產品開發流程與人機協作的理解。

萬字提示詞的奧秘：Agent 系統效能、成本與架構設計的關鍵取捨

萬字提示詞的奧秘：Agent 系統效能、成本與架構設計的關鍵取捨

隨著 AI Agent 系統日趨複雜，我們觀察到其效能表現與底層的提示詞結構息息相關。當提示詞的規模達到萬字級，這不僅是工程挑戰，更觸及產品設計、成本控制與系統架構的核心議題。本文將從 TPM 與產品管理的視角，深入剖析大型 Agent 提示詞的構成、其帶來的成本壓力，並提出一套更具前瞻性的設計與管理策略。

從調參到架構：我對 AI Agent 記憶機制與智能演化的深度觀察

從調參到架構：我對 AI Agent 記憶機制與智能演化的深度觀察

AI Agent 的發展正從單純的參數調整，邁向更深層次的系統架構設計。其中，記憶機制的設計邏輯，不僅是技術細節，更是決定 Agent 智能上限與演化潛力的關鍵。這篇文章將分享我對此轉變的觀察與思考。

「虛擬公司」的陷阱：為何頂尖 AI Agent 架構都轉向了「狀態文件」

「虛擬公司」的陷阱：為何頂尖 AI Agent 架構都轉向了「狀態文件」

把多 Agent 畫成虛擬公司很直覺，但真正決定成敗的，往往不是角色，而是狀態如何被保存與延續。

「駕馭工程」時代：當頂級模型的智慧不再是瓶頸，我們該如何建構 AI 系統？

「駕馭工程」時代：當頂級模型的智慧不再是瓶頸，我們該如何建構 AI 系統？

當模型能力不再是主要瓶頸，工程師的價值將從寫程式，轉向設計環境、流程與系統編排。

自進化系統的憲法：在自主與穩定之間，設計不可變的元規則

自進化系統的憲法：在自主與穩定之間，設計不可變的元規則

自進化系統最危險的不是不夠聰明，而是沒有治理；真正的關鍵是不可變規則、門控與回滾。

從炫技到務實：多 Agent 系統的架構演化與選擇紀律

從炫技到務實：多 Agent 系統的架構演化與選擇紀律

多 Agent 不是越複雜越厲害，真正成熟的團隊會先選對協調模式，再決定要不要增加架構層次。

從提示工程到指令架構：Andrej Karpathy 的原則如何為 Code Agent 重新校準

從提示工程到指令架構：Andrej Karpathy 的原則如何為 Code Agent 重新校準

當 AI coding 從提示技巧走向工程規訓，真正重要的已不是怎麼讓模型更會寫，而是怎麼讓它少亂寫。