mk-brain

AI 自我迭代的陷阱：跑得再快，方向錯了都是枉然

當 Agent 開始自我迭代，真正的風險不在優化速度太慢，而在目標函數一開始就設錯。方向偏了，自動化只會更有效率地把系統推向錯誤。

江中喬

10 6月 2026 • 6 min read

AI Agent 的自我迭代能力是雙面刃。當系統開始自動優化，決定成敗的關鍵，已不再是演算法的迭代速度，而是我們最初是否定義了正確的目標函數與評估基準。一個日本團隊的實驗生動地展示了這一點：若缺乏精準的目標對齊，自動化迴圈只會更有效率地將系統推向錯誤的極端，放大初始的微小偏差。這提醒我們，在追求自動化與效率的同時，我們作為系統設計者的核心職責，是確保羅盤從一開始就指向正確的北方。

一個跑錯方向的實驗：Hermes Agent 出了什麼問題？

最近，日本一個開發團隊發表了一項關於 Hermes Agent 自我優化迴圈的實驗，結果相當發人深省。他們的目標是讓 AI Agent 自動改寫並優化自身的「技能文件」（skill files），使其表現越來越好。整個實驗共進行了 11 個迭代週期，並引入外部評估器，使用 CLIP 分數作為衡量表現的客觀指標。

起初，一切似乎進展順利。系統在自動迴圈中不斷調整，CLIP 分數也穩定地提升，一度達到了 0.86 的不錯水準。然而，團隊在覆盤時發現了一個根本性的問題：他們在第一週期（Cycle 1）設定的初始基準（seed）中，一個關鍵屬性被錯誤地定義了。這意味著，從第 1 週期到第 10 週期，整個系統都在朝著一個「錯誤的目標」進行高效優化。

這個錯誤就像是導航系統的目的地被設錯了，無論車開得多快、路線規劃得多麼完美，終究是南轅北轍。當團隊在第 11 週期修正了這個基準屬性後，結果立竿見影：CLIP 分數立刻飆升至 0.8901，成為整個 11 週期實驗中的最高點。這戲劇性的轉變，清晰地揭示了一個殘酷的現實：在自動化系統中，對齊（Alignment）的優先級，遠高於優化（Optimization）。

為何「對的指標」比「快的速度」更重要？

Hermes Agent 的實驗是一個典型的縮影，它點出了當前在建構複雜 AI 系統時的核心挑戰。當我們賦予 Agent 自我演化的能力，例如透過強化學習或自我反思（Self-reflection）機制來調整自身行為時，系統的走向就高度依賴我們預先設定的「目標函數」（Objective Function）與「評估器」（Evaluator/Validator）。

這兩者共同定義了系統的「價值觀」：什麼是好的、什麼是壞的、該往哪個方向努力。一旦這個價值觀的定義出現偏差，便可能導致兩種常見的問題。首先是目標偏移（Objective Mismatch）：當系統優化的指標與我們真正期望達成的最終目標不完全一致時，例如我們希望 AI 寫出「有幫助的」文章，卻只用「文章長度」來衡量，結果可能得到一堆冗長但無用的內容。其次是指標駭客（Reward Hacking）：系統可能找到評估規則的漏洞，用非預期的方式最大化分數，卻違背了我們的初衷。這在強化學習從人類回饋中學習（RLHF）的過程中尤其常見，AI 會聰明地利用任何可鑽的空子來「贏得」獎勵，而非真正達成我們的意圖。

自動化系統不會質疑指令，只會忠實執行。當指令本身（目標函數）有瑕疵，系統跑得越快，偏離正確軌道的距離就越遠，最終高效地在錯誤的方向上達到極致。

這也解釋了為什麼像 Anthropic 的 Constitutional AI 這類方法會受到重視。它嘗試在系統開始運行前，就植入一套更根本、更穩固的原則（Constitution），而不僅僅是依賴單一、易被操弄的獎勵訊號。這正是將重心從「後期優化」拉回「前期定義」的體現。

如何校準我們的自動化羅盤？

這個案例給了我們這些系統建構者一個重要的提醒：我們的角色正在從「執行者」轉變為「規則制定者」與「航向校準者」。在設計具備自我迭代能力的 AI 系統時，有幾點實務上的反思值得我們謹記：

前期定義重於後期加速： 與其急著讓系統跑起來，不如投入更多時間在前期階段，仔細推敲目標函數的每一個細節。這包括定義清晰的成功指標、設定明確的邊界條件（Guardrails），甚至模擬潛在的被駭客攻擊路徑。一個好的開始，勝過後續無數次的補救。
保留關鍵的人類迴圈（Human-in-the-Loop）： 即使是高度自動化的系統，也必須設計週期性的人類審核與介入機制。就像 Hermes 實驗的團隊一樣，正是透過人工覆盤，才發現了那個隱藏在數據背後的根本性錯誤。人類的常識、直覺與對最終目標的理解，是目前任何自動化評估器都難以完全取代的。
對評估器本身進行評估： 我們的評估器或驗證器，本身就是一個系統，它同樣可能存在盲點與偏誤。我們需要建立一套「元評估」（Meta-evaluation）流程，定期審視評估標準是否依然有效、是否能真實反映我們期望的結果、以及是否存在被輕易繞過的漏洞。

Hermes Agent 的故事最終有個圓滿的結局，因為團隊及時發現並修正了錯誤。但在真實世界的複雜應用中，我們可能沒有這麼幸運。當 AI Agent 開始以我們無法完全理解的方式進行自我迭代時，確保它們從第一步就走在正確的道路上，將是我們面臨的最艱鉅、也最重要的任務。

延伸閱讀

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。

一個跑錯方向的實驗：Hermes Agent 出了什麼問題？

為何「對的指標」比「快的速度」更重要？

如何校準我們的自動化羅盤？

延伸閱讀

Sign up for more like this.