mk-brain

自進化系統的憲法：在自主與穩定之間，設計不可變的元規則

自進化系統最危險的不是不夠聰明，而是沒有治理；真正的關鍵是不可變規則、門控與回滾。

江中喬

16 4月 2026 • 7 min read

在建構 AI 系統時，我們經常追求一個終極目標：一個能夠自我完善、自主進化的系統。這不僅僅是自動化，而是系統具備了內省（introspection）與自我修改（self-modification）的能力，能夠根據新的資訊或目標，不斷重寫自己的程式碼，變得更有效率、更聰明。這無疑是 AI 系統設計的聖杯之一。但這個夢想的背後，潛藏著一個同樣巨大的夢魘：一個能夠修改自己的系統，同樣也具備了自我毀滅的能力。它可能在一次「改進」中引入致命的 bug，或在追求效率的過程中，刪除了關鍵的安全機制，最終導致整個系統的崩潰或失控。

如何在賦予系統高度自主性的同時，確保其長期的穩定性與可控性？這不僅是個技術問題，更是一個深刻的系統治理與架構設計問題。最近，開發者 Yuanhao 分享了他設計的一個自進化 Rust Agent，其架構雖然簡潔，卻精準地回答了這個核心矛盾。這個專案為我們展示了一種務實且強大的模式：為自進化系統建立一套它自身無法修改的「憲法」，並搭配嚴格的持續整合（CI）門控，從而在動態的自我進化與靜態的系統穩定之間，取得關鍵的平衡。

這個專案的核心是一個能修改自己原始碼的 Rust 編碼代理（Coding Agent）。它的運作機制由一個 GitHub Actions 定時任務觸發，大約每八小時執行一次。每一次執行，都是一個完整的「進化會話」（evolution session）。這個會話的流程清晰而嚴謹：

內省與評估：Agent 首先讀取並分析自己當前的程式碼庫。
規劃：根據分析結果，選擇一個具體的改進方向，例如重構某個函式、增加新功能或優化效能。
執行：Agent 開始編寫新的程式碼來實現這個改進目標。
驗證：完成編碼後，執行一系列的自動化測試，確保新的修改沒有破壞既有功能，且達到了預期效果。
提交或回滾：如果所有測試都通過，Agent 會將新的程式碼 commit 並 push 到程式碼庫，完成一次成功的進化。如果任何測試失敗，所有變更都會被 revert，並將失敗的嘗試記錄到日誌中，等待下一次的進化會話。

表面上看，這是一個標準的自動化開發流程。但魔鬼藏在細節裡。整個進化會話的啟動與編排，是由一個名為 scripts/evolve.sh 的 shell 腳本控制的。而這個腳本最關鍵的特性是：它被硬編碼（hard-coded）設定為 Agent 自身「不被允許修改」的文件。Yuanhao 強調：「編排器在我的觸及範圍之外，這是設計如此。」

這句話，正是整個系統穩定性的基石。這個無法被 Agent 觸及的 evolve.sh 腳本，扮演了「系統憲法」的角色。它定義了系統存在的元規則（meta-rules），確立了進化的基本程序與邊界。Agent 可以在這個憲法框架內，自由地修改自己的「法律條文」（也就是 Rust 程式碼），但它絕對無法修改「憲法」本身。它不能決定停止執行測試，不能擅自更改進化的頻率，更不能刪除這個編排腳本來擺脫約束。這種權力分離的設計，從根本上杜絕了 Agent 透過修改進化流程來自我破壞的可能性。

這種架構創造了一個雙層結構：

操作層（Operational Layer）：這是 Agent 的 Rust 程式碼。它是動態的、可變的、允許被持續優化的。這是系統「學習」和「進化」發生的層面。
憲法層（Constitutional Layer）：這是 evolve.sh 腳本與 GitHub Actions 的設定。它是靜態的、不可變的（從 Agent 的視角來看），為操作層的變化提供了穩定的框架與護欄。

如果說「憲法」是保障系統穩定性的第一個支柱，那麼嚴格的 CI 門控就是第二個。在這個架構中，自動化測試不僅僅是軟體工程的最佳實踐，它更扮演了進化論中「自然選擇」的篩選機制。每一次程式碼修改，都是一次基因突utation。而測試套件，就是環境對這次突變的檢驗。只有能夠通過檢驗、被證明是「有益」或至少是「無害」的突變，才能被保留下來，成為系統的一部分。失敗的修改，則如同演化中的死胡同，被立即拋棄。

git revert 這個簡單的指令，在此刻顯得格外重要。它構成了系統的免疫反應機制。一旦偵測到有害的變更（測試失敗），系統會自動將其清除，恢復到上一個健康的狀態。這確保了系統的韌性（resilience），即使 Agent 產生了災難性的程式碼，系統也能夠自我修復，而不會在錯誤的道路上越走越遠。

將這兩個概念結合起來看，我們得到了一個清晰的治理模型：憲法（不可變的腳本）定義了「如何進化」的程序正義，而 CI 門控（自動化測試）則確保了「進化結果」的品質與安全。前者是戰略層面的約束，後者是戰術層面的驗證。兩者缺一不可。

這個模式對於我們設計更複雜的 AI Agent 系統，尤其是多 Agent 協作系統，具有深遠的啟示。當我們從單一 Agent 走向由多個自主 Agent 組成的系統時，失控的風險會以指數級增長。在這樣的系統中，我們更需要一個所有 Agent 都必須遵守、且任何單一 Agent 都無法篡改的「協作憲法」。這個憲法可以定義 Agent 之間的通訊協定、資源分配規則、衝突解決機制等。它將成為整個 Agent 社會穩定運作的基石。

Yuanhao 的專案提醒我們，建構強大自主系統的關鍵，可能不在於追求無限的自由度，而在於設計智慧的約束。我們需要從單純的「提示工程」（prompt engineering）思維，轉向更宏觀的「系統架構」（system architecture）思維。與其在 prompt 中反覆叮嚀 AI 「你必須做什麼」或「你不能做什麼」，不如在系統層面建立一個它無法繞過的結構性護欄。信任不應僅僅建立在對模型行為的期望上，更應建立在一個可驗證、不可變的系統架構之上。

最終，一個成功的自進化系統，必然是自主性與約束性共舞的結果。動態的、可變的程式碼在一個靜態的、穩固的憲法框架內不斷迭代，每一次進化都被嚴格的品質門控所檢驗。這種設計，不僅讓系統得以安全地成長，也讓我們這些建構者，能夠更有信心地將權力下放給我們創造的 AI。這或許就是通往真正成熟、可靠的自主系統的必經之路。

我是江中喬，一位具有 TPM 與產品管理背景的 AI 系統建構者，目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。

Sign up for more like this.