AI Coding 的 8 個階段：真正的分水嶺在能不能交付

我把『AI Coding 的 8 個階段』當成成熟度模型來用：從答案、流程到可委派的交付。真正的分水嶺不在 prompt，而在流程、驗證、整合與治理，能不能把產能做成可維運的系統。

最近看到一張圖在問：你在 AI Coding 的第幾級？

我自己比較在意的其實是另一件事：你能不能把 AI 變成『可交付、可維運、可複製』的產能。

現場最常見的狀況是 demo 很漂亮，但一上線就開始不穩、不可重現、成本爆、責任歸不清。這張圖如果拿來當成熟度模型，其實很實用：它可以用來檢查瓶頸、決定下一步要補的能力，也能提醒你哪些投入很可能在浪費時間。

你可以用一句話抓住它的核心差異：越往上走，關鍵越偏向流程、驗證、整合、治理。

我怎麼判斷你在哪一級：看輸出是否可驗收

最務實的切法是看你交付的是什麼：

Level 1–2：AI 產出主要是一個「答案」
Level 3–5：AI 產出變成一套「流程」
Level 6+：AI 產出走向「可委派的交付」

你不需要追求最上面那兩級；你需要的是把做出來的東西穩定複製、能被團隊接手，出了事查得到、修得回來。

8 個階段（用可觀測行為講清楚）

Level 1：AI 協作新手（Beginner with AI）

常見行為

讓 AI 解釋錯誤、給範例、補一小段 code、改寫文字

常見坑

產出看起來對，就直接當作可以用

升級提示

每次問 AI 前，先寫一行驗收標準：什麼算成功？

Level 2：輔助編程學徒（Apprentice AI Programmer）

常見行為

讓 AI 寫小功能、補測試、補文件，你做大量 review

常見坑

交付速度變快，但技術債也變快（規格與測試沒跟上）

升級提示

把產出拉到 PR 等級：lint、測試、變更摘要、可回退

Level 3：自動化助手（Automation Assistant）

常見行為

把重複工作流程化：腳本、模板、CI、排程
工作重心從逐行寫碼，轉向設計流程

常見坑

自動化做了一堆，出事時不知道是哪一步壞掉（缺 log、缺告警、缺重試）

升級提示

每條流程補三件事：可觀測（log/trace）、可重試、可告警

Level 4：模型微調入門（Model Fine-tuning Starter）

常見行為

開始碰資料集、評測集、微調

常見坑

沒有評測就微調，最後只能用感覺判斷好壞
其實是流程與工具整合問題，卻把壓力全丟給模型

升級提示

先把失敗案例分類，做一個最小評測集；能量化再談微調

Level 5：高級整合專家（Advanced Integration Expert）

常見行為

把 AI 接進系統：權限、資料邊界、成本、降級、回放
你關心的是穩定交付，而不是能不能生成

常見坑

只顧模型效果，忽略整體系統：資料品質、權限設計、工具可靠性

升級提示

用工程語言治理 AI：SLO、成本預算、錯誤分類、回放機制

Level 6：自主編碼代理（Autonomous Coding Agent）

常見行為

可以把可交付子任務交給 agent：分析→修改→測試→回報
重點在於它能不能自己驗證

常見坑

放任 agent 亂跑：權限太大、邊界不清、驗收不存在 → 產出不可控

升級提示

把 agent 當成同事來管理：任務拆小、每一步要有證據（測試結果、diff、指標），失敗就停、回報、留痕

Level 7：多模態系統架構師（Multimodal System Architect）

常見行為

把文字、圖片、聲音、資料流整合成系統能力

常見坑

多模態一上來，資料與權限邊界更容易失控

升級提示

用資料流設計：資料哪來、去哪、保存多久、誰可看、如何刪除

Level 8：AI 共生創新者（AI Symbiotic Innovator）

常見行為

AI 成為可持續的產能，你能把流程、規範、資產沉澱成組織複利

常見坑

只談願景，不談治理與責任模型

升級提示

把成功模式制度化：模板、評測、守則、訓練、審核流程

我的實作心得：導入時我最常抓的 3 條主線

1) 先把能交付放在看起來聰明前面

我通常先問三個問題：

這件事怎麼驗收？
失敗時怎麼降級？
成本與風險誰負責？

這三個問題回答不出來，先別急著談 agent，也先別急著談微調。

2) 把 AI 放進流程，而不是放進一段 prompt

你越希望它穩定，就越要讓它像系統的一部分：

log/trace
可回放
error taxonomy
權限與資料邊界
成本控管（token、延遲、重試）

這些聽起來很工程，也不浪漫，但它們才是導入能不能落地的分水嶺。

3) 導入順序：從人控走向可委派

我通常建議團隊這樣走：

先做到 Level 3：流程化 + 可觀測
再做到 Level 5：整合治理
最後再談 Level 6：可委派的 agent

跳過中間兩步，你會得到一個偶爾很神、但常常翻車的東西。

給團隊的導入指南（最小可行版本）

如果要在團隊推，我覺得最務實的 checklist 是：

先選一條高頻流程（每天有人在做、做錯會痛）
定義驗收標準（成功/失敗怎麼判）
先上可觀測（log/trace/回放）
先做降級策略（AI 掛了系統不掛）
成本與權限先訂好（誰可以觸發、可用哪些工具）
最後才談 agent 自動化（能自己驗證再放權）

結尾：你在哪一級不重要，重要的是下一級要補什麼

我不太在意大家自評第幾級。

我更在意的是：你現在卡住的到底是「不知道怎麼問」還是「即使問到了也交付不了」。

前者是練 prompt；後者是補流程、補驗收、補治理。

而大多數團隊真正缺的，通常是後者。

AI Coding 的 8 個階段：真正的分水嶺在能不能交付

我怎麼判斷你在哪一級：看輸出是否可驗收

8 個階段（用可觀測行為講清楚）

Level 1：AI 協作新手（Beginner with AI）

Level 2：輔助編程學徒（Apprentice AI Programmer）

Level 3：自動化助手（Automation Assistant）

Level 4：模型微調入門（Model Fine-tuning Starter）

Level 5：高級整合專家（Advanced Integration Expert）

Level 6：自主編碼代理（Autonomous Coding Agent）

Level 7：多模態系統架構師（Multimodal System Architect）

Level 8：AI 共生創新者（AI Symbiotic Innovator）

我的實作心得：導入時我最常抓的 3 條主線

1) 先把能交付放在看起來聰明前面

2) 把 AI 放進流程，而不是放進一段 prompt

3) 導入順序：從人控走向可委派

給團隊的導入指南（最小可行版本）

結尾：你在哪一級不重要，重要的是下一級要補什麼

Read next

LLM 只能是驗證者，不能是決策者

後台任務的 Token 成本會被低估十倍

我把 memcite 裝進自己的專案，記錄下真實的數字