AI Coding 的 8 個階段:真正的分水嶺在能不能交付

我把『AI Coding 的 8 個階段』當成成熟度模型來用:從答案、流程到可委派的交付。真正的分水嶺不在 prompt,而在流程、驗證、整合與治理,能不能把產能做成可維運的系統。

AI Coding 的 8 個階段:真正的分水嶺在能不能交付

最近看到一張圖在問:你在 AI Coding 的第幾級?

我自己比較在意的其實是另一件事:你能不能把 AI 變成『可交付、可維運、可複製』的產能。

現場最常見的狀況是 demo 很漂亮,但一上線就開始不穩、不可重現、成本爆、責任歸不清。這張圖如果拿來當成熟度模型,其實很實用:它可以用來檢查瓶頸、決定下一步要補的能力,也能提醒你哪些投入很可能在浪費時間。

你可以用一句話抓住它的核心差異:越往上走,關鍵越偏向流程、驗證、整合、治理。


我怎麼判斷你在哪一級:看輸出是否可驗收

最務實的切法是看你交付的是什麼:

  • Level 1–2:AI 產出主要是一個「答案」
  • Level 3–5:AI 產出變成一套「流程」
  • Level 6+:AI 產出走向「可委派的交付」

你不需要追求最上面那兩級;你需要的是把做出來的東西穩定複製、能被團隊接手,出了事查得到、修得回來。


8 個階段(用可觀測行為講清楚)

Level 1:AI 協作新手(Beginner with AI)

常見行為

  • 讓 AI 解釋錯誤、給範例、補一小段 code、改寫文字

常見坑

  • 產出看起來對,就直接當作可以用

升級提示

  • 每次問 AI 前,先寫一行驗收標準:什麼算成功?

Level 2:輔助編程學徒(Apprentice AI Programmer)

常見行為

  • 讓 AI 寫小功能、補測試、補文件,你做大量 review

常見坑

  • 交付速度變快,但技術債也變快(規格與測試沒跟上)

升級提示

  • 把產出拉到 PR 等級:lint、測試、變更摘要、可回退

Level 3:自動化助手(Automation Assistant)

常見行為

  • 把重複工作流程化:腳本、模板、CI、排程
  • 工作重心從逐行寫碼,轉向設計流程

常見坑

  • 自動化做了一堆,出事時不知道是哪一步壞掉(缺 log、缺告警、缺重試)

升級提示

  • 每條流程補三件事:可觀測(log/trace)、可重試、可告警

Level 4:模型微調入門(Model Fine-tuning Starter)

常見行為

  • 開始碰資料集、評測集、微調

常見坑

  • 沒有評測就微調,最後只能用感覺判斷好壞
  • 其實是流程與工具整合問題,卻把壓力全丟給模型

升級提示

  • 先把失敗案例分類,做一個最小評測集;能量化再談微調

Level 5:高級整合專家(Advanced Integration Expert)

常見行為

  • 把 AI 接進系統:權限、資料邊界、成本、降級、回放
  • 你關心的是穩定交付,而不是能不能生成

常見坑

  • 只顧模型效果,忽略整體系統:資料品質、權限設計、工具可靠性

升級提示

  • 用工程語言治理 AI:SLO、成本預算、錯誤分類、回放機制

Level 6:自主編碼代理(Autonomous Coding Agent)

常見行為

  • 可以把可交付子任務交給 agent:分析→修改→測試→回報
  • 重點在於它能不能自己驗證

常見坑

  • 放任 agent 亂跑:權限太大、邊界不清、驗收不存在 → 產出不可控

升級提示

  • 把 agent 當成同事來管理:任務拆小、每一步要有證據(測試結果、diff、指標),失敗就停、回報、留痕

Level 7:多模態系統架構師(Multimodal System Architect)

常見行為

  • 把文字、圖片、聲音、資料流整合成系統能力

常見坑

  • 多模態一上來,資料與權限邊界更容易失控

升級提示

  • 用資料流設計:資料哪來、去哪、保存多久、誰可看、如何刪除

Level 8:AI 共生創新者(AI Symbiotic Innovator)

常見行為

  • AI 成為可持續的產能,你能把流程、規範、資產沉澱成組織複利

常見坑

  • 只談願景,不談治理與責任模型

升級提示

  • 把成功模式制度化:模板、評測、守則、訓練、審核流程

我的實作心得:導入時我最常抓的 3 條主線

1) 先把能交付放在看起來聰明前面

我通常先問三個問題:

  • 這件事怎麼驗收?
  • 失敗時怎麼降級?
  • 成本與風險誰負責?

這三個問題回答不出來,先別急著談 agent,也先別急著談微調。

2) 把 AI 放進流程,而不是放進一段 prompt

你越希望它穩定,就越要讓它像系統的一部分:

  • log/trace
  • 可回放
  • error taxonomy
  • 權限與資料邊界
  • 成本控管(token、延遲、重試)

這些聽起來很工程,也不浪漫,但它們才是導入能不能落地的分水嶺。

3) 導入順序:從人控走向可委派

我通常建議團隊這樣走:

  • 先做到 Level 3:流程化 + 可觀測
  • 再做到 Level 5:整合治理
  • 最後再談 Level 6:可委派的 agent

跳過中間兩步,你會得到一個偶爾很神、但常常翻車的東西。


給團隊的導入指南(最小可行版本)

如果要在團隊推,我覺得最務實的 checklist 是:

  1. 先選一條高頻流程(每天有人在做、做錯會痛)
  2. 定義驗收標準(成功/失敗怎麼判)
  3. 先上可觀測(log/trace/回放)
  4. 先做降級策略(AI 掛了系統不掛)
  5. 成本與權限先訂好(誰可以觸發、可用哪些工具)
  6. 最後才談 agent 自動化(能自己驗證再放權)

結尾:你在哪一級不重要,重要的是下一級要補什麼

我不太在意大家自評第幾級。

我更在意的是:你現在卡住的到底是「不知道怎麼問」還是「即使問到了也交付不了」。

前者是練 prompt;後者是補流程、補驗收、補治理。

而大多數團隊真正缺的,通常是後者。