我們需要一個 AI Prototype 殺手 — 用評分表擋住 90% 不該做的功能

我們團隊今年用 AI 生了十幾個 prototype，最後只有兩個上線。不是 AI 不好用，是我們太晚說不。這是那份評分表。

江中喬

19 3月 2026 • 10 min read

我們團隊今年用 AI 生了十幾個 prototype。最後只有兩個上線。

問題不是 AI 不好用。問題是我們太晚說不。

生產力幻覺

先說一個反直覺的數據。

METR 在 2025 年做了一場隨機對照實驗：讓資深工程師在自己熟悉的 codebase 上使用 AI coding 工具。結果呢？平均慢了 19%。不是快 19%，是慢 19%。而且這些工程師在實驗後仍然「覺得」自己變快了。

2025 Stack Overflow Developer Survey 也指出類似的現象：近半數開發者表示，debug AI 生成的 code 比自己寫還花時間。螢幕上出現了很多 code，commit 數量暴增，但理解、驗證、整合這些 code 的隱藏工時，往往比從零開始更長。

這就是我說的生產力幻覺。AI 讓產出「看起來」爆量成長，但真正的瓶頸從來不是打字速度——是判斷力。而判斷力不會因為 code 生得更快就自動提升。

消失的看門人

在 AI coding 工具普及之前，over-engineering 有一個天然的制約機制：做不完。

想做一個有多畫面的內部管理平台？要寫前端、後端、串 API、搞部署、處理權限。一個工程師估一估，兩週起跳。PM 聽到兩週，自然會問：「這個問題值得花兩週嗎？」

這個問題本身就是看門人。它擋掉了大量「聽起來不錯但其實不值得」的需求。

現在這個看門人消失了。

用 Cursor、Claude Code、Copilot，一個下午就能生出完整的 prototype——有前端、有後端、有資料庫 schema、甚至有部署腳本。Andrej Karpathy 管這叫 vibe coding：「完全交給 AI，擁抱指數成長，忘掉 code 的存在。」從「想法」到「看得到的東西」之間的摩擦力趨近於零。

摩擦力消失聽起來是好事。但摩擦力同時也是過濾器。

AI 是放大器，不是方向盤。 它等比放大你做對的事，也等比放大你做錯的事。如果你原本就善於取捨，AI 讓你快十倍交付精準的方案。但如果你本來就有過度設計的傾向——想做的比需要的多、規劃的比驗證過的大——AI 會讓你一個下午就把 over-engineering 推到極致，而不是像以前那樣在第三天因為「寫不完」而被迫收斂。

當任何人都能在午餐後生出一個看起來很專業的 demo，你會發現團隊裡開始出現一種新型態的浪費：prototype 通膨。每個人都有想法，每個想法都能快速變成 prototype，每個 prototype 都會佔用後續的討論時間、review 時間、部署資源、維護承諾。

有人負責說 yes 很容易。但誰來說 no？

為什麼你需要一個「AI 功能殺手」

我不是在說你需要一個專門否決所有東西的人。我是說，你需要一個結構化的判斷機制，在 prototype 從「午後靈感」變成「排進 sprint」之前，先過一關。

這個機制的核心不是技術審查，是價值審查。

技術審查問的是「做不做得到」。在 AI 時代，答案幾乎永遠是「做得到」。但這不是對的問題。對的問題是：

這個問題是真的嗎？
現有的工具真的解不了嗎？
做完之後誰來養？
花這個力氣值得嗎？

為了系統性地回答這些問題，我整理了一份 PRD 殺手評分表。

評分表：五個核心問題

完整版有 10 個構面，但實戰中我發現有 5 個問題的殺傷力最大。如果這 5 題你答不好，其他 5 題答得再漂亮也沒用。

1. 問題真實性（1-5 分）

你要解的問題，有數據支撐，還是靠感覺？

5 分：有量化數據，用戶主動抱怨超過三次，能指出具體的時間/金錢損失
3 分：有人提過，但沒有數據，痛度不確定
1 分：「我覺得大家應該需要這個」

紅旗規則：≤ 2 分直接亮紅旗。連問題都不確定存在，就不該開始寫 code。

2. 現有工具替代性（1-5 分）

Google Sheet、Notion、Airtable、甚至一個 Slack reminder 能不能解決 80%？

5 分：找遍了，現有工具完全無法處理這個場景
3 分：現有工具能解一半，但有明確的缺口
1 分：Google Sheet 就能做，只是沒人花時間設定

紅旗規則：≤ 2 分直接亮紅旗。如果現成工具就能解，你在造的不是產品，是履歷。

3. 用戶規模與採用率（1-5 分）

做完之後，多少人會真的打開來用？不是「可以用」，是「會用」。

5 分：50+ 人的日常工作流程會直接受益，有明確的 adoption path
3 分：10-20 人偶爾會用
1 分：5 人以下，而且他們現在用 Excel 也活得好好的

4. 維護者明確度（1-5 分）

Build 完之後，誰養這個東西？Bug 誰修？API 改版誰跟？

5 分：有明確的 owner，已納入團隊 roadmap，有維護預算
3 分：提案人願意花 20% 時間維護，但沒有正式承諾
1 分：「我用 AI 生的，應該不用怎麼維護吧？」

這一題是隱形殺手。 我見過太多 prototype 在 demo 那天光芒萬丈，三個月後變成沒人敢碰的遺跡。CodeRabbit 的研究指出 AI co-authored code 的重大問題率是人寫的 1.7 倍、安全漏洞率 2.74 倍——而這些問題最終都落在維護者頭上。AI 生成的 code 不會自己 maintain。

5. 技術複雜度 vs 問題價值（1-5 分）

你正在蓋的東西，跟你要解的問題，scale 對得上嗎？

5 分：技術方案精準對應問題規模，沒有多餘的架構
3 分：有點 overbuilt，但還在合理範圍
1 分：為了管 10 個人的週報，搞了 FastAPI + Cloud SQL + OAuth + Slack Bot + AI 摘要

決策區間

五題加總，滿分 25：

分數	判定
5-10	直接砍，不要浪費時間討論
11-15	先用現成工具撐，觀察是否真的有人在痛
16-19	可以做低成本 PoC，但限定時間和範圍
20-22	可以正式規劃
23-25	高信心，全力推進

另外有一條硬規則：紅旗超過 2 面，不管總分多少，原則上不進正式開發。

實戰案例 A：某「內部數據管理平台」

背景：團隊有一批散落在各處的內部數據——週報、進度追蹤、跨部門指標——有人提案做一個整合平台，把資料彙整、視覺化、通知提醒、權限控管全包進去，規劃了五六個完整模組。

用 AI coding 工具，兩個下午就生出了 prototype。有 dashboard、有篩選器、有匯出功能、甚至有 AI 自動摘要。Demo 當天大家都說讚。

拿出評分表：

維度	分數	理由
問題真實性	3	數據散落確實不方便，但目前各組各自管也能運作，沒有人因此出過重大差錯
現有工具替代性	1	Google Sheet 追蹤 + 現有 BI 工具看趨勢，能覆蓋 80% 需求
用戶規模	2	實際會每天打開的大概 5-8 人，其餘都是「偶爾看一下」
維護者明確度	2	提案人用 AI 生的 prototype，沒有工程師承諾長期維護，提案人自己也是兼著做
技術 vs 價值	1	五六個模組 + 權限系統 + AI 摘要 + 通知引擎，為了管十幾個人的週報和指標

總分：9/25。紅旗：3 面。判定：直接砍。

這個案例完美展示了 AI 時代的陷阱：因為做起來太快，所以跳過了「該不該做」的判斷，直接衝到「怎麼做」。而生產力幻覺讓所有人都覺得「反正也沒花多少時間」——但真正的成本不是那兩個下午，是之後每一次 sprint planning 裡它佔掉的討論時間，是 Cloud Run 上跑著的那個沒人看的 instance，是三個月後有人問「這個服務還要不要維護」時所有人面面相覷的尷尬。

實戰案例 B：某「客戶數據問答機器人」

背景：業務團隊每天要查客戶數據——廣告花費、訂單趨勢、活躍度指標。每次都要找數據分析師拉報表，來回要半天到一天。

提案做一個 chatbot，讓業務直接用自然語言問問題，後面接 Looker API 拉即時數據。

維度	分數	理由
問題真實性	5	每天發生、有明確的時間成本、業務主動抱怨多次
現有工具替代性	4	Looker Dashboard 有，但業務不會自己下篩選條件，需要中間翻譯層
用戶規模	4	30+ 業務人員的日常需求
維護者明確度	4	AI 團隊負責，已納入 roadmap，有明確 owner
技術 vs 價值	4	技術方案合理（LLM + API，不需要額外基礎設施），對應高頻問題

總分：21/25。紅旗：0 面。判定：可以正式規劃。

同樣是 AI 工具，同樣是內部需求，但跑一次評分表，高下立判。

評分表不是反創新

我知道有人會說：「這不就是官僚嗎？創新需要空間，不是每個 idea 都要先被審判。」

我同意。但有兩件事要分開看：

探索和承諾是兩回事。

你用一個下午生 prototype 來探索想法？完全沒問題，這正是 AI 工具的價值。但當這個 prototype 開始被放進 sprint、開始要求 code review、開始佔用 Cloud Run 的 instance、開始出現在週會的進度報告上——它就不再是探索，它變成了承諾。

評分表管的是從探索到承諾的那個轉折點。

先殺掉爛案，才有資源養出好案。 如果你的團隊同時在養 10 個 prototype，每個都半死不活，那真正有價值的那 2 個也拿不到足夠的注意力。殺掉 8 個，才能把資源集中在值得的 2 個上。

帶走這個

附上簡化版評分表，歡迎拿去殺你團隊的下一個 AI prototype：

□ 問題真實性：有數據支撐，還是靠感覺？（≤2 紅旗）
□ 現有工具替代性：Google Sheet 能解嗎？（≤2 紅旗）
□ 用戶規模：多少人會真的用？
□ 維護者明確度：build 完誰養？
□ 技術 vs 價值：是不是為了小問題蓋大平台？

每項 1-5 分，滿分 25
→ 10 以下：直接砍
→ 11-15：先用現成工具
→ 16-19：限時限範圍 PoC
→ 20+：正式推進
→ 紅旗 ≥ 3：不管幾分，原則上不做

如果你對 AI prototype 通膨、vibe coding 踩過的坑有興趣，我之前也寫過幾篇相關的實戰紀錄，有機會再整理分享。

這篇文章基於真實的團隊經驗整理。案例細節已匿名化處理。評分表持續迭代中，完整版含 10 個構面和紅旗機制。

引用來源：METR 2025 RCT、2025 Stack Overflow Developer Survey、CodeRabbit State of AI vs Human Code Generation、Andrej Karpathy — Vibe Coding 定義