AI Agent 的下一步:從規則堆砌到「資深判斷」的語言化
許多團隊在打造 AI Coding Agent 時,常專注於技術規則的堆砌,卻忽略了資深工程師的「判斷邏輯」與「行為模式」才是其真正價值核心。本文將深入探討如何將這些隱性知識語言化,讓 AI 不再只是聽命行事的工具,而是能像資深協作者般,理解情境、做出判斷,甚至主動引導工作流程,大幅提升團隊生產力。
許多團隊在打造 AI Coding Agent 時,常陷入一個誤區:以為只要不斷堆砌技術規則、API 設計指南與程式碼風格檢查,就能打造出高效的自動化工具。然而,這條路徑往往只能產出一個聽話但缺乏靈魂的「指令工具人」。真正的瓶頸與價值,其實在於如何將資深工程師腦中的隱性知識——那些關於權衡取捨、風險判斷、溝通時機與工作節奏的內隱準則——進行語言化與結構化。這才是讓 AI Coding 從潛力展示走向規模化生產力的核心挑戰。
為什麼多數 AI Agent 仍像個「指令工具人」?
當前的 AI Coding Agent,例如 GitHub Copilot 的進階模式,在執行明確、有邊界的任務時表現出色。你可以要求它「根據這份 OpenAPI spec 撰寫 client」、「將這段 Python 程式碼重構成更符合 PEP 8 的風格」,它通常能給出不錯的結果。這些任務的共通點是,它們的「完成」標準是客觀且易於驗證的。
然而,真實的軟體開發遠比這複雜,它充滿了模糊地帶與權衡。例如,一個任務什麼時候算「初步完成」可以提交 Code Review?一個功能做到什麼程度算是「Good enough for now」?什麼時候該停下來尋求他人意見,而不是繼續埋頭鑽研?這些問題沒有絕對的標準答案,卻是區分資深與資淺工程師的關鍵。
目前多數 Agent 在此表現拙劣,因為它們缺乏對情境的理解,以及內建的「判斷基準」。它們不知道何時該推動、何時該停頓、何時該求助,這使得它們在真實協作流程中,依然需要大量的人工監督與介入。
關鍵的轉變在於,我們不該只教 AI「如何寫程式」,更要教它「如何工作」。
從技術標準到「行為準則」:一個 Tech Lead Agent 的實踐
日本開發者 Watanabe Z (@zwatanabe) 在他打造一個名為「Tech Lead BOSS」的 Copilot Agent 實驗中,得到了一個深刻的體悟。他最初也以為,要讓 Agent 扮演好技術領導者的角色,就必須先餵給它大量的技術規範,例如 API 設計原則、資料庫命名慣例、CI/CD 流程等。
但他很快發現,真正優先且影響更深遠的,是「行為準則」。他最先寫下的不是技術文件,而是關於一位工程師該如何思考與行動的指南。這份指南處理的問題更接近真實工作場景:
- 任務範疇定義: 在開始動手前,是否已充分理解需求的邊界與目標?
- 溝通與求助時機: 如果卡關超過 30 分鐘,應該向誰、用什麼方式提出問題?
- 完成的定義: 什麼樣的狀態才算是可以交付、可以請人檢視的成果?
- 回饋的處理: 收到 Code Review 的意見後,應如何回應與修正?
這個轉變是根本性的。它將 Agent 的設計理念從一個「程式碼產生器」提升到一個「模擬協作者」。這個 Agent 的核心價值不再只是產出語法正確的程式碼,而是遵循一個健全、可預期的工作流程。它模仿的不是資深工程師的程式碼,而是他們的工作習慣與判斷邏輯。
如何將資深工程師的隱性知識「語言化」?
將這些隱晦的「感覺」與「默契」轉化為機器可讀的指令,是一項極具挑戰但回報豐厚的工程。這不僅僅是提示工程(Prompt Engineering)的範疇,更是知識工程(Knowledge Engineering)與組織行為學的深度結合。它需要一套系統性的方法論,而非僅憑靈光一閃的提問。
將這些隱性知識「語言化」的第一步是「觀察與訪談」。與其要求資深工程師直接寫下他們的「設計原則」,不如在他們進行 Code Review 或系統設計討論時,作為一個觀察者,仔細記錄下他們提出問題、做出取捨的關鍵瞬間。
此時,關鍵問題是「為什麼」:為什麼你選擇方案 A 而不是 B?為什麼你覺得這個 Pull Request 還沒準備好?為什麼你在此時決定尋求 DevOps 團隊的意見?透過這些深層次的提問,才能挖掘出他們決策背後的真實邏輯。
第二步是「定義工作節奏與判斷基準」。將觀察到的行為模式,歸納成結構化的準則。例如,與其設定「測試覆蓋率必須達到 80%」這種僵硬的量化規則,不如定義一個更動態、更具情境感的基準。
一個更好的例子是:「若修改觸及核心商業邏輯,必須確保新增的單元測試涵蓋設計文件中討論的所有邊界案例,並主動請求該模組的擁有者進行審查。」這條準則不僅包含了量化指標,更融入了情境判斷與溝通協作的行為要求,讓 Agent 能更貼近真實的工程實踐。
最後,將這些結構化的準則,轉化為 Agent 的「核心指令」或「體質」(Constitution)。這類似於 Anthropic 提出的 Constitutional AI 概念,也就是為 AI 內建一套行事的基本原則。這些原則將指導 Agent 在面對不確定性時如何做出決策,確保其行為符合團隊的期望與工作文化。
AI Agent 的未來:如何從工具人進化為智慧協作者?
當前 AI Agent 在真實軟體工程任務上的表現仍有極大進步空間。例如,在 SWE-bench 基準測試中,即使是頂尖的 GPT-4 模型,也僅能解決約 13.7% 的真實 GitHub issue。這突顯了從指令執行到問題解決的巨大鴻溝。彌補這道鴻溝的關鍵,正在於我們能否成功地將人類專家的判斷力與工作流程,有效地轉譯給機器。
AI Coding Agent 的未來,不在於模型參數的無限擴張,而在於我們能否將開發流程中那些最寶貴、最屬人的隱性知識,轉化為可計算、可執行的框架。這是一項結合了技術、管理與人文洞察的挑戰,也是 AI 真正成為軟體開發核心生產力的必經之路。
延伸閱讀
- GitHub Copilot Agent Mode で「判断基準」を実装していく試み ── Tech Lead BOSS / 第2回
- SWE-bench: Can Language Models Solve Real-World Software Engineering Problems?
- Claude's Constitution by Anthropic
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。