AI 寫程式的下一步:從單次任務成功,到可擴展的「原子技能」
你的 AI 寫程式工具,是不是常常「頭痛醫頭,腳痛醫腳」?雖然能解決當前問題,卻難以舉一反三?這篇文章將帶你深入探討,為何當前 AI 編程系統常陷入「為了解決任務而解決任務」的困境。一篇最新研究指出,真正的突破點,在於從單次任務的成功,轉向建構可累積、可重組的「原子技能」。這不僅是技術路徑的轉變,更是從一次性的 prompt engineering,邁向可持
在日常工作中,我觀察到許多 AI 編程工具或 Agent 系統,儘管在特定任務上表現驚人,卻時常顯得脆弱且缺乏彈性。它們或許能根據一個清晰的指令,一次性地解決某個 bug 或完成一項功能,但這個「成功」的過程往往是個黑盒子,其解決方案也難以被複用或遷移到一個稍微不同的情境中。這種現象反映了當前 AI 系統設計的一個普遍盲點:我們過度專注於「完成任務」,卻忽略了「建立能力」。
當我們要求一個 AI Agent「修復購物車的結帳錯誤」時,它可能會用盡全力,透過大量的試錯、程式碼生成與測試,最終找到一個堪用的解法。然而,這個解法本身,以及達成它的過程,就像是為了一次性演出而搭建的華麗舞台,演出結束後便被拆除。下一次遇到類似但不同的問題時,Agent 幾乎得從頭來過。這種模式不僅效率低落,更使得 Agent 的能力無法隨著經驗累積而成長,也就是所謂的「過度擬合」(overfitting)在任務層級上的體現。
從單點任務到原子技能:重新定義 AI 的學習路徑
最近一篇來自學術界的研究,為這個困境提出了一個極具啟發性的解方:我們應該將 AI Agent 的訓練目標,從解決複雜的「複合任務」(composite tasks),轉向掌握一系列可被拆解、可被組合的「原子技能」(atomic skills)。
這個概念並不複雜,卻直指問題核心。一個人類軟體工程師之所以高效,並不是因為他背誦了成千上萬個特定問題的解法,而是因為他掌握了一套基礎且可靈活組合的「原子技能」來應對新挑戰。這些能力單元獨立、有明確定義,且在各種開發場景中都可重複使用,例如:
- 讀取並理解錯誤日誌(log)。
- 在程式碼庫中定位相關檔案。
- 編寫單元測試來重現問題。
- 執行版本控制指令(如 git checkout)。
- 查閱外部函式庫的文件。
當 AI Agent 也能像人類一樣,將這些基礎能力內化,它解決問題的過程就不再是漫無目的的暴力破解,而是一系列有邏輯、有策略的技能調用。
能力架構:從 Prompt Engineering 到可組合的技能庫
將焦點轉向原子技能,意味著我們在設計 AI 系統時的思維,必須從「Prompt Engineering」走向「Capability Architecture」(能力架構)。Prompt Engineering 的核心是設計出完美的指令,引導一個龐大而通用的模型產出正確的單次結果。然而,Capability Architecture 的目標則是建構一個由眾多精煉、可靠的「能力模組」組成的系統。
在這個架構下,面對一個複雜任務時,高階的規劃模組(Planner Agent)會先將其分解成一系列子任務,然後調用對應的原子技能來逐一執行。例如,「修復結帳錯誤」這個大任務,可能會被分解為以下步驟:
- 技能調用: 執行測試套件,找到失敗的測試案例。
- 技能調用: 讀取該測試案例的錯誤輸出。
- 技能調用: 根據錯誤訊息,在程式碼庫中搜尋關鍵字。
- 技能調用: 讀取相關檔案,進行分析與修改。
- 技能調用: 再次執行測試,驗證修復。
前述提到的研究論文透過實驗證明了這種方法的優越性。他們定義了五種基礎的編程原子技能,並透過強化學習讓 Agent 掌握。結果顯示,在面對從未見過的複合任務時,基於原子技能的 Agent 效能比傳統方法提升了 18.7%。這個數字不僅證明了其有效性,更揭示了一條通往更具泛化能力 AI Agent 的清晰路徑。
我們不再只是訓練一個「解決問題」的模型,而是在設計一個「擁有解決問題能力」的系統。這兩者有本質上的不同。
系統建構者的挑戰:打造可泛化、可治理的 Agent
這個從任務到技能的轉變,對我們這些 AI 系統的建構者提出了新的挑戰與要求。我們的角色不再僅僅是模型訓練師或 prompt 作者,更像是系統架構師與能力管理者。
這意味著我們需要深入思考以下關鍵問題:
- 如何定義與劃分原子技能? 技能的顆粒度應該多細?一套通用的編程原子技能庫應該包含哪些項目?
- 如何獨立評測與驗證每個技能? 我們需要建立標準化的測試基準,確保每一個技能模組的可靠性與穩定性。
- 如何設計高效的技能調度與組合機制? 當面對一個新任務時,系統如何智能地選擇並排序需要使用的技能?
- 如何治理與擴展這個能力庫? 隨著時間推移,我們如何新增技能、更新舊技能,並確保整個系統的協同運作不出問題?
未來的 AI 編程系統,其核心競爭力可能不再是單一模型的規模或性能,而是其背後那套能力庫的廣度、深度與健壯性。一個擁有 100 個經過充分驗證、可靈活組合的原子技能的 Agent,遠比一個只會解決 100 個孤立問題的 Agent 更有價值。前者代表著可擴展、可預測的工程系統,而後者則更像一個難以捉摸的黑盒子。
從一次性的任務成功,走向可累積、可泛化的能力建構,這不僅是技術上的演進,更是我們對 AI 系統本質理解的深化。這條路雖然更具挑戰,卻是通往真正可靠、可協作的 AI 開發夥伴的必經之路。
延伸閱讀
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。