mk-brain

AI 不只加速，更在探索：當 LLM 開始為我們設計演算法

想像一下，AI 不只執行指令，更能自主創造？一篇劃時代研究揭示，大型語言模型（LLM）已能自動探索並發現超越人類專家設計的全新演算法。這不僅是技術突破，更預示著 AI 將從加速工具轉變為制度與系統設計的強大探索者，為我們開啟前所未有的創新可能。

江中喬

04 6月 2026 • 6 min read

我們對 AI 的期待，正從單純的「加速」轉向更根本的「探索」。大型語言模型（LLM）已開始在複雜的策略空間中，發現人類直覺之外的高效解法。一篇近期發表於 arXiv 的研究《Discovering Multiagent Learning Algorithms with Large Language Models》展示了名為 AlphaEvolve 的框架，成功利用 LLM 自動發現超越現有基準的多智能體學習演算法。這不僅是技術突破，更意味著 AI 將成為演算法與制度設計的強大探索引擎，幫助我們突破認知與創新的瓶頸。

為什麼讓 AI 設計演算法很重要？

在許多複雜領域，人類的設計能力已逐漸觸及天花板。無論是晶片佈局、藥物分子設計，還是多人博弈的均衡策略，其「設計空間」（design space）的維度與複雜度都遠超人腦所能直觀掌握的範圍。我們依賴經驗、啟發式方法（heuristics）與不斷試錯來尋找局部最佳解，但很難系統性地探索整個可能性空間，也容易陷入既有的思維框架。

這讓人想起 AlphaGo 的時代。它下出的許多棋步在當時的人類頂尖棋手看來是「非直覺」甚至是「錯誤」的，但事後證明這些棋步正是通往勝利的關鍵。演算法的設計也是一個類似的挑戰。一個演算法由許多核心組件、參數與邏輯流構成，它們的組合可能性是天文數字。人類專家憑藉深厚的理論知識與經驗，設計出如 CFR（反事實後悔最小化）這類經典演算法，但我們無法確定是否存在更有效、但結構完全不同的「外星」演算法。

當 LLM 開始具備強大的程式碼生成與理解能力時，一個全新的可能性浮現了：我們能否將「發現新演算法」這個任務本身，交給 AI 來執行？

AlphaEvolve：如何引導 LLM 探索演算法空間？

近期發表於 arXiv 的論文《Discovering Multiagent Learning Algorithms with Large Language Models》提出了一個名為 AlphaEvolve 的框架，系統性地回答了這個問題。其核心思想是借鏡「演化演算法」，將 LLM 作為一個「變異與擇優」的引擎，在演算法的程式碼空間中進行搜索。

整個流程大致如下：

初始化：從一個已知、相對簡單的「種子」演算法（例如基礎的強化學習演算法）的程式碼與說明文件開始。
演化式提示：LLM 接收到現有演算法的程式碼，並被要求對其進行「修改」與「改進」。提示語會引導模型思考，例如：「請分析這段程式碼的潛在瓶頸，並提出一個能提升效能或穩定性的變體」、「請將 A 演算法中的 X 機制與 B 演算法的 Y 機制結合，創造一個新的混合演算法」。
驗證與篩選：新產生的演算法候選者會被自動放到一系列基準測試環境中執行，評估其效能。只有表現優於其「親代」的變體會被保留下來。
迭代：存活下來的優秀變體，會成為下一輪演化的新「種子」，不斷重複這個「提議-驗證-篩選」的循環。

這個框架的巧妙之處在於，它不要求 LLM 一次就創造出完美的演算法。相反地，它利用 LLM 的創造力來產生大量「微小但可能有益」的變異，再透過嚴格的實證測試來篩選出真正有效的創新，逐步逼近更優越的解決方案。

AI 的價值正從執行人類指令，轉變為在人類定義的框架下自主探索。我們提供目標與評估標準，AI 則負責填補通往目標路徑上的未知空白。

AI 發現的演算法，真的超越了人類嗎？

答案是肯定的。AlphaEvolve 框架在兩個經典的多智能體學習（Multi-Agent Reinforcement Learning, MARL）領域中，都發現了超越人類專家設計的新演算法。

第一個領域是「後悔最小化」（regret minimization），這是解決不完全資訊博弈（如撲克）的核心技術。基於經典的 CFR 演算法，AlphaEvolve 發現了一個名為 VAD-CFR (Value-Aware Discounted CFR) 的新演算法。它引入了一種非直覺的折扣因子（discount factor）來調整過去的後悔值，這個改動在傳統理論中並不常見，但實驗證明它能更有效地收斂到均衡解。

第二個領域是「群體訓練」（population-based training），常用於訓練能應對多樣化對手的 AI。基於 PSRO (Policy-Space Response Oracles) 框架，AlphaEvolve 開發出 SHOR-PSRO (Sampled Historical Opponent Response PSRO)。這個變體修改了對手取樣的策略，使其能更有效地利用歷史數據，從而在更少的訓練資源下達到更高的求解效能。

這兩個成果的共通點是，它們都不是對現有演算法的簡單參數微調，而是引入了新的機制與結構，這些機制在第一時間可能連人類專家都難以想到或解釋。這證明了 LLM 不僅能理解和複製人類知識，更有潛力在複雜的符號空間中進行創造性探索，發現真正新穎且有效的解決方案。

當 AI 不再只是加速我們既有流程的工具，而是成為一個能自主探索、發現新演算法、新材料、甚至是新經濟模型的夥伴時，它對科學研究與社會發展的影響將是根本性的。我們正在從「使用 AI」的時代，邁向「與 AI 共同探索」的時代。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

為什麼讓 AI 設計演算法很重要？

AlphaEvolve：如何引導 LLM 探索演算法空間？

AI 發現的演算法，真的超越了人類嗎？

延伸閱讀

Sign up for more like this.