AI 不只加速,更在探索:當 LLM 開始為我們設計演算法
想像一下,AI 不只執行指令,更能自主創造?一篇劃時代研究揭示,大型語言模型(LLM)已能自動探索並發現超越人類專家設計的全新演算法。這不僅是技術突破,更預示著 AI 將從加速工具轉變為制度與系統設計的強大探索者,為我們開啟前所未有的創新可能。
我們對 AI 的期待,正從單純的「加速」轉向更根本的「探索」。大型語言模型(LLM)已開始在複雜的策略空間中,發現人類直覺之外的高效解法。一篇近期發表於 arXiv 的研究《Discovering Multiagent Learning Algorithms with Large Language Models》展示了名為 AlphaEvolve 的框架,成功利用 LLM 自動發現超越現有基準的多智能體學習演算法。這不僅是技術突破,更意味著 AI 將成為演算法與制度設計的強大探索引擎,幫助我們突破認知與創新的瓶頸。
為什麼讓 AI 設計演算法很重要?
在許多複雜領域,人類的設計能力已逐漸觸及天花板。無論是晶片佈局、藥物分子設計,還是多人博弈的均衡策略,其「設計空間」(design space)的維度與複雜度都遠超人腦所能直觀掌握的範圍。我們依賴經驗、啟發式方法(heuristics)與不斷試錯來尋找局部最佳解,但很難系統性地探索整個可能性空間,也容易陷入既有的思維框架。
這讓人想起 AlphaGo 的時代。它下出的許多棋步在當時的人類頂尖棋手看來是「非直覺」甚至是「錯誤」的,但事後證明這些棋步正是通往勝利的關鍵。演算法的設計也是一個類似的挑戰。一個演算法由許多核心組件、參數與邏輯流構成,它們的組合可能性是天文數字。人類專家憑藉深厚的理論知識與經驗,設計出如 CFR(反事實後悔最小化)這類經典演算法,但我們無法確定是否存在更有效、但結構完全不同的「外星」演算法。
當 LLM 開始具備強大的程式碼生成與理解能力時,一個全新的可能性浮現了:我們能否將「發現新演算法」這個任務本身,交給 AI 來執行?
AlphaEvolve:如何引導 LLM 探索演算法空間?
近期發表於 arXiv 的論文《Discovering Multiagent Learning Algorithms with Large Language Models》提出了一個名為 AlphaEvolve 的框架,系統性地回答了這個問題。其核心思想是借鏡「演化演算法」,將 LLM 作為一個「變異與擇優」的引擎,在演算法的程式碼空間中進行搜索。
整個流程大致如下:
- 初始化:從一個已知、相對簡單的「種子」演算法(例如基礎的強化學習演算法)的程式碼與說明文件開始。
- 演化式提示:LLM 接收到現有演算法的程式碼,並被要求對其進行「修改」與「改進」。提示語會引導模型思考,例如:「請分析這段程式碼的潛在瓶頸,並提出一個能提升效能或穩定性的變體」、「請將 A 演算法中的 X 機制與 B 演算法的 Y 機制結合,創造一個新的混合演算法」。
- 驗證與篩選:新產生的演算法候選者會被自動放到一系列基準測試環境中執行,評估其效能。只有表現優於其「親代」的變體會被保留下來。
- 迭代:存活下來的優秀變體,會成為下一輪演化的新「種子」,不斷重複這個「提議-驗證-篩選」的循環。
這個框架的巧妙之處在於,它不要求 LLM 一次就創造出完美的演算法。相反地,它利用 LLM 的創造力來產生大量「微小但可能有益」的變異,再透過嚴格的實證測試來篩選出真正有效的創新,逐步逼近更優越的解決方案。
AI 的價值正從執行人類指令,轉變為在人類定義的框架下自主探索。我們提供目標與評估標準,AI 則負責填補通往目標路徑上的未知空白。
AI 發現的演算法,真的超越了人類嗎?
答案是肯定的。AlphaEvolve 框架在兩個經典的多智能體學習(Multi-Agent Reinforcement Learning, MARL)領域中,都發現了超越人類專家設計的新演算法。
第一個領域是「後悔最小化」(regret minimization),這是解決不完全資訊博弈(如撲克)的核心技術。基於經典的 CFR 演算法,AlphaEvolve 發現了一個名為 VAD-CFR (Value-Aware Discounted CFR) 的新演算法。它引入了一種非直覺的折扣因子(discount factor)來調整過去的後悔值,這個改動在傳統理論中並不常見,但實驗證明它能更有效地收斂到均衡解。
第二個領域是「群體訓練」(population-based training),常用於訓練能應對多樣化對手的 AI。基於 PSRO (Policy-Space Response Oracles) 框架,AlphaEvolve 開發出 SHOR-PSRO (Sampled Historical Opponent Response PSRO)。這個變體修改了對手取樣的策略,使其能更有效地利用歷史數據,從而在更少的訓練資源下達到更高的求解效能。
這兩個成果的共通點是,它們都不是對現有演算法的簡單參數微調,而是引入了新的機制與結構,這些機制在第一時間可能連人類專家都難以想到或解釋。這證明了 LLM 不僅能理解和複製人類知識,更有潛力在複雜的符號空間中進行創造性探索,發現真正新穎且有效的解決方案。
當 AI 不再只是加速我們既有流程的工具,而是成為一個能自主探索、發現新演算法、新材料、甚至是新經濟模型的夥伴時,它對科學研究與社會發展的影響將是根本性的。我們正在從「使用 AI」的時代,邁向「與 AI 共同探索」的時代。
延伸閱讀
- Discovering Multiagent Learning Algorithms with Large Language Models
- DeepMind: AlphaGo - The story so far
- OpenAI Codex Official Documentation
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。