超越 AGI 迷霧:為什麼「推理」能力正在重塑 AI 系統的設計思維
AI 領域對「推理」的熱議,正從遙遠的 AGI 願景,轉變為一場務實的工程典範轉移。當單一模型能力觸及天花板,焦點便從模型本身轉向系統設計。本文將深入探討推理能力的演進,揭示基礎模型的極限,並引導我們思考如何建構更複雜、更具彈性的 AI 系統架構,重新定義下一代 AI 工程師的核心價值。
近來 AI 領域對「推理」(Reasoning)的熱議,真正值得我們關注的並非遙遠的 AGI 願景,而是一場務實的工程典範轉移。當單一模型的能力觸及天花板,焦點便從模型本身轉向了系統設計。過去我們習慣將 Foundation Model 視為一個能直接給出答案的黑盒子,但追求更複雜的推理能力,正迫使我們承認:單純擴大模型規模與資料量,並不足以應對需要多步驟、結構化思考的任務。這場轉變的核心在於,我們必須從「呼叫一個模型」的思維,進化到「設計一個能思考的系統」。這篇文章將從推理能力的演進,探討它如何暴露出基礎模型的極限,並驅使我們走向更複雜、更具彈性的 AI 系統架構。
為什麼「推理」是評估 AI 進展的關鍵指標?
長期以來,我們評估語言模型的能力,多半圍繞在它們的「知識廣度」與「模式識別」能力上——也就是心理學家丹尼爾·康納曼所說的「系統一」思考,快速、直覺、依賴過往經驗。然而,真正的智慧不僅於此,更體現在「系統二」的深思熟慮、邏輯推導與規劃能力。這正是「推理」所扮演的角色。一篇在 2023 年 12 月底發布的全面性綜述論文 A Survey of Reasoning with Foundation Models,系統性地整理了當前基礎模型在推理任務上的進展與挑戰,也印證了整個領域的關注重點轉移。
當模型面對需要數學計算、程式碼除錯、策略規劃或科學解釋的任務時,單純的模式匹配便會失靈。這些任務的共通點是,它們無法靠單一步驟的直覺完成,而需要一個連貫的思考鏈條。因此,一個模型能否進行有效推理,直接反映了它是否超越了「博學的鸚鵡」階段,開始具備解決未知、複雜問題的潛力。這也是為什麼推理能力成為衡量模型是否能從「工具」邁向「夥伴」的關鍵分水嶺。
從 Prompt Engineering 到認知架構:推理技術如何演進?
為了引導模型進行更深度的思考,社群發展出了一系列技術,其演進路徑本身就揭示了我們對 AI 思維過程的理解深化。回顧這段歷程,我們可以觀察到幾個關鍵的演進階段,每個階段都代表著我們對 AI 思維過程理解的深化:
- Chain-of-Thought (CoT) Prompting:這可以說是最早也最廣為人知的突破。與其讓模型直接輸出答案,不如引導它「一步一步想」。Google 在 2022 年的研究 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 中展示,僅僅透過在提示中加入「Let's think step by step」,就能讓其 540B 參數的 PaLM 模型在 GSM8K 數學題庫上的準確率從 17.9% 大幅提升至 58.1%。CoT 的成功證明了,模型的推理潛力需要被刻意「激發」。
- 更複雜的思考結構:單一的思考鏈條有時會走入死胡同。為此,研究者提出了更複雜的結構,例如 Self-Consistency 透過多個獨立的思考鏈進行投票,提高結果的穩健性;而 Tree of Thoughts (ToT) 則讓模型在每一步都探索多個可能性,形成一棵思考樹,並在過程中進行評估與剪枝,模擬人類更具策略性的問題解決方式。
- 自我修正與反思:更高階的推理能力,體現在發現並修正自身錯誤的能力。像是 ReAct (Reasoning and Acting) 框架,就讓模型在推理(Reason)與行動(Act)之間交替,並根據行動後的外部回饋(例如工具的執行結果)來調整後續的思考路徑。
這些技術的演進,標示著我們不再將模型視為一個單純的函數,而是開始嘗試為它設計一個「認知架構」(Cognitive Architecture),讓思考過程本身變得可控、可觀測、可優化。
當 Foundation Model 碰上天花板,系統設計如何補位?
即使有上述的提示技術,單一 Foundation Model 在面對複雜現實世界時,依然存在明顯的局限性:知識的即時性不足、計算能力不穩定、無法與外部世界互動。這正是系統層級設計(System-level Design)必須介入的地方。
當我們談論推理時,如果視野只侷限在模型本身,很快就會碰到瓶頸。真正的突破,來自於將模型視為一個「推理核心」,並圍繞它建構一個更大的系統。要建構這樣的系統,我們至少需要考量以下幾個關鍵組件,它們共同將模型的潛力推向極致:
- 工具使用(Tool Use):讓模型學會呼叫外部 API,例如計算機、搜尋引擎、程式碼直譯器或內部資料庫。這不僅彌補了模型在特定領域(如精確計算)的短板,也讓它能獲取最新資訊,並對真實世界產生影響。
- 記憶體機制(Memory):長對話或複雜任務需要維持上下文的一致性。透過引入向量資料庫等外部記憶體,系統可以儲存、檢索過往的對話或中間結論,讓模型擺脫有限內容視窗的束縛。
- 多代理協作(Multi-Agent Collaboration):將一個複雜任務分解給多個專注於不同子任務的「專家代理」,讓它們分工合作。例如,一個代理負責規劃,一個負責執行工具,另一個負責審核結果。這種架構讓整體系統的可靠性與能力都遠超單一代理。
在這個典範下,「智慧」不再僅僅源於模型的權重,而是湧現(emerge)自整個系統的互動與協調。模型的角色,從一個全知的「神諭」,轉變為一個善於推理與溝通的「中央處理器」。
下一代 AI 工程師的核心能力會是什麼?
這場由推理驅動的典範轉移,也將深刻地改變 AI 產品與工程團隊的樣貌。過去,AI 工程師的重心可能在於模型微調、資料處理與 API 串接。但未來,核心價值將越來越傾向於「AI 系統設計師」或「認知架構師」。
我認為,下一代 AI 工程師的核心能力,將不再是單純的演算法或程式碼能力,而是更側重於以下幾個面向:
- 工作流程分解與編排能力:如何將一個模糊的業務需求,拆解成一個由多個模型、工具與判斷節點組成的穩定工作流程(workflow)。
- 模型能力邊界評估:深刻理解不同模型的優劣勢與能力邊界,知道何時該相信模型,何時該引入外部工具或人類迴圈。
- 非確定性系統的除錯與評估:面對一個由 LLM 驅動、行為不完全確定的系統,如何設計有效的監控、日誌與評估體系,確保系統的穩定性與可靠性。
總結來說,對推理能力的追求,正引導我們走出對單一巨大模型的盲目崇拜。我們正在進入一個更成熟的階段:承認模型的局限,並透過巧妙的系統設計來放大其優點、彌補其缺陷。這條路雖然更具挑戰,但也為真正能解決複雜問題的 AI 應用,開啟了更廣闊的可能性。
延伸閱讀
- A Survey of Reasoning with Foundation Models (Huang & Chang et al., 2023)
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022)
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。