當思考成為一張圖:為什麼 Agent 的下一步是跳脫線性推理的框架?

「AI 的思考,真的只能一條線走到底嗎?」我們習慣將大型語言模型的推理過程,簡化為線性步驟。然而,面對複雜問題,真正的智慧需要反饋、整合與修正。本文將帶你深入了解,當 AI 的思維從單向鏈條,進化成一張可隨時回訪、重組的「圖」時,AI Agent 的規劃與協作能力,將如何被徹底解鎖,迎向更廣闊的應用可能。

當思考成為一張圖:為什麼 Agent 的下一步是跳脫線性推理的框架?

大型語言模型(LLM)的推理能力,長期以來被我們視為一種線性過程。從 A 到 B 再到 C,一步步推導。然而,當我們面對真正複雜、需要反覆權衡與修正的難題時,這種單向的思維鏈便會顯得力不從心。我深信,要讓 AI Agent 的規劃與工作流協作(workflow orchestration)真正邁向成熟,關鍵在於將「思考」從一條線性的鏈,轉變為一張能夠自由回訪、整合、重組的「圖」(Graph)。這不僅僅是學術界的概念演進,更是實務上建構高階 AI 系統時,不可或缺的思維轉變。

這個觀點的核心,其實源於我們對現有主流提示工程(prompting)方法的深刻反思。回顧最初的 Chain-of-Thought (CoT),它教導模型「一步一步地思考」,確實大幅提升了它在算術、常識推理等任務上的表現。然而,CoT 的最大限制在於它無法「回頭」。一旦思考鏈中的某個環節出現錯誤,這個錯誤便會像滾雪球一樣,一路污染後續的所有步驟,導致最終結果偏離。

從鏈到樹:我們如何走到這一步?

為了克服 CoT 的僵化問題,後續的研究者們提出了 Tree of Thoughts (ToT)。ToT 的核心概念是讓模型在每個思考節點上,不再只選擇一條路,而是能夠探索多種可能性,進而形成一棵「思維樹」。你可以想像成,當走到一個岔路口時,我們不再只憑直覺選一條路走到底,而是會派出多個探子,去初步探查每條路徑的狀況,再根據這些回報來決定哪條路徑值得深入探索。這無疑是個巨大的進步,它為模型引入了「探索」與「評估」的機制,賦予了 AI 初步的策略選擇能力。

然而,無論是 CoT 的線性鏈條,還是 ToT 的分支樹狀結構,它們的本質都屬於「向前推進」(feed-forward)的模式。ToT 的各個分支之間是獨立運作的,它們無法相互交流、無法將各自的優點整合起來。舉例來說,如果最佳解其實是 A 方案的前半段,加上 B 方案的後半段,ToT 的框架就難以發現並實現這種跨分支的整合。這也因此限制了 AI 在處理需要綜合歸納、迭代優化的複雜任務上的潛力。畢竟,現實世界中的複雜決策,往往不是一條路走到黑的單向過程,而是充滿了反覆的迴圈、深刻的反思與多元的整合。

Graph of Thoughts:當思考不再只是一條單行道

這正是為什麼 2023 年 8 月發表的 Graph of Thoughts (GoT) 論文,會引起如此廣泛的關注與討論。它徹底打破了過去線性與樹狀結構的限制,大膽提出將 LLM 的思考過程建模為一個更為通用且靈活的「圖形結構」。在這張動態的「思維圖」中,每一個節點都代表著一個「想法」(thought),而節點之間的邊,則清晰地描繪出這些想法之間的依賴與連結關係。

這個框架的威力,體現在它引入了幾種在鏈與樹結構中無法實現的操作:

  • 匯總(Aggregation):這項操作允許將兩個或多個獨立的思維節點,巧妙地融合成一個全新的、更具綜合性的節點。想像一下,這就像是團隊在腦力激盪後,將不同成員的獨到觀點匯聚起來,整合成一個更全面、更完善的解決方案。
  • 精煉(Refinement):GoT 賦予了模型對單一思維節點進行迭代式改進的能力,形成一個不斷自我修正的迴圈。這徹底解決了 CoT 無法回頭的痛點,讓模型能夠「反思」並持續優化自己先前的結論,直到達到最佳狀態。
  • 回溯與分支(Backtracking & Branching):除了傳統的向前探索,GoT 更能自由地在思維圖中穿梭,隨時回到先前的節點,並從該處開闢全新的思考路徑。這提供了前所未有的靈活性,讓模型不再受限於單一的探索方向。
GoT 的核心突破,在於它承認了思考並非總是線性前進。它允許自我修正、允許綜合不同觀點,這更接近人類解決複雜問題的真實樣貌。

這種底層結構的根本轉變,讓 AI 的推理過程從過去單純的「解題」,一躍成為「建構解決方案」。它不再僅僅是一個單向的問答機器,而是一個能夠動態規劃、即時評估、並不斷修正其思考路徑的智慧系統。值得一提的是,這與另一種常見的推理增強策略 Self-Consistency(透過多輪獨立生成答案並投票選出最佳解)相比,GoT 的方法更具備內在的邏輯整合性,而非僅僅是依賴外部的統計選擇來提升準確度。

這在實務上帶來了什麼改變?

從理論概念走向實際應用,GoT 所帶來的效果是顯著且令人驚豔的,並且能夠被精確量化。在原論文的實驗中,研究者們讓模型處理一個需要對 20 個項目進行排序的複雜任務。結果數據顯示,相較於 ToT 的方法,GoT 不僅讓最終結果的品質大幅提升了 62%,同時還將所需的 LLM 推理成本,驚人地降低了 31%

這些數字背後的意義非凡:一個更靈活、更強大的思考框架,並不必然伴隨著更高的計算成本。透過 GoT 獨特的匯總與精煉機制,模型能夠更迅速地修剪掉無效的思考路徑,將寶貴的計算資源集中在最有潛力的方向上,從而實現了「更好又更省」的雙贏局面。

對於我這樣一位 AI 系統建構者而言,GoT 的價值遠遠不止於單純提升某個任務的表現。它為設計複雜的多 Agent 協作系統,提供了一個極其強大且前瞻性的理論基礎。試想,當我們建構的工作流中,一個 Agent 的產出需要被另一個 Agent 審核、改進,或者多個 Agent 的結論需要被巧妙地整合時,這種圖形化的思維結構,正是我們夢寐以求的解決方案。它徹底改變了 Agent 之間過去瀑布式的資訊傳遞模式,轉而建立起一個動態、可回溯、且高度整合的協作網路。這可以說是 ReAct 框架中「思考」與「行動」交錯循環的理念,在更宏觀層次上的一次華麗延伸。

從 Chain-of-Thought (CoT) 到 Graph of Thoughts (GoT) 的演進,不僅僅是提示工程技術的一次迭代升級,它更深刻地反映了我們對 AI 認知架構理解的逐步深化。當我們終於不再將思考簡化為一條單向的直線,而是勇敢承認其網路狀的內在複雜性時,我們才真正開始有能力,去建構那些能夠靈活應對真實世界模糊性與多變性的高階 AI 系統。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。