與其讓 AI 獨自苦思,不如教它何時該「求救」:從 Escalation 架構談起

當大型語言模型(LLM)遇到複雜問題時,強迫它反覆思考可能只會加劇幻覺。更有效的方法是設計一套「問題升級」機制,讓系統知道何時該交棒給更強大的模型或流程。本文探討如何透過階層式架構,實現依需求調整的推理深度,打造更可靠、更聰明的 AI 系統。

與其讓 AI 獨自苦思,不如教它何時該「求救」:從 Escalation 架構談起

面對大型語言模型(LLM)的幻覺與複雜問題,單純要求模型「多想幾次」往往無濟於事。更有效的策略是建立一套「問題升級」(escalation)的系統性架構,讓 AI 系統懂得在能力邊界時主動「求救」,將難題交棒給更高層級的處理單元或人類專家。這種依需求動態加深思考層次(depth-on-demand)的設計,不僅能顯著降低幻覺,更能有效平衡運算成本與準確性,是打造可靠 AI 系統的關鍵。

為什麼單一模型的「多想幾次」會失效?

面對複雜問題,我們最直覺的反應,是讓模型「再想一想」。業界也發展出許多技術,如思維鏈(Chain-of-Thought)或自我修正迴圈,試圖透過多步驟推理來深化模型的思考。這些方法在許多場景確實有效,但它們都有一個根本性的天花板:任何單一模型,無論多強大,其知識與推理能力都有其極限。一旦問題的複雜度超越這個極限,強迫它繼續思考,往往只會得到更精緻、更自信的幻覺。

日本開發者 eNIGM4 在一篇技術連載中,分享了他開發 AI 系統的迭代過程。在他開發的 v0.0.6 版本中,他嘗試用多段推理迴圈來解決問題,但很快就發現,這種作法的核心是建立在一個脆弱的假設上:「LLM 終究會想出正確答案」。現實是,有些問題對當前的模型來說就是「不可解」的。當模型被逼到牆角,它不會承認自己不會,而是會開始編造。這正是許多 AI 應用在處理邊界案例時,表現得既不穩定又不可靠的原因。

階層式架構如何讓 AI 系統學會「交棒」?

意識到單一模型的侷限後,eNIGM4 在他的 v0.0.7 版本中,導入了一個更聰明的設計:階層式遞推(hierarchical recursion),也就是我們所說的「問題升級架構」。這個架構的核心思想很單純——與其信任單一模型的判斷,不如建立一個由不同能力層級組成的處理鏈,並讓系統學會何時該放棄,並將問題「向上呈報」。

這樣的架構通常可以設計成三層,實現所謂的「依需求調整深度」(depth-on-demand):

  • 第一層:快速篩選器 (Fast Filter):使用一個輕量、高速、低成本的模型(例如 Claude 3 Haiku 或 GPT-3.5-turbo)處理八成以上的簡單、重複性問題。它的任務是快速解決已知範圍內的請求,並初步判斷問題的難度。
  • 第二層:深度推理器 (Deep Reasoner):當第一層模型判斷問題超出其能力範圍時,系統會將問題升級到一個更強大、但成本也更高的模型(例如 Claude 3 Opus 或 GPT-4o)。這一層會啟用更複雜的推理策略,進行深度分析。
  • 第三層:最終仲裁者 (Final Arbiter):如果連頂級模型都無法給出高確定性的答案,系統會觸發最終升級。這個階段的處理方式可以很多元,例如呼叫專用工具(Specialized Tool)、交由人類專家介入(Human-in-the-Loop),或直接向使用者回報問題的複雜性,請求更明確的指示。

這種設計類似於專家混合(Mixture-of-Experts)的概念,但不只在模型內部,而是在整個系統層級進行分工。它最大的好處是兼顧了效率與品質,將昂貴的運算資源精準地投入在最需要的地方。

一個好的系統設計,不該強迫基層員工解決超出其職權範圍的問題,而是要建立清晰的回報與升級管道。AI 系統也是如此。

如何設計有效的問題升級觸發器?

一個有效的升級架構,關鍵在於「觸發器」(trigger)的設計。系統必須有可靠的機制來判斷「我什麼時候該放棄?」。如果觸發器太敏感,會導致大量簡單問題被過度升級,浪費資源;如果太遲鈍,又會回到原點,讓低階模型產生幻覺。以下是幾種常見的觸發器設計:

  • 信心分數門檻 (Confidence Score Threshold):許多模型可以輸出 token 的對數機率(logprobs),我們可以將其轉換為一個整體的信心分數。當分數低於一個預設門檻(例如 80%),就觸發升級。
  • 內部一致性檢查 (Internal Consistency Check):可以設計一個獨立的「驗證器」模型或函式,專門檢查主要模型輸出的事實與邏輯是否一致。例如,自我一致性(Self-Consistency)的研究表明,多次生成並尋找共識是提升可靠性的有效方法,若無法達成共識,就是一個升級的信號。
  • 資源消耗上限 (Resource Consumption Cap):為每個處理層級設定運算資源的上限,例如 token 數量、推理步數或執行時間。一旦超過上限,就自動將任務轉交給下一層。
  • 特定模式或關鍵字 (Pattern or Keyword Detection):監控模型的輸出,如果出現「我不確定」、「根據我現有的知識…」、「這可能不完全準確」等模糊性詞彙,或是在程式碼生成任務中反覆出現相同的語法錯誤,都可能是其能力達到極限的信號。

設計這些觸發器,需要對應用場景有深刻的理解,並經過大量的實驗與微調。但這項投入是值得的。它讓我們從「祈禱模型不要犯錯」的被動狀態,轉變為主動管理系統風險的建構者角色。

這不僅是為了降低幻覺,更是為了建立一個可預測、可信賴、且真正能與我們協作的 AI 系統。這種從模型為中心轉向以系統為中心的思維,將是未來 AI 應用走向成熟的必經之路。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。