為何我們需要專職的「AI 糾察隊」,而非更大的通用模型?

追求更大的模型並非提升 AI 可靠性的唯一解方。近期研究顯示,透過專職的小型「評審」模型,對大型模型的生成內容進行監督與修正,不僅成本更低,成效也更卓越。這種角色分工的架構,將是未來 AI 系統走向工程化與可治理的關鍵。

為何我們需要專職的「AI 糾察隊」,而非更大的通用模型?

許多人認為,要讓大型語言模型(LLM)更可靠、更不會胡說八道,唯一的方法就是不斷把模型做得更大。但這個想法可能並不完全正確。

我的觀察是,一個更具工程思維、也更符合成本效益的路徑,是建立一個由不同角色組成的協作系統。就像一個團隊裡需要生產者,也需要品管一樣,在 AI 系統中導入專職的「評審」(critic)或「修正者」(reviewer)模型,往往比單純追求一個無所不能的巨型模型,更能有效提升最終產出的品質與可靠性。

將生成(generation)與評審(critique)的任務拆分,讓不同模型各司其職,這種模組化的設計不僅讓系統的行為更可預測、更易於治理,也為我們開闢了一條不必無止盡追逐模型參數規模的務實道路。

為什麼單一巨型模型有其極限?

在過去幾年,我們見證了語言模型領域由「越大越好」(scaling law)的信念所主導的軍備競賽。從數十億到上兆參數,模型規模的擴張確實帶來了驚人的能力湧現。然而,這條路徑也逐漸顯露出它的瓶頸與代價。

首先是高昂的成本。訓練一個頂級的巨型模型需要耗費數百萬甚至數千萬美元的運算資源,這使得只有少數科技巨頭能夠參與這場遊戲。

其次,模型的「黑箱」特性讓它們的行為難以精準控制。當我們試圖透過微調來修正模型在特定任務(例如減少偏見、提升事實準確性)上的表現時,往往會不經意地損害它在其他方面的通用能力,這就是所謂的「對齊稅」(alignment tax)。

更重要的是,一個單一模型,無論多大,本質上都只是一個「生成器」。要求它同時扮演好創作者、事實查核員、風格編輯等多重角色,本身就是一個極高的要求。這也解釋了為什麼即使是目前最強大的模型,也仍然會出現捏造事實、邏輯矛盾或無法遵循複雜指令的問題。

Shepherd:一個 7B 模型的評審能力如何超越 ChatGPT?

2023 年 8 月發表的一篇論文 Shepherd: A Critic for Language Model Generation,為「角色分工」這個思路提供了強而有力的證據。研究團隊訓練了一個名為 Shepherd 的模型,它的參數量僅有 70 億(7B),遠小於 ChatGPT 或 GPT-4,但它的任務非常專一:評估並批判其他語言模型生成的內容。

Shepherd 的訓練基於一個高品質、由人類撰寫的回饋資料集,使其學會如何精準地識別出其他模型回答中的各種瑕疵,例如事實錯誤、邏輯不通、指令遵循失敗等,並提供具體的修正建議。實驗結果相當驚人:

在與包括 ChatGPT 在內的多個模型的評審能力對比中,由 GPT-4 擔任最終裁判的盲測顯示,Shepherd 所提供的回饋意見,在 53% 至 87% 的情況下被認為是更優質、更有幫助的。

這個結果清楚地表明,一個經過特化訓練的小型「評審模型」,在監督與品管這項任務上的表現,可以勝過一個體積龐大但設計目標是「無所不包」的通用模型。這就像在軟體開發中,我們不會期望同一個工程師既是頂尖的架構師,又是最細心的測試人員。專業分工,同樣適用於 AI 系統的建構。

如何建立一個有效的「生成-評審」協作框架?

Shepherd 的成功並非個案,它代表了一個更廣泛的趨勢:透過多模型協作來實現迭代式的自我完善。近年來,許多研究都圍繞著類似的理念展開,例如 Self-Refine 提出的迭代式自我修正框架,或是 Reflexion 這種讓 AI Agent 從自身經驗中進行口頭強化學習的機制。這些方法的核心,都可以歸納為一個「生成-評審-修正」的循環流程:

  1. 生成(Generate):由一個大型的「生成者」(generator)模型,根據使用者提示產生初步的回應。
  2. 評審(Critique):由一個專職的「評審者」(critic)模型(如 Shepherd),對初步回應進行多維度的評估,指出其中的問題與不足。這個概念也與 Anthropic 提出的 Constitutional AI 相似,都是利用 AI 的回饋來引導模型的行為。
  3. 修正(Refine):將評審者的回饋意見,連同原始提示,一起交給生成者模型(或另一個專職的「修正者」模型),讓它根據指導意見產生一個更完善、更可靠的最終版本。

這種框架的好處是顯而易見的。它將一個複雜的「產出高品質內容」的任務,拆解成幾個更簡單、更明確的子任務。我們可以針對性地優化評審模型的準確性,而不用擔心影響生成模型的流暢度與創造力。這種模組化的架構,也讓整個系統的除錯、監控與治理變得更加容易。當系統出錯時,我們能更清楚地定位問題是出在生成環節,還是評審環節。

從更宏觀的視角來看,這種將不同能力的模型進行組合與調度(ensembling/blending)的作法,例如 LLM-Blender 所探討的技術,正逐漸成為建構複雜 AI 應用的主流。與其寄望於一個完美的單一模型,不如打造一個由多個「專家」模型組成的、有內部制衡與協作機制的智慧系統。這不僅是工程上的最佳實踐,也可能是通往更安全、更可信賴 AI 的必經之路。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。