多目標強化學習的隱藏陷阱:為何我們需要解耦獎勵信號?
當我們訓練大型語言模型時,如何讓它同時兼顧準確性、安全性與實用性?這正是多目標強化學習的核心挑戰。傳統上,我們習慣將所有獎勵信號統一正規化,卻可能因此抹煞關鍵的「弱勢」信號,導致訓練不穩、模型表現受限。一篇名為 GDPO 的最新研究,提出了解耦獎勵正規化的創新思路,不僅有效提升了模型在複雜任務上的收斂品質與穩定性,更為多目標強化學習指引了一條更精準、更穩健的
在當代大型語言模型的對齊(Alignment)工程中,我們經常透過強化學習(RL)來平衡多個甚至相互衝突的目標,例如同時追求有用性、無害性與真實性。然而,傳統方法常將這些不同的獎勵信號統一進行正規化處理,這看似公平的作法,卻可能導致較弱但關鍵的信號被淹沒,造成「信號崩潰」。一篇名為 GDPO 的新研究指出,透過解耦不同獎勵群組的正規化過程,能顯著提升訓練的穩定性與最終模型的收斂品質,為多目標優化提供了更精細且穩健的途徑。
多目標優化:為何平衡多重目標如此困難?
現代 AI 系統的價值,不僅在於它們能完成特定任務,更在於它們能在複雜的、充滿權衡的現實世界中做出合適的判斷。這意味著模型不能只有單一的目標函數。例如,一個客戶服務 AI 不僅要回答問題(Helpful),還要確保資訊正確(Honest),並避免提供有害建議(Harmless)。這就是 Anthropic 提出的「HHH」框架,也是多目標優化在大型語言模型(LLM)對齊中的經典場景。
為了實現這種平衡,我們通常會設計多個獎勵函數(Reward Functions),每個函數對應一個我們關心的維度。模型在訓練過程中,會根據一個綜合的獎勵信號來調整其策略。然而,問題恰恰出在「綜合」這一步。
不同的獎勵信號,其尺度(scale)、稀疏度(sparsity)與分佈(distribution)可能天差地遠。例如,一個用於鼓勵長篇回答的獎勵可能是頻繁且數值較小的,而一個用於懲罰洩漏隱私的懲罰信號則可能是罕見但數值極大的。如何有效地結合這些異質信號,成為多目標強化學習中的一個核心挑戰。
「統一正規化」為何會成為訓練瓶頸?
在強化學習的實踐中,為了穩定訓練過程,我們通常會對獎勵信號進行正規化(Normalization),例如將其縮放到一個固定的均值和變異數範圍。這在單一目標的場景下是個非常有效的技巧,能避免獎勵數值的劇烈波動對策略更新造成過大的衝擊,許多經典的 RL 演算法如 PPO (Proximal Policy Optimization) 都會採用類似的作法。
然而,當我們將這個技巧直接套用到多目標場景時,問題就浮現了。如果將所有來源的獎勵信號混和在一起,進行統一的正規化,一個數值範圍大或出現頻率高的「強勢」獎勵信號,往往會主導整個正規化的過程。
這會導致那些數值較小或較稀疏的「弱勢」信號,在正規化後幾乎被壓縮到失去鑑別度,進而失去其原有的引導作用。這就是所謂的「信號崩潰」(Signal Collapse)。
核心洞見在於:我們不該用同一把尺去衡量所有目標。承認並保留不同獎勵信號的內在尺度與分佈特性,才是通往穩定收斂的道路。
想像一下,你試圖同時優化程式碼生成的「正確性」與「風格優雅度」。正確性可以透過單元測試得到一個明確的、數值較大的獎勵;而風格的獎勵可能來自於一個較為主觀的評分模型,數值較小。若統一正規化,模型很可能會完全專注於通過測試,而徹底忽略風格,因為風格信號在數值上已經被「稀釋」掉了。
GDPO 如何解耦獎勵信號,突破訓練瓶頸?
為了解決這個問題,一篇名為 《GDPO: Group reward-Decoupled Normalization Policy Optimization》 的研究提出了一個直觀而有效的方法。其核心思想非常簡單:不要將所有獎勵信號混為一談,而是先將它們分組,然後在各組內部進行獨立的正規化,最後再將這些已經正規化過的信號結合起來。
這種「解耦正規化」(Decoupled Normalization)的方法,保留了每個獎勵群組內部的相對差異性。我們可以將這個過程想像成:傳統方法(例如 GRPO)會將來自「有用性」、「安全性」、「真實性」的所有獎勵分數全部丟進一個大籃子裡,計算一個總的平均值和標準差,然後對所有分數進行統一正規化。然而,GDPO 的做法則更為精細:它會將「有用性」相關的獎勵放在一個籃子裡獨立正規化,將「安全性」相關的獎勵放在另一個籃子裡獨立正規化,以此類推。最後,再將這些已經在各自語境下處理過、尺度可比的信號進行加權組合,用於更新模型策略。
這種作法借鑒了 DPO (Direct Preference Optimization) 等現代策略優化方法的思想,但在獎勵處理層面進行了關鍵的改良。它允許不同性質的獎勵在各自的「語境」下被評估,避免了強勢信號對弱勢信號的壓制。
這在實務上帶來了什麼改變?
GDPO 的論文展示了這種方法在多個複雜任務上的顯著優勢。研究團隊在 ToolBench(工具調用)、GSM8K(數學推理)和程式碼生成等任務上,對 Llama 2 7B 和 13B 等模型進行了實驗。
結果顯示,相較於採用統一正規化的基線方法(GRPO),GDPO 不僅訓練過程更穩定,避免了獎勵值的劇烈震盪,而且最終模型的性能也更佳。例如,在 ToolBench 的指令遵循基準測試中,GDPO 的勝率比 GRPO 高出 10.4%。這證明了解耦正規化能讓模型更均衡地學習多個目標,而不是陷入「獎勵駭客」(Reward Hacking)的困境,即只優化那些最容易拿到高分的指標而忽略其他重要維度。
對於正在建構複雜 AI 系統的我們來說,這項研究提供了一個重要的實務指引。當系統需要平衡多個、甚至可能是相互競爭的目標時,我們應該謹慎對待獎勵信號的處理方式。從單一的、統一的框架轉向一個更模組化、更尊重信號個體性的設計,可能是提升模型魯棒性與對齊品質的關鍵一步。
延伸閱讀
- GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization (arXiv)
- Direct Preference Optimization: Your Language Model is Secretly a Reward Model (arXiv)
- Proximal Policy Optimization (PPO) by OpenAI
- Claude's Constitution by Anthropic
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。