mk-brain

多目標強化學習的隱藏陷阱：為何我們需要解耦獎勵信號？

當我們訓練大型語言模型時，如何讓它同時兼顧準確性、安全性與實用性？這正是多目標強化學習的核心挑戰。傳統上，我們習慣將所有獎勵信號統一正規化，卻可能因此抹煞關鍵的「弱勢」信號，導致訓練不穩、模型表現受限。一篇名為 GDPO 的最新研究，提出了解耦獎勵正規化的創新思路，不僅有效提升了模型在複雜任務上的收斂品質與穩定性，更為多目標強化學習指引了一條更精準、更穩健的

江中喬

22 5月 2026 • 7 min read

在當代大型語言模型的對齊（Alignment）工程中，我們經常透過強化學習（RL）來平衡多個甚至相互衝突的目標，例如同時追求有用性、無害性與真實性。然而，傳統方法常將這些不同的獎勵信號統一進行正規化處理，這看似公平的作法，卻可能導致較弱但關鍵的信號被淹沒，造成「信號崩潰」。一篇名為 GDPO 的新研究指出，透過解耦不同獎勵群組的正規化過程，能顯著提升訓練的穩定性與最終模型的收斂品質，為多目標優化提供了更精細且穩健的途徑。

多目標優化：為何平衡多重目標如此困難？

現代 AI 系統的價值，不僅在於它們能完成特定任務，更在於它們能在複雜的、充滿權衡的現實世界中做出合適的判斷。這意味著模型不能只有單一的目標函數。例如，一個客戶服務 AI 不僅要回答問題（Helpful），還要確保資訊正確（Honest），並避免提供有害建議（Harmless）。這就是 Anthropic 提出的「HHH」框架，也是多目標優化在大型語言模型（LLM）對齊中的經典場景。

為了實現這種平衡，我們通常會設計多個獎勵函數（Reward Functions），每個函數對應一個我們關心的維度。模型在訓練過程中，會根據一個綜合的獎勵信號來調整其策略。然而，問題恰恰出在「綜合」這一步。

不同的獎勵信號，其尺度（scale）、稀疏度（sparsity）與分佈（distribution）可能天差地遠。例如，一個用於鼓勵長篇回答的獎勵可能是頻繁且數值較小的，而一個用於懲罰洩漏隱私的懲罰信號則可能是罕見但數值極大的。如何有效地結合這些異質信號，成為多目標強化學習中的一個核心挑戰。

「統一正規化」為何會成為訓練瓶頸？

在強化學習的實踐中，為了穩定訓練過程，我們通常會對獎勵信號進行正規化（Normalization），例如將其縮放到一個固定的均值和變異數範圍。這在單一目標的場景下是個非常有效的技巧，能避免獎勵數值的劇烈波動對策略更新造成過大的衝擊，許多經典的 RL 演算法如 PPO (Proximal Policy Optimization) 都會採用類似的作法。

然而，當我們將這個技巧直接套用到多目標場景時，問題就浮現了。如果將所有來源的獎勵信號混和在一起，進行統一的正規化，一個數值範圍大或出現頻率高的「強勢」獎勵信號，往往會主導整個正規化的過程。

這會導致那些數值較小或較稀疏的「弱勢」信號，在正規化後幾乎被壓縮到失去鑑別度，進而失去其原有的引導作用。這就是所謂的「信號崩潰」（Signal Collapse）。

核心洞見在於：我們不該用同一把尺去衡量所有目標。承認並保留不同獎勵信號的內在尺度與分佈特性，才是通往穩定收斂的道路。

想像一下，你試圖同時優化程式碼生成的「正確性」與「風格優雅度」。正確性可以透過單元測試得到一個明確的、數值較大的獎勵；而風格的獎勵可能來自於一個較為主觀的評分模型，數值較小。若統一正規化，模型很可能會完全專注於通過測試，而徹底忽略風格，因為風格信號在數值上已經被「稀釋」掉了。

GDPO 如何解耦獎勵信號，突破訓練瓶頸？

為了解決這個問題，一篇名為《GDPO: Group reward-Decoupled Normalization Policy Optimization》的研究提出了一個直觀而有效的方法。其核心思想非常簡單：不要將所有獎勵信號混為一談，而是先將它們分組，然後在各組內部進行獨立的正規化，最後再將這些已經正規化過的信號結合起來。

這種「解耦正規化」（Decoupled Normalization）的方法，保留了每個獎勵群組內部的相對差異性。我們可以將這個過程想像成：傳統方法（例如 GRPO）會將來自「有用性」、「安全性」、「真實性」的所有獎勵分數全部丟進一個大籃子裡，計算一個總的平均值和標準差，然後對所有分數進行統一正規化。然而，GDPO 的做法則更為精細：它會將「有用性」相關的獎勵放在一個籃子裡獨立正規化，將「安全性」相關的獎勵放在另一個籃子裡獨立正規化，以此類推。最後，再將這些已經在各自語境下處理過、尺度可比的信號進行加權組合，用於更新模型策略。

這種作法借鑒了 DPO (Direct Preference Optimization) 等現代策略優化方法的思想，但在獎勵處理層面進行了關鍵的改良。它允許不同性質的獎勵在各自的「語境」下被評估，避免了強勢信號對弱勢信號的壓制。

這在實務上帶來了什麼改變？

GDPO 的論文展示了這種方法在多個複雜任務上的顯著優勢。研究團隊在 ToolBench（工具調用）、GSM8K（數學推理）和程式碼生成等任務上，對 Llama 2 7B 和 13B 等模型進行了實驗。

結果顯示，相較於採用統一正規化的基線方法（GRPO），GDPO 不僅訓練過程更穩定，避免了獎勵值的劇烈震盪，而且最終模型的性能也更佳。例如，在 ToolBench 的指令遵循基準測試中，GDPO 的勝率比 GRPO 高出 10.4%。這證明了解耦正規化能讓模型更均衡地學習多個目標，而不是陷入「獎勵駭客」（Reward Hacking）的困境，即只優化那些最容易拿到高分的指標而忽略其他重要維度。

對於正在建構複雜 AI 系統的我們來說，這項研究提供了一個重要的實務指引。當系統需要平衡多個、甚至可能是相互競爭的目標時，我們應該謹慎對待獎勵信號的處理方式。從單一的、統一的框架轉向一個更模組化、更尊重信號個體性的設計，可能是提升模型魯棒性與對齊品質的關鍵一步。

多目標強化學習的隱藏陷阱：為何我們需要解耦獎勵信號？

江中喬

多目標優化：為何平衡多重目標如此困難？

「統一正規化」為何會成為訓練瓶頸？

GDPO 如何解耦獎勵信號，突破訓練瓶頸？

這在實務上帶來了什麼改變？

延伸閱讀

Sign up for more like this.