當 RLHF 不再只是標註流程,而是一套可迭代的系統工程
當大家還在比較模型能力時,真正開始拉開差距的,往往已經不是參數量,而是回饋系統能否持續運作。線上 RLHF 的意義,不只是讓模型更會回答,而是讓對齊從一次性標註,升級成可迭代、可複現、可擴展的工程流程。
如果只用一句話總結這篇論文,我會說:未來 AI 對齊的差距,不會只來自更強的 base model,而會來自誰能把回饋機制做成真正可運行的系統。
這也是為什麼我覺得線上 RLHF 值得注意。它的重點不是又多了一種訓練技巧,而是把對齊從一次性的資料加工,推向持續迭代的工程工作流。當模型開始被部署在真實產品裡,決定體驗上限的往往不是預訓練本身,而是你能不能穩定收集回饋、更新偏好、修正策略,再把這一切變成可複現的流程。
為什麼今天還要重新看 RLHF?
從 InstructGPT 開始,大家已經很熟悉「先監督微調,再用人類偏好做對齊」這條路線 [1]。但真正的問題是,這條路線在開源世界一直停在比較靜態的階段:收一批資料、訓一次 reward model、跑完一輪就結束。
這次 mkbrain 對應的論文《RLHF Workflow: From Reward Modeling to Online RLHF》則把焦點放在另一件事上:線上、迭代、可持續的 RLHF 工作流 [2]。作者明講,近期文獻普遍認為 online iterative RLHF 明顯優於 offline setting,但開源社群一直缺少一套低門檻、可重做、能公開分享的 recipe。這篇技術報告的價值,正是在補這個洞。
問題到底出在哪裡?不是模型不夠強,而是 feedback loop 太弱
很多團隊談對齊,還是習慣把它想成資料工程:多做一些 preference pairs、多訓練幾輪 reward model,結果自然會變好。但這種想法隱含了一個假設:回饋是靜態資產,收完就可以封存。
真實世界不是這樣。使用者偏好會漂移,任務型態會改變,產品場景會持續擴張。你今天收集到的高品質偏好,三個月後未必還夠用。換句話說,alignment 本質上不是資料庫建設,而是控制迴路設計。
這也是 online RLHF 比 offline RLHF 更值得關注的地方。它把對齊看成一個持續更新的過程:模型先產生回答、回饋系統評估輸出、訓練策略再被修正,如此反覆。這種思維其實更接近產品迭代,而不是單次訓練。
開源社群為什麼特別需要代理模型來模擬人類回饋?
理論上,最佳做法當然是持續收集真人回饋;但實際上,這對多數開源團隊幾乎不可行。人力成本高、評分標準難統一、標註速度也追不上模型迭代。於是這篇論文採取一個很務實的折衷:先用多個開源偏好資料集訓練 proxy preference model,再用這個代理偏好模型近似人類回饋 [2]。
這個設計很重要。它代表開源社群不再只能羨慕封閉模型有大規模 human feedback pipeline,而是開始把回饋機制本身模組化、程式化。這不是完全取代人類,而是把最昂貴的人工判斷,逐步轉成一個可以重跑、分享、驗證的系統層能力。
從 reward model 到 workflow,系統觀點到底改變了什麼?
如果你只把 reward model 當成一個單獨元件,那你優化的會是模型分數;但如果你把 RLHF 看成 workflow,你優化的就是整個回饋回路的效率、穩定性與可治理性。
- 第一,評估不再只是最終驗收,而變成訓練中的即時訊號。
- 第二,資料不再只是一次性消耗品,而是持續更新的回饋來源。
- 第三,對齊能力不再只是模型內部權重問題,而是整個系統如何取得、近似、驗證偏好的工程能力。
這也讓我想到 DPO 那篇論文曾經揭示的一件事:很多人以為 reward model 和 policy optimization 是兩段分離流程,但其實偏好學習背後常常存在可被重新表述的等價關係 [3]。當我們把這些步驟拆開再重組,就會發現:真正的護城河未必是某個神祕 loss,而是你如何設計整個對齊管線。
這篇論文真正傳遞的訊號是什麼?
我認為有三個訊號值得記住。
- 對齊正在從「研究型技巧」走向「基礎設施能力」。
- 開源世界競爭的焦點,正在從誰擁有資料,轉向誰能維持高品質 feedback loop。
- 未來模型能力的上限,會越來越取決於回饋系統的可迭代程度,而不是一次性訓練做得多滿。
論文也提到他們把流程拿去測試多個 benchmark,包括 AlpacaEval-2、Arena-Hard、MT-Bench、HumanEval 與 TruthfulQA,並強調整套資料、模型與 guidebook 都是公開的 [2]。這裡最值得注意的不是單一分數,而是它證明了:開源社群也能開始擁有可複現的對齊工作流,而不是只能追逐封閉模型的黑箱結果。
對產品團隊與 Agent 系統設計者,這代表什麼?
如果你正在做 AI 產品,這篇文章最大的啟發不是「要不要用 RLHF」,而是「你有沒有把回饋當成系統來設計」。很多團隊在 demo 階段看起來都差不多,但一旦進入真實使用,差異就會出現在誰能更快辨認錯誤模式、蒐集偏好訊號、迭代修正策略。
這也是我越來越相信的一件事:AI 系統的競爭,正從模型前移到 workflow。模型只是引擎,真正決定它能不能長期進步的,是那個包在外面的反饋循環。
延伸閱讀:RLHF Workflow: From Reward Modeling to Online RLHF、Training language models to follow instructions with human feedback、Direct Preference Optimization
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。