mk-brain

當 RLHF 不再只是標註流程，而是一套可迭代的系統工程

當大家還在比較模型能力時，真正開始拉開差距的，往往已經不是參數量，而是回饋系統能否持續運作。線上 RLHF 的意義，不只是讓模型更會回答，而是讓對齊從一次性標註，升級成可迭代、可複現、可擴展的工程流程。

江中喬

11 5月 2026 • 6 min read

如果只用一句話總結這篇論文，我會說：未來 AI 對齊的差距，不會只來自更強的 base model，而會來自誰能把回饋機制做成真正可運行的系統。

這也是為什麼我覺得線上 RLHF 值得注意。它的重點不是又多了一種訓練技巧，而是把對齊從一次性的資料加工，推向持續迭代的工程工作流。當模型開始被部署在真實產品裡，決定體驗上限的往往不是預訓練本身，而是你能不能穩定收集回饋、更新偏好、修正策略，再把這一切變成可複現的流程。

為什麼今天還要重新看 RLHF？

從 InstructGPT 開始，大家已經很熟悉「先監督微調，再用人類偏好做對齊」這條路線 [1]。但真正的問題是，這條路線在開源世界一直停在比較靜態的階段：收一批資料、訓一次 reward model、跑完一輪就結束。

這次 mkbrain 對應的論文《RLHF Workflow: From Reward Modeling to Online RLHF》則把焦點放在另一件事上：線上、迭代、可持續的 RLHF 工作流 [2]。作者明講，近期文獻普遍認為 online iterative RLHF 明顯優於 offline setting，但開源社群一直缺少一套低門檻、可重做、能公開分享的 recipe。這篇技術報告的價值，正是在補這個洞。

問題到底出在哪裡？不是模型不夠強，而是 feedback loop 太弱

很多團隊談對齊，還是習慣把它想成資料工程：多做一些 preference pairs、多訓練幾輪 reward model，結果自然會變好。但這種想法隱含了一個假設：回饋是靜態資產，收完就可以封存。

真實世界不是這樣。使用者偏好會漂移，任務型態會改變，產品場景會持續擴張。你今天收集到的高品質偏好，三個月後未必還夠用。換句話說，alignment 本質上不是資料庫建設，而是控制迴路設計。

這也是 online RLHF 比 offline RLHF 更值得關注的地方。它把對齊看成一個持續更新的過程：模型先產生回答、回饋系統評估輸出、訓練策略再被修正，如此反覆。這種思維其實更接近產品迭代，而不是單次訓練。

開源社群為什麼特別需要代理模型來模擬人類回饋？

理論上，最佳做法當然是持續收集真人回饋；但實際上，這對多數開源團隊幾乎不可行。人力成本高、評分標準難統一、標註速度也追不上模型迭代。於是這篇論文採取一個很務實的折衷：先用多個開源偏好資料集訓練 proxy preference model，再用這個代理偏好模型近似人類回饋 [2]。

這個設計很重要。它代表開源社群不再只能羨慕封閉模型有大規模 human feedback pipeline，而是開始把回饋機制本身模組化、程式化。這不是完全取代人類，而是把最昂貴的人工判斷，逐步轉成一個可以重跑、分享、驗證的系統層能力。

從 reward model 到 workflow，系統觀點到底改變了什麼？

如果你只把 reward model 當成一個單獨元件，那你優化的會是模型分數；但如果你把 RLHF 看成 workflow，你優化的就是整個回饋回路的效率、穩定性與可治理性。

第一，評估不再只是最終驗收，而變成訓練中的即時訊號。
第二，資料不再只是一次性消耗品，而是持續更新的回饋來源。
第三，對齊能力不再只是模型內部權重問題，而是整個系統如何取得、近似、驗證偏好的工程能力。

這也讓我想到 DPO 那篇論文曾經揭示的一件事：很多人以為 reward model 和 policy optimization 是兩段分離流程，但其實偏好學習背後常常存在可被重新表述的等價關係 [3]。當我們把這些步驟拆開再重組，就會發現：真正的護城河未必是某個神祕 loss，而是你如何設計整個對齊管線。

這篇論文真正傳遞的訊號是什麼？

我認為有三個訊號值得記住。

對齊正在從「研究型技巧」走向「基礎設施能力」。
開源世界競爭的焦點，正在從誰擁有資料，轉向誰能維持高品質 feedback loop。
未來模型能力的上限，會越來越取決於回饋系統的可迭代程度，而不是一次性訓練做得多滿。

論文也提到他們把流程拿去測試多個 benchmark，包括 AlpacaEval-2、Arena-Hard、MT-Bench、HumanEval 與 TruthfulQA，並強調整套資料、模型與 guidebook 都是公開的 [2]。這裡最值得注意的不是單一分數，而是它證明了：開源社群也能開始擁有可複現的對齊工作流，而不是只能追逐封閉模型的黑箱結果。

對產品團隊與 Agent 系統設計者，這代表什麼？

如果你正在做 AI 產品，這篇文章最大的啟發不是「要不要用 RLHF」，而是「你有沒有把回饋當成系統來設計」。很多團隊在 demo 階段看起來都差不多，但一旦進入真實使用，差異就會出現在誰能更快辨認錯誤模式、蒐集偏好訊號、迭代修正策略。

這也是我越來越相信的一件事：AI 系統的競爭，正從模型前移到 workflow。模型只是引擎，真正決定它能不能長期進步的，是那個包在外面的反饋循環。

延伸閱讀：RLHF Workflow: From Reward Modeling to Online RLHF、Training language models to follow instructions with human feedback、Direct Preference Optimization

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。