視覺模型的「最後一哩路」:當強化學習與人類回饋(RLHF)思維遇上電腦視覺

我們常用 RLHF 來談論大型語言模型的「對齊」問題,但這其實是所有 AI 系統的共同挑戰。當模型的標準指標與實際任務的成功標準出現落差時,該如何彌補?一篇研究展示了如何將從人類回饋中學習的策略,成功地從自然語言處理移植到電腦視覺領域,解決了這個棘手的「最後一哩路」問題。

視覺模型的「最後一哩路」:當強化學習與人類回饋(RLHF)思維遇上電腦視覺

許多人認為「對齊」(Alignment)是大型語言模型(LLM)的專屬課題,但這其實是一個普遍的系統性問題。只要一個系統需要執行任務,我們就必須設法將人類的真實偏好、各種回饋訊號,與系統可學習的策略連結起來。這個挑戰的核心在於,我們用來訓練模型的標準損失函數(loss function),往往只是真實世界任務目標的「代理指標」(proxy metric),兩者之間總有差距。一篇 2023 年名為 《Tuning computer vision models with task rewards》 的研究,便清楚地展示了這個概念不只適用於語言,更是解決電腦視覺難題的關鍵。

這項研究直接點出,將從人類回饋中學習的強化學習(RLHF)框架,從自然語言處理(NLP)領域移植到電腦視覺是完全可行的,而且成效顯著。這意味著,對齊不僅僅是讓語言模型「說實話、不作惡」,更是讓視覺模型「看得準、做得對」的必要過程。

為什麼視覺模型的「準」不等於「好用」?

在電腦視覺領域,我們習慣用 IoU(Intersection over Union)、mAP(mean Average Precision)等指標來評估模型表現。一個物件偵測模型在標準測試集上達到 95% 的 mAP,聽起來非常優秀。但這個數字無法完全反映它在真實應用中的可用性。

想像一個用於自動駕駛的行人偵測系統。模型可能在一個行人的 bounding box 預測上達到 0.95 的 IoU,這在學術評估上是個極佳的分數。但如果那失之毫釐的 5% 剛好是行人伸出的一隻腳,導致系統誤判而未能及時煞車,那麼這個「高分模型」在現實世界中就是徹底失敗的。

這就是代理指標與真實任務目標之間的鴻溝。傳統的微調(fine-tuning)方式很難彌補這個差距,因為它優化的目標仍然是那些代理指標。我們需要一種方法,讓模型直接針對「任務成功與否」這個更模糊、更接近人類判斷的標準進行優化。

從語言到視覺:如何將人類回饋導入模型微調?

這篇研究提出的解法,概念上與 NLP 領域的 RLHF 一脈相承。這個想法最早可以追溯到 2017 年 DeepMind 的論文 《Deep Reinforcement Learning from Human Preferences》,並在 OpenAI 的 InstructGPT 與摘要任務中發揚光大。其核心流程可以拆解為兩個階段:

  1. 訓練一個「任務獎勵模型」(Task Reward Model):首先,我們需要一個能夠評斷視覺模型輸出「好壞」的裁判。這個獎勵模型會學習去預測一個分數,這個分數直接對應到任務的最終成效。例如,在圖像分割任務中,獎勵分數可以不只是像素級的準確率,還可以包含「分割出的區域是否符合人類的語意理解」、「邊緣是否平滑」等更為主觀的標準。
  2. 用這個獎勵模型來微調原本的視覺模型:一旦有了這個裁判,我們就可以用強化學習演算法(例如 PPO)來微調原本的視覺模型。視覺模型(現在被視為一個「策略」)會不斷產生新的預測輸出,而獎勵模型則會為這些輸出打分。整個微調過程的目標,就是讓視覺模型學會如何做出能獲得最高獎勵分數的預測。
這個方法的巧妙之處在於,它將一個難以直接定義和優化的真實世界目標(例如「好的分割結果」),轉化為一個可學習的獎勵函數,從而繞過了代理指標的限制。

實驗結果證明,這個方法在物件偵測、實例分割和影像分類等多種視覺任務上,都能顯著提升模型在真實任務指標上的表現,即便這些指標本身是不可微分、難以直接優化的。

對齊:不只是語言模型的專屬課題

這項研究給我的最大啟發是,它讓我們跳脫「RLHF = 語言模型」的狹隘框架,回歸到問題的本質。所謂的「對齊」,就是縮小系統的內建目標與人類使用者期望之間的差距。這個問題存在於所有試圖在複雜、開放環境中執行任務的 AI 系統。

從語言模型的 Constitutional AI 到更有效率的 Direct Preference Optimization (DPO),我們看到對齊技術正在快速演進。但其核心思想——讓 AI 從人類(或由 AI 代理的人類)的回饋中學習,始終不變。電腦視覺領域的這次成功「移植」,證明了這個思想的普適性。

當我們在建構任何 AI 系統時,無論是推薦系統、機器人控制還是醫療影像分析,都應該問自己一個問題:我用來訓練模型的指標,真的能完全代表使用者最終的成功標準嗎?如果答案是否定的,那麼類似於任務獎勵微調的對齊步驟,就不是一個可有可無的選項,而是一個確保系統真正可用、可靠的必經之路。這或許會帶來額外的「對齊稅」(alignment tax),也就是標注偏好數據和訓練獎勵模型的成本,但對於追求高品質、負責任的 AI 系統而言,這筆投資是必要且值得的。

延伸閱讀

我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。