mk-brain

視覺模型的「最後一哩路」：當強化學習與人類回饋（RLHF）思維遇上電腦視覺

我們常用 RLHF 來談論大型語言模型的「對齊」問題，但這其實是所有 AI 系統的共同挑戰。當模型的標準指標與實際任務的成功標準出現落差時，該如何彌補？一篇研究展示了如何將從人類回饋中學習的策略，成功地從自然語言處理移植到電腦視覺領域，解決了這個棘手的「最後一哩路」問題。

江中喬

18 5月 2026 • 6 min read

許多人認為「對齊」（Alignment）是大型語言模型（LLM）的專屬課題，但這其實是一個普遍的系統性問題。只要一個系統需要執行任務，我們就必須設法將人類的真實偏好、各種回饋訊號，與系統可學習的策略連結起來。這個挑戰的核心在於，我們用來訓練模型的標準損失函數（loss function），往往只是真實世界任務目標的「代理指標」（proxy metric），兩者之間總有差距。一篇 2023 年名為《Tuning computer vision models with task rewards》的研究，便清楚地展示了這個概念不只適用於語言，更是解決電腦視覺難題的關鍵。

這項研究直接點出，將從人類回饋中學習的強化學習（RLHF）框架，從自然語言處理（NLP）領域移植到電腦視覺是完全可行的，而且成效顯著。這意味著，對齊不僅僅是讓語言模型「說實話、不作惡」，更是讓視覺模型「看得準、做得對」的必要過程。

為什麼視覺模型的「準」不等於「好用」？

在電腦視覺領域，我們習慣用 IoU（Intersection over Union）、mAP（mean Average Precision）等指標來評估模型表現。一個物件偵測模型在標準測試集上達到 95% 的 mAP，聽起來非常優秀。但這個數字無法完全反映它在真實應用中的可用性。

想像一個用於自動駕駛的行人偵測系統。模型可能在一個行人的 bounding box 預測上達到 0.95 的 IoU，這在學術評估上是個極佳的分數。但如果那失之毫釐的 5% 剛好是行人伸出的一隻腳，導致系統誤判而未能及時煞車，那麼這個「高分模型」在現實世界中就是徹底失敗的。

這就是代理指標與真實任務目標之間的鴻溝。傳統的微調（fine-tuning）方式很難彌補這個差距，因為它優化的目標仍然是那些代理指標。我們需要一種方法，讓模型直接針對「任務成功與否」這個更模糊、更接近人類判斷的標準進行優化。

從語言到視覺：如何將人類回饋導入模型微調？

這篇研究提出的解法，概念上與 NLP 領域的 RLHF 一脈相承。這個想法最早可以追溯到 2017 年 DeepMind 的論文《Deep Reinforcement Learning from Human Preferences》，並在 OpenAI 的 InstructGPT 與摘要任務中發揚光大。其核心流程可以拆解為兩個階段：

訓練一個「任務獎勵模型」（Task Reward Model）：首先，我們需要一個能夠評斷視覺模型輸出「好壞」的裁判。這個獎勵模型會學習去預測一個分數，這個分數直接對應到任務的最終成效。例如，在圖像分割任務中，獎勵分數可以不只是像素級的準確率，還可以包含「分割出的區域是否符合人類的語意理解」、「邊緣是否平滑」等更為主觀的標準。
用這個獎勵模型來微調原本的視覺模型：一旦有了這個裁判，我們就可以用強化學習演算法（例如 PPO）來微調原本的視覺模型。視覺模型（現在被視為一個「策略」）會不斷產生新的預測輸出，而獎勵模型則會為這些輸出打分。整個微調過程的目標，就是讓視覺模型學會如何做出能獲得最高獎勵分數的預測。

這個方法的巧妙之處在於，它將一個難以直接定義和優化的真實世界目標（例如「好的分割結果」），轉化為一個可學習的獎勵函數，從而繞過了代理指標的限制。

實驗結果證明，這個方法在物件偵測、實例分割和影像分類等多種視覺任務上，都能顯著提升模型在真實任務指標上的表現，即便這些指標本身是不可微分、難以直接優化的。

對齊：不只是語言模型的專屬課題

這項研究給我的最大啟發是，它讓我們跳脫「RLHF = 語言模型」的狹隘框架，回歸到問題的本質。所謂的「對齊」，就是縮小系統的內建目標與人類使用者期望之間的差距。這個問題存在於所有試圖在複雜、開放環境中執行任務的 AI 系統。

從語言模型的 Constitutional AI 到更有效率的 Direct Preference Optimization (DPO)，我們看到對齊技術正在快速演進。但其核心思想——讓 AI 從人類（或由 AI 代理的人類）的回饋中學習，始終不變。電腦視覺領域的這次成功「移植」，證明了這個思想的普適性。

當我們在建構任何 AI 系統時，無論是推薦系統、機器人控制還是醫療影像分析，都應該問自己一個問題：我用來訓練模型的指標，真的能完全代表使用者最終的成功標準嗎？如果答案是否定的，那麼類似於任務獎勵微調的對齊步驟，就不是一個可有可無的選項，而是一個確保系統真正可用、可靠的必經之路。這或許會帶來額外的「對齊稅」（alignment tax），也就是標注偏好數據和訓練獎勵模型的成本，但對於追求高品質、負責任的 AI 系統而言，這筆投資是必要且值得的。

延伸閱讀

我是江中喬，專注於 AI Agent Architecture、Memory Governance 與 Cognitive Diversity，持續研究如何打造能夠長期協作、可信任且可治理的 AI 系統。

為什麼視覺模型的「準」不等於「好用」？

從語言到視覺：如何將人類回饋導入模型微調？

對齊：不只是語言模型的專屬課題

延伸閱讀

Sign up for more like this.