通用多模態 AI 的最後一哩路:為何系統化的指令微調比無盡的預訓練更重要?
多模態 AI 若想走向通用,關鍵可能不在於更大規模的預訓練,而在於如何透過有系統的指令微調,將模型深不見底的原始能力,轉化為一個可互動、可轉移、能融入真實工作流的實用介面。這不只是技術的演進,更是產品思維的轉變。
要打造真正通用的多模態 AI 系統,關鍵的瓶頸或許已不在於更大規模的預訓練(pre-training)。我認為,更重要的是如何透過有系統的「指令微調」(instruction tuning),將模型龐大的潛在能力,轉化為一個可互動、可轉移、能融入真實工作流的實用介面。
近年來,我們看到像 GPT-4o 這樣能力驚人的模型,其神奇表現的背後,除了巨大的模型規模,更重要的是將這些潛力「整理」成可用形式的過程。早在 2023 年 5 月發表的 InstructBLIP 研究,就為這個觀點提供了堅實的技術證據:一個設計精良的微調策略,能讓相對較小的模型在特定任務上,表現得比單純靠規模堆疊起來的巨獸更好。
為什麼光靠預訓練還不夠?
過去幾年,建立強大視覺語言模型(Vision-Language Models, VLMs)的主流路徑,是先在海量的圖文資料上進行預訓練,讓模型學會通用的視覺與語意表徵。從 DeepMind 的 Flamingo 到 Google 的 PaLI,再到 Salesforce 的 BLIP-2,這條路徑確實打造出能力驚人的基礎模型。然而,這些模型就像一座蘊藏豐富礦藏卻未經開發的深山,潛力巨大,但一般人難以直接取用。
預訓練後的模型擁有了「知識」,卻缺乏「對話能力」與「任務泛化能力」。它們通常需要使用者設計複雜的提示詞(prompt engineering),或是針對特定下游任務進行額外的微調,才能有效執行任務。這形成了一道巨大的使用鴻溝——模型的能力被鎖在內部,無法輕易地被應用程式或終端使用者調用。換句話說,它們能「看懂」世界,卻不一定能「聽懂」我們的指令,並依此行動。
InstructBLIP 如何透過指令微調來「整理」模型能力?
InstructBLIP 的核心貢獻,就是提出了一套系統化的方法,來解決上述的「可用性」問題。它繼承了 BLIP-2 的高效架構,但在預訓練好的模型之上,進行了大規模、多樣化的指令微調。這個過程並非隨意地找些資料來訓練,而是經過精心設計的。
首先,研究團隊收集了 26 種公開的視覺語言資料集,涵蓋了各種不同的任務類型,並將它們全部轉換為統一的「指令格式」。這就像是為模型編寫了一本內容豐富的「任務手冊」,讓它學習如何根據不同指令執行對應操作。這些任務包括:
- 圖像描述生成 (Image Captioning): 「詳細描述這張圖片。」
- 視覺問答 (Visual Question Answering): 「圖中的貓在做什麼?」
- 基於圖像的對話 (Visual Conversational AI): 針對圖片進行多輪問答。
- 複雜視覺推理 (Visual Reasoning): 「根據圖片中的場景,推斷接下來可能會發生什麼?」
更關鍵的創新在於其「指令感知查詢轉換器」(Instruction-aware Query Transformer)。在過去的 BLIP-2 架構中,模型會從視覺編碼器中提取固定數量的特徵來代表圖片。但 InstructBLIP 的設計更為聰明:它會先讀取使用者的「指令」,再動態地決定應該從圖片中提取哪些最相關的視覺特徵。例如,當被問及「圖片左上角的物體是什麼顏色?」時,模型會集中注意力去分析圖片左上角的區域,而不是浪費算力在不相關的部分。這種機制讓模型的視覺理解更具針對性,也更有效率。
這種從「靜態特徵提取」到「動態指令感知」的轉變,是讓模型從一個被動的圖像處理器,轉變為主動的任務執行者的關鍵一步。
從「能看懂」到「能互動」:指令微調的實務價值
經過這番系統化的「調教」,InstructBLIP 在 13 個不同的保留評估資料集上,展現了驚人的零樣本(zero-shot)能力,大幅超越了前代模型 BLIP-2,甚至在某些任務上勝過了規模遠大於它的 Flamingo。這證明了模型的通用能力不只來自於預訓練階段學到的廣泛知識,更來自於指令微調階段學會的「如何應用知識」。
這個趨勢在後來的 LLaVA 等研究中也得到驗證,指令微調已成為打造通用多模態助理的標準配備。對我們這些系統建構者與產品經理而言,這意味著一個重要的思維轉變:與其無止盡地追求更大、更昂貴的基礎模型,不如將資源投入到更高品質、更多樣化的指令資料集,以及更精巧的微調策略上。
最終,一個 AI 系統的價值,取決於它能在多大程度上被整合進人類的工作流中。預訓練打造了強大的引擎,但系統化的指令微調才真正為這具引擎裝上了方向盤、油門與煞車——一個讓使用者能夠精準駕馭其能力的互動介面。這最後一哩路,或許才是決定通用 AI 能否真正落地的關鍵所在。
延伸閱讀
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。