mk-brain

通用多模態 AI 的最後一哩路：為何系統化的指令微調比無盡的預訓練更重要？

多模態 AI 若想走向通用，關鍵可能不在於更大規模的預訓練，而在於如何透過有系統的指令微調，將模型深不見底的原始能力，轉化為一個可互動、可轉移、能融入真實工作流的實用介面。這不只是技術的演進，更是產品思維的轉變。

江中喬

18 5月 2026 • 5 min read

要打造真正通用的多模態 AI 系統，關鍵的瓶頸或許已不在於更大規模的預訓練（pre-training）。我認為，更重要的是如何透過有系統的「指令微調」（instruction tuning），將模型龐大的潛在能力，轉化為一個可互動、可轉移、能融入真實工作流的實用介面。

近年來，我們看到像 GPT-4o 這樣能力驚人的模型，其神奇表現的背後，除了巨大的模型規模，更重要的是將這些潛力「整理」成可用形式的過程。早在 2023 年 5 月發表的 InstructBLIP 研究，就為這個觀點提供了堅實的技術證據：一個設計精良的微調策略，能讓相對較小的模型在特定任務上，表現得比單純靠規模堆疊起來的巨獸更好。

為什麼光靠預訓練還不夠？

過去幾年，建立強大視覺語言模型（Vision-Language Models, VLMs）的主流路徑，是先在海量的圖文資料上進行預訓練，讓模型學會通用的視覺與語意表徵。從 DeepMind 的 Flamingo 到 Google 的 PaLI，再到 Salesforce 的 BLIP-2，這條路徑確實打造出能力驚人的基礎模型。然而，這些模型就像一座蘊藏豐富礦藏卻未經開發的深山，潛力巨大，但一般人難以直接取用。

預訓練後的模型擁有了「知識」，卻缺乏「對話能力」與「任務泛化能力」。它們通常需要使用者設計複雜的提示詞（prompt engineering），或是針對特定下游任務進行額外的微調，才能有效執行任務。這形成了一道巨大的使用鴻溝——模型的能力被鎖在內部，無法輕易地被應用程式或終端使用者調用。換句話說，它們能「看懂」世界，卻不一定能「聽懂」我們的指令，並依此行動。

InstructBLIP 如何透過指令微調來「整理」模型能力？

InstructBLIP 的核心貢獻，就是提出了一套系統化的方法，來解決上述的「可用性」問題。它繼承了 BLIP-2 的高效架構，但在預訓練好的模型之上，進行了大規模、多樣化的指令微調。這個過程並非隨意地找些資料來訓練，而是經過精心設計的。

首先，研究團隊收集了 26 種公開的視覺語言資料集，涵蓋了各種不同的任務類型，並將它們全部轉換為統一的「指令格式」。這就像是為模型編寫了一本內容豐富的「任務手冊」，讓它學習如何根據不同指令執行對應操作。這些任務包括：

圖像描述生成 (Image Captioning): 「詳細描述這張圖片。」
視覺問答 (Visual Question Answering): 「圖中的貓在做什麼？」
基於圖像的對話 (Visual Conversational AI): 針對圖片進行多輪問答。
複雜視覺推理 (Visual Reasoning): 「根據圖片中的場景，推斷接下來可能會發生什麼？」

更關鍵的創新在於其「指令感知查詢轉換器」（Instruction-aware Query Transformer）。在過去的 BLIP-2 架構中，模型會從視覺編碼器中提取固定數量的特徵來代表圖片。但 InstructBLIP 的設計更為聰明：它會先讀取使用者的「指令」，再動態地決定應該從圖片中提取哪些最相關的視覺特徵。例如，當被問及「圖片左上角的物體是什麼顏色？」時，模型會集中注意力去分析圖片左上角的區域，而不是浪費算力在不相關的部分。這種機制讓模型的視覺理解更具針對性，也更有效率。

這種從「靜態特徵提取」到「動態指令感知」的轉變，是讓模型從一個被動的圖像處理器，轉變為主動的任務執行者的關鍵一步。

從「能看懂」到「能互動」：指令微調的實務價值

經過這番系統化的「調教」，InstructBLIP 在 13 個不同的保留評估資料集上，展現了驚人的零樣本（zero-shot）能力，大幅超越了前代模型 BLIP-2，甚至在某些任務上勝過了規模遠大於它的 Flamingo。這證明了模型的通用能力不只來自於預訓練階段學到的廣泛知識，更來自於指令微調階段學會的「如何應用知識」。

這個趨勢在後來的 LLaVA 等研究中也得到驗證，指令微調已成為打造通用多模態助理的標準配備。對我們這些系統建構者與產品經理而言，這意味著一個重要的思維轉變：與其無止盡地追求更大、更昂貴的基礎模型，不如將資源投入到更高品質、更多樣化的指令資料集，以及更精巧的微調策略上。

最終，一個 AI 系統的價值，取決於它能在多大程度上被整合進人類的工作流中。預訓練打造了強大的引擎，但系統化的指令微調才真正為這具引擎裝上了方向盤、油門與煞車——一個讓使用者能夠精準駕馭其能力的互動介面。這最後一哩路，或許才是決定通用 AI 能否真正落地的關鍵所在。

通用多模態 AI 的最後一哩路：為何系統化的指令微調比無盡的預訓練更重要？

江中喬

為什麼光靠預訓練還不夠？

InstructBLIP 如何透過指令微調來「整理」模型能力？

從「能看懂」到「能互動」：指令微調的實務價值

延伸閱讀

Sign up for more like this.