不只是畫得更好:Instruct-Imagen 如何透過「任務標準化」,為通用 AI 平台鋪路?
過去,圖像生成模型是各司其職的專家。現在,Instruct-Imagen 展示了如何用一個統一的多模態指令介面,處理從生成、編輯到風格轉換等異質任務。這不僅是技術的躍進,更是通用模型「平台化」的關鍵一步,預示了未來 AI 系統的樣貌。
近期的圖像生成模型,在品質與真實感上屢屢突破,但我們真正應該關注的,或許是另一個更底層的結構性轉變。Google 在 2024 年初發表的 Instruct-Imagen 研究,揭示了這個方向的關鍵:多模態模型最重要的突破,不只是生成品質的提升,而是能否將各式各樣異質(heterogeneous)的視覺任務,統一到同一個指令介面(instruction interface)下。過去,我們需要為「文字生成圖像」、「圖像編輯」、「風格轉換」等不同任務,使用不同的模型或 API。現在,一個統一的框架,讓我們能用一致的、結合文字與圖像的指令來驅動所有任務。這不僅是工程效率的躍進,更是一條通往「通用模型平台化」的清晰路徑,為未來更複雜的 AI Agent 與工作流打下基礎。
過去的圖像生成模型,面臨了什麼樣的「碎片化」困境?
在 Instruct-Imagen 這類模型出現之前,建立一個多功能的視覺 AI 應用,是件相當痛苦的事。開發者與產品團隊面對的是一個高度「碎片化」的生態系。想像一下,如果你需要一個完整的圖像處理工作流,你可能需要串接好幾個獨立的模型。例如,要實現文字生成圖像 (Text-to-Image),你可能會用到 Stable Diffusion 或 Midjourney 等模型的 API;而圖像修補 (Inpainting/Outpainting) 則需要另一個專門處理遮罩(mask)與填補的模型。如果你想進行物件替換 (Object Replacement),這又是一種不同的模型,需要精準的分割與融合能力;至於風格轉換 (Style Transfer),則需要傳入風格參考圖,其 API 介面與前述模型更是完全不同。
每一個模型都有自己獨特的 API、輸入格式(純文字、文字加遮罩、文字加參考圖)與行為模式。要將它們整合在一個流暢的產品體驗中,需要大量的「黏合程式碼」(glue code)與客製化工程。這種碎片化不僅提高了開發成本,也限制了應用的彈性與擴展性。我們只是在拼湊一堆「專家工具」,而不是在操作一個具備通用視覺理解與生成能力的「平台」。
Instruct-Imagen 如何用一個統一框架解決異質任務?
Instruct-Imagen 的核心貢獻,就是提出了一個優雅的解決方案來終結這種混亂。它並非從零打造一個新模型,而是在 Google 強大的 Imagen 擴散模型基礎上,透過一個兩階段的微調框架,教會模型理解「多模態指令」。
這個框架的關鍵,在於將所有視覺任務都重新表述(rephrase)為一種標準化的「指令」格式。這個指令可以包含文字、參考圖像、遮罩等多種模態的輸入。舉例來說,如果是單純生成,指令會是「生成一張貓在沙發上睡覺的相片」。若要進行風格轉換,指令則會是「將這張狗的相片 [輸入圖像1] 轉換成梵谷的風格 [輸入圖像2]」。而對於物件編輯,指令則可能寫成「將這張圖中 [輸入圖像1] 被標示出來的區域 [輸入遮罩] 從蘋果改成橘子」。
透過在一個包含 1200 萬筆圖文範例的龐大資料集上進行微調,模型學會了將這些異質的指令,對應到一致的生成行為。它不再是多個專家模型的集合,而是一個真正意義上的「單一通用模型」。它能夠僅憑指令的差異,就在生成、編輯、轉換等多種任務間無縫切換,甚至在未經專門訓練的任務組合上,也展現出驚人的泛化能力。這種作法,與語言模型領域透過指令微調(instruction tuning)來統一 NLP 任務的 FLAN 等研究,有著異曲同工之妙。
為什麼「任務標準化」比單純提升生成品質更重要?
追求更高的解析度(例如 1024x1024 或更高)、更逼真的細節固然重要,但我認為,任務介面的標準化與抽象化,才是真正改變遊戲規則的關鍵。這代表著我們正在從「模型即工具」的時代,邁向「模型即平台」的時代。
這個轉變的意義深遠。首先,它降低了開發門檻:開發者不再需要為不同任務學習與整合不同的 API,而只需要學習一種與模型互動的「語言」——多模態指令。這大幅簡化了應用層的開發,讓團隊能更專注於業務邏輯與使用者體驗。其次,它提升了系統的彈性與組合性:當所有功能都來自一個標準化介面時,任務之間的串連與組合變得極其容易。我們可以輕易地設計出「先生成一張草圖,再指定特定區域進行細化,最後套用特定藝術風格」的複雜工作流,而無需在多個模型之間進行繁瑣的資料轉換。最後,這更是為 AI Agent 鋪路:對於需要與視覺世界互動的 AI Agent 而言,一個統一的視覺處理介面是不可或缺的。Agent 不需要內建一個複雜的判斷樹來決定「這個需求該呼叫哪個視覺 API」,它可以直接生成一個標準化的多模態指令,交給像 Gato 或 Unified-IO 這樣的底層模型去執行。這讓 Agent 的認知架構可以更簡潔、更強大。
這種將複雜任務抽象化為統一介面的思想,與 DeepMind 提出的 Gato 或 Unified-IO 等通用 Agent 研究一脈相承,其目標都是找到一種能涵蓋多種任務與模態的通用「語言」。
從單一模型到通用平台,下一步是什麼?
Instruct-Imagen 的成功,預示了未來 AI 系統的發展方向。當底層模型的能力透過標準化介面被「平台化」之後,創新的重心將會轉移到平台之上的應用層與協作層。
我們可以預見,未來的 AI 應用將會更像是在一個操作系統上,透過標準化的 API(也就是指令)來調度各種核心能力(視覺、語言、程式碼生成等)。這將催生出更複雜、更智慧的自主 Agent 系統,它們能夠理解高層次的目標,並自主地將其拆解成一系列標準化的指令,交給底層的通用模型去執行。
對產品與工程團隊而言,這意味著我們需要開始思考,如何圍繞這些「平台化」的通用模型來設計我們的系統架構與產品體驗。我們關注的重點,將從「如何找到最好的單點模型」,轉變為「如何設計最有效的指令與工作流,來釋放通用平台的潛力」。這不僅是一場技術典範的轉移,更是一次思維模式的全面升級。
延伸閱讀
- Hu, Hexiang, et al. "Instruct-Imagen: Image Generation with Multi-modal Instruction." arXiv:2401.01952 (2024).
- Saharia, Chitwan, et al. "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding." arXiv:2205.11487 (2022).
- Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." arXiv:2112.10752 (2021).
- Wei, Jason, et al. "Finetuned Language Models Are Zero-Shot Learners." arXiv:2109.01652 (2021).
- Reed, Scott, et al. "A Generalist Agent." DeepMind Blog (2022).
- Lu, Chenfei, et al. "Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks." arXiv:2206.07699 (2022).
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。