不只是看圖說故事:Chameleon 如何用「早期融合」重塑多模態 AI
目前的多模態模型常將圖像與文字分開處理,再勉強結合,限制了它們對複雜資訊的深層理解。但真正的智慧,來自於從一開始就將不同模態的資訊放在同一個空間思考。Meta AI 最近發表的 Chameleon 模型,正是這種「早期融合」架構的典範,它不只理解,更能生成圖文交錯的內容,為我們處理複雜文件、實現更自然的人機互動,開創了前所未有的可能性。
當前主流的多模態大型語言模型,多半採用「晚期融合」(late fusion)架構,也就是讓圖像與文字各自通過獨立的編碼器處理,最後才在某個高階層次將特徵結合。這種作法雖然實用,卻也造成了根本性的限制——模型並未在同一個表徵空間中真正「思考」圖文關係。Meta AI 最近發表的 Chameleon 模型,則展示了「早期融合」(early fusion)的巨大潛力。它從一開始就將圖像與文字視為統一序列,讓模型在同一個底層架構中進行推理,這不僅是技術路線的演進,更可能徹底改變我們對多模態文件理解與生成的想像。
現行的多模態模型,問題出在哪裡?
要理解 Chameleon 的突破性,得先回顧目前多模態模型的普遍作法。以 OpenAI 的 CLIP 或許多視覺語言模型(VLM)的早期設計為例,它們通常包含一個視覺編碼器(如 ViT)和一個語言模型(如 GPT)。當模型接收到圖文輸入時,圖像會被視覺編碼器轉換成一組向量,文字則由語言模型處理。這兩組來自不同源頭的資訊,直到模型的較後段才會被「拼接」起來進行共同推理。
這種「晚期融合」或「獨立編碼器」的架構,就像是讓一位視覺專家和一位語言專家分別閱讀文件的不同部分,然後再開會討論。他們可以協作,但各自的理解從一開始就是割裂的。這會導致幾個問題:
- 資訊在轉換中流失: 圖像被壓縮成固定的特徵向量時,許多細微的空間關係與紋理細節可能就遺失了,語言模型無法存取到原始的像素級資訊。
- 推理不夠深入: 模型難以進行需要像素級對應的細緻推理,例如理解圖表中特定線條的走向,或辨識圖片中微小文字的意義。
- 生成能力受限: 由於圖文從源頭就是分離的,要讓模型「生成」一段圖文交錯的內容(例如一篇教學文章,內含步驟圖片與文字說明)變得非常困難。
這些限制使得現有模型在處理真實世界中複雜、非結構化的文件(如發票、研究報告、網頁)時,往往力不從心。它們能做到「看圖說故事」,卻難以真正「讀懂」一份圖文並茂的文件。
Chameleon 的早期融合:一個統一的表徵空間
Chameleon 採取了截然不同的路徑。它的核心設計理念是「模態的統一」,也就是從輸入端就將圖像和文字轉換成同質化的序列,再餵給單一的 Transformer 解碼器模型。這個過程的關鍵在於一個高效的圖像 tokenizer。
具體來說,Chameleon 的作法是:
- 文字 Token化: 將文字拆解成標準的 subword token。
- 圖像 Token化: 使用一個類似 VQGAN 的技術,將圖像也切分成一塊塊的 patch,並將每一塊 patch 轉換成離散的 token。
- 序列融合: 將文字 token 和圖像 token 依照它們在原始文件中的順序,直接組合成一個單一的長序列。
如此一來,無論是文字還是圖像,在模型眼中都只是序列中的一個個 token。整個 Transformer 架構可以在這個統一的序列上進行自註意力計算,讓任何一個文字 token 都能直接關聯到任何一個圖像 token,反之亦然。這種從底層就打通的設計,讓模型具備了前所未有的跨模態推理能力。Meta 訓練了 70 億(7B)與 340 億(34B)參數的 Chameleon 模型,證明此架構在不同規模下都具備擴展性。
真正的多模態,是讓模型在同一個思維空間中處理不同類型的資訊,而不是讓兩個專才專家開會協調。
為什麼這種統一模型在實務上更具優勢?
早期融合架構不僅在理論上優雅,更在實務上展現了超越晚期融合模型的強大能力,尤其是在生成任務上。由於 Chameleon 的解碼器本身就能同時處理與生成圖像及文字 token,它自然而然地具備了生成圖文交錯內容的能力。
在 Meta 進行的評估中,Chameleon 的表現非常亮眼。例如,在要求模型生成包含圖片和文字的混合內容時,人類評審有 54.7% 的比例認為 Chameleon 的生成結果優於強大的 GPT-4V。這顯示它不僅能理解圖文關係,更能以一種自然、連貫的方式「創作」多模態內容。這項能力對於自動生成報告、教學材料、甚至是有圖有文的對話式 AI 都至關重要。
此外,這種統一架構也簡化了系統設計。我們不再需要維護兩個獨立的龐大編碼器,再費心設計它們之間的對齊與融合機制。一個模型就能端到端地完成理解與生成,這對於系統部署與未來的功能擴展都是一大優勢。從 Google DeepMind 的 Flamingo 到 Chameleon,我們看到「早期融合」或類似的統一架構正逐漸成為前沿研究的趨勢。
總結來說,Chameleon 的探索證明了,要實現更深層次的多模態智慧,我們必須擺脫將不同模態視為獨立問題的思維定勢。透過在最底層建立一個共享的表徵空間,我們才能打造出真正能夠像人類一樣,在一個連貫的認知流中無縫閱讀、理解和創作複雜多模態資訊的 AI 系統。
延伸閱讀
- Chameleon: Mixed-Modal Early-Fusion Foundation Models (arXiv)
- GPT-4V(ision) System Card (arXiv)
- CLIP: Connecting Text and Images (OpenAI Blog)
我是江中喬,一位具有 TPM 與產品管理背景的 AI 系統建構者,目前專注於 AI 認知增強系統與多 Agent 協作架構的設計與實踐。