訂閱
糾錯
加入自媒體

多模態(tài)理解生成“大一統(tǒng)”!Meta&港大等重磅發(fā)布Tuna:統(tǒng)一視覺表征,性能碾壓Show-o2

2025-12-03 15:29
AI生成未來
關注

作者:Zhiheng Liu等

解讀:AI生成未來

亮點直擊

Tuna,一個采用統(tǒng)一視覺表示的原生統(tǒng)一多模態(tài)模型,在一個單一框架內(nèi)實現(xiàn)了圖像/視頻理解、圖像/視頻生成和圖像編輯。

廣泛的實驗表明,Tuna 的統(tǒng)一視覺表示非常有效,在多個多模態(tài)理解和生成任務中實現(xiàn)了SOTA性能。

全面的消融研究證明了本文的統(tǒng)一視覺表示設計優(yōu)于現(xiàn)有方法,如Show-o2和其他采用解耦表示的模型。圖1 展示了Tuna,這是一個基于統(tǒng)一視覺表示的原生統(tǒng)一多模態(tài)模型,支持多樣的多模態(tài)理解與生成能力,如圖像和視頻理解、圖像與視頻生成以及圖像編輯。圖1 展示了Tuna,這是一個基于統(tǒng)一視覺表示的原生統(tǒng)一多模態(tài)模型,支持多樣的多模態(tài)理解與生成能力,如圖像和視頻理解、圖像與視頻生成以及圖像編輯。

總結速覽

解決的問題

現(xiàn)有統(tǒng)一多模態(tài)模型(UMMs)的性能不足:當前的 UMMs 采用單一類型的視覺編碼器(如 VQ-VAE、MAR 編碼器)來處理理解和生成任務,這往往犧牲其中一個任務的性能,導致其表現(xiàn)不如解耦(decoupled)的模型。

視覺表示的統(tǒng)一與平衡挑戰(zhàn):如何將視覺輸入編碼成一種單一、統(tǒng)一、且能兼顧理解(側重語義)和生成(側重細節(jié))任務需求的視覺表示,是開發(fā)原生 UMMs 的核心挑戰(zhàn)。

提出的方案

提出模型:Tuna,一個采用統(tǒng)一視覺表示的原生統(tǒng)一多模態(tài)模型(native UMM)。

核心設計:通過直接連接一個 VAE 編碼器(負責細節(jié)/生成)和一個表示編碼器(Representation Encoder,負責語義/理解)。

目的:獲得足夠富有表現(xiàn)力的統(tǒng)一表示,以同時適用于各種多模態(tài)任務。

處理流程:將這些統(tǒng)一的視覺特征與文本 tokens 融合,然后由一個 LLM 解碼器進行處理,通過自回歸的下一詞元預測和流匹配(flow matching)來生成新的文本 tokens 和去噪圖像。

應用的技術

統(tǒng)一視覺表示:Tuna 的核心技術,通過將 VAE 編碼器(如 VAE)與表示編碼器(如 SigLIP)直接連接起來。

LLM 解碼器:用于處理融合后的文本和視覺特征。

自回歸下一詞元預測: 用于生成新的文本 tokens。

流匹配:用于生成去噪圖像(denoised images)。

三階段訓練:采用特定的三階段訓練流程來優(yōu)化模型性能。

達到的效果

功能統(tǒng)一性:Tuna 在單一框架內(nèi)實現(xiàn)了圖像和視頻的理解、圖像和視頻的生成以及圖像編輯等多種任務。

性能提升:在多模態(tài)理解和生成基準測試中達到了SOTA

理解基準:在 MMStar 上達到 61.2% 。

生成基準:在 GenEval上達到 0.90 。

方法:Tuna

本節(jié)介紹 Tuna,這是一種原生的統(tǒng)一多模態(tài)模型,在所有多模態(tài)理解和生成任務中采用統(tǒng)一的視覺表示。首先概述模型設計的關鍵動機,隨后詳細描述 Tuna 的架構和訓練流程。整體框架概覽如下圖 2 所示。

動機與設計原則

自回歸 vs. 擴散:文本生成和圖像/視頻生成既可以通過自回歸模型實現(xiàn),也可以通過擴散模型實現(xiàn)。在實踐中,領先的純理解模型通常采用自回歸模型進行文本生成。另一方面,最先進的圖像和視頻生成器則采用帶有流匹配(flow matching)的(隱空間)擴散模型。

連續(xù) vs. 離散視覺表示:觀察發(fā)現(xiàn),在連續(xù)(例如 KL 正則化)VAE 隱空間中運行的圖像和視頻生成模型,其表現(xiàn)優(yōu)于使用離散表示的模型,因為離散化會導致信息丟失并降低保真度。同樣,多模態(tài)理解模型通常依賴連續(xù)的語義特征(如 CLIP 特征),這表明連續(xù)視覺表示對于理解和生成任務本質上更為有效。

語義表示有益于視覺生成:最近的研究表明語義特征可以增強視覺生成。例如,REPA 證明了擴散 Transformer 受益于中間特征與預訓練表示編碼器(如 DINOv2)的對齊。與本工作同期的 RAE 研究使用凍結的表示編碼器將圖像編碼為隱空間表示,表明僅憑預訓練的語義特征就能有效地重建輸入圖像。

VAE 隱空間變量可以支持理解任務:本工作觀察到,最初為視覺重建設計的離散和連續(xù) VAE 隱空間變量也能支持語義理解任務。最近的方法如 UniTok 和 TokLIP 通過對比學習增強了 VQ-VAE 隱空間變量的語義理解能力。其他工作探索了基于連續(xù) VAE 隱空間變量的擴散模型用于語義理解和密集預測任務,包括語義分割、目標識別和圖像檢索。

基于這些觀察,Tuna 的設計具有以下關鍵特征:

Tuna 集成了用于文本生成的自回歸模型和用于圖像/視頻生成的流匹配模型。

Tuna 將其統(tǒng)一視覺表示建立在連續(xù)的 VAE 隱空間變量之上,因為這些隱空間變量有效地支持理解和生成任務。

為了進一步提升性能,Tuna 采用表示編碼器從 VAE 隱空間變量中提取更高級別的特征,從而提高理解和生成的質量。

模型架構

統(tǒng)一視覺表示如前面圖 2 所示,Tuna 使用一個 VAE 編碼器和一個表示編碼器來構建其統(tǒng)一視覺表示。給定輸入圖像或視頻 ,應用 Wan 2.2 中的 3D 因果 VAE 編碼器,該編碼器在空間上進行  下采樣,在時間上進行  下采樣,產(chǎn)生隱空間變量 。然后,生成一個噪聲隱空間變量 ,其中  是采樣的時間步,。

接著,使用 SigLIP 2 視覺編碼器 (Patch 大小為 16,預訓練分辨率為 512)從 VAE 隱空間變量中提取語義特征。由于 VAE 編碼器具有  下采樣,本工作將 SigLIP 2 原始的  Patch 嵌入層替換為隨機初始化的  Patch 嵌入層,形成修改后的編碼器 。這確保了  和  的 Token 序列長度一致。最后,應用一個兩層的 MLP 連接器來獲得統(tǒng)一視覺表示 。在訓練期間,對于視覺生成任務,在  之間隨機采樣 ;對于多模態(tài)理解任務,固定 ,使得  始終對應于干凈的隱空間變量。

對于視頻輸入,其中 ( 為批次大小, 為潛在幀數(shù), 分別為通道、高度和寬度),為了防止表示編碼器  處理過長的序列,本工作沒有將所有潛在幀展平為單個序列,而是通過將幀維度重塑(reshape)到批次維度中來應用基于窗口的注意力機制。使用 einops 符號,統(tǒng)一視覺表示  可以表示為:

其中  是視頻 Token 的隱藏維度。此操作有效地允許  獨立地在每個 4 幀窗口上操作,從而顯著提高了處理視頻 Token 時的效率。

LLM 解碼器和流匹配頭

在獲得統(tǒng)一視覺表示  后,在其前面添加一個表示采樣時間步  的時間步 Token,將此視覺 Token 序列與語言 Token 拼接,并將組合后的序列輸入到 LLM 解碼器(Qwen-2.5)中進行聯(lián)合多模態(tài)處理。遵循標準 UMM 實踐,如圖 3 所示,在 LLM 解碼器層內(nèi)對語言 Token 應用因果注意力掩碼(causal attention mask),對視覺 Token 應用雙向注意力掩碼(bidirectional attention mask)。

對于多模態(tài)理解任務,LLM 解碼器的輸出通過語言建模頭(language modeling head)以生成文本 Token 預測。對于視覺生成和圖像編輯,將完整的 Token 序列輸入到一個隨機初始化的流匹配頭(flow matching head)以預測流匹配的速度(velocity)。該頭共享 LLM 解碼器架構,并通過 AdaLN-Zero 添加時間步條件,遵循 Show-o2 和 DiT 的做法。對于生成和編輯任務,在拼接的文本-視覺序列上采用多模態(tài) 3D-RoPE,以處理交錯的指令和視覺內(nèi)容。

訓練流程

為了有效地訓練該統(tǒng)一模型,本工作采用三階段訓練策略,逐步使每個模型組件適應理解和生成任務。

第一階段:統(tǒng)一表示和流匹配頭預訓練

在第一個訓練階段,目標是調整語義表示編碼器以生成統(tǒng)一視覺表示,并為流匹配頭建立穩(wěn)健的初始化。為此,在凍結 LLM 解碼器的同時訓練表示編碼器和流匹配頭,使用兩個目標:圖像描述(image captioning)和文本到圖像生成。

圖像描述目標與強語義編碼器(如 SigLIP 2 和 Qwen2.5-VL 視覺編碼器)的預訓練目標一致。圖像描述已被證明可以提供與對比學習相當?shù)恼Z義豐富性,從而增強統(tǒng)一表示的視覺理解能力。同時,文本到圖像生成目標訓練流匹配頭從文本條件生成圖像,為后續(xù)的圖像編輯和文本到視頻生成任務奠定基礎。此外,該目標允許生成梯度反向傳播到表示編碼器,進一步使統(tǒng)一視覺表示與理解和生成任務對齊。

第二階段:全模型持續(xù)預訓練

在第二個訓練階段,解凍 LLM 解碼器,并使用與第一階段相同的圖像描述和文本到圖像生成目標對整個模型進行預訓練。在第二階段的后期訓練步驟中,進一步引入圖像指令跟隨(image instruction-following)、圖像編輯和視頻描述數(shù)據(jù)集,以擴展模型的能力。這一階段使 Tuna 能夠執(zhí)行更復雜的多模態(tài)推理和生成任務,彌合了基本視覺-文本對齊與更高級的指令驅動的多模態(tài)理解和生成之間的差距。

第三階段:監(jiān)督微調 (SFT)最后,在第三階段,使用圖像編輯、圖像/視頻指令跟隨和高質量圖像/視頻生成數(shù)據(jù)集的組合進行監(jiān)督微調(SFT),并使用降低的學習率進行訓練。這一階段進一步細化了 Tuna 的能力,提高了其在不同多模態(tài)理解和生成任務中的性能和泛化能力。

實驗

本部分對 Tuna 在各類多模態(tài)任務上的性能進行了全面評估。

實驗設置

Tuna 基于兩個不同規(guī)模的 LLM 構建:Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct。訓練過程分為三個階段,涉及從表示編碼器、投影層到全模型的優(yōu)化。使用了包括圖像描述、文本生成圖像、圖像編輯及視頻相關的數(shù)據(jù)集。

主要結果

圖像理解本工作在 MME、GQA、MMMU 等 9 個基準上評估了 Tuna。如下表 1所示,無論是 1.5B 還是 7B 版本,Tuna 幾乎在所有基準測試中都達到了最先進(SOTA)的結果。Tuna 不僅與純理解模型相比具有競爭力,而且優(yōu)于許多復合型 UMM 和更大規(guī)模的 UMM,證明了統(tǒng)一表示的有效性。

圖像生成在 GenEval、DPG-Bench 和 OneIG-Bench 三個基準上評估了 Tuna。結果如下表 2和下表 3所示。Tuna 始終優(yōu)于包括 Janus-Pro、BAGEL 和 Mogao 在內(nèi)的現(xiàn)有方法。特別是在 OneIG-Bench 中,Tuna 在文本渲染質量方面表現(xiàn)出顯著優(yōu)勢,這表明其在處理包含視覺文本信息的復雜指令時具有強大的語義理解能力。

圖像編輯使用 ImgEdit-Bench 和 GEdit-Bench 進行評估。如下表 4所示,Tuna 在 ImgEdit-Bench 上取得了 4.31 的總分,在所有 UMM 中排名最高,且與 FLUX.1 等純生成模型相當。在 GEdit-Bench 上,Tuna 在所有統(tǒng)一模型中得分最高。下圖 7 展示了定性結果,Tuna 能夠準確執(zhí)行風格遷移、環(huán)境更改和對象替換等操作。

視頻理解在 MVBench、Video-MME 等四個視頻基準上的評估結果如下表 5所示。Tuna 在 MVBench 和 Video-MME 上優(yōu)于 Show-o2,并在其他基準上表現(xiàn)出競爭力。即使是 1.5B 參數(shù)的模型,其性能也能與更大的純理解模型相媲美。

視頻生成在 VBench 上的評估結果如下表 6所示,Tuna 實現(xiàn)了 SOTA 性能,超越了所有現(xiàn)有的具備視頻生成能力的 UMM,同時僅使用了 1.5B 參數(shù)的 LLM 解碼器。定性結果如下圖 8所示,展示了 Tuna 生成高保真視頻的能力。

消融實驗:視覺表示設計

本工作通過一系列消融實驗(如下表7所示)驗證了架構和訓練策略的有效性:

統(tǒng)一表示 vs. 解耦表示:結果表明,Tuna 的統(tǒng)一表示在理解和生成任務上均優(yōu)于解耦設置(即理解和生成使用不同的編碼器)。解耦設計在理解任務上會導致性能顯著下降。

表示編碼器的選擇:更強的表示編碼器(如 SigLIP 2 vs. SigLIP)能帶來更好的性能。SigLIP 2 在保持較小模型尺寸的同時,提供了優(yōu)于 DINOv3 的生成質量。

理解-生成協(xié)同效應:聯(lián)合訓練使得 Tuna 在理解任務上超過了僅使用理解數(shù)據(jù)訓練的模型,在生成任務上也超過了僅使用生成數(shù)據(jù)訓練的模型。這證明了統(tǒng)一視覺表示設計實現(xiàn)了任務間的相互增強。

與 Show-o2 的比較:Tuna 的統(tǒng)一表示(直接從 VAE 隱空間變量提取特征)在所有基準上均優(yōu)于 Show-o2 采用的后期融合策略。

討論:統(tǒng)一表示分析

通過 CKNNA 分數(shù)分析(如下圖 5所示),本工作發(fā)現(xiàn) Show-o2 的特征嚴重偏向語義理解,而與生成模型的特征相關性較弱。相比之下,Tuna 的統(tǒng)一表示與 SD3-Medium(強生成模型)的中間特征具有更高的一致性,表明 Tuna 學習到了更平衡的、適用于理解和生成的統(tǒng)一表示。

定性結果

下圖 6展示了 Tuna 在圖像生成上的優(yōu)勢,特別是在組合性生成和文本渲染方面(例如正確拼寫單詞、按指示放置物體)。相比之下,其他模型經(jīng)常出現(xiàn)拼寫錯誤或物體遺漏。

結論

Tuna,一種原生的統(tǒng)一多模態(tài)模型,它通過級聯(lián) VAE 編碼器和表示編碼器構建了統(tǒng)一的視覺表示空間。本工作在此統(tǒng)一表示的基礎上訓練了一個 LLM 解碼器和一個流匹配頭,在圖像和視頻理解、圖像和視頻生成以及圖像編輯方面均取得了強大的性能。

Tuna不僅超越了之前的 UMM 基線模型,而且與領先的純理解和純生成模型相比也具有競爭力。消融研究進一步表明:(1) Tuna 的統(tǒng)一表示空間優(yōu)于 Show-o2 風格的統(tǒng)一表示和解耦表示設計;(2) 在該框架內(nèi),更強的預訓練表示編碼器始終能帶來更好的性能;(3) 這種統(tǒng)一視覺表示設計實現(xiàn)了理解和生成之間的相互增強。

參考文獻

[1] Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models

       原文標題 : 多模態(tài)理解生成“大一統(tǒng)”!Meta&港大等重磅發(fā)布Tuna:統(tǒng)一視覺表征,性能碾壓Show-o2

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號