訂閱
糾錯(cuò)
加入自媒體

圖像生成開源界又出“王炸”!南洋理工&階躍星辰發(fā)布iMontage:解鎖“多對多”生成新玩法!

作者:Zhoujie Fu等

解讀:AI生成未來

亮點(diǎn)直擊

iMontage統(tǒng)一模型,能夠處理可變數(shù)量的輸入/輸出幀,有效銜接了視頻生成與高動(dòng)態(tài)圖像生成領(lǐng)域。

構(gòu)建任務(wù)無關(guān)的時(shí)序多樣化數(shù)據(jù)pipeline,結(jié)合多任務(wù)訓(xùn)練范式,確保模型在異構(gòu)任務(wù)與時(shí)間結(jié)構(gòu)中的可學(xué)習(xí)性,實(shí)現(xiàn)強(qiáng)大的多對多泛化能力。

通過大量可變參數(shù)實(shí)驗(yàn)驗(yàn)證模型卓越性能,覆蓋主流圖像生成與編輯任務(wù)。海量可視化結(jié)果與綜合評估指標(biāo)顯示,本模型在開源社區(qū)達(dá)到SOTA水平,部分效果甚至可與商業(yè)模型媲美。

總結(jié)速覽

解決的問題

動(dòng)態(tài)范圍受限:預(yù)訓(xùn)練視頻模型因其連續(xù)性訓(xùn)練數(shù)據(jù),生成內(nèi)容的動(dòng)態(tài)多樣性和豐富性不足。

能力壁壘:視頻生成模型與圖像生成/編輯任務(wù)之間存在鴻溝,缺乏一個(gè)能統(tǒng)一處理多輸入-多輸出圖像任務(wù)的框架。

先驗(yàn)保持:在擴(kuò)展模型能力至圖像領(lǐng)域時(shí),如何不破壞其從視頻數(shù)據(jù)中學(xué)習(xí)到的寶貴時(shí)序先驗(yàn)(運(yùn)動(dòng)一致性)。

提出的方案

核心框架:提出iMontage,一個(gè)統(tǒng)一的、可處理可變長度圖像集合輸入與輸出的框架。

核心方法:將強(qiáng)大的預(yù)訓(xùn)練視頻模型重構(gòu)為全能圖像生成器

關(guān)鍵技術(shù)點(diǎn)

采用精巧且低侵入式的模型適配策略

設(shè)計(jì)了任務(wù)無關(guān)的時(shí)序多樣化數(shù)據(jù)pipeline。

配合多任務(wù)訓(xùn)練范式。

應(yīng)用的技術(shù)

預(yù)訓(xùn)練視頻模型:作為基礎(chǔ),提供強(qiáng)大的時(shí)序連貫性先驗(yàn)。

模型適配/微調(diào)技術(shù):以低侵入方式將視頻模型的能力遷移到圖像任務(wù)。

多任務(wù)學(xué)習(xí):在一個(gè)模型中統(tǒng)一學(xué)習(xí)多種圖像生成與編輯任務(wù)。

定制化數(shù)據(jù)構(gòu)建:創(chuàng)建適用于訓(xùn)練此統(tǒng)一模型的異構(gòu)、時(shí)序多樣化的數(shù)據(jù)集。

達(dá)到的效果

卓越性能:在多項(xiàng)主流多輸入-多輸出任務(wù)上表現(xiàn)卓越,實(shí)現(xiàn)了強(qiáng)大的跨圖像上下文一致性。

擴(kuò)展動(dòng)態(tài)范圍:生成的場景具有突破傳統(tǒng)界限的非凡動(dòng)態(tài)張力,內(nèi)容多樣性顯著提升。

強(qiáng)大泛化:通過多任務(wù)訓(xùn)練和多樣化數(shù)據(jù),模型具備了強(qiáng)大的多對多泛化能力

業(yè)界領(lǐng)先:在開源社區(qū)達(dá)到SOTA水平,部分效果可與商業(yè)模型媲美。

方法

模型設(shè)計(jì)

網(wǎng)絡(luò)架構(gòu)。 如下圖2所示,本文采用混合到單流的多模態(tài)擴(kuò)散Transformer,配合用于圖像的3D VAE與用于文本指令的語言模型。所有組件均初始化自HunyuanVideo:MMDiT與3D VAE取自I2V檢查點(diǎn),文本編碼器取自T2V檢查點(diǎn)。參考圖像經(jīng)3D VAE分別編碼后patch化為token;文本指令通過語言模型編碼為文本token。遵循I2V范式,本文將干凈的參考圖像token與含噪目標(biāo)token拼接后輸入圖像分支塊。通過在其圖像token上構(gòu)建可變長度注意力圖,并輔以提示工程引導(dǎo),本文訓(xùn)練模型以適應(yīng)可變數(shù)量的輸入/輸出幀。訓(xùn)練期間凍結(jié)VAE與文本編碼器,僅全參數(shù)微調(diào)MMDiT。

位置編碼。 關(guān)鍵目標(biāo)是在不干擾原始位置幾何的前提下使Transformer具備對多圖像的感知能力。本文采用簡潔有效的策略:將所有輸入/輸出圖像視為時(shí)間軸上的偽幀,為每幀分配唯一時(shí)間索引,同時(shí)保持其原生空間分辨率與2D位置編碼不變。具體而言,本文保留預(yù)訓(xùn)練的空間RoPE,并引入具有每幀索引偏移的可分離時(shí)間RoPE,在維持空間分布不變的前提下提供跨圖像排序線索。受L-RoPE啟發(fā),本文將輸入圖像分配至較早時(shí)間位置,輸出圖像分配至較晚位置。實(shí)踐中,本文分配具有32個(gè)時(shí)間索引的3D RoPE,保留用于輸入,用于輸出,在二者間留出寬時(shí)間間隔。此首尾布局減少了輸入與目標(biāo)間的位置干擾,經(jīng)驗(yàn)證可在保持時(shí)序連貫性的同時(shí)促進(jìn)更多樣化的輸出內(nèi)容。

提示工程。 本文采用由強(qiáng)大LLM編碼器驅(qū)動(dòng)的純文本指令接口,無需掩碼或輔助視覺嵌入。為統(tǒng)一異構(gòu)任務(wù),本文將一組通用提示詞與任務(wù)特定模板配對。對于通用提示詞,本文(i)前置系統(tǒng)級引導(dǎo)語:"請根據(jù)指令輸出張圖像:";(ii)采用交錯(cuò)多模態(tài)格式,通過文本占位符在提示詞中顯式標(biāo)記圖像位置。

數(shù)據(jù)集構(gòu)建

本文將數(shù)據(jù)構(gòu)建分為兩個(gè)階段:預(yù)訓(xùn)練數(shù)據(jù)集與監(jiān)督微調(diào)數(shù)據(jù)集。數(shù)據(jù)集構(gòu)建概覽參見下圖3。

預(yù)訓(xùn)練數(shù)據(jù)集

本文將預(yù)訓(xùn)練數(shù)據(jù)劃分為兩個(gè)池:圖像編輯池與視頻幀對池,均源自內(nèi)部語料庫。圖像編輯池覆蓋多數(shù)單圖像編輯任務(wù),提供配對的(輸入,編輯后)圖像及指定操作的簡明細(xì)粒度指令。視頻幀對池包含從視頻中提取的高質(zhì)量幀對(附帶關(guān)聯(lián)字幕),經(jīng)嚴(yán)格質(zhì)量篩選后收錄。本文通過以下過濾標(biāo)準(zhǔn)進(jìn)一步優(yōu)化視頻幀對:

對于來自同一片段的幀對,本文采用光流估計(jì)器進(jìn)行運(yùn)動(dòng)過濾:對每個(gè)樣本計(jì)算平均運(yùn)動(dòng)幅度,優(yōu)先保留或加權(quán)高運(yùn)動(dòng)實(shí)例以提升其占比。為增強(qiáng)動(dòng)態(tài)多樣性,本文將同一源視頻的片段拼接后重新裁剪(不依賴運(yùn)動(dòng)或攝像機(jī)變化啟發(fā)式規(guī)則),從而生成跨過渡幀對并緩解準(zhǔn)靜態(tài)內(nèi)容偏好。

過濾后數(shù)據(jù)集包含500萬圖像編輯對與1500萬視頻幀對,為高動(dòng)態(tài)內(nèi)容生成與魯棒指令遵循提供監(jiān)督信號。

多任務(wù)數(shù)據(jù)集

本文的多任務(wù)數(shù)據(jù)集基于任務(wù)構(gòu)建,涵蓋一對一至多對多任務(wù)。各任務(wù)的數(shù)據(jù)構(gòu)建流程如下:

多條件參考。 本文爬取網(wǎng)絡(luò)帖子收集人物、物體及場景的參考圖像。通過檢測器將人物圖像過濾為單人鏡頭;物體/場景圖像無需額外過濾。VLM通過隨機(jī)組合源數(shù)據(jù)生成條件參考提示詞,GPT-4o生成對應(yīng)圖像,再由VLM評分篩選候選樣本。該流程產(chǎn)出約9萬高質(zhì)量樣本。

條件化參考。 與條件參考數(shù)據(jù)集不同,本文從開源數(shù)據(jù)集Echo-4o收集數(shù)據(jù)。本文對目標(biāo)圖像應(yīng)用經(jīng)典ControlNet生成控制圖:使用OpenPose[5]生成組合圖像的人物姿態(tài),通過DepthAnything-V2生成目標(biāo)圖像深度圖,并采用Lineart模型作為邊緣檢測器。本文將這些條件對添加至Echo-4o,創(chuàng)建約5萬樣本的新條件參考數(shù)據(jù)集。

風(fēng)格參考。 本文參照條件參考方法構(gòu)建風(fēng)格參考數(shù)據(jù):爬取人物帖子并通過VLM美學(xué)評分[1]篩選人物圖像作為內(nèi)容參考,從開源資源收集手繪插畫作為風(fēng)格參考。使用主體-風(fēng)格模型隨機(jī)配對內(nèi)容與風(fēng)格生成圖像,再由VLM對輸出評分并檢查與內(nèi)容圖像的身份一致性以防止風(fēng)格泄露。此流程產(chǎn)出3.5萬樣本。

多輪編輯。 本任務(wù)要求根據(jù)指令同時(shí)生成多個(gè)響應(yīng),其中子步驟指令覆蓋預(yù)訓(xùn)練圖像編輯數(shù)據(jù)集中的所有編輯任務(wù)。本文從內(nèi)部數(shù)據(jù)集提取數(shù)據(jù),收集約10萬樣本。

多視圖生成。 本文從開源3D語料庫MVImageNet V2構(gòu)建多視圖數(shù)據(jù)集。對每個(gè)基礎(chǔ)樣本,隨機(jī)選擇1-4個(gè)附加視角,按連續(xù)順序使用GPT-4o描述相鄰圖像間的相對相機(jī)運(yùn)動(dòng),為多視圖生成提供簡潔監(jiān)督。本文收集約9萬樣本。

故事板生成。 故事板生成與敘事生成設(shè)定密切相關(guān),但更強(qiáng)調(diào)畫格間的高多樣性,例如劇烈的場景變化和跨圖像的角色動(dòng)作差異。借助近期商業(yè)基礎(chǔ)模型Seedream4.0,本文通過其輸出蒸餾高質(zhì)量監(jiān)督信號以構(gòu)建指令-圖像序列用于訓(xùn)練。本文從內(nèi)部角色圖像數(shù)據(jù)集出發(fā),應(yīng)用人臉檢測過濾器與NSFW過濾器獲取全臉角色參考圖像。隨后設(shè)計(jì)指令模板引導(dǎo)Seedream4o生成語義豐富、動(dòng)態(tài)變化的場景與多畫格故事。生成圖像通過GPT-4o標(biāo)注描述,產(chǎn)生簡潔的故事板(指令,圖像)對作為監(jiān)督信號。本文收集約2.9萬樣本。

訓(xùn)練方案

本文采用三階段訓(xùn)練策略,動(dòng)態(tài)混合使用前述構(gòu)建的數(shù)據(jù)集:包括大規(guī)模預(yù)訓(xùn)練階段、監(jiān)督微調(diào)階段與高質(zhì)量退火階段:

預(yù)訓(xùn)練階段。 本階段使用預(yù)訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,以灌輸指令遵循能力并使模型適應(yīng)高動(dòng)態(tài)內(nèi)容。由于本文從預(yù)訓(xùn)練骨干網(wǎng)絡(luò)初始化,因此摒棄漸進(jìn)分辨率調(diào)度[7,16,18];轉(zhuǎn)而采用寬高比感知的分辨率分桶策略:對每個(gè)樣本,從37種標(biāo)準(zhǔn)分辨率集合中選擇最佳匹配尺寸并相應(yīng)調(diào)整。本階段批次大小根據(jù)序列長度動(dòng)態(tài)調(diào)整,均衡不同分辨率間的token預(yù)算,從而實(shí)現(xiàn)更平滑穩(wěn)定的優(yōu)化。

監(jiān)督微調(diào)階段。 本文在此階段探索統(tǒng)一具有巨大方差的多任務(wù)的最佳方案。本文的策略可總結(jié)如下: • 混合訓(xùn)練: 全任務(wù)聯(lián)合訓(xùn)練。在單一混合池中共同訓(xùn)練所有任務(wù)。 • 分階段訓(xùn)練:課程學(xué)習(xí)。 兩階段計(jì)劃:先訓(xùn)練三個(gè)多對一任務(wù),隨后加入三個(gè)多輸出任務(wù)繼續(xù)混合訓(xùn)練。 • 雞尾酒式混合訓(xùn)練: 按難度排序的微調(diào)。本文觀察到各任務(wù)存在顯著訓(xùn)練難度差異,促使本文按難度進(jìn)行混合訓(xùn)練。實(shí)踐中從最簡單任務(wù)開始,隨后引入次簡單任務(wù)同時(shí)降低首任務(wù)采樣權(quán)重,持續(xù)每次添加一個(gè)更難任務(wù)并逐步調(diào)整混合權(quán)重,直至最難任務(wù)被納入并獲得最大訓(xùn)練份額。

最終本文選擇雞尾酒式混合訓(xùn)練策略,相關(guān)討論詳見消融研究。所有混合訓(xùn)練中,本文根據(jù)各任務(wù)數(shù)據(jù)量施加權(quán)重,確保所有任務(wù)被平等對待。本階段允許輸入圖像采用不同分辨率,同時(shí)為便利性固定輸出分辨率。因輸入圖像分辨率可變,本文在整個(gè)監(jiān)督微調(diào)階段設(shè)置單GPU批次大小為1。

高質(zhì)量階段。 在圖像與視頻生成中,普遍觀察到使用小批量高質(zhì)量數(shù)據(jù)結(jié)束訓(xùn)練可提升最終保真度[39,64,71]。本文采用該策略:通過人工審核與VLM輔助相結(jié)合,為每個(gè)任務(wù)篩選高質(zhì)量子集,隨后在監(jiān)督微調(diào)后進(jìn)行跨所有任務(wù)的簡短統(tǒng)一微調(diào)。此階段本文將學(xué)習(xí)率退火至零。

所有實(shí)驗(yàn)均在64張NVIDIA H800 GPU上開展。各訓(xùn)練階段均采用恒定學(xué)習(xí)率,訓(xùn)練目標(biāo)遵循流匹配。

實(shí)驗(yàn)

作為統(tǒng)一模型,iMontage在各類任務(wù)中均展現(xiàn)強(qiáng)勁性能,即使與固定輸入/輸出模型相比亦不遜色。需注意本文的模型僅需一次推理,默認(rèn)使用50擴(kuò)散步數(shù)。為清晰起見,本文按輸入-輸出基數(shù)組織結(jié)果:分為一對一編輯、多對一生成與多對多生成。

一對一編輯

本文在基于指令的圖像編輯任務(wù)中報(bào)告具有競爭力的量化指標(biāo)與引人注目的定性結(jié)果。本文對比了十二個(gè)強(qiáng)基線模型,包括原生圖像編輯模型、統(tǒng)一多模態(tài)大語言模型及強(qiáng)大閉源產(chǎn)品。在GEdit基準(zhǔn)與ImgEdit基準(zhǔn)上的平均指標(biāo)見表1。除閉源模型與商業(yè)模型外,iMontage在兩個(gè)基準(zhǔn)上均超越其他模型展現(xiàn)強(qiáng)勁性能。

本文同時(shí)在下表1中報(bào)告運(yùn)動(dòng)相關(guān)子任務(wù)的指標(biāo)。本文方法展現(xiàn)出卓越的運(yùn)動(dòng)感知編輯能力,具有強(qiáng)時(shí)序一致性與運(yùn)動(dòng)先驗(yàn)。這些增益符合預(yù)期:本文從大型預(yù)訓(xùn)練視頻骨干網(wǎng)絡(luò)繼承強(qiáng)大的世界動(dòng)態(tài)知識,并通過高動(dòng)態(tài)視頻-幀語料庫的預(yù)訓(xùn)練予以強(qiáng)化。一對一圖像編輯可視化結(jié)果見下圖6與下圖7。

多對一生成

多輸入的核心挑戰(zhàn)在于如何保留全部內(nèi)容并實(shí)現(xiàn)和諧融合。在OmniContext基準(zhǔn)上報(bào)告結(jié)果,該基準(zhǔn)旨在全面評估模型上下文生成能力。本文對比七個(gè)基線模型的指標(biāo),詳細(xì)指標(biāo)見下表2。本文在補(bǔ)充材料中可視化代表性結(jié)果,表明iMontage在保持源圖像上下文的同時(shí)處理多樣化任務(wù)。本文選取挑戰(zhàn)性案例以強(qiáng)調(diào)控制力與保真度:在多條件參考任務(wù)中,模型融合多參考線索而不改變核心內(nèi)容,同時(shí)通過生成高細(xì)節(jié)背景忠實(shí)遵循復(fù)雜指令;在條件化參考任務(wù)中,模型尊重條件信號且保留人物細(xì)節(jié)(這對生成模型通常較難);在風(fēng)格參考任務(wù)中,本文包含場景中心與人物/物體中心輸入以展示保持風(fēng)格與身份的強(qiáng)風(fēng)格遷移能力。

多對多生成

在保持一致性的同時(shí)生成多輸出極具挑戰(zhàn)性。本文通過要求跨輸出內(nèi)容一致性與時(shí)序一致性進(jìn)一步提高標(biāo)準(zhǔn)。為評估能力,本文考慮三個(gè)不同任務(wù):

多視圖生成。 本文模擬攝像機(jī)旋轉(zhuǎn),使用攝像機(jī)運(yùn)動(dòng)的自然語言描述從單參考圖像渲染新視角。此時(shí)序連續(xù)設(shè)定用于探查模型在視角變化時(shí)是否保持身份、幾何、材質(zhì)及背景上下文。本文報(bào)告跨視圖的身份/結(jié)構(gòu)一致性,并可視化長旋轉(zhuǎn)弧以強(qiáng)調(diào)連續(xù)性。所有可視化結(jié)果見下圖10。

多輪編輯。 多數(shù)圖像編輯器通過順序運(yùn)行推理支持多輪流程,但常出現(xiàn)漂移問題(覆蓋非目標(biāo)內(nèi)容)。本文將多輪編輯視為內(nèi)容保持任務(wù):給定初始圖像與編輯指令序列,模型應(yīng)定位變化同時(shí)維持其他部分。所有可視化結(jié)果見上圖7。

故事板生成。 這是本文最全面的設(shè)定:時(shí)序方面,模型需生成平滑連續(xù)的軌跡,同時(shí)處理高動(dòng)態(tài)轉(zhuǎn)換(如硬切、大幅攝像機(jī)或主體運(yùn)動(dòng)及場景變化);空間方面,需通過保持所有輸出間的身份、布局與細(xì)粒度外觀來維持內(nèi)容一致性。

如補(bǔ)充材料中可視化結(jié)果所示,iMontage在單次前向傳播中為所有三種設(shè)定生成連貫且高度多樣化的結(jié)果。據(jù)本文所知,這是首個(gè)在單一模型與單次推理中統(tǒng)一這些任務(wù)的模型。

為更好量化多輸出能力,本文在故事板設(shè)定下進(jìn)行量化研究,對比本文的方法與兩個(gè)統(tǒng)一系統(tǒng)(OmniGen2和UNO)及一個(gè)敘事聚焦基線StoryDiffusion。本文聚焦兩個(gè)維度:身份保持與時(shí)序一致性。前者度量每個(gè)生成角色與參考身份的匹配度(特別是角色全身細(xì)節(jié),如衣物、膚色、發(fā)型),后者捕捉生成圖像間的跨畫格連貫性。評估中,被測的OmniGen2與UNO模型經(jīng)UMO[11]優(yōu)化以改進(jìn)身份保持等質(zhì)量指標(biāo)。指標(biāo)方面,本文采用DINO與CLIP特征相似度及VLM評分系統(tǒng)。對比評分見下表3,可視化對比見下圖4。

此外,為更全面評估,本文開展含50位專業(yè)參與者的用戶研究。對比指標(biāo)見下表4。本文的方法在指令遵循與身份保持上均獲最佳性能,顯著超越基線。

消融研究

RoPE策略。 本文首先消融RoPE策略設(shè)計(jì):默認(rèn)邊際RoPE將輸入分配至?xí)r間索引范圍首部、輸出分配至尾部,其間留有空隙;對照策略均勻RoPE將所有圖像均勻分布在時(shí)間軸。本文在預(yù)訓(xùn)練數(shù)據(jù)集子集(僅少量數(shù)據(jù))上使用相同設(shè)置進(jìn)行消融研究。觀察到均勻RoPE在相同訓(xùn)練步數(shù)下收斂較晚。下圖5展示了RoPE消融研究的可視化結(jié)果。

訓(xùn)練方案。 如前文所述,本文消融三種監(jiān)督微調(diào)策略:混合訓(xùn)練中訓(xùn)練損失劇烈振蕩且不穩(wěn)定,經(jīng)若干更新后模型即使采用逆尺寸重加權(quán)仍會(huì)漂移至更簡單任務(wù);本文同步開展分階段訓(xùn)練與雞尾酒式混合訓(xùn)練實(shí)驗(yàn),前者按任務(wù)類型分組訓(xùn)練,后者按任務(wù)難度組織計(jì)劃。雞尾酒式混合訓(xùn)練在所有任務(wù)上均取得強(qiáng)勁結(jié)果,并在困難設(shè)定上展現(xiàn)明顯優(yōu)勢,顯著超越分階段訓(xùn)練。本文在多條件參考任務(wù)上開展等訓(xùn)練步數(shù)的對比實(shí)驗(yàn),結(jié)果顯示雞尾酒式混合訓(xùn)練在OmniContext上獲得12.6%提升。

結(jié)論

iMontage——一個(gè)統(tǒng)一的多對多圖像生成模型,能在保持時(shí)序與內(nèi)容一致性的同時(shí)創(chuàng)造高動(dòng)態(tài)內(nèi)容。充分實(shí)驗(yàn)證明了iMontage在圖像生成上的卓越能力。

iMontage仍存在局限:首先受數(shù)據(jù)與算力限制,本文未探索長上下文多對多設(shè)定,模型當(dāng)前在最多四輸入四輸出時(shí)呈現(xiàn)最佳質(zhì)量;其次部分能力仍受限。在后文中提供詳細(xì)分類與失敗案例,并納入更多同期工作討論。下一步,本文將擴(kuò)展長上下文監(jiān)督、提升數(shù)據(jù)質(zhì)量及拓寬任務(wù)覆蓋范圍作為未來工作的主要方向。

參考文獻(xiàn)

[1] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

       原文標(biāo)題 : 圖像生成開源界又出“王炸”!南洋理工&階躍星辰發(fā)布iMontage:解鎖“多對多”生成新玩法!

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號