訂閱
糾錯
加入自媒體

角色動畫最新SOTA!港大&螞蟻等CoDance:解綁-重綁實現(xiàn)任意數(shù)量、位置角色同屏起舞

作者:Shuai Tan等

解讀:AI生成未來


圖1。由CoDance生成的多主體動畫。給定一個(可能錯位的)驅(qū)動姿勢序列和一張多主體參考圖像,CoDance生成協(xié)調(diào)且可姿勢控制的群舞,無需每個主體的空間對齊。圖1。由CoDance生成的多主體動畫。給定一個(可能錯位的)驅(qū)動姿勢序列和一張多主體參考圖像,CoDance生成協(xié)調(diào)且可姿勢控制的群舞,無需每個主體的空間對齊。

亮點直擊

首創(chuàng)性框架:CoDance,這是首個能夠基于單一且可能未對齊的姿態(tài)序列,同時實現(xiàn)角色圖像動畫化中“四個任意”屬性的方法:任意主體類型、任意數(shù)量、任意空間位置和任意姿態(tài)。

Unbind-Rebind 范式:設(shè)計了一種新穎的“解綁-重綁”(Unbind-Rebind)策略,系統(tǒng)性地將姿態(tài)與參考圖像中過硬的空間綁定解耦,并通過語義和空間線索重新建立控制。構(gòu)建了全新的多主體動畫基準 CoDanceBench,填補了該領(lǐng)域評估標(biāo)準的空白。

SOTA:在 CoDanceBench 和現(xiàn)有的Follow-Your-Pose-V2 基準上,該方法在各項指標(biāo)上均取得了SOTA性能,展現(xiàn)了強大的泛化能力。

解決的問題

多主體生成的局限性:現(xiàn)有的角色動畫方法(如 Animate Anyone, MagicAnimate 等)主要針對單人動畫設(shè)計,難以處理任意數(shù)量的主體。

空間未對齊難題:現(xiàn)有方法依賴于姿態(tài)與參考圖像之間嚴格的像素級空間綁定(rigid spatial binding)。當(dāng)參考圖像與驅(qū)動姿態(tài)在空間上不一致(misalignment)時(例如參考圖中有兩個角色,而姿態(tài)只有一個,或者位置不對應(yīng)),模型容易失效,產(chǎn)生偽影或錯誤的身份綁定。

目標(biāo)重定向失。在嘗試解耦空間位置后,模型往往無法將動作準確地重新綁定(rebind)到預(yù)期的特定主體上,導(dǎo)致背景被錯誤驅(qū)動或主體丟失。

圖2。CoDance動機。雖然在單人動畫方面表現(xiàn)出色,但以往方法在處理多主體時因參考姿勢與目標(biāo)姿勢綁定僵硬導(dǎo)致輸出不匹配而失效。相比之下,我們的解綁-再綁定方法成功將運動與外觀脫鉤,產(chǎn)生了令人信服的結(jié)果。圖2。CoDance動機。雖然在單人動畫方面表現(xiàn)出色,但以往方法在處理多主體時因參考姿勢與目標(biāo)姿勢綁定僵硬導(dǎo)致輸出不匹配而失效。相比之下,我們的解綁-再綁定方法成功將運動與外觀脫鉤,產(chǎn)生了令人信服的結(jié)果。

提出的方案

核心架構(gòu):基于 Diffusion Transformer (DiT) 的 Unbind-Rebind 框架。

Unbind(解綁)模塊:

引入姿態(tài)偏移編碼器(Pose Shift Encoder)。

Pose Unbind:在輸入層面,對骨架位置/大小進行隨機變換 ,打破物理對齊。

Feature Unbind:在特征層面,對姿態(tài)特征進行隨機復(fù)制和疊加,迫使模型學(xué)習(xí)位置無關(guān)的動作語義。

Rebind(重綁)模塊:

語義重綁:引入文本分支,利用混合數(shù)據(jù)訓(xùn)練策略(聯(lián)合訓(xùn)練動畫數(shù)據(jù)  和大規(guī)模文生視頻數(shù)據(jù) ),通過文本提示明確指定動畫的主體身份和數(shù)量。

空間重綁:利用離線分割模型(如 SAM)獲取參考圖像的主體掩碼(Mask),作為外部條件將動作精確限制在目標(biāo)區(qū)域內(nèi)。

應(yīng)用的技術(shù)

主干網(wǎng)絡(luò):采用 DiT (Diffusion Transformer) 作為基礎(chǔ)生成模型,利用其可擴展性處理視頻生成。

數(shù)據(jù)增強與訓(xùn)練策略:

隨機平移與縮放增強。

特征層面的 Region Duplication(區(qū)域復(fù)制)。

混合訓(xùn)練(Mixed-data training):以概率  訓(xùn)練動畫任務(wù),以  訓(xùn)練通用文生視頻(T2V)任務(wù)。

多模態(tài)條件注入:

umT5 Encoder:處理文本提示,通過 Cross-Attention 注入。

Mask Encoder:處理 SAM 生成的主體掩碼,通過卷積提取特征并與噪聲潛在變量逐元素相加(Element-wise Summation)。

VAE Encoder:提取參考圖像  的潛在特征 。

LoRA:用于微調(diào)預(yù)訓(xùn)練的 T2V 模型。

達到的效果

定量指標(biāo)提升:在視頻質(zhì)量、身份保持(Identity Preservation)和時序一致性(Temporal Consistency)等指標(biāo)上,顯著優(yōu)于 MagicAnimate, Animate Anyone, UniAnimate 等 SOTA 方法。

定性表現(xiàn)優(yōu)異:能夠生成協(xié)調(diào)的群舞,支持從單人到多人的泛化,且不需要針對每個主體進行空間預(yù)對齊。即使在參考圖像復(fù)雜、主體數(shù)量多變的情況下,也能保持主體身份特征和動作的準確性。用戶調(diào)研顯示其偏好率大幅領(lǐng)先。

方法

如圖 3 所示,CoDance 的流程主要包含以下步驟。給定參考圖像 、驅(qū)動姿態(tài)序列  和文本提示 ,本工作首先獲得參考圖像的主體掩碼 ,并將驅(qū)動動作傳播到任意數(shù)量、不同類型的主體上,同時保持與參考圖像的身份一致性。與以往關(guān)注近乎對齊輸入的工作不同,本文明確處理了  與  之間的未對齊、非人類/擬人化角色以及多主體場景。

圖3。CoDance流程圖3。CoDance流程

預(yù)備知識

擴散模型。擴散模型是生成模型,通過反轉(zhuǎn)加噪過程來生成數(shù)據(jù)。這涉及兩個階段:逐漸向干凈數(shù)據(jù)  添加高斯噪聲的前向過程,以及學(xué)習(xí)去除噪聲的反向過程。一個關(guān)鍵屬性是任何噪聲樣本  都可以直接從  獲得。生成任務(wù)通過訓(xùn)練一個網(wǎng)絡(luò)  來完成,該網(wǎng)絡(luò)在給定時間步  和可選條件  的情況下,從噪聲輸入  中預(yù)測噪聲 。模型通過以下目標(biāo)函數(shù)進行優(yōu)化:

對于條件生成,通常使用無分類器引導(dǎo)(classifier-free guidance)來增強條件  的影響。

擴散 Transformer (DiT) 。雖然早期的擴散模型使用 U-Net 架構(gòu),但 Diffusion Transformer (DiT)證明了標(biāo)準 Transformer 可以作為一個高效且可擴展的主干網(wǎng)絡(luò)。在 DiT 框架中,輸入圖像首先被劃分為不重疊的補丁(patches),類似于 Vision Transformer (ViT)。這些補丁與時間步  和條件 (例如姿態(tài)骨架)的嵌入一起被轉(zhuǎn)換為標(biāo)記(tokens)序列。然后,該標(biāo)記序列由 Transformer 塊處理以預(yù)測輸出噪聲。

解綁-重綁

如圖 2 所示,以前的方法通常強制參考圖像與目標(biāo)姿態(tài)之間存在剛性的空間綁定。只要類人參考圖像與目標(biāo)姿態(tài)在空間上對齊,這種范式在單人動畫中就能生成正確的結(jié)果。然而,它們受限于不匹配的情況,例如參考圖像中的主體數(shù)量與目標(biāo)姿態(tài)不同。由于依賴剛性空間對齊,模型無法正確動畫化參考圖像中的主體。相反,它會在相應(yīng)的空間區(qū)域幻覺出一個新的、與姿態(tài)對齊的人。為了克服這一根本限制,本文提出了一種新范式:Unbind-Rebind(解綁-重綁),它打破了因輸入不匹配導(dǎo)致的強制空間對齊,并重新建立動作與身份之間的正確對應(yīng)關(guān)系。

Unbind(解綁)。Unbind 模塊旨在拆除參考圖像與姿態(tài)之間這種僵化的空間約束。本文不再依賴簡單的空間映射,而是迫使模型(特別是姿態(tài)編碼器和擴散網(wǎng)絡(luò))去學(xué)習(xí)動作本身的抽象語義理解。為此,本文提出了新穎的姿態(tài)偏移編碼器(Pose Shift Encoder),它由 Pose Unbind(姿態(tài)解綁) 和 Feature Unbind(特征解綁) 模塊組成,分別在輸入層級和特征層級增強模型的理解能力。其核心洞察在于,在每個訓(xùn)練步驟中,有意且隨機地破壞參考圖像  與目標(biāo)姿態(tài)  之間的自然對齊,從而確保模型無法依賴僵化的空間對應(yīng)關(guān)系。具體而言,Pose Unbind 模塊作用于輸入層級。在每個訓(xùn)練步驟中,本文首先按照先前的方法采樣參考圖像  及其對應(yīng)的驅(qū)動姿態(tài) 。然而,本文并不直接將這對數(shù)據(jù)輸入模型,而是對驅(qū)動姿態(tài)  應(yīng)用一系列變換。打破空間關(guān)聯(lián)最直觀的方法是改變姿態(tài)的位置和比例。因此,在每一步中,本文隨機平移骨架的位置,即 ,并隨機縮放其大小,進一步將其與原始空間位置解耦。

然而,僅靠 Pose Unbind 主要增強的是姿態(tài)編碼器解釋姿態(tài)變化的能力。核心的生成過程嚴重依賴于擴散網(wǎng)絡(luò)。為此,本文引入了 Feature Unbind 模塊,它作用于特征層級。在變換后的姿態(tài)通過姿態(tài)編碼器后,本文對生成的姿態(tài)特征應(yīng)用進一步的增強。首先,應(yīng)用類似的隨機平移。此外,為了迫使擴散模型適應(yīng)特征空間內(nèi)的各種姿態(tài)配置,本文提取對應(yīng)于姿態(tài)的特征區(qū)域,將其隨機復(fù)制,并將這些副本疊加到原始特征圖上。這一過程迫使擴散模型發(fā)展出對姿態(tài)更魯棒的語義理解,并增強其在復(fù)雜條件下的生成能力。

Rebind(重綁)。經(jīng)過 Unbind 操作后,雖然模型能夠從姿態(tài)圖像中掌握動作的語義含義,但它缺少了指定動畫目標(biāo)主體的關(guān)鍵信息,因為原始的空間對齊已被特意打破。為了解決這個問題,本文引入了 Rebind 模塊,它可以智能地將理解到的動作與參考圖像中的正確主體重新關(guān)聯(lián)起來。具體來說,本文通過兩個互補的層面來執(zhí)行 Rebind:語義(Semantic) 和 空間(Spatial)。

從語義角度來看,本文引入了一個文本驅(qū)動的引導(dǎo)分支,利用輸入文本提示  明確指定參考圖像中需要動畫化的主體身份和數(shù)量。如圖 3 所示,參考圖像包含多個元素,其中包括五個擬人化角色作為動畫目標(biāo)。相應(yīng)的提示詞(如“五個氣泡在跳舞”)經(jīng)過文本編碼器處理后,輸入到 DiT 模塊中以提供語義指導(dǎo)。然而,僅在具有統(tǒng)一文本提示的動畫數(shù)據(jù)集()上進行訓(xùn)練會帶來一個重大挑戰(zhàn):模型傾向于過擬合提示詞,學(xué)習(xí)到虛假的相關(guān)性并忽略文本指導(dǎo),這嚴重損害了推理時的泛化能力。為了抵消這一點,本文提出了一種混合數(shù)據(jù)訓(xùn)練策略(mixed-data training strategy)。本文加入了一個輔助的、多樣化的“文本-圖像-視頻”(TI2V)數(shù)據(jù)集(),并分別以概率  和  在角色動畫任務(wù)和 T2V 任務(wù)之間交替訓(xùn)練。這種雙目標(biāo)訓(xùn)練迫使模型超越簡單的模式匹配,發(fā)展出對文本條件的魯棒理解。反過來,這也使其能夠在推理過程中根據(jù)任意文本提示,準確地從參考圖像中重新綁定指定的主體。

雖然語義指導(dǎo)很強大,但它不能解決“圖-底”模糊(figure-ground ambiguity)的挑戰(zhàn),特別是對于具有復(fù)雜或非常規(guī)形態(tài)的主體。這種模糊可能導(dǎo)致模型無法準確分割主體,導(dǎo)致背景被錯誤動畫化或主體部分缺失。為了強制精確的空間控制,本文引入了空間重綁機制,提供一個參考掩碼  來明確定義動畫區(qū)域。這種直接的空間重綁確保動畫嚴格限制在指定的邊界內(nèi),有效地減輕分割錯誤并保持主體的結(jié)構(gòu)完整性。

框架與實現(xiàn)細節(jié)

鑒于先前工作的成功,CoDance 建立在常用的 Diffusion Transformer (DiT)之上。如圖 3 所示,給定一個參考圖像 ,本文采用 VAE 編碼器提取其潛在表示 。遵循文獻[64]的方法,該潛在表示隨后直接作為去噪網(wǎng)絡(luò)  輸入的一部分。為了促進精確的外觀重綁(appearance rebind),本文利用預(yù)訓(xùn)練的分割模型(例如 SAM)從  中提取對應(yīng)的主體掩碼 。該掩碼隨后被輸入到一個由堆疊的 2D 卷積層組成的掩碼編碼器(Mask Encoder)中。生成的掩碼特征隨后通過逐元素求和的方式融入到噪聲潛在向量中。同時,本文引入 umT5 Encoder進行語義理解。文本特征通過 DiT 塊內(nèi)的交叉注意力層整合到生成過程中。對于驅(qū)動視頻 ,本文采用前述的姿態(tài)偏移編碼器。模型初始化自預(yù)訓(xùn)練的 T2V 模型,并使用 LoRA 進行微調(diào)。最后,VAE 解碼器重建視頻。注意,Unbind 模塊和混合數(shù)據(jù)訓(xùn)練僅應(yīng)用于訓(xùn)練階段。

實驗

用戶調(diào)研

為了量化感知質(zhì)量,本文進行了一項全面的用戶調(diào)研。該調(diào)研涉及向 10 名參與者進行的成對 A/B 偏好測試。本文使用了 20 個不同的身份和 20 個驅(qū)動視頻,從 9 種評估方法中分別生成了 20 個動畫。在每次試驗中,參與者會看到兩個由不同方法生成的并排視頻,并被要求根據(jù)三個標(biāo)準選擇更好的結(jié)果:(1)視頻質(zhì)量,(2)身份保持 ,以及 (3)時序一致性。如表 3 總結(jié)所示,CoDance 在所有三個標(biāo)準上都取得了最高的偏好率,證明了其明顯的感知優(yōu)勢。具體數(shù)據(jù)如下:

Video Quality: 0.90 (CoDance) vs 0.79 (UniAnimateDiT)

Identity Preservation: 0.88 (CoDance) vs 0.50 (UniAnimateDiT)

Temporal Consistency: 0.83 (CoDance) vs 0.78 (UniAnimateDiT)

消融實驗

本節(jié)展示了消融研究,旨在分離 CoDance 中 Unbind 和 Rebind 模塊的貢獻與必要性。實驗設(shè)計為漸進式消融:

Baseline (基線):移除 Unbind 和 Rebind 模塊。模型按照剛性對齊范式(遵循[64])訓(xùn)練,以動畫化參考圖像。

B + Unbind:在基線之上,添加 Unbind 模塊以打破參考圖像與驅(qū)動姿態(tài)之間的剛性對齊。

B + Unbind + Spatial Rebind:在 (2) 的基礎(chǔ)上,結(jié)合掩碼條件進行空間重綁。

Full Model (完整模型):包含所有模塊。

如圖 5 所示:

Baseline:受限于剛性對齊,合成了一個與驅(qū)動姿態(tài)在空間上對齊的新角色,從而丟失了參考身份。

B + Unbind:引入 Unbind 模塊修正了身份問題,保留了參考身份并展示了成功的解耦。然而,它無法生成連貫的動作,表明無法定位動畫的目標(biāo)區(qū)域。

B + Unbind + Spatial Rebind:添加空間重綁解決了定位問題,動畫化了正確的區(qū)域。然而,它將多個主體視為單一的復(fù)合實體,導(dǎo)致碎片化的動畫(例如,動畫化每個角色的一只手,而不是一個角色的全身)。

Full Model:集成了 Unbind 和完整的 Rebind 機制(包含語義重綁),取得了優(yōu)異的結(jié)果。

這一遞進過程驗證了框架中每個提議模塊的關(guān)鍵性和互補作用。

圖4。與SOTA方法的定性比較。圖4。與SOTA方法的定性比較。

總結(jié)

CoDance,一種為跨越任意主體數(shù)量、類型和空間布局的魯棒動畫而設(shè)計的新穎框架。我們識別出,在多主體場景中普遍存在的身份退化和動作分配錯誤源于現(xiàn)有方法中的剛性空間綁定。為了克服這一點,我們提出了 Unbind-Rebind(解綁-重綁)范式,該范式首先將動作從其嚴格的空間上下文中解綁,然后使用互補的語義和空間指導(dǎo)將此動作重新綁定到正確的主體上。通過這種方式,CoDance 展示了強大的泛化能力和魯棒性,實現(xiàn)了靈活的多主體動畫。在 Follow-Your-Pose-V2 基準和我們新引入的 CoDanceBench 上的廣泛實驗證明,我們提出的方法優(yōu)于 SOTA 方法。

參考文獻

[1] CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

       原文標(biāo)題 : 角色動畫最新SOTA!港大&螞蟻等CoDance:解綁-重綁實現(xiàn)任意數(shù)量、位置角色同屏起舞

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號