123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

角色動畫最新SOTA！港大&螞蟻等CoDance：解綁-重綁實現(xiàn)任意數(shù)量、位置角色同屏起舞

2026-01-20 13:48

作者：Shuai Tan等

解讀：AI生成未來

圖1。由CoDance生成的多主體動畫。給定一個（可能錯位的）驅(qū)動姿勢序列和一張多主體參考圖像，CoDance生成協(xié)調(diào)且可姿勢控制的群舞，無需每個主體的空間對齊。圖1。由CoDance生成的多主體動畫。給定一個（可能錯位的）驅(qū)動姿勢序列和一張多主體參考圖像，CoDance生成協(xié)調(diào)且可姿勢控制的群舞，無需每個主體的空間對齊。

亮點直擊

首創(chuàng)性框架：CoDance，這是首個能夠基于單一且可能未對齊的姿態(tài)序列，同時實現(xiàn)角色圖像動畫化中“四個任意”屬性的方法：任意主體類型、任意數(shù)量、任意空間位置和任意姿態(tài)。

Unbind-Rebind 范式：設(shè)計了一種新穎的“解綁-重綁”（Unbind-Rebind）策略，系統(tǒng)性地將姿態(tài)與參考圖像中過硬的空間綁定解耦，并通過語義和空間線索重新建立控制。構(gòu)建了全新的多主體動畫基準 CoDanceBench，填補了該領(lǐng)域評估標(biāo)準的空白。

SOTA：在 CoDanceBench 和現(xiàn)有的Follow-Your-Pose-V2 基準上，該方法在各項指標(biāo)上均取得了SOTA性能，展現(xiàn)了強大的泛化能力。

解決的問題

多主體生成的局限性：現(xiàn)有的角色動畫方法（如 Animate Anyone, MagicAnimate 等）主要針對單人動畫設(shè)計，難以處理任意數(shù)量的主體。

空間未對齊難題：現(xiàn)有方法依賴于姿態(tài)與參考圖像之間嚴格的像素級空間綁定（rigid spatial binding）。當(dāng)參考圖像與驅(qū)動姿態(tài)在空間上不一致（misalignment）時（例如參考圖中有兩個角色，而姿態(tài)只有一個，或者位置不對應(yīng)），模型容易失效，產(chǎn)生偽影或錯誤的身份綁定。

目標(biāo)重定向失�。�在嘗試解耦空間位置后，模型往往無法將動作準確地重新綁定（rebind）到預(yù)期的特定主體上，導(dǎo)致背景被錯誤驅(qū)動或主體丟失。

圖2。CoDance動機。雖然在單人動畫方面表現(xiàn)出色，但以往方法在處理多主體時因參考姿勢與目標(biāo)姿勢綁定僵硬導(dǎo)致輸出不匹配而失效。相比之下，我們的解綁-再綁定方法成功將運動與外觀脫鉤，產(chǎn)生了令人信服的結(jié)果。圖2。CoDance動機。雖然在單人動畫方面表現(xiàn)出色，但以往方法在處理多主體時因參考姿勢與目標(biāo)姿勢綁定僵硬導(dǎo)致輸出不匹配而失效。相比之下，我們的解綁-再綁定方法成功將運動與外觀脫鉤，產(chǎn)生了令人信服的結(jié)果。

提出的方案

核心架構(gòu)：基于 Diffusion Transformer (DiT) 的 Unbind-Rebind 框架。

Unbind（解綁）模塊：

引入姿態(tài)偏移編碼器（Pose Shift Encoder）。

Pose Unbind：在輸入層面，對骨架位置/大小進行隨機變換，打破物理對齊。

Feature Unbind：在特征層面，對姿態(tài)特征進行隨機復(fù)制和疊加，迫使模型學(xué)習(xí)位置無關(guān)的動作語義。

Rebind（重綁）模塊：

語義重綁：引入文本分支，利用混合數(shù)據(jù)訓(xùn)練策略（聯(lián)合訓(xùn)練動畫數(shù)據(jù) 和大規(guī)模文生視頻數(shù)據(jù) ），通過文本提示明確指定動畫的主體身份和數(shù)量。

空間重綁：利用離線分割模型（如 SAM）獲取參考圖像的主體掩碼（Mask），作為外部條件將動作精確限制在目標(biāo)區(qū)域內(nèi)。

應(yīng)用的技術(shù)

主干網(wǎng)絡(luò)：采用 DiT (Diffusion Transformer) 作為基礎(chǔ)生成模型，利用其可擴展性處理視頻生成。

數(shù)據(jù)增強與訓(xùn)練策略：

隨機平移與縮放增強。

特征層面的 Region Duplication（區(qū)域復(fù)制）。

混合訓(xùn)練（Mixed-data training）：以概率訓(xùn)練動畫任務(wù)，以訓(xùn)練通用文生視頻（T2V）任務(wù)。

多模態(tài)條件注入：

umT5 Encoder：處理文本提示，通過 Cross-Attention 注入。

Mask Encoder：處理 SAM 生成的主體掩碼，通過卷積提取特征并與噪聲潛在變量逐元素相加（Element-wise Summation）。

VAE Encoder：提取參考圖像的潛在特征。

LoRA：用于微調(diào)預(yù)訓(xùn)練的 T2V 模型。

達到的效果

定量指標(biāo)提升：在視頻質(zhì)量、身份保持（Identity Preservation）和時序一致性（Temporal Consistency）等指標(biāo)上，顯著優(yōu)于 MagicAnimate, Animate Anyone, UniAnimate 等 SOTA 方法。

定性表現(xiàn)優(yōu)異：能夠生成協(xié)調(diào)的群舞，支持從單人到多人的泛化，且不需要針對每個主體進行空間預(yù)對齊。即使在參考圖像復(fù)雜、主體數(shù)量多變的情況下，也能保持主體身份特征和動作的準確性。用戶調(diào)研顯示其偏好率大幅領(lǐng)先。

方法

如圖 3 所示，CoDance 的流程主要包含以下步驟。給定參考圖像、驅(qū)動姿態(tài)序列和文本提示，本工作首先獲得參考圖像的主體掩碼，并將驅(qū)動動作傳播到任意數(shù)量、不同類型的主體上，同時保持與參考圖像的身份一致性。與以往關(guān)注近乎對齊輸入的工作不同，本文明確處理了與之間的未對齊、非人類/擬人化角色以及多主體場景。

圖3。CoDance流程

預(yù)備知識

擴散模型。擴散模型是生成模型，通過反轉(zhuǎn)加噪過程來生成數(shù)據(jù)。這涉及兩個階段：逐漸向干凈數(shù)據(jù) 添加高斯噪聲的前向過程，以及學(xué)習(xí)去除噪聲的反向過程。一個關(guān)鍵屬性是任何噪聲樣本都可以直接從獲得。生成任務(wù)通過訓(xùn)練一個網(wǎng)絡(luò) 來完成，該網(wǎng)絡(luò)在給定時間步和可選條件的情況下，從噪聲輸入中預(yù)測噪聲。模型通過以下目標(biāo)函數(shù)進行優(yōu)化：

對于條件生成，通常使用無分類器引導(dǎo)（classifier-free guidance）來增強條件的影響。

擴散 Transformer (DiT) 。雖然早期的擴散模型使用 U-Net 架構(gòu)，但 Diffusion Transformer (DiT)證明了標(biāo)準 Transformer 可以作為一個高效且可擴展的主干網(wǎng)絡(luò)。在 DiT 框架中，輸入圖像首先被劃分為不重疊的補丁（patches），類似于 Vision Transformer (ViT)。這些補丁與時間步和條件（例如姿態(tài)骨架）的嵌入一起被轉(zhuǎn)換為標(biāo)記（tokens）序列。然后，該標(biāo)記序列由 Transformer 塊處理以預(yù)測輸出噪聲。

解綁-重綁

如圖 2 所示，以前的方法通常強制參考圖像與目標(biāo)姿態(tài)之間存在剛性的空間綁定。只要類人參考圖像與目標(biāo)姿態(tài)在空間上對齊，這種范式在單人動畫中就能生成正確的結(jié)果。然而，它們受限于不匹配的情況，例如參考圖像中的主體數(shù)量與目標(biāo)姿態(tài)不同。由于依賴剛性空間對齊，模型無法正確動畫化參考圖像中的主體。相反，它會在相應(yīng)的空間區(qū)域幻覺出一個新的、與姿態(tài)對齊的人。為了克服這一根本限制，本文提出了一種新范式：Unbind-Rebind（解綁-重綁），它打破了因輸入不匹配導(dǎo)致的強制空間對齊，并重新建立動作與身份之間的正確對應(yīng)關(guān)系。

Unbind（解綁）。Unbind 模塊旨在拆除參考圖像與姿態(tài)之間這種僵化的空間約束。本文不再依賴簡單的空間映射，而是迫使模型（特別是姿態(tài)編碼器和擴散網(wǎng)絡(luò)）去學(xué)習(xí)動作本身的抽象語義理解。為此，本文提出了新穎的姿態(tài)偏移編碼器（Pose Shift Encoder），它由 Pose Unbind（姿態(tài)解綁）和 Feature Unbind（特征解綁）模塊組成，分別在輸入層級和特征層級增強模型的理解能力。其核心洞察在于，在每個訓(xùn)練步驟中，有意且隨機地破壞參考圖像與目標(biāo)姿態(tài) 之間的自然對齊，從而確保模型無法依賴僵化的空間對應(yīng)關(guān)系。具體而言，Pose Unbind 模塊作用于輸入層級。在每個訓(xùn)練步驟中，本文首先按照先前的方法采樣參考圖像及其對應(yīng)的驅(qū)動姿態(tài) 。然而，本文并不直接將這對數(shù)據(jù)輸入模型，而是對驅(qū)動姿態(tài) 應(yīng)用一系列變換。打破空間關(guān)聯(lián)最直觀的方法是改變姿態(tài)的位置和比例。因此，在每一步中，本文隨機平移骨架的位置，即，并隨機縮放其大小，進一步將其與原始空間位置解耦。

然而，僅靠 Pose Unbind 主要增強的是姿態(tài)編碼器解釋姿態(tài)變化的能力。核心的生成過程嚴重依賴于擴散網(wǎng)絡(luò)。為此，本文引入了 Feature Unbind 模塊，它作用于特征層級。在變換后的姿態(tài)通過姿態(tài)編碼器后，本文對生成的姿態(tài)特征應(yīng)用進一步的增強。首先，應(yīng)用類似的隨機平移。此外，為了迫使擴散模型適應(yīng)特征空間內(nèi)的各種姿態(tài)配置，本文提取對應(yīng)于姿態(tài)的特征區(qū)域，將其隨機復(fù)制，并將這些副本疊加到原始特征圖上。這一過程迫使擴散模型發(fā)展出對姿態(tài)更魯棒的語義理解，并增強其在復(fù)雜條件下的生成能力。

Rebind（重綁）。經(jīng)過 Unbind 操作后，雖然模型能夠從姿態(tài)圖像中掌握動作的語義含義，但它缺少了指定動畫目標(biāo)主體的關(guān)鍵信息，因為原始的空間對齊已被特意打破。為了解決這個問題，本文引入了 Rebind 模塊，它可以智能地將理解到的動作與參考圖像中的正確主體重新關(guān)聯(lián)起來。具體來說，本文通過兩個互補的層面來執(zhí)行 Rebind：語義（Semantic）和空間（Spatial）。

從語義角度來看，本文引入了一個文本驅(qū)動的引導(dǎo)分支，利用輸入文本提示明確指定參考圖像中需要動畫化的主體身份和數(shù)量。如圖 3 所示，參考圖像包含多個元素，其中包括五個擬人化角色作為動畫目標(biāo)。相應(yīng)的提示詞（如“五個氣泡在跳舞”）經(jīng)過文本編碼器處理后，輸入到 DiT 模塊中以提供語義指導(dǎo)。然而，僅在具有統(tǒng)一文本提示的動畫數(shù)據(jù)集（）上進行訓(xùn)練會帶來一個重大挑戰(zhàn)：模型傾向于過擬合提示詞，學(xué)習(xí)到虛假的相關(guān)性并忽略文本指導(dǎo)，這嚴重損害了推理時的泛化能力。為了抵消這一點，本文提出了一種混合數(shù)據(jù)訓(xùn)練策略（mixed-data training strategy）。本文加入了一個輔助的、多樣化的“文本-圖像-視頻”（TI2V）數(shù)據(jù)集（），并分別以概率和在角色動畫任務(wù)和 T2V 任務(wù)之間交替訓(xùn)練。這種雙目標(biāo)訓(xùn)練迫使模型超越簡單的模式匹配，發(fā)展出對文本條件的魯棒理解。反過來，這也使其能夠在推理過程中根據(jù)任意文本提示，準確地從參考圖像中重新綁定指定的主體。

雖然語義指導(dǎo)很強大，但它不能解決“圖-底”模糊（figure-ground ambiguity）的挑戰(zhàn)，特別是對于具有復(fù)雜或非常規(guī)形態(tài)的主體。這種模糊可能導(dǎo)致模型無法準確分割主體，導(dǎo)致背景被錯誤動畫化或主體部分缺失。為了強制精確的空間控制，本文引入了空間重綁機制，提供一個參考掩碼來明確定義動畫區(qū)域。這種直接的空間重綁確保動畫嚴格限制在指定的邊界內(nèi)，有效地減輕分割錯誤并保持主體的結(jié)構(gòu)完整性。

框架與實現(xiàn)細節(jié)

鑒于先前工作的成功，CoDance 建立在常用的 Diffusion Transformer (DiT)之上。如圖 3 所示，給定一個參考圖像，本文采用 VAE 編碼器提取其潛在表示。遵循文獻[64]的方法，該潛在表示隨后直接作為去噪網(wǎng)絡(luò) 輸入的一部分。為了促進精確的外觀重綁（appearance rebind），本文利用預(yù)訓(xùn)練的分割模型（例如 SAM）從中提取對應(yīng)的主體掩碼。該掩碼隨后被輸入到一個由堆疊的 2D 卷積層組成的掩碼編碼器（Mask Encoder）中。生成的掩碼特征隨后通過逐元素求和的方式融入到噪聲潛在向量中。同時，本文引入 umT5 Encoder進行語義理解。文本特征通過 DiT 塊內(nèi)的交叉注意力層整合到生成過程中。對于驅(qū)動視頻，本文采用前述的姿態(tài)偏移編碼器。模型初始化自預(yù)訓(xùn)練的 T2V 模型，并使用 LoRA 進行微調(diào)。最后，VAE 解碼器重建視頻。注意，Unbind 模塊和混合數(shù)據(jù)訓(xùn)練僅應(yīng)用于訓(xùn)練階段。

實驗

用戶調(diào)研

為了量化感知質(zhì)量，本文進行了一項全面的用戶調(diào)研。該調(diào)研涉及向 10 名參與者進行的成對 A/B 偏好測試。本文使用了 20 個不同的身份和 20 個驅(qū)動視頻，從 9 種評估方法中分別生成了 20 個動畫。在每次試驗中，參與者會看到兩個由不同方法生成的并排視頻，并被要求根據(jù)三個標(biāo)準選擇更好的結(jié)果：(1)視頻質(zhì)量，(2)身份保持，以及 (3)時序一致性。如表 3 總結(jié)所示，CoDance 在所有三個標(biāo)準上都取得了最高的偏好率，證明了其明顯的感知優(yōu)勢。具體數(shù)據(jù)如下：

Video Quality: 0.90 (CoDance) vs 0.79 (UniAnimateDiT)

Identity Preservation: 0.88 (CoDance) vs 0.50 (UniAnimateDiT)

Temporal Consistency: 0.83 (CoDance) vs 0.78 (UniAnimateDiT)

消融實驗

本節(jié)展示了消融研究，旨在分離 CoDance 中 Unbind 和 Rebind 模塊的貢獻與必要性。實驗設(shè)計為漸進式消融：

Baseline (基線)：移除 Unbind 和 Rebind 模塊。模型按照剛性對齊范式（遵循[64]）訓(xùn)練，以動畫化參考圖像。

B + Unbind：在基線之上，添加 Unbind 模塊以打破參考圖像與驅(qū)動姿態(tài)之間的剛性對齊。

B + Unbind + Spatial Rebind：在 (2) 的基礎(chǔ)上，結(jié)合掩碼條件進行空間重綁。

Full Model (完整模型)：包含所有模塊。

如圖 5 所示：

Baseline：受限于剛性對齊，合成了一個與驅(qū)動姿態(tài)在空間上對齊的新角色，從而丟失了參考身份。

B + Unbind：引入 Unbind 模塊修正了身份問題，保留了參考身份并展示了成功的解耦。然而，它無法生成連貫的動作，表明無法定位動畫的目標(biāo)區(qū)域。

B + Unbind + Spatial Rebind：添加空間重綁解決了定位問題，動畫化了正確的區(qū)域。然而，它將多個主體視為單一的復(fù)合實體，導(dǎo)致碎片化的動畫（例如，動畫化每個角色的一只手，而不是一個角色的全身）。

Full Model：集成了 Unbind 和完整的 Rebind 機制（包含語義重綁），取得了優(yōu)異的結(jié)果。

這一遞進過程驗證了框架中每個提議模塊的關(guān)鍵性和互補作用。

圖4。與SOTA方法的定性比較。圖4。與SOTA方法的定性比較。

總結(jié)

CoDance，一種為跨越任意主體數(shù)量、類型和空間布局的魯棒動畫而設(shè)計的新穎框架。我們識別出，在多主體場景中普遍存在的身份退化和動作分配錯誤源于現(xiàn)有方法中的剛性空間綁定。為了克服這一點，我們提出了 Unbind-Rebind（解綁-重綁）范式，該范式首先將動作從其嚴格的空間上下文中解綁，然后使用互補的語義和空間指導(dǎo)將此動作重新綁定到正確的主體上。通過這種方式，CoDance 展示了強大的泛化能力和魯棒性，實現(xiàn)了靈活的多主體動畫。在 Follow-Your-Pose-V2 基準和我們新引入的 CoDanceBench 上的廣泛實驗證明，我們提出的方法優(yōu)于 SOTA 方法。

參考文獻

[1] CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

原文標(biāo)題 : 角色動畫最新SOTA！港大&螞蟻等CoDance：解綁-重綁實現(xiàn)任意數(shù)量、位置角色同屏起舞

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機器人產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術(shù)峰會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

日本黄色网站无马赛克免费看亚洲福利精品亚洲乱码日产精品BD 国产99视频精品免视看7