訂閱
糾錯(cuò)
加入自媒體

港科大等提出音頻驅(qū)動(dòng)多人視頻生成新范式 AnyTalker,解鎖任意數(shù)量角色間的自然互動(dòng)!

作者:Zhizhou Zhong等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

可擴(kuò)展的多人驅(qū)動(dòng)結(jié)構(gòu):本文提出了一種可擴(kuò)展的多流處理結(jié)構(gòu) Audio-Face Cross Attention Layer,能夠以循環(huán)調(diào)用的方式驅(qū)動(dòng)任意數(shù)量的角色,并確保各個(gè)角色之間自然的互動(dòng)。

低成本多人說(shuō)話模式訓(xùn)練方法:提出了一種新穎的兩階段訓(xùn)練流程,使模型先利用水平拼接的單人數(shù)據(jù)學(xué)習(xí)多人說(shuō)話模式,再通過(guò)多人數(shù)據(jù)精調(diào),以優(yōu)化生成視頻人物之間的互動(dòng)性。

首個(gè)交互性評(píng)價(jià)新指標(biāo):首次提出用于量化評(píng)估多人物交互性的全新度量指標(biāo),并構(gòu)建配套的基準(zhǔn)數(shù)據(jù)集以進(jìn)行系統(tǒng)評(píng)估。

總結(jié)速覽

解決的問(wèn)題

可擴(kuò)展性:部分方法在訓(xùn)練階段即為同一視頻中的人物分配固定標(biāo)記或路由順序,因而難以突破“雙人”的限制,生成超越兩個(gè)身份的自然交互視頻。

高訓(xùn)練成本:現(xiàn)有方法普遍依賴成本高昂的多人場(chǎng)景數(shù)據(jù)集開(kāi)展訓(xùn)練;而多人場(chǎng)景因涵蓋話輪轉(zhuǎn)換、角色更替以及目光注視等非言語(yǔ)的復(fù)雜因素,導(dǎo)致數(shù)據(jù)采集與標(biāo)注成本高。

缺乏交互性的定量評(píng)估方法:多人視頻作為較新的領(lǐng)域,既往用于單人口型同步或視頻質(zhì)量的指標(biāo),難以充分衡量多人場(chǎng)景下的多個(gè)角色之間互動(dòng)自然度。

提出的方案/應(yīng)用的技術(shù):

構(gòu)建可擴(kuò)展的多流處理結(jié)構(gòu):為每對(duì)音頻與身份量身定制的交叉注意力模塊。將每對(duì)臉部 clip 圖像特征與Wav2Vec2 音頻特征在 sequence維度拼接,共同作為 K/V;計(jì)算后的注意力結(jié)果按展開(kāi)成sequence的 face mask token進(jìn)行局部激活,僅修改對(duì)應(yīng)臉部區(qū)域。該運(yùn)算可每個(gè)“角色-音頻”對(duì)循環(huán)執(zhí)行,以支持任意人數(shù)。

提出低成本多人對(duì)話學(xué)習(xí)策略:一階段訓(xùn)練時(shí),僅使用單人數(shù)據(jù),以 50% 概率將兩條單人視頻水平拼接成“雙人對(duì)話”偽樣本,充分利用海量單人數(shù)據(jù),讓模型快速習(xí)得多人說(shuō)話范式。二階段利用少量的的真實(shí)多人數(shù)據(jù)優(yōu)化互動(dòng)性。

首創(chuàng)交互性量化指標(biāo):在沉默時(shí)段追蹤傾聽(tīng)者眼部關(guān)鍵點(diǎn)位移幅度,以此衡量生成視頻的交互強(qiáng)度,實(shí)現(xiàn)多人互動(dòng)效果的客觀評(píng)估。圖 1:AnyTalker是一個(gè)強(qiáng)大的音頻驅(qū)動(dòng)多人視頻生成框架,它可以生成富含手勢(shì)、生動(dòng)情感和交互性的視頻,并且可以自由地推廣到任數(shù)量的ID甚至非真人輸入。

圖 1:AnyTalker是一個(gè)強(qiáng)大的音頻驅(qū)動(dòng)多人視頻生成框架,它可以生成富含手勢(shì)、生動(dòng)情感和交互性的視頻,并且可以自由地推廣到任數(shù)量的ID甚至非真人輸入。

達(dá)到的效果:

突破可驅(qū)動(dòng)人數(shù)的限制:無(wú)論輸入的是單段獨(dú)白還是多人對(duì)話,AnyTalker 都能自適應(yīng)匹配音頻與角色數(shù)量,一鍵生成自然流暢的多人說(shuō)話視頻。

交互真實(shí)細(xì)膩:生成視頻中人物對(duì)視,挑眉、點(diǎn)頭等非語(yǔ)言動(dòng)作自然流暢,面部表情隨語(yǔ)音節(jié)奏精準(zhǔn)呼應(yīng),呈現(xiàn)高度逼真的多人互動(dòng)場(chǎng)景,并在新提出的互動(dòng)性 Benchmark 上表現(xiàn)遠(yuǎn)超過(guò)去所有方法。

準(zhǔn)確的口型同步:在 HDTF、VFHQ 兩大單說(shuō)話人視頻 Benchmark上,AnyTalker 的 Sync-C 指標(biāo)領(lǐng)先;于本文新建的多人數(shù)據(jù)集,同樣保持優(yōu)勢(shì)。

方法圖2:(a)AnyTalker的架構(gòu)采用了一種新穎的多流音頻處理層Audio-Face Cross Attention Layer,能夠處理多個(gè)面部和音頻輸入。(b)AnyTalker的訓(xùn)練分為兩個(gè)階段:第一階段使用由單人數(shù)據(jù)和其混合而成的級(jí)聯(lián)多人數(shù)據(jù)來(lái)學(xué)習(xí)嘴唇動(dòng)作;第二階段采用真實(shí)的多人數(shù)據(jù)來(lái)增強(qiáng)生成視頻中的交互性。(c)音頻人臉交叉注意的詳細(xì)實(shí)現(xiàn),這是一種可循環(huán)調(diào)用的結(jié)構(gòu),使用人臉掩碼對(duì)輸出應(yīng)用掩碼。圖2:(a)AnyTalker的架構(gòu)采用了一種新穎的多流音頻處理層Audio-Face Cross Attention Layer,能夠處理多個(gè)面部和音頻輸入。(b)AnyTalker的訓(xùn)練分為兩個(gè)階段:第一階段使用由單人數(shù)據(jù)和其混合而成的級(jí)聯(lián)多人數(shù)據(jù)來(lái)學(xué)習(xí)嘴唇動(dòng)作;第二階段采用真實(shí)的多人數(shù)據(jù)來(lái)增強(qiáng)生成視頻中的交互性。(c)音頻人臉交叉注意的詳細(xì)實(shí)現(xiàn),這是一種可循環(huán)調(diào)用的結(jié)構(gòu),使用人臉掩碼對(duì)輸出應(yīng)用掩碼。

總覽

本文提出的 AnyTalker 整體框架如上圖所示。AnyTalker 繼承了 Wan I2V 模型的部分架構(gòu)組件。為了處理多音頻和身份輸入,引入了一種專門(mén)的多流處理結(jié)構(gòu),稱為 Audio-Face Cross Attention(AFCA),并把整體的訓(xùn)練流程分為兩個(gè)階段。

作為一個(gè)基于 DiT 的模型,AnyTalker 通過(guò) patchify 和 flatten 操作將3D VAE特征 轉(zhuǎn)換為 token,而文本特征 則由 T5 編碼器生成。此外,AnyTalker 繼承了 Reference Attention Layer,這是一種交叉注意力機(jī)制,利用 CLIP 圖像編碼器   從視頻的第一幀提取特征 。Wav2Vec2也被用于提取音頻特征 。整體輸入特征 可表示為:

Audio-Face Cross Attention

為了實(shí)現(xiàn)多人對(duì)話,模型必須能夠處理多路音頻輸入。潛在的解決方案可能包括 MultiTalk 中使用的 L-RoPE 技術(shù),該技術(shù)為不同的音頻特征分配唯一的標(biāo)簽和偏置。然而,這些標(biāo)簽的范圍需要顯式定義,限制了其可擴(kuò)展性。因此,我們?cè)O(shè)計(jì)了一種更具可擴(kuò)展性的結(jié)構(gòu),以可擴(kuò)展的方式驅(qū)動(dòng)多個(gè)身份并實(shí)現(xiàn)精確控制。

如圖2(a)和(c)所示,我們引入了一種名為 Audio-Face Cross Attention(AFCA)的專用結(jié)構(gòu),該結(jié)構(gòu)可以根據(jù)輸入的 face-audio 對(duì)數(shù)量循環(huán)執(zhí)行多次。如圖2(c)和公式(4)所示,它能夠靈活處理的多個(gè)不同的音頻和身份輸入,每次迭代的輸出相加得到最終的注意力輸出。

圖3:(a)通過(guò)定制的注意力mask建議視頻token到映射音頻token 的映射。每4個(gè)音頻 token綁定到1個(gè)視頻 token,第一個(gè) token除外。(b)用于Audio-Face Cross Attention中輸出mask的token。圖3:(a)通過(guò)定制的注意力mask建議視頻token到映射音頻token 的映射。每4個(gè)音頻 token綁定到1個(gè)視頻 token,第一個(gè) token除外。(b)用于Audio-Face Cross Attention中輸出mask的token。

音頻 token 建模。我們使用 Wav2Vec2 對(duì)音頻特征進(jìn)行編碼。第一個(gè)潛在幀關(guān)注所有音頻 token,而每個(gè)后續(xù)潛在幀僅關(guān)注對(duì)應(yīng)于四個(gè)音頻 token 的局部時(shí)間窗口。視頻和音頻流之間的結(jié)構(gòu)化對(duì)齊通過(guò)施加時(shí)間注意力掩碼 實(shí)現(xiàn),如圖3(a)所示。此外,為了實(shí)現(xiàn)全面的信息整合,每個(gè)音頻 token 在 AFCA 計(jì)算中與由  編碼的人臉 token 拼接。這種拼接使得所有視頻查詢 token  能夠有效關(guān)注不同的音頻和人臉信息對(duì),計(jì)算如下:

其中,MHCA 表示多頭交叉注意力,W_K和 W_V分別表示鍵矩陣和值矩陣。注意力輸出 Attn_out將隨后由人臉掩碼 token 進(jìn)行調(diào)整,如公式(3)所述。

人臉 token 建模。人臉圖像通過(guò)在訓(xùn)練時(shí)在線裁剪所選視頻片段的第一幀并使用 InsightFace 獲得,而人臉掩碼 則預(yù)先計(jì)算,覆蓋整個(gè)視頻中人臉的最大區(qū)域,即全局人臉邊界框。該掩碼確保面部動(dòng)作不會(huì)超出此區(qū)域,防止在重塑和展平操作后錯(cuò)誤激活視頻 token,特別是對(duì)于面部位移較大的視頻。該掩碼與 具有相同的尺寸,可直接用于逐元素乘法計(jì)算 Audio-Face Cross Attention 輸出,公式如下:

因此,每個(gè) I2V DiT 塊的隱藏狀態(tài) ,可表示為:

其中,i 表示注意力層的層索引,n  表示身份數(shù)量。注意,所有 項(xiàng)都由具有共享參數(shù)的同一 AFCA 層產(chǎn)生。AFCA 計(jì)算被迭代應(yīng)用 n 次,每次對(duì)應(yīng)一個(gè)角色,該架構(gòu)可以任意擴(kuò)展可驅(qū)動(dòng)身份的數(shù)量。

訓(xùn)練策略

AnyTalker 探索了利用單人數(shù)據(jù)學(xué)習(xí)多人說(shuō)話模式的潛力,其中低成本單人數(shù)據(jù)構(gòu)成了訓(xùn)練數(shù)據(jù)的大部分。

單人數(shù)據(jù)預(yù)訓(xùn)練。我們使用標(biāo)準(zhǔn)單人數(shù)據(jù)和通過(guò)水平拼接生成的合成雙人數(shù)據(jù)訓(xùn)練模型。每個(gè)批次的數(shù)據(jù)以50%的概率隨機(jī)配置為雙人或單人模式,如圖2(b)所示。在雙人模式下,批次中的每個(gè)樣本與其下一個(gè)索引的數(shù)據(jù)及其對(duì)應(yīng)音頻進(jìn)行水平拼接。這種方法使得每個(gè)批次在兩種模式下的批量大小保持一致。此外,我們預(yù)定義了一些通用文本提示,用于描述雙人對(duì)話場(chǎng)景。

多人數(shù)據(jù)互動(dòng)性優(yōu)化。在第二階段,我們使用少量真實(shí)多人數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),以增強(qiáng)不同身份之間的交互性。盡管我們的訓(xùn)練數(shù)據(jù)僅包含兩個(gè)身份之間的交互,但我們驚訝地發(fā)現(xiàn),配備 AFCA 模塊的模型能夠自然地泛化到超過(guò)兩個(gè)身份的場(chǎng)景,如圖1所示。我們推測(cè),這是因?yàn)?AFCA 機(jī)制使得模型能夠?qū)W習(xí)人類交互的通用模式,包括不僅準(zhǔn)確地對(duì)音頻進(jìn)行唇同步,還包括對(duì)其他身份說(shuō)話行為的傾聽(tīng)和響應(yīng)。

為了構(gòu)建高質(zhì)量的多人訓(xùn)練數(shù)據(jù),我們構(gòu)建了一個(gè)嚴(yán)格的質(zhì)量控制流程,使用 InsightFace 確保大多數(shù)幀中出現(xiàn)兩張人臉,使用音頻分離分離音頻并確保只有一兩個(gè)說(shuō)話者,使用光流過(guò)濾過(guò)度運(yùn)動(dòng),并使用 Sync-C 分?jǐn)?shù)將音頻與人臉配對(duì)。該流程最終產(chǎn)生了總共12小時(shí)的高質(zhì)量雙人數(shù)據(jù),與之前的方法相比數(shù)量較少。由于AnyTalker 的 AFCA 設(shè)計(jì)本身支持多身份輸入,雙人數(shù)據(jù)以與第一階段拼接數(shù)據(jù)相同的格式輸入模型,無(wú)需額外處理。

總結(jié)來(lái)說(shuō),單人數(shù)據(jù)訓(xùn)練過(guò)程增強(qiáng)了模型的唇同步能力和生成質(zhì)量,同時(shí)也學(xué)習(xí)了多人說(shuō)話模式。隨后,輕量級(jí)的多人數(shù)據(jù)微調(diào)彌補(bǔ)了單人數(shù)據(jù)無(wú)法完全覆蓋的多人之間的真實(shí)交互。

交互性評(píng)估

但現(xiàn)有的單人說(shuō)話頭生成評(píng)估基準(zhǔn)不足以評(píng)估角色之間的自然交互。盡管 InterActHuman 引入了一個(gè)相關(guān)Benchmark,但其測(cè)試集僅限于單個(gè)說(shuō)話者的場(chǎng)景,不利于評(píng)估多個(gè)角色之間的交互。為了填補(bǔ)這一空白,我們精心構(gòu)建了一組包含兩個(gè)不同說(shuō)話者的視頻用于評(píng)估互動(dòng)性。

圖4: 來(lái)自InteractiveEyes的兩個(gè)視頻片段,帶有運(yùn)動(dòng)分?jǐn)?shù)(單位為像素):左顯示原始視頻,右顯示裁剪后的面部和眼部關(guān)鍵點(diǎn)。將頭轉(zhuǎn)向演講者或揚(yáng)起眉毛將增加運(yùn)動(dòng)和交互性;持續(xù)的靜止使兩個(gè)分?jǐn)?shù)都保持低水平。圖4: 來(lái)自InteractiveEyes的兩個(gè)視頻片段,帶有運(yùn)動(dòng)分?jǐn)?shù)(單位為像素):左顯示原始視頻,右顯示裁剪后的面部和眼部關(guān)鍵點(diǎn)。將頭轉(zhuǎn)向演講者或揚(yáng)起眉毛將增加運(yùn)動(dòng)和交互性;持續(xù)的靜止使兩個(gè)分?jǐn)?shù)都保持低水平。

數(shù)據(jù)集構(gòu)建

我們選擇具有交互性的雙人視頻構(gòu)建視頻數(shù)據(jù)集,命名為 InteractiveEyes。圖4展示了其中的兩個(gè)片段。每個(gè)視頻時(shí)長(zhǎng)約為10秒,整個(gè)片段中始終包含兩個(gè)角色。此外,通過(guò)細(xì)致的人工處理,我們對(duì)每個(gè)視頻的音頻進(jìn)行分段,確保大多數(shù)視頻同時(shí)囊括兩人說(shuō)話和傾聽(tīng)的場(chǎng)景,如圖5所示。我們還確保每個(gè)視頻包含相互凝視和頭部動(dòng)作的實(shí)例,以提供真實(shí)的參考。

圖5: 每個(gè)角色的傾聽(tīng)和說(shuō)話時(shí)間段圖5: 每個(gè)角色的傾聽(tīng)和說(shuō)話時(shí)間段

提出的交互性指標(biāo)

除了數(shù)據(jù)集,我們還引入了一種新的指標(biāo),即 eye-focused Interactivity,用于評(píng)估說(shuō)話者和傾聽(tīng)者之間的自然交互。由于眼神交流是對(duì)話情境中的基本且自發(fā)的行為,我們將其作為交互性的關(guān)鍵參考。受 CyberHost中使用的 Hand Keypoint Variance(HKV)指標(biāo)啟發(fā),我們通過(guò)跟蹤眼關(guān)鍵點(diǎn)的運(yùn)動(dòng)幅度來(lái)提出一種定量評(píng)估交互性的方法。為此,我們?cè)谏蓭刑崛∪四槍?duì)齊的眼關(guān)鍵點(diǎn)序列,其中 S  表示幀序列,E  表示眼關(guān)鍵點(diǎn)。運(yùn)動(dòng)(Motion)計(jì)算如下:

其中,i  和 j 分別表示眼關(guān)鍵點(diǎn)索引和幀索引,,j表示每幀中的眼關(guān)鍵點(diǎn)。該公式直觀地計(jì)算了眼區(qū)域的位移和旋轉(zhuǎn)。我們隨后在傾聽(tīng)期間計(jì)算運(yùn)動(dòng)。原因是,大多數(shù)生成方法在激活說(shuō)話者時(shí)表現(xiàn)良好,但傾聽(tīng)者往往顯得僵硬。因此,在傾聽(tīng)期間進(jìn)行評(píng)估更具針對(duì)性和價(jià)值。每個(gè)人說(shuō)話和傾聽(tīng)的時(shí)段長(zhǎng)度如圖5所示,分別記為 。為了量化傾聽(tīng)者的響應(yīng)積極性,我們計(jì)算傾聽(tīng)階段 和 的平均運(yùn)動(dòng)強(qiáng)度:

該指標(biāo)有效衡量了生成的多角色視頻中的交互性。如圖4所示,所提出的指標(biāo)與人類感知高度一致:靜態(tài)或緩慢的眼部運(yùn)動(dòng)會(huì)得到較低的運(yùn)動(dòng)分?jǐn)?shù),而頭部轉(zhuǎn)動(dòng)和眉毛上揚(yáng)會(huì)提高分?jǐn)?shù),從而表示更高的交互性。

實(shí)驗(yàn)

數(shù)據(jù)集。我們擴(kuò)展了常用單人訓(xùn)練數(shù)據(jù)集并加入了網(wǎng)絡(luò)收集的數(shù)據(jù),第一階段訓(xùn)練總共約1,000小時(shí),第二階段訓(xùn)練收集雙人對(duì)話片段,過(guò)濾后僅保留約12小時(shí)。評(píng)估在兩個(gè)基準(zhǔn)上進(jìn)行:(i)標(biāo)準(zhǔn)說(shuō)話頭基準(zhǔn) HDTF 和 VFHQ,以及(ii)我們自行收集的多人對(duì)話數(shù)據(jù)集(包含頭部和身體,兩個(gè)角色都說(shuō)話)。我們從每個(gè)基準(zhǔn)中隨機(jī)選擇20個(gè)視頻,嚴(yán)格確保其身份未出現(xiàn)在訓(xùn)練集中。

實(shí)現(xiàn)細(xì)節(jié)。為了全面評(píng)估我們的方法,我們訓(xùn)練了兩種不同規(guī)模的模型:Wan2.1-1.3B-Inp 和 Wan2.1-I2V-14B,它們作為我們實(shí)驗(yàn)的基礎(chǔ)視頻擴(kuò)散模型。在所有階段,文本、音頻和圖像編碼器以及3D VAE 保持凍結(jié),DiT 主網(wǎng)絡(luò)(包括新增的 AFCA 層)的所有參數(shù)均開(kāi)放訓(xùn)練。第一階段以 2×10−5的學(xué)習(xí)率進(jìn)行預(yù)訓(xùn)練;第二階段以 5×10−6的學(xué)習(xí)率進(jìn)行微調(diào),使用 AdamW 優(yōu)化器,在32塊 NVIDIA H200 GPU 上進(jìn)行訓(xùn)練。

評(píng)估指標(biāo)。對(duì)于單人 Benchmark,我們采用多種常用指標(biāo):Fréchet Inception Distance(FID)和 Fréchet Video Distance(FVD)用于評(píng)估生成數(shù)據(jù)的質(zhì)量,Sync-C 用于衡量音頻與唇動(dòng)的同步性,以及第一幀與剩余幀之間的身份相似度。對(duì)于多人 Benchmark,我們從不同維度進(jìn)行評(píng)估。新引入的指標(biāo) Interactivity 作為主要評(píng)估指標(biāo)。對(duì)于 FVD 指標(biāo),計(jì)算方式與單人基準(zhǔn)類似。對(duì)于 Sync-C 指標(biāo),我們將其細(xì)化為 Sync-C*,僅關(guān)注每個(gè)角色說(shuō)話期間的唇同步,從而避免長(zhǎng)時(shí)間傾聽(tīng)段落對(duì)最終唇同步得分的影響,具體公式為:

其中,和 表示圖5中展示的說(shuō)話時(shí)間段。

對(duì)比方法。我們與幾種最先進(jìn)的說(shuō)話視頻生成方法進(jìn)行比較。對(duì)于單人生成,我們與 AniPortrait、EchoMimic 、Hallo3、Sonic、FantasyTalking、StableAvatar、OmniHuman-1.5 和 MultiTalk進(jìn)行比較。對(duì)于多人生成,我們選擇 Bind-Your-Avatar和 MultiTalk進(jìn)行定量和定性比較。

與 SOTA 方法對(duì)比

定量對(duì)比。首先,我們與幾種單人生成方法進(jìn)行比較,以驗(yàn)證其出色的單人驅(qū)動(dòng)能力。定量結(jié)果如表1所示。盡管 AnyTalker 并非專門(mén)為驅(qū)動(dòng)說(shuō)話面孔而設(shè)計(jì),但它在所有指標(biāo)上均取得了最佳或具有競(jìng)爭(zhēng)力的結(jié)果。此外,AnyTalker 的1.3B模型在唇同步方面顯著優(yōu)于 AniPortrait、EchoMimic 和 StableAvatar,盡管它們具有相似數(shù)量的參數(shù)。這些結(jié)果證明了 AnyTalker 框架出色且全面的驅(qū)動(dòng)能力。

隨后,我們使用多人數(shù)據(jù)集 InteractiveEyes 及相關(guān)指標(biāo)評(píng)估 AnyTalker 在驅(qū)動(dòng)多個(gè)身份時(shí)保持準(zhǔn)確唇同步和自然交互性的能力。在此對(duì)比中,我們將 AnyTalker 與現(xiàn)有的開(kāi)源多人驅(qū)動(dòng)方法 MultiTalk 和 Bind-Your-Avatar 進(jìn)行對(duì)比。表2中的結(jié)果顯示,AnyTalker 的1.3B和14B模型在 Interactivity 指標(biāo)上均取得了最佳性能。此外,14B模型在所有指標(biāo)上均取得了最佳結(jié)果,從而驗(yàn)證了我們提出的訓(xùn)練流程的有效性。我們還通過(guò)定量評(píng)估展示了 AnyTalker 生成富含交互性的視頻的能力。

定性對(duì)比。我們從 InteractiveEyes 數(shù)據(jù)集中選擇一個(gè)真實(shí)人類輸入,并使用一個(gè)由 AIGC 模型生成的輸入,兩者均附帶相應(yīng)的文本提示和雙音頻流,使用 Bind-Your-Avatar、MultiTalk 和 AnyTalker 進(jìn)行定量評(píng)估對(duì)比。如圖6所示,AnyTalker 相比其他方法生成了更自然的視頻,具有眼神和頭部互動(dòng)。MultiTalk 表現(xiàn)出較弱的眼神互動(dòng),而 Bind-Your-Avatar 往往產(chǎn)生更僵硬的表情。這一趨勢(shì)進(jìn)一步驗(yàn)證了我們提出的 Interactivity 指標(biāo)的有效性。AnyTalker 不僅能生成自然的雙人互動(dòng)說(shuō)話場(chǎng)景,還能很好地?cái)U(kuò)展到多個(gè)身份,如圖1所示,它能有效處理四個(gè)身份之間的互動(dòng)。

圖 6: 多種多人驅(qū)動(dòng)方法的定性比較。使用相同的文本提示、參考圖像和多個(gè)音頻流作為輸入,我們比較了 Bind-Your-Avatar、MultiTalk和AnyTalker的生成結(jié)果。左側(cè)案例使用輸入圖像來(lái)自InteractiveEyes數(shù)據(jù)集,而右邊使用文生圖模型生成的圖像自作為輸入。圖 6: 多種多人驅(qū)動(dòng)方法的定性比較。使用相同的文本提示、參考圖像和多個(gè)音頻流作為輸入,我們比較了 Bind-Your-Avatar、MultiTalk和AnyTalker的生成結(jié)果。左側(cè)案例使用輸入圖像來(lái)自InteractiveEyes數(shù)據(jù)集,而右邊使用文生圖模型生成的圖像自作為輸入。圖 7: 更多由AnyTalker生成的視頻結(jié)果圖 7: 更多由AnyTalker生成的視頻結(jié)果

結(jié)論

在本文中,我們介紹了 AnyTalker,一個(gè)用于生成多人說(shuō)話視頻的音頻驅(qū)動(dòng)框架。它提出了一種可擴(kuò)展的多流處理結(jié)構(gòu),稱為 Audio-Face Cross Attention,能夠在保證跨身份無(wú)縫交互的同時(shí)實(shí)現(xiàn)身份擴(kuò)展。我們進(jìn)一步提出了一種可泛化的訓(xùn)練策略,通過(guò)基于拼接的增強(qiáng)最大化地利用單人數(shù)據(jù)來(lái)學(xué)習(xí)多人說(shuō)話模式。此外,我們提出了第一個(gè)交互性評(píng)估指標(biāo)和一個(gè)專門(mén)的數(shù)據(jù)集,用于全面評(píng)估交互性。大量實(shí)驗(yàn)表明,AnyTalker 在唇形同步、身份可擴(kuò)展性和交互性之間取得了良好的平衡。

參考文獻(xiàn)

[1] AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

       原文標(biāo)題 : 港科大等提出音頻驅(qū)動(dòng)多人視頻生成新范式 AnyTalker,解鎖任意數(shù)量角色間的自然互動(dòng)!

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)