123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

港科大等提出音頻驅(qū)動多人視頻生成新范式 AnyTalker，解鎖任意數(shù)量角色間的自然互動！

2025-12-04 14:48

作者：Zhizhou Zhong等

解讀：AI生成未來

亮點(diǎn)直擊

可擴(kuò)展的多人驅(qū)動結(jié)構(gòu)：本文提出了一種可擴(kuò)展的多流處理結(jié)構(gòu) Audio-Face Cross Attention Layer，能夠以循環(huán)調(diào)用的方式驅(qū)動任意數(shù)量的角色，并確保各個角色之間自然的互動。

低成本多人說話模式訓(xùn)練方法：提出了一種新穎的兩階段訓(xùn)練流程，使模型先利用水平拼接的單人數(shù)據(jù)學(xué)習(xí)多人說話模式，再通過多人數(shù)據(jù)精調(diào)，以優(yōu)化生成視頻人物之間的互動性。

首個交互性評價新指標(biāo)：首次提出用于量化評估多人物交互性的全新度量指標(biāo)，并構(gòu)建配套的基準(zhǔn)數(shù)據(jù)集以進(jìn)行系統(tǒng)評估。

總結(jié)速覽

解決的問題

可擴(kuò)展性：部分方法在訓(xùn)練階段即為同一視頻中的人物分配固定標(biāo)記或路由順序，因而難以突破“雙人”的限制，生成超越兩個身份的自然交互視頻。

高訓(xùn)練成本：現(xiàn)有方法普遍依賴成本高昂的多人場景數(shù)據(jù)集開展訓(xùn)練；而多人場景因涵蓋話輪轉(zhuǎn)換、角色更替以及目光注視等非言語的復(fù)雜因素，導(dǎo)致數(shù)據(jù)采集與標(biāo)注成本高。

缺乏交互性的定量評估方法：多人視頻作為較新的領(lǐng)域，既往用于單人口型同步或視頻質(zhì)量的指標(biāo)，難以充分衡量多人場景下的多個角色之間互動自然度。

提出的方案/應(yīng)用的技術(shù)：

構(gòu)建可擴(kuò)展的多流處理結(jié)構(gòu)：為每對音頻與身份量身定制的交叉注意力模塊。將每對臉部 clip 圖像特征與Wav2Vec2 音頻特征在 sequence維度拼接，共同作為 K/V；計(jì)算后的注意力結(jié)果按展開成sequence的 face mask token進(jìn)行局部激活，僅修改對應(yīng)臉部區(qū)域。該運(yùn)算可每個“角色-音頻”對循環(huán)執(zhí)行，以支持任意人數(shù)。

提出低成本多人對話學(xué)習(xí)策略：一階段訓(xùn)練時，僅使用單人數(shù)據(jù)，以 50% 概率將兩條單人視頻水平拼接成“雙人對話”偽樣本，充分利用海量單人數(shù)據(jù)，讓模型快速習(xí)得多人說話范式。二階段利用少量的的真實(shí)多人數(shù)據(jù)優(yōu)化互動性。

首創(chuàng)交互性量化指標(biāo)：在沉默時段追蹤傾聽者眼部關(guān)鍵點(diǎn)位移幅度，以此衡量生成視頻的交互強(qiáng)度，實(shí)現(xiàn)多人互動效果的客觀評估。圖 1：AnyTalker是一個強(qiáng)大的音頻驅(qū)動多人視頻生成框架，它可以生成富含手勢、生動情感和交互性的視頻，并且可以自由地推廣到任數(shù)量的ID甚至非真人輸入。

圖 1：AnyTalker是一個強(qiáng)大的音頻驅(qū)動多人視頻生成框架，它可以生成富含手勢、生動情感和交互性的視頻，并且可以自由地推廣到任數(shù)量的ID甚至非真人輸入。

達(dá)到的效果：

突破可驅(qū)動人數(shù)的限制：無論輸入的是單段獨(dú)白還是多人對話，AnyTalker 都能自適應(yīng)匹配音頻與角色數(shù)量，一鍵生成自然流暢的多人說話視頻。

交互真實(shí)細(xì)膩：生成視頻中人物對視，挑眉、點(diǎn)頭等非語言動作自然流暢，面部表情隨語音節(jié)奏精準(zhǔn)呼應(yīng)，呈現(xiàn)高度逼真的多人互動場景，并在新提出的互動性 Benchmark 上表現(xiàn)遠(yuǎn)超過去所有方法。

準(zhǔn)確的口型同步：在 HDTF、VFHQ 兩大單說話人視頻 Benchmark上，AnyTalker 的 Sync-C 指標(biāo)領(lǐng)先；于本文新建的多人數(shù)據(jù)集，同樣保持優(yōu)勢。

方法圖2:（a）AnyTalker的架構(gòu)采用了一種新穎的多流音頻處理層Audio-Face Cross Attention Layer，能夠處理多個面部和音頻輸入。（b）AnyTalker的訓(xùn)練分為兩個階段：第一階段使用由單人數(shù)據(jù)和其混合而成的級聯(lián)多人數(shù)據(jù)來學(xué)習(xí)嘴唇動作；第二階段采用真實(shí)的多人數(shù)據(jù)來增強(qiáng)生成視頻中的交互性。（c）音頻人臉交叉注意的詳細(xì)實(shí)現(xiàn)，這是一種可循環(huán)調(diào)用的結(jié)構(gòu)，使用人臉掩碼對輸出應(yīng)用掩碼。

總覽

本文提出的 AnyTalker 整體框架如上圖所示。AnyTalker 繼承了 Wan I2V 模型的部分架構(gòu)組件。為了處理多音頻和身份輸入，引入了一種專門的多流處理結(jié)構(gòu)，稱為 Audio-Face Cross Attention（AFCA），并把整體的訓(xùn)練流程分為兩個階段。

作為一個基于 DiT 的模型，AnyTalker 通過 patchify 和 flatten 操作將3D VAE特征轉(zhuǎn)換為 token，而文本特征則由 T5 編碼器生成。此外，AnyTalker 繼承了 Reference Attention Layer，這是一種交叉注意力機(jī)制，利用 CLIP 圖像編碼器從視頻的第一幀提取特征。Wav2Vec2也被用于提取音頻特征。整體輸入特征可表示為：

Audio-Face Cross Attention

為了實(shí)現(xiàn)多人對話，模型必須能夠處理多路音頻輸入。潛在的解決方案可能包括 MultiTalk 中使用的 L-RoPE 技術(shù)，該技術(shù)為不同的音頻特征分配唯一的標(biāo)簽和偏置。然而，這些標(biāo)簽的范圍需要顯式定義，限制了其可擴(kuò)展性。因此，我們設(shè)計(jì)了一種更具可擴(kuò)展性的結(jié)構(gòu)，以可擴(kuò)展的方式驅(qū)動多個身份并實(shí)現(xiàn)精確控制。

如圖2(a)和(c)所示，我們引入了一種名為 Audio-Face Cross Attention（AFCA）的專用結(jié)構(gòu)，該結(jié)構(gòu)可以根據(jù)輸入的 face-audio 對數(shù)量循環(huán)執(zhí)行多次。如圖2(c)和公式(4)所示，它能夠靈活處理的多個不同的音頻和身份輸入，每次迭代的輸出相加得到最終的注意力輸出。

圖3:（a）通過定制的注意力mask建議視頻token到映射音頻token 的映射。每4個音頻 token綁定到1個視頻 token，第一個 token除外。（b）用于Audio-Face Cross Attention中輸出mask的token。

音頻 token 建模。我們使用 Wav2Vec2 對音頻特征進(jìn)行編碼。第一個潛在幀關(guān)注所有音頻 token，而每個后續(xù)潛在幀僅關(guān)注對應(yīng)于四個音頻 token 的局部時間窗口。視頻和音頻流之間的結(jié)構(gòu)化對齊通過施加時間注意力掩碼實(shí)現(xiàn)，如圖3(a)所示。此外，為了實(shí)現(xiàn)全面的信息整合，每個音頻 token 在 AFCA 計(jì)算中與由編碼的人臉 token 拼接。這種拼接使得所有視頻查詢 token 能夠有效關(guān)注不同的音頻和人臉信息對，計(jì)算如下：

其中，MHCA 表示多頭交叉注意力，W_K和 W_V分別表示鍵矩陣和值矩陣。注意力輸出 Attn_out將隨后由人臉掩碼 token 進(jìn)行調(diào)整，如公式(3)所述。

人臉 token 建模。人臉圖像通過在訓(xùn)練時在線裁剪所選視頻片段的第一幀并使用 InsightFace 獲得，而人臉掩碼則預(yù)先計(jì)算，覆蓋整個視頻中人臉的最大區(qū)域，即全局人臉邊界框。該掩碼確保面部動作不會超出此區(qū)域，防止在重塑和展平操作后錯誤激活視頻 token，特別是對于面部位移較大的視頻。該掩碼與具有相同的尺寸，可直接用于逐元素乘法計(jì)算 Audio-Face Cross Attention 輸出，公式如下：

因此，每個 I2V DiT 塊的隱藏狀態(tài) ，可表示為：

其中，i 表示注意力層的層索引，n 表示身份數(shù)量。注意，所有項(xiàng)都由具有共享參數(shù)的同一 AFCA 層產(chǎn)生。AFCA 計(jì)算被迭代應(yīng)用 n 次，每次對應(yīng)一個角色，該架構(gòu)可以任意擴(kuò)展可驅(qū)動身份的數(shù)量。

訓(xùn)練策略

AnyTalker 探索了利用單人數(shù)據(jù)學(xué)習(xí)多人說話模式的潛力，其中低成本單人數(shù)據(jù)構(gòu)成了訓(xùn)練數(shù)據(jù)的大部分。

單人數(shù)據(jù)預(yù)訓(xùn)練。我們使用標(biāo)準(zhǔn)單人數(shù)據(jù)和通過水平拼接生成的合成雙人數(shù)據(jù)訓(xùn)練模型。每個批次的數(shù)據(jù)以50%的概率隨機(jī)配置為雙人或單人模式，如圖2(b)所示。在雙人模式下，批次中的每個樣本與其下一個索引的數(shù)據(jù)及其對應(yīng)音頻進(jìn)行水平拼接。這種方法使得每個批次在兩種模式下的批量大小保持一致。此外，我們預(yù)定義了一些通用文本提示，用于描述雙人對話場景。

多人數(shù)據(jù)互動性優(yōu)化。在第二階段，我們使用少量真實(shí)多人數(shù)據(jù)對模型進(jìn)行微調(diào)，以增強(qiáng)不同身份之間的交互性。盡管我們的訓(xùn)練數(shù)據(jù)僅包含兩個身份之間的交互，但我們驚訝地發(fā)現(xiàn)，配備 AFCA 模塊的模型能夠自然地泛化到超過兩個身份的場景，如圖1所示。我們推測，這是因?yàn)?AFCA 機(jī)制使得模型能夠?qū)W習(xí)人類交互的通用模式，包括不僅準(zhǔn)確地對音頻進(jìn)行唇同步，還包括對其他身份說話行為的傾聽和響應(yīng)。

為了構(gòu)建高質(zhì)量的多人訓(xùn)練數(shù)據(jù)，我們構(gòu)建了一個嚴(yán)格的質(zhì)量控制流程，使用 InsightFace 確保大多數(shù)幀中出現(xiàn)兩張人臉，使用音頻分離分離音頻并確保只有一兩個說話者，使用光流過濾過度運(yùn)動，并使用 Sync-C 分?jǐn)?shù)將音頻與人臉配對。該流程最終產(chǎn)生了總共12小時的高質(zhì)量雙人數(shù)據(jù)，與之前的方法相比數(shù)量較少。由于AnyTalker 的 AFCA 設(shè)計(jì)本身支持多身份輸入，雙人數(shù)據(jù)以與第一階段拼接數(shù)據(jù)相同的格式輸入模型，無需額外處理。

總結(jié)來說，單人數(shù)據(jù)訓(xùn)練過程增強(qiáng)了模型的唇同步能力和生成質(zhì)量，同時也學(xué)習(xí)了多人說話模式。隨后，輕量級的多人數(shù)據(jù)微調(diào)彌補(bǔ)了單人數(shù)據(jù)無法完全覆蓋的多人之間的真實(shí)交互。

交互性評估

但現(xiàn)有的單人說話頭生成評估基準(zhǔn)不足以評估角色之間的自然交互。盡管 InterActHuman 引入了一個相關(guān)Benchmark，但其測試集僅限于單個說話者的場景，不利于評估多個角色之間的交互。為了填補(bǔ)這一空白，我們精心構(gòu)建了一組包含兩個不同說話者的視頻用于評估互動性。

圖4: 來自InteractiveEyes的兩個視頻片段，帶有運(yùn)動分?jǐn)?shù)（單位為像素）：左顯示原始視頻，右顯示裁剪后的面部和眼部關(guān)鍵點(diǎn)。將頭轉(zhuǎn)向演講者或揚(yáng)起眉毛將增加運(yùn)動和交互性；持續(xù)的靜止使兩個分?jǐn)?shù)都保持低水平。

數(shù)據(jù)集構(gòu)建

我們選擇具有交互性的雙人視頻構(gòu)建視頻數(shù)據(jù)集，命名為 InteractiveEyes。圖4展示了其中的兩個片段。每個視頻時長約為10秒，整個片段中始終包含兩個角色。此外，通過細(xì)致的人工處理，我們對每個視頻的音頻進(jìn)行分段，確保大多數(shù)視頻同時囊括兩人說話和傾聽的場景，如圖5所示。我們還確保每個視頻包含相互凝視和頭部動作的實(shí)例，以提供真實(shí)的參考。

圖5: 每個角色的傾聽和說話時間段

提出的交互性指標(biāo)

除了數(shù)據(jù)集，我們還引入了一種新的指標(biāo)，即 eye-focused Interactivity，用于評估說話者和傾聽者之間的自然交互。由于眼神交流是對話情境中的基本且自發(fā)的行為，我們將其作為交互性的關(guān)鍵參考。受 CyberHost中使用的 Hand Keypoint Variance（HKV）指標(biāo)啟發(fā)，我們通過跟蹤眼關(guān)鍵點(diǎn)的運(yùn)動幅度來提出一種定量評估交互性的方法。為此，我們在生成幀中提取人臉對齊的眼關(guān)鍵點(diǎn)序列，其中 S 表示幀序列，E 表示眼關(guān)鍵點(diǎn)。運(yùn)動（Motion）計(jì)算如下：

其中，i 和 j 分別表示眼關(guān)鍵點(diǎn)索引和幀索引，,j表示每幀中的眼關(guān)鍵點(diǎn)。該公式直觀地計(jì)算了眼區(qū)域的位移和旋轉(zhuǎn)。我們隨后在傾聽期間計(jì)算運(yùn)動。原因是，大多數(shù)生成方法在激活說話者時表現(xiàn)良好，但傾聽者往往顯得僵硬。因此，在傾聽期間進(jìn)行評估更具針對性和價值。每個人說話和傾聽的時段長度如圖5所示，分別記為。為了量化傾聽者的響應(yīng)積極性，我們計(jì)算傾聽階段和的平均運(yùn)動強(qiáng)度：

該指標(biāo)有效衡量了生成的多角色視頻中的交互性。如圖4所示，所提出的指標(biāo)與人類感知高度一致：靜態(tài)或緩慢的眼部運(yùn)動會得到較低的運(yùn)動分?jǐn)?shù)，而頭部轉(zhuǎn)動和眉毛上揚(yáng)會提高分?jǐn)?shù)，從而表示更高的交互性。

實(shí)驗(yàn)

數(shù)據(jù)集。我們擴(kuò)展了常用單人訓(xùn)練數(shù)據(jù)集并加入了網(wǎng)絡(luò)收集的數(shù)據(jù)，第一階段訓(xùn)練總共約1,000小時，第二階段訓(xùn)練收集雙人對話片段，過濾后僅保留約12小時。評估在兩個基準(zhǔn)上進(jìn)行：（i）標(biāo)準(zhǔn)說話頭基準(zhǔn) HDTF 和 VFHQ，以及（ii）我們自行收集的多人對話數(shù)據(jù)集（包含頭部和身體，兩個角色都說話）。我們從每個基準(zhǔn)中隨機(jī)選擇20個視頻，嚴(yán)格確保其身份未出現(xiàn)在訓(xùn)練集中。

實(shí)現(xiàn)細(xì)節(jié)。為了全面評估我們的方法，我們訓(xùn)練了兩種不同規(guī)模的模型：Wan2.1-1.3B-Inp 和 Wan2.1-I2V-14B，它們作為我們實(shí)驗(yàn)的基礎(chǔ)視頻擴(kuò)散模型。在所有階段，文本、音頻和圖像編碼器以及3D VAE 保持凍結(jié)，DiT 主網(wǎng)絡(luò)（包括新增的 AFCA 層）的所有參數(shù)均開放訓(xùn)練。第一階段以 2×10−5的學(xué)習(xí)率進(jìn)行預(yù)訓(xùn)練；第二階段以 5×10−6的學(xué)習(xí)率進(jìn)行微調(diào)，使用 AdamW 優(yōu)化器，在32塊 NVIDIA H200 GPU 上進(jìn)行訓(xùn)練。

評估指標(biāo)。對于單人 Benchmark，我們采用多種常用指標(biāo)：Fréchet Inception Distance（FID）和 Fréchet Video Distance（FVD）用于評估生成數(shù)據(jù)的質(zhì)量，Sync-C 用于衡量音頻與唇動的同步性，以及第一幀與剩余幀之間的身份相似度。對于多人 Benchmark，我們從不同維度進(jìn)行評估。新引入的指標(biāo) Interactivity 作為主要評估指標(biāo)。對于 FVD 指標(biāo)，計(jì)算方式與單人基準(zhǔn)類似。對于 Sync-C 指標(biāo)，我們將其細(xì)化為 Sync-C*，僅關(guān)注每個角色說話期間的唇同步，從而避免長時間傾聽段落對最終唇同步得分的影響，具體公式為：

其中，和表示圖5中展示的說話時間段。

對比方法。我們與幾種最先進(jìn)的說話視頻生成方法進(jìn)行比較。對于單人生成，我們與 AniPortrait、EchoMimic 、Hallo3、Sonic、FantasyTalking、StableAvatar、OmniHuman-1.5 和 MultiTalk進(jìn)行比較。對于多人生成，我們選擇 Bind-Your-Avatar和 MultiTalk進(jìn)行定量和定性比較。

與 SOTA 方法對比

定量對比。首先，我們與幾種單人生成方法進(jìn)行比較，以驗(yàn)證其出色的單人驅(qū)動能力。定量結(jié)果如表1所示。盡管 AnyTalker 并非專門為驅(qū)動說話面孔而設(shè)計(jì)，但它在所有指標(biāo)上均取得了最佳或具有競爭力的結(jié)果。此外，AnyTalker 的1.3B模型在唇同步方面顯著優(yōu)于 AniPortrait、EchoMimic 和 StableAvatar，盡管它們具有相似數(shù)量的參數(shù)。這些結(jié)果證明了 AnyTalker 框架出色且全面的驅(qū)動能力。

隨后，我們使用多人數(shù)據(jù)集 InteractiveEyes 及相關(guān)指標(biāo)評估 AnyTalker 在驅(qū)動多個身份時保持準(zhǔn)確唇同步和自然交互性的能力。在此對比中，我們將 AnyTalker 與現(xiàn)有的開源多人驅(qū)動方法 MultiTalk 和 Bind-Your-Avatar 進(jìn)行對比。表2中的結(jié)果顯示，AnyTalker 的1.3B和14B模型在 Interactivity 指標(biāo)上均取得了最佳性能。此外，14B模型在所有指標(biāo)上均取得了最佳結(jié)果，從而驗(yàn)證了我們提出的訓(xùn)練流程的有效性。我們還通過定量評估展示了 AnyTalker 生成富含交互性的視頻的能力。

定性對比。我們從 InteractiveEyes 數(shù)據(jù)集中選擇一個真實(shí)人類輸入，并使用一個由 AIGC 模型生成的輸入，兩者均附帶相應(yīng)的文本提示和雙音頻流，使用 Bind-Your-Avatar、MultiTalk 和 AnyTalker 進(jìn)行定量評估對比。如圖6所示，AnyTalker 相比其他方法生成了更自然的視頻，具有眼神和頭部互動。MultiTalk 表現(xiàn)出較弱的眼神互動，而 Bind-Your-Avatar 往往產(chǎn)生更僵硬的表情。這一趨勢進(jìn)一步驗(yàn)證了我們提出的 Interactivity 指標(biāo)的有效性。AnyTalker 不僅能生成自然的雙人互動說話場景，還能很好地?cái)U(kuò)展到多個身份，如圖1所示，它能有效處理四個身份之間的互動。

圖 6: 多種多人驅(qū)動方法的定性比較。使用相同的文本提示、參考圖像和多個音頻流作為輸入，我們比較了 Bind-Your-Avatar、MultiTalk和AnyTalker的生成結(jié)果。左側(cè)案例使用輸入圖像來自InteractiveEyes數(shù)據(jù)集，而右邊使用文生圖模型生成的圖像自作為輸入。圖 7: 更多由AnyTalker生成的視頻結(jié)果

結(jié)論

在本文中，我們介紹了 AnyTalker，一個用于生成多人說話視頻的音頻驅(qū)動框架。它提出了一種可擴(kuò)展的多流處理結(jié)構(gòu)，稱為 Audio-Face Cross Attention，能夠在保證跨身份無縫交互的同時實(shí)現(xiàn)身份擴(kuò)展。我們進(jìn)一步提出了一種可泛化的訓(xùn)練策略，通過基于拼接的增強(qiáng)最大化地利用單人數(shù)據(jù)來學(xué)習(xí)多人說話模式。此外，我們提出了第一個交互性評估指標(biāo)和一個專門的數(shù)據(jù)集，用于全面評估交互性。大量實(shí)驗(yàn)表明，AnyTalker 在唇形同步、身份可擴(kuò)展性和交互性之間取得了良好的平衡。

參考文獻(xiàn)

[1] AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

原文標(biāo)題 : 港科大等提出音頻驅(qū)動多人視頻生成新范式 AnyTalker，解鎖任意數(shù)量角色間的自然互動！

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報(bào)。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報(bào)名>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評選
4日10日
立即報(bào)名>> OFweek 2026（第十五屆）中國機(jī)器人產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術(shù)峰會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

日本黄色网站无马赛克免费看亚洲福利精品亚洲乱码日产精品BD 国产99视频精品免视看7