訂閱
糾錯
加入自媒體

ICLR 2026 | DragFlow 讓DiT也能“指哪打哪”:基于區(qū)域監(jiān)督的拖拽式圖像編輯新SOTA

作者:Zihan Zhou,Shilin Lu等

解讀:AI生成未來

亮點直擊

首個基于 Diffusion Transformer(DiT)架構(gòu)量身打造的圖像精確區(qū)域編輯框架。

研究團(tuán)隊摒棄了傳統(tǒng)的“逐點追蹤”思路,創(chuàng)新性地使用“區(qū)域仿射監(jiān)督”范式,充分釋放了 FLUX.1 這類先進(jìn) DiT 模型的強(qiáng)大先驗?zāi)芰Α?/p>

針對以往方法在復(fù)雜場景下的失真問題,該方法建立了圖像拖拽編輯的新標(biāo)桿。

為什么 DiT 時代的拖拽編輯需要新范式?

拖拽式圖像編輯(Drag-based Image Editing)允許用戶通過簡單的“拖點”交互,實現(xiàn)對圖像內(nèi)容的精準(zhǔn)操控,通過提供直接的空間位置干預(yù),該方法在編輯控制性上遠(yuǎn)超文本引導(dǎo)。然而,現(xiàn)有方法大多基于 UNet 架構(gòu)基礎(chǔ)模型,如 Stable Diffusion (SD),普遍存在兩大瓶頸:

先驗?zāi)芰Σ蛔悖篠D 生成先驗較弱,優(yōu)化后的潛在向量(Latent)常常偏離真實圖像流形,使編輯后圖像出現(xiàn)扭曲、模糊等失真?zhèn)斡埃?/p>

架構(gòu)不匹配:隨著 DiT 架構(gòu)模型(如 FLUX)成為當(dāng)前視覺生成主流,其強(qiáng)大的生成先驗為解決失真問題帶來了曙光。但我們發(fā)現(xiàn),將傳統(tǒng)拖拽策略遷移到 DiT 架構(gòu)上難以帶來直接有效的性能提升。

研究結(jié)果認(rèn)為問題的根源在于 UNet 與 DiT 網(wǎng)絡(luò)層的特征圖粒度存在本質(zhì)差異:

通過可視化(如下圖)可以發(fā)現(xiàn),UNet 的特征多是模糊的語義團(tuán)塊,這意味著我們即使在 UNet 使用“點”級別操作,依舊可以有效干預(yù)周遭語義信息;而相比之下縮放到同樣大小的 DiT 特征卻能夠清晰勾勒出物體的精細(xì)輪廓,如果依舊對后者進(jìn)行“點”級別的追蹤和約束,將難以有效帶動區(qū)域特征編輯,如同盲人摸象。

提出的解決方案:DragFlow 編輯框架

為了攻克這一難題,我們提出了 DragFlow,一個專為 DiT 設(shè)計的 基于區(qū)域監(jiān)督的 (region-based) 精確編輯框架。其核心創(chuàng)新包括:

區(qū)域級仿射監(jiān)督 (Region-Level Affine Supervision):用整體區(qū)域的仿射變換替代脆弱的單點追蹤,為 DiT 提供更豐富、更穩(wěn)定的監(jiān)督信號,從根本上解決了特征不匹配問題,并最大化消除了點操作固有的交互歧義;

適配器增強(qiáng)的反演 (Adapter-Enhanced Inversion):集成預(yù)訓(xùn)練的 IP-Adapter 等特征提取與適配器,通過額外注入 ID Embedding 顯著提升在 CFG-distilled 模型(如 FLUX.1)上的主體一致性與反演保真度;

硬約束背景保持 (Hard-Constrained Background Preservation):摒棄使用掩碼損失函數(shù) (Mask Loss) 的經(jīng)典方案,通過自適應(yīng)梯度掩碼(Gradient Mask)對背景非編輯區(qū)域施加硬性保護(hù),徹底避免了背景污染問題。

多模態(tài)大語言模型 (MLLM) 輔助交互:利用 MLLM 先行分析、理解用戶意圖,生成供用戶選擇的編輯提示詞和操作類型(如平移、形變、旋轉(zhuǎn)),提升交互精度并最大化減少用戶操作負(fù)擔(dān)。

DragFlow 的完整框架如下圖所示,它整合了 MLLM 輔助交互、IP-Adapter ID注入、Key & Value Caching,以及核心部分基于仿射的區(qū)域拖拽優(yōu)化工作流。

方法詳解 | DragFlow:區(qū)域為王,精準(zhǔn)掌控

DragFlow 的設(shè)計初衷是:將拖拽視為區(qū)域的整體變換,而非孤立點的位移。這套全新的范式,從監(jiān)督方式、背景處理到身份保持,都為 DiT 的特性進(jìn)行了深度定制。

① 區(qū)域級仿射監(jiān)督:告別“點追蹤”的煩惱

DragFlow 的核心是創(chuàng)新的區(qū)域級監(jiān)督策略。它不再依賴于在每一步迭代中追蹤手柄點的位置坐標(biāo),而是將用戶指定的源區(qū)域(Source Region)作為一個整體,通過仿射變換逐步“移動”到目標(biāo)位置。

1. 迭代式潛在向量優(yōu)化 (Iterative Latent Optimization)

整個拖拽過程通過優(yōu)化噪聲化的潛在向量  來實現(xiàn)。優(yōu)化的目標(biāo)是讓經(jīng)過仿射變換后的目標(biāo)區(qū)域  的特征,與優(yōu)化開始前源區(qū)域  的特征保持一致。

損失函數(shù)設(shè)計如下:

其中:

 是從 DiT 中間層提取的特征。我們發(fā)現(xiàn),DiT 的第 17 和 18 雙流塊(Double-stream Blocks)最適合用于拖拽優(yōu)化。 是用戶指定的源區(qū)域掩碼,而  是在第 k 次迭代中,通過仿射變換計算出的目標(biāo)區(qū)域掩碼。 表示 Stop-gradient,確保梯度只流向待優(yōu)化的 。

2. 仿射變換驅(qū)動的掩碼傳播 (Affine Transformation for Mask Propagation)

目標(biāo)掩碼  由源掩碼  經(jīng)過一個逐步變化的仿射變換  得到。變換參數(shù)  根據(jù)編輯類型(平移、形變或旋轉(zhuǎn))和迭代步數(shù)  線性插值生成。

這種設(shè)計的兩大優(yōu)勢:

提供豐富的語義上下文:對整個區(qū)域的特征進(jìn)行匹配,相比單點特征,能為 DiT 提供更穩(wěn)定、更魯棒的梯度信號,有效避免局部最優(yōu)和偽影。消除追蹤需求:由于DragFlow通過漸進(jìn)式的幾何移動監(jiān)督區(qū)域,而不是追蹤內(nèi)容點,該方法從根本上避免了傳統(tǒng)方法中因追蹤失敗而導(dǎo)致的編輯鏈?zhǔn)奖罎栴},過程更加穩(wěn)定可靠。

② 背景與主體保真度:為 DiT 量身定制的策略

僅僅有好的監(jiān)督信號還不夠,在強(qiáng)大的 DiT 模型上,如何保持背景不變和主體身份一致,是更大的挑戰(zhàn),尤其是在有“反演漂移”問題的 CFG-distilled 模型上。

1. 背景保持:從“軟約束”到“硬隔離”傳統(tǒng)方法使用輔助損失項  來約束背景區(qū)域,但這在 DragFlow 中效果不佳,因為它會與拖拽損失  相互競爭,且對反演誤差敏感。

我們的方案是施加硬約束:在每次梯度更新后,直接將背景區(qū)域的潛在向量重置為原始未編輯分支的值:

其中:

 是包含所有編輯軌跡的背景掩碼。 則是來自一個純粹的重構(gòu)分支,代表了最保真的原始背景信息。 這種“硬隔離”方法雖然增加少量計算開銷,但效果遠(yuǎn)超軟約束,能實現(xiàn)近乎完美的背景保真度。

2. 主體一致性:適配器增強(qiáng)反演

傳統(tǒng)的鍵值注入(KV injection)在 FLUX 這類 CFG-distilled 模型上效果不佳。我們發(fā)現(xiàn),F(xiàn)LUX 的反演漂移問題比 SD 更嚴(yán)重(見下表)。

為此,我們引入了適配器增強(qiáng)反演:在反演和生成過程中,注入一個預(yù)訓(xùn)練好的開放域適配器(如 IP-Adapter)所提取的主體身份表征。這無需任何額外訓(xùn)練,就能顯著提升反演質(zhì)量和編輯后的主體一致性。

如下圖所示,通過額外在反演和取樣過程中加入 IP-Adapter Embedding 后,人物身份的保持效果遠(yuǎn)超單獨使用 KV 注入。

實驗 | 兩大基準(zhǔn)測試,全面 SOTA

為了全面評估 DragFlow,我們構(gòu)建了一個新的區(qū)域級拖拽基準(zhǔn) **ReD Bench**,它包含更豐富的區(qū)域-區(qū)域?qū)?yīng)、任務(wù)類型標(biāo)簽(平移、形變、旋轉(zhuǎn))和意圖描述。同時,我們也在現(xiàn)有的 DragBench-DR 上進(jìn)行了兼容測試。

定量分析

如 Table 2 所示,DragFlow 在基于兩大基準(zhǔn)的多個指標(biāo)上取得了最佳表現(xiàn):

**平均距離 (Mean Distance (MD))**:DragFlow 取得了最低的  和 ,這兩套  評估標(biāo)準(zhǔn)分別來源現(xiàn)有的 “點拖拽” 與 “塊拖拽” 方法,該結(jié)果意味著 DragFlow 的編輯結(jié)果與用戶指令的空間對齊精度達(dá)到了最高。**圖像保真度 (Image Fidelity (IF))**:DragFlow 在背景保真度()、源區(qū)塊到目標(biāo)區(qū)塊的內(nèi)容保真度()以及拖拽前后源區(qū)塊的內(nèi)容區(qū)分度()上名列前茅,證明了其在精準(zhǔn)編輯指定區(qū)域的同時,能最大程度保留圖像質(zhì)量和主體特征。

定性分析

下圖展示了 DragFlow 與其他現(xiàn)有方法的視覺定性比較。無論是復(fù)雜的結(jié)構(gòu)(建筑),非剛性形變(動物),還是精細(xì)內(nèi)容(鉆井平臺),DragFlow 都能精準(zhǔn)地執(zhí)行拖拽指令,同時保持場景的整體連貫性和真實質(zhì)感。相比之下,其他現(xiàn)有方法或伴隨嚴(yán)重結(jié)構(gòu)扭曲、變換失敗、或意圖誤解等失敗情況出現(xiàn)。

消融實驗

我們通過逐一添加 DragFlow 的核心組件來驗證其有效性。結(jié)果(見 Table 3 和 Figure 6)清晰地表明:

從點基線切換到區(qū)域級仿射監(jiān)督,MD 指標(biāo)大幅降低 (51.21 -> 31.26),證明了區(qū)域監(jiān)督的優(yōu)越性;加入背景保持模塊后, 從 0.757 飆升至 0.925,背景質(zhì)量顯著提升;最后引入適配器增強(qiáng)反演, 進(jìn)一步提升,主體一致性得到加強(qiáng),同時 MD 也降至最低 (20.15)。

定性分析(如下圖)展示了各項消融操作的前后效果對比:

同時,消融實驗中使用的多項量化指標(biāo)也證實了 DragFlow 的各組件都是不可或缺且協(xié)同增效的:

總結(jié) | DragFlow 開啟 DiT 精確編輯新紀(jì)元

DragFlow 是拖拽式編輯領(lǐng)域的一次范式革命,其貢獻(xiàn)與優(yōu)勢可總結(jié)為:

首創(chuàng) DiT 拖拽框架: 首次成功將拖拽式編輯的能力從 UNet 遷移并適配到更強(qiáng)大的 DiT 架構(gòu)上,釋放了 FLUX 等模型的SOTA級生成先驗。區(qū)域監(jiān)督核心: 提出的“區(qū)域級仿射監(jiān)督”范式,用整體、魯棒的區(qū)域特征匹配替代了脆弱、稀疏的點特征追蹤,從根本上解決了 DiT 架構(gòu)下的編輯難題。系統(tǒng)性保真設(shè)計: 結(jié)合適配器增強(qiáng)反演與硬約束背景保持,為存在反演漂移的 CFG-distilled 模型提供了兼顧主體一致性與背景純凈度的完整解決方案。構(gòu)建新基準(zhǔn): 推出的 ReD Bench 為區(qū)域級拖拽編輯的研究提供了更全面、更貼近真實意圖的評估標(biāo)準(zhǔn)。

DragFlow 不僅在各項指標(biāo)上全面超越現(xiàn)有方法,更重要的是,它為如何利用新一代 DiT 生成架構(gòu)的強(qiáng)大先驗來進(jìn)行精細(xì)化、可控的圖像編輯,指明了一條清晰而有效的道路。

參考文獻(xiàn)

[1] DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

       原文標(biāo)題 : ICLR 2026 | DragFlow 讓DiT也能“指哪打哪”:基于區(qū)域監(jiān)督的拖拽式圖像編輯新SOTA

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號