123,123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

ICLR 2026 | DragFlow 讓DiT也能“指哪打哪”：基于區(qū)域監(jiān)督的拖拽式圖像編輯新SOTA

2026-03-09 17:19

作者：Zihan Zhou，Shilin Lu等

解讀：AI生成未來

亮點直擊

首個基于 Diffusion Transformer（DiT）架構(gòu)量身打造的圖像精確區(qū)域編輯框架。

研究團(tuán)隊摒棄了傳統(tǒng)的“逐點追蹤”思路，創(chuàng)新性地使用“區(qū)域仿射監(jiān)督”范式，充分釋放了 FLUX.1 這類先進(jìn) DiT 模型的強(qiáng)大先驗?zāi)芰Α?/p>

針對以往方法在復(fù)雜場景下的失真問題，該方法建立了圖像拖拽編輯的新標(biāo)桿。

為什么 DiT 時代的拖拽編輯需要新范式？

拖拽式圖像編輯（Drag-based Image Editing）允許用戶通過簡單的“拖點”交互，實現(xiàn)對圖像內(nèi)容的精準(zhǔn)操控，通過提供直接的空間位置干預(yù)，該方法在編輯控制性上遠(yuǎn)超文本引導(dǎo)。然而，現(xiàn)有方法大多基于 UNet 架構(gòu)基礎(chǔ)模型，如 Stable Diffusion (SD)，普遍存在兩大瓶頸：

先驗?zāi)芰Σ蛔悖篠D 生成先驗較弱，優(yōu)化后的潛在向量（Latent）常常偏離真實圖像流形，使編輯后圖像出現(xiàn)扭曲、模糊等失真?zhèn)斡埃?/p>

架構(gòu)不匹配：隨著 DiT 架構(gòu)模型（如 FLUX）成為當(dāng)前視覺生成主流，其強(qiáng)大的生成先驗為解決失真問題帶來了曙光。但我們發(fā)現(xiàn)，將傳統(tǒng)拖拽策略遷移到 DiT 架構(gòu)上難以帶來直接有效的性能提升。

研究結(jié)果認(rèn)為問題的根源在于 UNet 與 DiT 網(wǎng)絡(luò)層的特征圖粒度存在本質(zhì)差異：

通過可視化（如下圖）可以發(fā)現(xiàn)，UNet 的特征多是模糊的語義團(tuán)塊，這意味著我們即使在 UNet 使用“點”級別操作，依舊可以有效干預(yù)周遭語義信息；而相比之下縮放到同樣大小的 DiT 特征卻能夠清晰勾勒出物體的精細(xì)輪廓，如果依舊對后者進(jìn)行“點”級別的追蹤和約束，將難以有效帶動區(qū)域特征編輯，如同盲人摸象。

提出的解決方案：DragFlow 編輯框架

為了攻克這一難題，我們提出了 DragFlow，一個專為 DiT 設(shè)計的基于區(qū)域監(jiān)督的 (region-based) 精確編輯框架。其核心創(chuàng)新包括：

區(qū)域級仿射監(jiān)督 (Region-Level Affine Supervision)：用整體區(qū)域的仿射變換替代脆弱的單點追蹤，為 DiT 提供更豐富、更穩(wěn)定的監(jiān)督信號，從根本上解決了特征不匹配問題，并最大化消除了點操作固有的交互歧義；

適配器增強(qiáng)的反演 (Adapter-Enhanced Inversion)：集成預(yù)訓(xùn)練的 IP-Adapter 等特征提取與適配器，通過額外注入 ID Embedding 顯著提升在 CFG-distilled 模型（如 FLUX.1）上的主體一致性與反演保真度;

硬約束背景保持 (Hard-Constrained Background Preservation)：摒棄使用掩碼損失函數(shù) (Mask Loss) 的經(jīng)典方案，通過自適應(yīng)梯度掩碼（Gradient Mask）對背景非編輯區(qū)域施加硬性保護(hù)，徹底避免了背景污染問題。

多模態(tài)大語言模型 (MLLM) 輔助交互：利用 MLLM 先行分析、理解用戶意圖，生成供用戶選擇的編輯提示詞和操作類型（如平移、形變、旋轉(zhuǎn)），提升交互精度并最大化減少用戶操作負(fù)擔(dān)。

DragFlow 的完整框架如下圖所示，它整合了 MLLM 輔助交互、IP-Adapter ID注入、Key & Value Caching，以及核心部分基于仿射的區(qū)域拖拽優(yōu)化工作流。

方法詳解 | DragFlow：區(qū)域為王，精準(zhǔn)掌控

DragFlow 的設(shè)計初衷是：將拖拽視為區(qū)域的整體變換，而非孤立點的位移。這套全新的范式，從監(jiān)督方式、背景處理到身份保持，都為 DiT 的特性進(jìn)行了深度定制。

① 區(qū)域級仿射監(jiān)督：告別“點追蹤”的煩惱

DragFlow 的核心是創(chuàng)新的區(qū)域級監(jiān)督策略。它不再依賴于在每一步迭代中追蹤手柄點的位置坐標(biāo)，而是將用戶指定的源區(qū)域（Source Region）作為一個整體，通過仿射變換逐步“移動”到目標(biāo)位置。

1. 迭代式潛在向量優(yōu)化 (Iterative Latent Optimization)

整個拖拽過程通過優(yōu)化噪聲化的潛在向量來實現(xiàn)。優(yōu)化的目標(biāo)是讓經(jīng)過仿射變換后的目標(biāo)區(qū)域的特征，與優(yōu)化開始前源區(qū)域的特征保持一致。

損失函數(shù)設(shè)計如下：

其中：

是從 DiT 中間層提取的特征。我們發(fā)現(xiàn)，DiT 的第 17 和 18 雙流塊（Double-stream Blocks）最適合用于拖拽優(yōu)化。是用戶指定的源區(qū)域掩碼，而是在第 k 次迭代中，通過仿射變換計算出的目標(biāo)區(qū)域掩碼。表示 Stop-gradient，確保梯度只流向待優(yōu)化的。

2. 仿射變換驅(qū)動的掩碼傳播 (Affine Transformation for Mask Propagation)

目標(biāo)掩碼由源掩碼經(jīng)過一個逐步變化的仿射變換得到。變換參數(shù) 根據(jù)編輯類型（平移、形變或旋轉(zhuǎn)）和迭代步數(shù) 線性插值生成。

這種設(shè)計的兩大優(yōu)勢：

提供豐富的語義上下文：對整個區(qū)域的特征進(jìn)行匹配，相比單點特征，能為 DiT 提供更穩(wěn)定、更魯棒的梯度信號，有效避免局部最優(yōu)和偽影。消除追蹤需求：由于DragFlow通過漸進(jìn)式的幾何移動監(jiān)督區(qū)域，而不是追蹤內(nèi)容點，該方法從根本上避免了傳統(tǒng)方法中因追蹤失敗而導(dǎo)致的編輯鏈?zhǔn)奖罎栴}，過程更加穩(wěn)定可靠。

② 背景與主體保真度：為 DiT 量身定制的策略

僅僅有好的監(jiān)督信號還不夠，在強(qiáng)大的 DiT 模型上，如何保持背景不變和主體身份一致，是更大的挑戰(zhàn)，尤其是在有“反演漂移”問題的 CFG-distilled 模型上。

1. 背景保持：從“軟約束”到“硬隔離”傳統(tǒng)方法使用輔助損失項來約束背景區(qū)域，但這在 DragFlow 中效果不佳，因為它會與拖拽損失相互競爭，且對反演誤差敏感。

我們的方案是施加硬約束：在每次梯度更新后，直接將背景區(qū)域的潛在向量重置為原始未編輯分支的值：

其中：

是包含所有編輯軌跡的背景掩碼。則是來自一個純粹的重構(gòu)分支，代表了最保真的原始背景信息。這種“硬隔離”方法雖然增加少量計算開銷，但效果遠(yuǎn)超軟約束，能實現(xiàn)近乎完美的背景保真度。

2. 主體一致性：適配器增強(qiáng)反演

傳統(tǒng)的鍵值注入（KV injection）在 FLUX 這類 CFG-distilled 模型上效果不佳。我們發(fā)現(xiàn)，F(xiàn)LUX 的反演漂移問題比 SD 更嚴(yán)重（見下表）。

為此，我們引入了適配器增強(qiáng)反演：在反演和生成過程中，注入一個預(yù)訓(xùn)練好的開放域適配器（如 IP-Adapter）所提取的主體身份表征。這無需任何額外訓(xùn)練，就能顯著提升反演質(zhì)量和編輯后的主體一致性。

如下圖所示，通過額外在反演和取樣過程中加入 IP-Adapter Embedding 后，人物身份的保持效果遠(yuǎn)超單獨使用 KV 注入。

實驗 | 兩大基準(zhǔn)測試，全面 SOTA

為了全面評估 DragFlow，我們構(gòu)建了一個新的區(qū)域級拖拽基準(zhǔn) **ReD Bench**，它包含更豐富的區(qū)域-區(qū)域?qū)?yīng)、任務(wù)類型標(biāo)簽（平移、形變、旋轉(zhuǎn)）和意圖描述。同時，我們也在現(xiàn)有的 DragBench-DR 上進(jìn)行了兼容測試。

定量分析

如 Table 2 所示，DragFlow 在基于兩大基準(zhǔn)的多個指標(biāo)上取得了最佳表現(xiàn)：

**平均距離 (Mean Distance (MD))**：DragFlow 取得了最低的和，這兩套評估標(biāo)準(zhǔn)分別來源現(xiàn)有的 “點拖拽” 與 “塊拖拽” 方法，該結(jié)果意味著 DragFlow 的編輯結(jié)果與用戶指令的空間對齊精度達(dá)到了最高。**圖像保真度 (Image Fidelity (IF))**：DragFlow 在背景保真度（）、源區(qū)塊到目標(biāo)區(qū)塊的內(nèi)容保真度（）以及拖拽前后源區(qū)塊的內(nèi)容區(qū)分度（）上名列前茅，證明了其在精準(zhǔn)編輯指定區(qū)域的同時，能最大程度保留圖像質(zhì)量和主體特征。

定性分析

下圖展示了 DragFlow 與其他現(xiàn)有方法的視覺定性比較。無論是復(fù)雜的結(jié)構(gòu)（建筑），非剛性形變（動物），還是精細(xì)內(nèi)容（鉆井平臺），DragFlow 都能精準(zhǔn)地執(zhí)行拖拽指令，同時保持場景的整體連貫性和真實質(zhì)感。相比之下，其他現(xiàn)有方法或伴隨嚴(yán)重結(jié)構(gòu)扭曲、變換失敗、或意圖誤解等失敗情況出現(xiàn)。

消融實驗

我們通過逐一添加 DragFlow 的核心組件來驗證其有效性。結(jié)果（見 Table 3 和 Figure 6）清晰地表明：

從點基線切換到區(qū)域級仿射監(jiān)督，MD 指標(biāo)大幅降低 (51.21 -> 31.26)，證明了區(qū)域監(jiān)督的優(yōu)越性；加入背景保持模塊后，從 0.757 飆升至 0.925，背景質(zhì)量顯著提升；最后引入適配器增強(qiáng)反演，進(jìn)一步提升，主體一致性得到加強(qiáng)，同時 MD 也降至最低 (20.15)。

定性分析（如下圖）展示了各項消融操作的前后效果對比：

同時，消融實驗中使用的多項量化指標(biāo)也證實了 DragFlow 的各組件都是不可或缺且協(xié)同增效的：

總結(jié) | DragFlow 開啟 DiT 精確編輯新紀(jì)元

DragFlow 是拖拽式編輯領(lǐng)域的一次范式革命，其貢獻(xiàn)與優(yōu)勢可總結(jié)為：

首創(chuàng) DiT 拖拽框架：首次成功將拖拽式編輯的能力從 UNet 遷移并適配到更強(qiáng)大的 DiT 架構(gòu)上，釋放了 FLUX 等模型的SOTA級生成先驗。區(qū)域監(jiān)督核心：提出的“區(qū)域級仿射監(jiān)督”范式，用整體、魯棒的區(qū)域特征匹配替代了脆弱、稀疏的點特征追蹤，從根本上解決了 DiT 架構(gòu)下的編輯難題。系統(tǒng)性保真設(shè)計：結(jié)合適配器增強(qiáng)反演與硬約束背景保持，為存在反演漂移的 CFG-distilled 模型提供了兼顧主體一致性與背景純凈度的完整解決方案。構(gòu)建新基準(zhǔn)：推出的 ReD Bench 為區(qū)域級拖拽編輯的研究提供了更全面、更貼近真實意圖的評估標(biāo)準(zhǔn)。

DragFlow 不僅在各項指標(biāo)上全面超越現(xiàn)有方法，更重要的是，它為如何利用新一代 DiT 生成架構(gòu)的強(qiáng)大先驗來進(jìn)行精細(xì)化、可控的圖像編輯，指明了一條清晰而有效的道路。

參考文獻(xiàn)

[1] DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

原文標(biāo)題 : ICLR 2026 | DragFlow 讓DiT也能“指哪打哪”：基于區(qū)域監(jiān)督的拖拽式圖像編輯新SOTA

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機(jī)器人產(chǎn)業(yè)大會
4月17日
立即報名 >> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術(shù)峰會

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

精品日韩国产无码一区二区国产一级毛片午夜福亚洲av永久无无码精品一区二区国产男女猛烈无遮掩免费视频