訂閱
糾錯(cuò)
加入自媒體

北航&美團(tuán)等最新EditThinker:給AI修圖裝上“大腦”,F(xiàn)lux、OmniGen2瞬間智商暴漲!

作者:Hongyu Li等

解讀:AI生成未來

圖1。EditThinker 概述。子圖(a)展示了多輪思考編輯流程,該流程迭代批評(píng)、優(yōu)化和重復(fù)編輯指令,子圖(b)報(bào)告了四個(gè)圖像編輯基準(zhǔn)測(cè)試的結(jié)果,展示了三種現(xiàn)有編輯方法的顯著提升,我們使用了FLUX.1 Kontext開發(fā)版(圖中標(biāo)示為FLUX.1 Kontext)

圖1。EditThinker 概述。子圖(a)展示了多輪思考編輯流程,該流程迭代批評(píng)、優(yōu)化和重復(fù)編輯指令,子圖(b)報(bào)告了四個(gè)圖像編輯基準(zhǔn)測(cè)試的結(jié)果,展示了三種現(xiàn)有編輯方法的顯著提升,我們使用了FLUX.1 Kontext開發(fā)版(圖中標(biāo)示為FLUX.1 Kontext)

亮點(diǎn)直擊

突破單輪指令范式:針對(duì)現(xiàn)有單輪指令遵循模式的局限,創(chuàng)新性地提出"邊思考邊編輯"新范式,將圖像編輯任務(wù)重構(gòu)為迭代式推理過程。

構(gòu)建推理驅(qū)動(dòng)模型EditThinker——一個(gè)通過監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)聯(lián)合訓(xùn)練的推理驅(qū)動(dòng)多模態(tài)大語言模型,能夠?qū)庉嬛噶钸M(jìn)行迭代式的批判、優(yōu)化與重規(guī)劃。

創(chuàng)建大規(guī)模數(shù)據(jù)集:推出包含14萬樣本的THINKEDIT-140k多輪對(duì)話數(shù)據(jù)集,該數(shù)據(jù)集提供統(tǒng)一的指令優(yōu)化監(jiān)督信號(hào),專為基于推理的訓(xùn)練流程設(shè)計(jì)。

驗(yàn)證廣泛適用性:在四個(gè)廣泛使用的基準(zhǔn)測(cè)試上進(jìn)行大量實(shí)驗(yàn),證明方法在多樣化編輯場(chǎng)景與不同編輯模型中均具卓越效果。

總結(jié)速覽

解決的問題

現(xiàn)有基于指令的圖像編輯方法受限于單輪執(zhí)行范式,難以有效應(yīng)對(duì)模型固有的隨機(jī)性與缺乏推理機(jī)制的問題,導(dǎo)致指令遵循準(zhǔn)確率低、編輯結(jié)果與用戶意圖存在偏差,尤其在復(fù)雜或多步編輯任務(wù)中表現(xiàn)不足。

提出的方案

提出一種“邊思考邊編輯”(Think-while-Edit)的迭代式推理框架,將圖像編輯重構(gòu)為一個(gè)可循環(huán)優(yōu)化的認(rèn)知過程:在每輪編輯后自動(dòng)評(píng)估結(jié)果、批判不足、優(yōu)化原始指令,并重復(fù)生成,直至滿足用戶需求。該框架以統(tǒng)一的推理引擎 EditThinker 為核心,實(shí)現(xiàn)指令的動(dòng)態(tài)精煉與再執(zhí)行。

應(yīng)用的技術(shù)

構(gòu)建并訓(xùn)練一個(gè)多模態(tài)大語言模型(MLLM)EditThinker,聯(lián)合輸出批判評(píng)分、自然語言推理過程和改進(jìn)后的編輯指令;

采用監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)相結(jié)合的訓(xùn)練策略,使模型的“思考”(推理與批判)與“編輯”行為對(duì)齊;

發(fā)布 THINKEDIT-140k 多輪對(duì)話數(shù)據(jù)集(含14萬樣本),提供結(jié)構(gòu)化的多輪指令優(yōu)化監(jiān)督信號(hào),支持推理驅(qū)動(dòng)的模型訓(xùn)練。

達(dá)到的效果

在四個(gè)主流圖像編輯基準(zhǔn)上的大量實(shí)驗(yàn)表明,該方法顯著且大幅度地提升了各類圖像編輯模型的指令遵循能力,無論編輯任務(wù)復(fù)雜度或底層模型架構(gòu)如何,均展現(xiàn)出強(qiáng)泛化性與廣泛適用性,為高保真、高語義對(duì)齊的指令式圖像編輯提供了新范式。

思考即編輯

為了解決當(dāng)前編輯模型在單輪指令遵循方面的固有局限性,本文提出了“思考即編輯”框架,模仿人類在創(chuàng)作過程中“批判、反思和編輯”的認(rèn)知過程。

整體框架

以前的方法主要以單輪方式操作:給定源圖像  和原始指令 ,編輯模型直接生成最終編輯圖像。這個(gè)過程缺乏迭代細(xì)化輸出或從失敗編輯中恢復(fù)的能力。

圖2。邊思考邊編輯的流程。EditThinker 是一個(gè)多輪指令迭代優(yōu)化框架。第一輪中,原始圖像Isrc和指令T輸入編輯器,生成初始編輯圖像,進(jìn)行編輯。這張編輯后的圖片連同原始圖片和指令,隨后被輸入 EditThinker,生成編輯分?jǐn)?shù) St、精細(xì)提示 Tt 以及相應(yīng)的推理過程 Rt。如果分?jǐn)?shù)低于閾值,框架將進(jìn)入下一次迭代,使用精煉后的提示,直到達(dá)到滿意結(jié)果。

圖2。邊思考邊編輯的流程。EditThinker 是一個(gè)多輪指令迭代優(yōu)化框架。第一輪中,原始圖像Isrc和指令T輸入編輯器,生成初始編輯圖像,進(jìn)行編輯。這張編輯后的圖片連同原始圖片和指令,隨后被輸入 EditThinker,生成編輯分?jǐn)?shù) St、精細(xì)提示 Tt 以及相應(yīng)的推理過程 Rt。如果分?jǐn)?shù)低于閾值,框架將進(jìn)入下一次迭代,使用精煉后的提示,直到達(dá)到滿意結(jié)果。

為了解決這一限制,本文引入了一個(gè)基于 MLLM 的思考者,它將單遍編輯轉(zhuǎn)換為迭代的多輪過程。本文的框架將編輯工作流明確地解耦為兩個(gè)不同的角色:一個(gè)用于判斷和推理的思考者,一個(gè)用于執(zhí)行的編輯器,其中思考者通過 SFT 和 RL 進(jìn)行訓(xùn)練,編輯器是任何現(xiàn)有的圖像編輯模型(例如,Qwen-Image-Edit,F(xiàn)lux-Kontext)。具體來說,在每次迭代  中,思考者評(píng)估先前的輸出  并同時(shí)生成指令遵循分?jǐn)?shù) 、細(xì)化指令  和推理過程 ,如以下公式所示:

然后,編輯器在源圖像  上執(zhí)行新指令 ,生成更新結(jié)果 ,如以下公式所示:

這個(gè)迭代過程,被稱為“批判-改進(jìn)-重復(fù)”循環(huán),一直持續(xù)到實(shí)現(xiàn)編輯目標(biāo)。

EditThinker 的設(shè)計(jì)

本文將 EditThinker 建模為一個(gè)雙重角色模型,同時(shí)進(jìn)行評(píng)估和規(guī)劃。與使用單獨(dú)模型進(jìn)行評(píng)估(基于 MLLM 的評(píng)分器)和規(guī)劃(基于 LLM 的重寫器)的解耦方法不同,EditThinker 在一次前向傳播中執(zhí)行這兩個(gè)任務(wù)。

本文的關(guān)鍵見解是,有效的規(guī)劃需要深入評(píng)估:模型必須首先批判先前的輸出(生成分?jǐn)?shù)  和推理 ),然后才能生成細(xì)化指令 。通過在生成  之前生成 ,EditThinker 創(chuàng)建了一個(gè)明確的思維鏈,將指令細(xì)化基于對(duì)  和  的視覺批判。

為了實(shí)現(xiàn)這種雙重角色設(shè)計(jì),本文定義了一個(gè)結(jié)構(gòu)化的輸入-輸出格式,明確編碼了評(píng)估然后規(guī)劃的過程。

輸入元組。 EditThinker 在每次迭代  接收一個(gè)多模態(tài)元組 ,提供編輯狀態(tài)的完整上下文: 和  代表原始參考, 是當(dāng)前要批判的結(jié)果, 是生成它的先前指令。

結(jié)構(gòu)化輸出格式。 輸出是一個(gè)結(jié)構(gòu)化文本字符串,它序列化了 EditThinker 的推理過程:

其中, 是  的感知質(zhì)量, 是與原始指令  相對(duì)于  的語義對(duì)齊。兩個(gè)分?jǐn)?shù)范圍都為 0 到 10。

EditThinker 的訓(xùn)練

訓(xùn)練 EditThinker 執(zhí)行這種雙重角色任務(wù)需要專門的數(shù)據(jù)集和多階段訓(xùn)練策略。本文采用兩階段方法:首先是監(jiān)督微調(diào) (SFT),以學(xué)習(xí)輸出格式和基本推理,然后是強(qiáng)化學(xué)習(xí) (RL),根據(jù)實(shí)際編輯反饋優(yōu)化指令細(xì)化。

監(jiān)督微調(diào) (冷啟動(dòng))

使用專家 (GPT-4.1) 演示數(shù)據(jù)集(詳見第 4 節(jié)),基礎(chǔ) MLLM 學(xué)習(xí)采用本文的結(jié)構(gòu)化 I/O 格式(例如,、、),模仿專家的推理風(fēng)格,并理解批判和細(xì)化指令的原則。

強(qiáng)化學(xué)習(xí)微調(diào) (RLT)

SFT 模型學(xué)習(xí)專家理想的推理方式,但這種推理并未基于實(shí)際編輯器的實(shí)際限制。該模型從未觀察到實(shí)際的編輯失敗,也未學(xué)習(xí)哪些類型的指令容易被特定編輯器誤解。因此,對(duì)于 SFT 模型來說,一個(gè)看似最優(yōu)的指令  在由實(shí)際編輯器(如 Qwen-Image-Edit)執(zhí)行時(shí)仍然可能失敗。這在理想推理和實(shí)際執(zhí)行之間造成了差距。

為了彌合這一差距,本文引入了一個(gè) RL 階段,該階段根據(jù)實(shí)際編輯反饋優(yōu)化 EditThinker。本文采用標(biāo)準(zhǔn) GRPO(組相對(duì)策略優(yōu)化),并設(shè)計(jì)了一個(gè)精心設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)。如前文所述,EditThinker 充當(dāng)雙重角色代理(即,評(píng)論者和細(xì)化者),本文設(shè)計(jì)了一個(gè)多組件獎(jiǎng)勵(lì),為這兩個(gè)方面提供學(xué)習(xí)信號(hào),如下所示:

評(píng)論者獎(jiǎng)勵(lì)。 該組件訓(xùn)練 EditThinker 成為一個(gè)更準(zhǔn)確的評(píng)論者。模型輸出預(yù)測(cè)分?jǐn)?shù) (包括  和 ),這些分?jǐn)?shù)應(yīng)與編輯結(jié)果的實(shí)際質(zhì)量保持一致。本文使用 GPT-4.1 作為評(píng)論專家 (E) 來評(píng)估結(jié)果圖像 。評(píng)論者獎(jiǎng)勵(lì)  懲罰預(yù)測(cè)誤差,如下所示:

該獎(jiǎng)勵(lì)鼓勵(lì) EditThinker 校準(zhǔn)其自我評(píng)估:高估質(zhì)量(實(shí)際分?jǐn)?shù)為 5 時(shí)預(yù)測(cè)為 9)或低估都會(huì)受到懲罰。通過這種反饋,模型學(xué)會(huì)將其內(nèi)部批判與實(shí)際編輯結(jié)果保持一致。

編輯獎(jiǎng)勵(lì)。 這是訓(xùn)練 EditThinker 成為更好的細(xì)化者的主要獎(jiǎng)勵(lì)。它激勵(lì)模型生成一個(gè)指令 ,該指令導(dǎo)致圖像質(zhì)量和指令遵循方面的可衡量改進(jìn)。本文使用差分獎(jiǎng)勵(lì),使用相同的專家 E 比較“之前”狀態(tài) () 和“之后”狀態(tài) (),如下所示:

僅當(dāng)生成的指令  成功促使編輯器生成比前一步更好的圖像時(shí),該獎(jiǎng)勵(lì)才為正。這直接將 EditThinker 的規(guī)劃能力基于實(shí)際執(zhí)行結(jié)果。

最終獎(jiǎng)勵(lì)  如下:

其中  是基本推理格式獎(jiǎng)勵(lì),且 。

THINKEDIT 數(shù)據(jù)集

為了訓(xùn)練 EditThinker,本文需要一個(gè)高質(zhì)量的數(shù)據(jù)集來捕獲多輪“思考即編輯”循環(huán)。如下圖 3 所示,本文設(shè)計(jì)了一個(gè)自動(dòng)化數(shù)據(jù)構(gòu)建管道來模擬這個(gè)過程,包括四個(gè)順序步驟:軌跡生成、軌跡過濾、分步過濾和數(shù)據(jù)劃分。這個(gè)管道使本文能夠構(gòu)建 THINKEDIT-140k 數(shù)據(jù)集。下面詳細(xì)介紹每個(gè)步驟。

軌跡生成

第一階段側(cè)重于模擬多輪“思考即編輯”循環(huán)。該管道從包含各種 (, ) 對(duì)的編輯數(shù)據(jù)池開始。在每個(gè)步驟 ,編輯思考者專家 (GPT-4.1) 評(píng)估當(dāng)前狀態(tài)(基于 、 和 )并生成新指令 ()、推理過程 () 和  標(biāo)記。

值得注意的是,專家不輸出分?jǐn)?shù) ()。相反,它通過發(fā)出  標(biāo)記直接決定何時(shí)停止該過程。這種設(shè)計(jì)選擇源于本文的發(fā)現(xiàn),即單個(gè)專家難以在任務(wù)細(xì)化和輸出評(píng)分方面同時(shí)保持高性能。如果未發(fā)出  標(biāo)記,圖像編輯器將使用新的  生成 。此循環(huán)持續(xù)進(jìn)行,直到專家觸發(fā)  條件(或達(dá)到最大迭代限制 N),從而完成完整軌跡。

軌跡過濾

由于編輯思考者專家只生成精煉指令和  標(biāo)記而不提供質(zhì)量分?jǐn)?shù),本文采用一個(gè)額外的編輯評(píng)分器來評(píng)估每個(gè)步驟  并分配一個(gè)分?jǐn)?shù) 。在對(duì)所有步驟 () 進(jìn)行評(píng)分后,本文應(yīng)用一個(gè)兩階段過濾過程:

過濾失敗軌跡。 本文只保留至少一個(gè)后續(xù)步驟 () 獲得的分?jǐn)?shù)高于或等于初始步驟的軌跡(即,)。不符合此條件的軌跡將被丟棄。

截?cái)啾A糗壽E。 對(duì)于保留的軌跡,本文識(shí)別分?jǐn)?shù)最高的步驟  () 并將軌跡截?cái)酁閮H包含從 1 到  的步驟。所有后續(xù)步驟 () 都將被丟棄。

分步過濾

最后,本文處理來自軌跡過濾的精心策劃的軌跡,通過兩個(gè)步驟創(chuàng)建最終訓(xùn)練數(shù)據(jù):

樣本提取。 首先,本文展開截?cái)嗟能壽E。軌跡中的每個(gè)單獨(dú)步驟  都轉(zhuǎn)換為一個(gè)不同的訓(xùn)練樣本。此樣本將輸入元組 (, , , ) 與其相應(yīng)的地面實(shí)況專家輸出 (, ) 配對(duì)。該步驟的分?jǐn)?shù)  作為元數(shù)據(jù)保留,用于后續(xù)過濾。

分布平衡。 本文應(yīng)用最終過濾步驟,沿兩個(gè)維度平衡數(shù)據(jù)集:

任務(wù)分布: 本文在不同任務(wù)類型(例如,對(duì)象移除、顏色修改、添加項(xiàng)目)之間平衡樣本,以確保均勻覆蓋。

分?jǐn)?shù)分布: 本文在分?jǐn)?shù)級(jí)別之間標(biāo)準(zhǔn)化樣本,以確保編輯質(zhì)量的平衡表示。

SFT 和 RL 數(shù)據(jù)劃分

在軌跡過濾之后,本文獲得了大量精選的高質(zhì)量軌跡。從這個(gè)集合中,本文為監(jiān)督微調(diào) (SFT) 和強(qiáng)化學(xué)習(xí) (RL) 階段創(chuàng)建了兩個(gè)不同的數(shù)據(jù)集。劃分原則是 SFT 需要穩(wěn)定、高質(zhì)量的示例,而 RL 最受益于動(dòng)態(tài)改進(jìn)示例。

RL 數(shù)據(jù)集。 本文首先識(shí)別對(duì)強(qiáng)化學(xué)習(xí)最有價(jià)值的軌跡。關(guān)鍵標(biāo)準(zhǔn)是高軌跡內(nèi)分?jǐn)?shù)方差(即,“高波動(dòng)”分?jǐn)?shù),Var() > )。這些軌跡代表了模型最初遇到困難但隨后設(shè)法改進(jìn)的挑戰(zhàn)性案例,為學(xué)習(xí)提供了豐富的獎(jiǎng)勵(lì)信號(hào)。本文篩選了 10k 這樣高方差的軌跡,同時(shí)確保該集合在不同任務(wù)類型和分?jǐn)?shù)分布之間保持平衡。展開后,這些軌跡產(chǎn)生了 27k 個(gè)分步樣本,構(gòu)成了本文的 RL 數(shù)據(jù)集。

SFT 數(shù)據(jù)集。 SFT 數(shù)據(jù)集旨在教授模型正確、穩(wěn)定的細(xì)化行為。因此,本文選擇了具有低分?jǐn)?shù)方差或持續(xù)高質(zhì)量的樣本。這些“低波動(dòng)”步驟通常代表更直接、正確和可靠的細(xì)化示例。這個(gè)過程產(chǎn)生了一個(gè)單獨(dú)的 140k 個(gè)分步樣本數(shù)據(jù)集用于 SFT。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置總結(jié)

本節(jié)詳細(xì)介紹了 EditThinker 框架的實(shí)驗(yàn)設(shè)置。EditThinker 基于 Qwen3-VL-8B-Instruct 構(gòu)建。訓(xùn)練分為兩個(gè)階段:

監(jiān)督微調(diào) (SFT) :在本文新構(gòu)建的 THINKEDIT-SFT-140k 數(shù)據(jù)集上進(jìn)行一個(gè) epoch 的訓(xùn)練。關(guān)鍵超參數(shù)包括學(xué)習(xí)率為 2  10,批大小為 32。

強(qiáng)化學(xué)習(xí) (RL) :在 THINKEDIT-RL-10k 數(shù)據(jù)集上進(jìn)行一個(gè) epoch 的訓(xùn)練。關(guān)鍵超參數(shù)包括學(xué)習(xí)率為 2  10,全局批大小為 128,生成的回滾數(shù) (N) 為 8,KL 散度懲罰系數(shù)為 1  10。最大像素?cái)?shù)設(shè)置為 1024  1024。

整個(gè)訓(xùn)練過程在 8 塊 H800 GPU 上進(jìn)行,大約需要 48 小時(shí)。在推理階段,本文的“思考即編輯”范式與 OmniGen2、Flux Kontext [dev]和 Qwen-Image-Edit結(jié)合使用。

基準(zhǔn)和基線:為了全面驗(yàn)證“思考即編輯”范式的有效性,本文在四個(gè)不同的基準(zhǔn)上進(jìn)行了綜合評(píng)估:ImgEdit-Bench、GEdit-Bench 、RISEBench和 KRIS-Bench。選擇這套基準(zhǔn)是為了進(jìn)行多方面的評(píng)估,其中 RISEBench 和 KRIS-Bench 專門側(cè)重于評(píng)估編輯模型的推理能力。

主要結(jié)果總結(jié)

本節(jié)總結(jié)了 EditThinker 框架在通用編輯和推理編輯任務(wù)上的評(píng)估結(jié)果,如下表 1 和表 2 所示。

通用編輯性能:如上表 1 所示,本文的“思考即編輯”框架在 ImgEdit-Bench 和 GEdit-Bench-EN 數(shù)據(jù)集上,顯著且持續(xù)地提升了所有基礎(chǔ)模型的性能。

在 ImgEdit-Bench 上,EditThinker 將 FLUX.1-Kontext [Dev] 的總體分?jǐn)?shù)從 3.44 提高到 3.98,OmniGen2 從 3.4 提高到 3.5,Qwen-Image-Edit 從 4.36 提高到 4.37。這些結(jié)果超越了一些最先進(jìn)的模型。

在 GEdit-Bench-EN 數(shù)據(jù)集上,本文的方法同樣取得了穩(wěn)定的增益,將 FLUX.1-Kontext [Dev] 的分?jǐn)?shù)從 6.18 提高到 7.05,OmniGen2 從 6.19 提高到 6.28,Qwen-Image-Edit 從 7.49 提高到 7.73。

推理編輯性能:本文的方法在需要深度推理的任務(wù)上同樣提供了持續(xù)的改進(jìn),如上表 2 所示。

在 RISE-Bench 上,EditThinker 框架為所有模型提供了穩(wěn)定的性能提升。FLUX.1-Kontext [Dev] 從 5.8 提高到 14.4,OmniGen2 從 3.1 提高到 3.4,Qwen-Image-Edit 從 8.9 提高到 17.8。

專家模型能力的影響:本文觀察到框架的性能與 EditThinker (專家模型) 本身的能力呈正相關(guān)。如上表 1 所示,EditThinker-8B 將 FLUX 分?jǐn)?shù)提高到 3.98,而更強(qiáng)大的 EditThinker (GPT-4.1) 進(jìn)一步將其提高到 4.13。這種模式在其他模型和基準(zhǔn)上也成立,表明使用更強(qiáng)大的專家模型作為“思考者”直接轉(zhuǎn)化為最終編輯結(jié)果的更大性能提升。

消融研究總結(jié)

本節(jié)總結(jié)了對(duì) EditThinker 框架中關(guān)鍵組件的消融研究結(jié)果。以 FLUX.1-Kontext [Dev] 模型為基線,并在 GEdit-Bench-EN 和 ImgEdit-Bench 上進(jìn)行評(píng)估。

思考模式分析

如下表 3 所示,本文將模型編輯思考范式分為兩種主要方法:“思考再編輯”(Think before Edit)和“思考即編輯”(Think while Edit)。“思考再編輯”僅使用源圖像重寫優(yōu)化后的提示,而“思考即編輯”是本文提出的迭代推理和編輯框架。

“思考再編輯”提供了顯著改進(jìn),但始終不如“思考即編輯”。

用“思考再編輯”步驟初始化“思考即編輯”會(huì)導(dǎo)致性能下降,這可能是因?yàn)槭状?ldquo;思考再編輯”在第一輪推理中引入了偏差,導(dǎo)致信息傳輸不完整。

思考輪次的效果

如下表 4 所示,基線模型(相當(dāng)于單次通過,即“Turn 1”)的 G O 分?jǐn)?shù)為 6.18。

引入“思考即編輯”框架,最大兩輪(Turn 2),立即將 G O 分?jǐn)?shù)大幅提升至 6.95。

隨著最大允許輪次的增加,G O 分?jǐn)?shù)持續(xù)攀升,在 4 輪時(shí)達(dá)到 7.13,在 6 輪時(shí)達(dá)到 7.16,在 8 輪時(shí)達(dá)到 7.30。這表明本文的框架有效利用了更深層次的多步推理。

此外,下表 8 顯示了 EditThinker-8B 的多輪推理性能。從基線到 Turn 8,性能持續(xù)改進(jìn),從 6.18 提高到 7.03。在 Turn 2 觀察到最大的性能提升,分?jǐn)?shù)從 6.18 躍升至 6.90。

訓(xùn)練階段分析

如下表 5 所示,SFT 階段本身(+ EditThinker-8B-SFT)帶來了顯著的性能提升,將 G O 分?jǐn)?shù)從 6.18 提高到 6.93,ImgEdit-Bench 的總體分?jǐn)?shù)從 3.44 提高到 3.57。

隨后的強(qiáng)化學(xué)習(xí) (RL) 階段(+ EditThinker-8B-RL)提供了額外且關(guān)鍵的優(yōu)化。雖然在 GEdit-Bench 上取得了適度增益(7.02 G O),但其影響在 ImgEdit-Bench 基準(zhǔn)上最為顯著,將總體分?jǐn)?shù)從 3.57 (SFT) 提高到 3.95 (RL)。這表明 SFT 對(duì)于傳授基礎(chǔ)細(xì)化能力至關(guān)重要,而 RL 在優(yōu)化專家判斷和微調(diào)決策策略方面非常有效。

不同 EditThinker 專家模型的影響

如上表 6 所示,本文通過替換訓(xùn)練好的 EditThinker-8B,探究了框架的可擴(kuò)展性。

基線 FLUX 模型的 G O 分?jǐn)?shù)為 6.00。當(dāng)本文簡(jiǎn)單地用像 GPT 4.1 這樣強(qiáng)大的現(xiàn)成專有模型替換專家時(shí),G O 分?jǐn)?shù)躍升至 7.19。

這證實(shí)了兩個(gè)關(guān)鍵見解:1) 本文的“思考即編輯”框架是一個(gè)通用且高度可擴(kuò)展的范式,不限于本文特定的訓(xùn)練專家。2) 框架的性能與所采用的專家模型的底層推理和批判能力直接且呈正相關(guān)。

結(jié)論

本文提出了一個(gè)深思熟慮的編輯框架 EditThinker,它使圖像編輯模型能夠在編輯時(shí)“思考”,解決了現(xiàn)有單輪方法中由于固有的隨機(jī)性和缺乏深思熟慮而導(dǎo)致的指令遵循能力有限的問題。本文的框架通過模擬迭代的“批判-改進(jìn)-重復(fù)”循環(huán)來模仿人類的認(rèn)知過程,從而實(shí)現(xiàn)自我糾正的圖像編輯。通過將 EditThinker 訓(xùn)練為一個(gè)統(tǒng)一的多模態(tài)大語言模型 (MLLM),它能夠聯(lián)合生成批判分?jǐn)?shù)、詳細(xì)推理過程和改進(jìn)后的指令。本文還引入了 THINKEDIT-140k,一個(gè)用于監(jiān)督微調(diào) (SFT) 和強(qiáng)化學(xué)習(xí) (RL) 的大規(guī)模、多輪數(shù)據(jù)集,以將 EditThinker 的規(guī)劃能力與實(shí)際編輯器的限制對(duì)齊。在 ImgEdit-Bench、GEdit-Bench、RISE-Bench 和 Kris-Bench 等四個(gè)廣泛使用的基準(zhǔn)上進(jìn)行的綜合實(shí)驗(yàn)表明,EditThinker 顯著提高了現(xiàn)有圖像編輯模型的指令遵循能力,特別是在需要復(fù)雜推理的任務(wù)中。消融研究進(jìn)一步證實(shí)了“思考即編輯”范式、迭代推理輪次、兩階段訓(xùn)練策略和專家模型能力的關(guān)鍵貢獻(xiàn)。本文的研究結(jié)果強(qiáng)調(diào)了將深思熟慮和迭代推理整合到圖像編輯工作流中的重要性,為開發(fā)更智能、更穩(wěn)健的交互式視覺系統(tǒng)鋪平了道路。本文計(jì)劃發(fā)布所有數(shù)據(jù)集和模型,以促進(jìn)該領(lǐng)域的進(jìn)一步研究。

參考文獻(xiàn)

[1] EditThinker: Unlocking Iterative Reasoning for Any Image Editor

       原文標(biāo)題 : 北航&美團(tuán)等最新EditThinker:給AI修圖裝上“大腦”,F(xiàn)lux、OmniGen2瞬間智商暴漲!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)