訂閱
糾錯
加入自媒體

圖像生成迎來“思考-研究-創(chuàng)造”新范式!Mind-Brush:統(tǒng)一意圖分析、多模態(tài)搜索和知識推理

作者:Jun He,Junyan Ye等

解讀:AI生成未來

亮點直擊

Mind-Brush,一個新穎的智能體框架,該框架統(tǒng)一了意圖分析、多模態(tài)搜索和知識推理,以實現(xiàn)圖像生成的“思考-研究-創(chuàng)造”范式。

Mind-Bench,一個專門用于評估涉及動態(tài)外部知識和復(fù)雜推理的生成能力的基準。實驗結(jié)果表明,當(dāng)前統(tǒng)一多模態(tài)模型在實時感知和邏輯推理方面存在關(guān)鍵缺陷。

Mind-Brush 在 Mind-Bench 上將 Qwen-Image 基線的準確率從 0.02 大幅提升至 0.31,同時,在包括知識驅(qū)動的 WISE(WiScore 提升 25.8%)和推理驅(qū)動的 RISEBench(準確率提升 27.3%)在內(nèi)的現(xiàn)有基準上,顯著超越了現(xiàn)有基線模型。

總結(jié)速覽

解決的問題

意圖理解與復(fù)雜推理能力的缺失: 現(xiàn)有模型本質(zhì)上是“靜態(tài)的文本到像素解碼器”,只能執(zhí)行顯式的指令映射,無法理解用戶的隱式意圖。即使是新出現(xiàn)的統(tǒng)一理解與生成模型,也難以在單一模型內(nèi)完成需要復(fù)雜知識推理(如數(shù)學(xué)推理、常識推理)的任務(wù)。

無法適應(yīng)動態(tài)變化的世界: 由于受限于預(yù)訓(xùn)練數(shù)據(jù)的時間截斷,模型的內(nèi)部知識是靜態(tài)的。這使得它們無法處理涉及實時新聞、新興概念或需要最新事實驗證的生成任務(wù),與現(xiàn)實世界的動態(tài)發(fā)展脫節(jié)。

提出的方案

文章提出了 Mind-Brush,一個統(tǒng)一的智能體框架。該框架的核心思想是將圖像生成從一個單步的靜態(tài)映射,轉(zhuǎn)變?yōu)橐粋動態(tài)的、由知識驅(qū)動的工作流程。

核心范式轉(zhuǎn)變: 模擬人類的創(chuàng)作過程,提出了“思考-研究-創(chuàng)造”的工作流。

主動式生成: 模型不再被動依賴內(nèi)部知識,而是主動進行規(guī)劃,通過調(diào)用外部工具來彌補自身能力的不足,實現(xiàn)理解與生成的統(tǒng)一。

應(yīng)用的技術(shù)

Mind-Brush 框架主要通過以下技術(shù)實現(xiàn)其核心功能:

智能體設(shè)計: 采用類似LLM智能體的架構(gòu),使模型具備任務(wù)分解和行動規(guī)劃的能力。

主動檢索機制: 能夠主動檢索多模態(tài)證據(jù),以獲取并利用超出其內(nèi)部知識范圍的信息,從而將生成內(nèi)容建立在真實、最新的信息之上。

外部推理工具: 集成并使用推理工具來解決用戶指令中隱含的、需要邏輯推導(dǎo)或計算的視覺約束。

達到的效果

通過引入Mind-Brush框架和相應(yīng)的評測基準,文章展示了顯著的效果提升:

能力躍升: 在提出的Mind-Bench基準上,Mind-Brush使基線模型(Qwen-Image)實現(xiàn)了“從無到有”的能力突破。

全面評測: 提出了一個新的評測基準 Mind-Bench,包含500個樣本,覆蓋實時新聞、新興概念、數(shù)學(xué)推理和地理推理等10個需要動態(tài)知識與復(fù)雜推理的類別,填補了現(xiàn)有評測的空白。

性能優(yōu)勢: 不僅在Mind-Bench上表現(xiàn)優(yōu)異,在已有的WISE和RISE等需要內(nèi)部知識調(diào)用和基礎(chǔ)推理的基準測試中也取得了更優(yōu)的結(jié)果。

架構(gòu)與方法

Mind-Brush 框架

問題形式化

本工作將 Mind-Brush 的推理工作流形式化為一個分層序列決策過程(Hierarchical Sequential Decision-Making Process),由元組  定義。該框架生成一個結(jié)構(gòu)化的認知軌跡,以彌合抽象意圖與視覺實現(xiàn)之間的差距。

認知狀態(tài)(Cognitive State, ):令  表示在步驟  的狀態(tài)。它封裝了原始用戶輸入(指令  和可選的參考圖像 )以及動態(tài)證據(jù)緩沖區(qū) ,該緩沖區(qū)負責(zé)積累檢索到的知識和推理鏈。

動作空間(Action Space, ):智能體可用的操作集合。本工作區(qū)分了用于識別認知差距  的元動作(Meta-Action)(認知差距檢測),以及用于主動獲取多模態(tài)證據(jù)的執(zhí)行動作(Execution Actions)。

執(zhí)行策略(Execution Policy, ):意圖分析模塊充當(dāng)高級策略 。它評估初始狀態(tài),以根據(jù)識別出的  制定確定性的執(zhí)行路徑。

推理過程作為一個上下文感知的軌跡不斷演進。如下圖 2 所示,系統(tǒng)并不遵循僵化的工作流;相反,它會根據(jù)用戶請求進行動態(tài)調(diào)整。通過評估初始狀態(tài)中認知差距的具體性質(zhì)(例如事實缺失或邏輯沖突),規(guī)劃器推斷出證據(jù)積累的最佳結(jié)構(gòu),將執(zhí)行路由到專門的搜索或推理分支。這有效地將推理計算與用戶意圖的內(nèi)在復(fù)雜性對齊。最終,本工作的目標是基于最終收斂狀態(tài)  生成最優(yōu)目標圖像 。該狀態(tài)包含整合后的主提示詞(Master Prompt) 和經(jīng)過驗證的視覺參考 ,從而將靜態(tài)生成轉(zhuǎn)化為一個動態(tài)、顯式的證據(jù)積累過程。

認知差距檢測

用戶指令通常包含超出模型參數(shù)知識邊界的隱式約束和長尾概念。為了解決這個問題,本文引入了認知差距檢測(Cognitive Gap Detection)策略,將其集成在意圖分析智能體(Intent Analysis Agent, )中作為一個元規(guī)劃器,以彌合這一認知鴻溝。具體而言,它通過 5W1H(What, When, Where, Why, Who, How)范式將文本指令  和可選圖像  映射到一個結(jié)構(gòu)化的語義空間中,建立一個多模態(tài)的“真實基準(Ground Truth)”來確定信號的主導(dǎo)權(quán)。隨后,該模塊通過檢測需要外部驗證的特定實體或邏輯依賴項,執(zhí)行嚴格的差距分析。內(nèi)部知識中缺失的信息被形式化為一組顯式的原子問題,記為 ;  的組成,系統(tǒng)實例化一個動態(tài)執(zhí)行策略 ,將工作流路由到動作空間中定義的適當(dāng)事實錨定(factual grounding)或邏輯推理(logical reasoning)分支。

自適應(yīng)知識補全

為了彌合識別出的認知差距,Mind-Brush 采用了一種內(nèi)部邏輯推導(dǎo)機制。與僵化的單路徑系統(tǒng)不同,執(zhí)行策略  根據(jù)  的復(fù)雜性靈活組合檢索和推理工具。

外部知識錨定(External Knowledge Anchoring):對于涉及分布外(OOD)實體或動態(tài)事件的差距,框架會激活認知搜索智能體(Cognition Search Agent, )。它首先利用一個關(guān)鍵字生成器來綜合用戶的多模態(tài)輸入()和識別出的差距 ,生成精確的文本查詢  和初始視覺查詢 。在從開放世界知識庫中檢索到事實文檔  后,系統(tǒng)執(zhí)行雙重更新操作:其中,檢索到的概念被重新注入到用戶指令中()以更新文本上下文,同時校準視覺查詢()以確保隨后檢索到的參考圖像  與經(jīng)過驗證的事實保持一致。內(nèi)部邏輯推導(dǎo)(Internal Logical Derivation):對于需要復(fù)雜演繹的差距(例如,解決  中的數(shù)學(xué)問題或從檢索數(shù)據(jù)中推斷空間關(guān)系),系統(tǒng)觸發(fā)思維鏈知識推理智能體(CoT Knowledge Reasoning Agent, )。該引擎作為一個邏輯處理器,攝取用戶指令、輸入圖像,以及至關(guān)重要的積累搜索證據(jù)()。它執(zhí)行多步推理以解決隱式?jīng)_突或解釋檢索到的視覺數(shù)據(jù),從而產(chǎn)生顯式的結(jié)論 。

最終的證據(jù)集  為生成形成了一個全面且邏輯一致的認知上下文。

約束生成

外部信息的積累帶來了冗余或不相關(guān)的風(fēng)險。因此,最后階段的重點是信息整合與條件合成。首先,概念審查智能體(Concept Review Agent, )作為一個整合機制,從脫節(jié)的證據(jù)流  中過濾噪聲。它將經(jīng)過驗證的事實和邏輯結(jié)論與用戶的原始創(chuàng)作意圖綜合起來,將它們重寫為一個結(jié)構(gòu)化的主提示詞 。該提示詞明確闡述了以前隱式或未知的視覺屬性。隨后,統(tǒng)一圖像生成智能體(Unified Image Generation Agent, )執(zhí)行視覺合成。與標準的 T2I(文本到圖像)模型不同, 同時受文本對齊的  和自適應(yīng)視覺提示  的條件約束。具體而言,基于用戶意圖,該機制在生成和編輯模式之間動態(tài)選擇,以確定視覺條件源 (即來自  或 )。這些約束有效地引導(dǎo)模型實現(xiàn)對用戶創(chuàng)意愿景的高保真度,同時嚴格遵守在知識獲取階段建立的事實和邏輯邊界。

Mind-Bench 基準測試

動機與任務(wù)定義

為了探究“認知生成”的邊界,本文提出了 Mind-Bench,一個包含 500 個樣本的綜合基準,旨在客觀評估依賴于動態(tài)外部知識和用戶意圖推理的生成能力。如下圖 1 所示,基準分為兩大類,涵蓋 10 個不同的子領(lǐng)域:

知識驅(qū)動任務(wù)(Knowledge-Driven Tasks):包括特殊事件、天氣、角色、物體和世界知識。核心挑戰(zhàn)在于減輕對分布外(OOD)實體的幻覺。

推理驅(qū)動任務(wù)(Reasoning-Driven Tasks):包括生活推理、地理推理、數(shù)學(xué)、科學(xué)與邏輯,以及詩歌。核心挑戰(zhàn)在于模型從表面簡單的指令中推導(dǎo)出隱式約束的能力。

基準構(gòu)建與評估標準

基準通過嚴格的“人機協(xié)作管道”構(gòu)建,確保多維度的復(fù)雜性和事實可靠性。為了準確反映模型在復(fù)雜認知任務(wù)中的可用性,本文提出了基于檢查表的嚴格準確率(Checklist-based Strict Accuracy, CSA)作為核心指標,如下圖 3 所示。該標準采用 MLLM 評判器在“整體通過標準(Holistic Pass Criterion)”下對照檢查表仔細審查生成的圖像。準確率定義為:

其中  為指示函數(shù),如果圖像滿足檢查項則返回 1。只有當(dāng)所有子項都被驗證為“通過”時,該樣本才被視為正確。

實驗

本文通過大量實驗全面評估了 Mind-Brush 框架在理解用戶意圖和生成長尾概念方面的能力,主要在 Mind-Bench、WISE 和 RISEBench 三個基準上進行了測試,并與當(dāng)前的專有模型(如 GPT-Image系列、Nano Banana系列、FLUX系列)和開源 SOTA 模型(如 SD 3.5, Bagel, Qwen-Image 等)進行了廣泛對比。此外,相關(guān)的評估協(xié)議、任務(wù)分類分布對比等詳細數(shù)據(jù)可分別在下表 7 和下表 8 中找到。

主要實驗結(jié)果總結(jié)如下:

Mind-Bench 基準上的表現(xiàn):

如下表 1 所示,Mind-Brush 在知識驅(qū)動和推理驅(qū)動任務(wù)上均取得了顯著提升。相較于開源基線模型 Qwen-Image,Mind-Brush 將整體嚴格準確率(CSA)從 0.02 驚人地提升至 0.31,實現(xiàn)了從 0 到 1 的能力飛躍。不僅超越了 SD-3.5 Large,甚至在多項任務(wù)上媲美或超過了眾多強大的閉源專有模型(如超越了 GPT-Image-1.5 的 0.21)。

WISE 與 RISEBench 上的表現(xiàn):

如下表 2 所示,在側(cè)重世界知識的 WISE 基準上,Mind-Brush 獲得了 0.78 的綜合 WiScore,比基礎(chǔ)模型 Qwen-Image 提高了 25.8%,追平了頂級的 GPT-Image-1。在側(cè)重邏輯與視覺編輯的 RISEBench 上,本方法在“指令推理(Instruction Reasoning)”維度獲得了 61.5 的高分,大幅超越 Bagel 等模型,整體準確率(24.7%)同樣逼近最先進的專有模型。

定性比較與過程可視化:

如下圖 4 所示,定性結(jié)果直觀地展示了 Mind-Brush 在處理知識驅(qū)動任務(wù)時如何有效利用搜索工具檢索視覺參考(例如對冷門 IP 概念的準確還原),并在推理驅(qū)動任務(wù)中正確解構(gòu)數(shù)學(xué)邏輯和空間關(guān)系,避免了基線模型常犯的事實錯誤和邏輯斷層。如下圖 19 所示 和 如下圖 20 所示,展示了 Mind-Brush 在處理復(fù)雜的地理數(shù)學(xué)任務(wù)和純數(shù)學(xué)可視化任務(wù)時,其逐步檢索、推理并最終約束生成的完整工作流。

消融實驗與架構(gòu)分析:

如下表 3 所示的消融研究證實了認知搜索智能體和知識推理智能體的有效性。單獨加入推理智能體或搜索智能體均能帶來特定領(lǐng)域的提升,而兩者的協(xié)同作用則達成了最優(yōu)的綜合表現(xiàn)。如下表 6 所示,在探索不同 MLLM 骨干和生成引擎的實驗中發(fā)現(xiàn),智能體大腦的強度(如使用 GPT-5.1 替代 Qwen3-VL)主導(dǎo)了整體性能的上限;同時,更強的底層圖像生成器(如 GPT-Image-1)可以與 Mind-Brush 框架協(xié)同,實現(xiàn)性能的成倍增長。

額外基準擴展測試:

如下表 4 所示和如下表 5 所示,在側(cè)重指令遵循的 GenEval++ 和側(cè)重創(chuàng)意生成的 Imagine-Bench 上,Mind-Brush 同樣展現(xiàn)出優(yōu)越的性能,甚至在部分子任務(wù)(如位置/計數(shù)、時空異化等)上表現(xiàn)超越了目前最優(yōu)的 Agentic 基線 GenAgent,展現(xiàn)出極強的長尾指令處理與泛化能力。

總結(jié)

本文引入了 Mind-Brush,一種免訓(xùn)練的智能體框架(training-free agentic framework),它將文本到圖像(text-to-image)的生成從被動解碼轉(zhuǎn)化為一種主動的認知工作流。通過協(xié)調(diào)意圖分析、多模態(tài)錨定以及顯式的思維鏈(Chain-of-Thought)推理,Mind-Brush 有效地彌合了模糊的用戶意圖與精確的、以事實為基礎(chǔ)的視覺合成之間的差距。為了對此進行嚴格的評估,本工作建立了 Mind-Bench,這是一個旨在針對知識密集型和依賴推理的任務(wù)對模型進行壓力測試的基準。經(jīng)驗結(jié)果表明,本框架顯著優(yōu)于現(xiàn)有的最先進模型,證實了主動檢索與邏輯演繹協(xié)同作用的有效性。本工作相信,這種向“智能體生成范式(Agentic Generative Paradigm)”的轉(zhuǎn)變,為能夠在視覺合成領(lǐng)域解決復(fù)雜問題的下一代系統(tǒng)鋪平了道路。

參考文獻

[1] Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

       原文標題 : 圖像生成迎來“思考-研究-創(chuàng)造”新范式!Mind-Brush:統(tǒng)一意圖分析、多模態(tài)搜索和知識推理

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號