123,123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

圖像生成迎來“思考-研究-創(chuàng)造”新范式！Mind-Brush:統(tǒng)一意圖分析、多模態(tài)搜索和知識推理

2026-03-12 13:56

作者：Jun He，Junyan Ye等

解讀：AI生成未來

亮點直擊

Mind-Brush，一個新穎的智能體框架，該框架統(tǒng)一了意圖分析、多模態(tài)搜索和知識推理，以實現(xiàn)圖像生成的“思考-研究-創(chuàng)造”范式。

Mind-Bench，一個專門用于評估涉及動態(tài)外部知識和復(fù)雜推理的生成能力的基準。實驗結(jié)果表明，當(dāng)前統(tǒng)一多模態(tài)模型在實時感知和邏輯推理方面存在關(guān)鍵缺陷。

Mind-Brush 在 Mind-Bench 上將 Qwen-Image 基線的準確率從 0.02 大幅提升至 0.31，同時，在包括知識驅(qū)動的 WISE（WiScore 提升 25.8%）和推理驅(qū)動的 RISEBench（準確率提升 27.3%）在內(nèi)的現(xiàn)有基準上，顯著超越了現(xiàn)有基線模型。

總結(jié)速覽

解決的問題

意圖理解與復(fù)雜推理能力的缺失：現(xiàn)有模型本質(zhì)上是“靜態(tài)的文本到像素解碼器”，只能執(zhí)行顯式的指令映射，無法理解用戶的隱式意圖。即使是新出現(xiàn)的統(tǒng)一理解與生成模型，也難以在單一模型內(nèi)完成需要復(fù)雜知識推理（如數(shù)學(xué)推理、常識推理）的任務(wù)。

無法適應(yīng)動態(tài)變化的世界：由于受限于預(yù)訓(xùn)練數(shù)據(jù)的時間截斷，模型的內(nèi)部知識是靜態(tài)的。這使得它們無法處理涉及實時新聞、新興概念或需要最新事實驗證的生成任務(wù)，與現(xiàn)實世界的動態(tài)發(fā)展脫節(jié)。

提出的方案

文章提出了 Mind-Brush，一個統(tǒng)一的智能體框架。該框架的核心思想是將圖像生成從一個單步的靜態(tài)映射，轉(zhuǎn)變?yōu)橐粋€動態(tài)的、由知識驅(qū)動的工作流程。

核心范式轉(zhuǎn)變：模擬人類的創(chuàng)作過程，提出了“思考-研究-創(chuàng)造”的工作流。

主動式生成：模型不再被動依賴內(nèi)部知識，而是主動進行規(guī)劃，通過調(diào)用外部工具來彌補自身能力的不足，實現(xiàn)理解與生成的統(tǒng)一。

應(yīng)用的技術(shù)

Mind-Brush 框架主要通過以下技術(shù)實現(xiàn)其核心功能：

智能體設(shè)計：采用類似LLM智能體的架構(gòu)，使模型具備任務(wù)分解和行動規(guī)劃的能力。

主動檢索機制：能夠主動檢索多模態(tài)證據(jù)，以獲取并利用超出其內(nèi)部知識范圍的信息，從而將生成內(nèi)容建立在真實、最新的信息之上。

外部推理工具：集成并使用推理工具來解決用戶指令中隱含的、需要邏輯推導(dǎo)或計算的視覺約束。

達到的效果

通過引入Mind-Brush框架和相應(yīng)的評測基準，文章展示了顯著的效果提升：

能力躍升：在提出的Mind-Bench基準上，Mind-Brush使基線模型（Qwen-Image）實現(xiàn)了“從無到有”的能力突破。

全面評測：提出了一個新的評測基準 Mind-Bench，包含500個樣本，覆蓋實時新聞、新興概念、數(shù)學(xué)推理和地理推理等10個需要動態(tài)知識與復(fù)雜推理的類別，填補了現(xiàn)有評測的空白。

性能優(yōu)勢：不僅在Mind-Bench上表現(xiàn)優(yōu)異，在已有的WISE和RISE等需要內(nèi)部知識調(diào)用和基礎(chǔ)推理的基準測試中也取得了更優(yōu)的結(jié)果。

架構(gòu)與方法

Mind-Brush 框架

問題形式化

本工作將 Mind-Brush 的推理工作流形式化為一個分層序列決策過程（Hierarchical Sequential Decision-Making Process），由元組定義。該框架生成一個結(jié)構(gòu)化的認知軌跡，以彌合抽象意圖與視覺實現(xiàn)之間的差距。

認知狀態(tài)（Cognitive State, ）：令表示在步驟的狀態(tài)。它封裝了原始用戶輸入（指令和可選的參考圖像）以及動態(tài)證據(jù)緩沖區(qū) ，該緩沖區(qū)負責(zé)積累檢索到的知識和推理鏈。

動作空間（Action Space, ）：智能體可用的操作集合。本工作區(qū)分了用于識別認知差距的元動作（Meta-Action）（認知差距檢測），以及用于主動獲取多模態(tài)證據(jù)的執(zhí)行動作（Execution Actions）。

執(zhí)行策略（Execution Policy, ）：意圖分析模塊充當(dāng)高級策略。它評估初始狀態(tài)，以根據(jù)識別出的制定確定性的執(zhí)行路徑。

推理過程作為一個上下文感知的軌跡不斷演進。如下圖 2 所示，系統(tǒng)并不遵循僵化的工作流；相反，它會根據(jù)用戶請求進行動態(tài)調(diào)整。通過評估初始狀態(tài)中認知差距的具體性質(zhì)（例如事實缺失或邏輯沖突），規(guī)劃器推斷出證據(jù)積累的最佳結(jié)構(gòu)，將執(zhí)行路由到專門的搜索或推理分支。這有效地將推理計算與用戶意圖的內(nèi)在復(fù)雜性對齊。最終，本工作的目標是基于最終收斂狀態(tài) 生成最優(yōu)目標圖像。該狀態(tài)包含整合后的主提示詞（Master Prompt）和經(jīng)過驗證的視覺參考，從而將靜態(tài)生成轉(zhuǎn)化為一個動態(tài)、顯式的證據(jù)積累過程。

認知差距檢測

用戶指令通常包含超出模型參數(shù)知識邊界的隱式約束和長尾概念。為了解決這個問題，本文引入了認知差距檢測（Cognitive Gap Detection）策略，將其集成在意圖分析智能體（Intent Analysis Agent, ）中作為一個元規(guī)劃器，以彌合這一認知鴻溝。具體而言，它通過 5W1H（What, When, Where, Why, Who, How）范式將文本指令和可選圖像映射到一個結(jié)構(gòu)化的語義空間中，建立一個多模態(tài)的“真實基準（Ground Truth）”來確定信號的主導(dǎo)權(quán)。隨后，該模塊通過檢測需要外部驗證的特定實體或邏輯依賴項，執(zhí)行嚴格的差距分析。內(nèi)部知識中缺失的信息被形式化為一組顯式的原子問題，記為 �；� 的組成，系統(tǒng)實例化一個動態(tài)執(zhí)行策略，將工作流路由到動作空間中定義的適當(dāng)事實錨定（factual grounding）或邏輯推理（logical reasoning）分支。

自適應(yīng)知識補全

為了彌合識別出的認知差距，Mind-Brush 采用了一種內(nèi)部邏輯推導(dǎo)機制。與僵化的單路徑系統(tǒng)不同，執(zhí)行策略根據(jù) 的復(fù)雜性靈活組合檢索和推理工具。

外部知識錨定（External Knowledge Anchoring）：對于涉及分布外（OOD）實體或動態(tài)事件的差距，框架會激活認知搜索智能體（Cognition Search Agent, ）。它首先利用一個關(guān)鍵字生成器來綜合用戶的多模態(tài)輸入（）和識別出的差距，生成精確的文本查詢和初始視覺查詢。在從開放世界知識庫中檢索到事實文檔后，系統(tǒng)執(zhí)行雙重更新操作：其中，檢索到的概念被重新注入到用戶指令中（）以更新文本上下文，同時校準視覺查詢（）以確保隨后檢索到的參考圖像與經(jīng)過驗證的事實保持一致。內(nèi)部邏輯推導(dǎo)（Internal Logical Derivation）：對于需要復(fù)雜演繹的差距（例如，解決中的數(shù)學(xué)問題或從檢索數(shù)據(jù)中推斷空間關(guān)系），系統(tǒng)觸發(fā)思維鏈知識推理智能體（CoT Knowledge Reasoning Agent, ）。該引擎作為一個邏輯處理器，攝取用戶指令、輸入圖像，以及至關(guān)重要的積累搜索證據(jù)（）。它執(zhí)行多步推理以解決隱式?jīng)_突或解釋檢索到的視覺數(shù)據(jù)，從而產(chǎn)生顯式的結(jié)論。

最終的證據(jù)集為生成形成了一個全面且邏輯一致的認知上下文。

約束生成

外部信息的積累帶來了冗余或不相關(guān)的風(fēng)險。因此，最后階段的重點是信息整合與條件合成。首先，概念審查智能體（Concept Review Agent, ）作為一個整合機制，從脫節(jié)的證據(jù)流中過濾噪聲。它將經(jīng)過驗證的事實和邏輯結(jié)論與用戶的原始創(chuàng)作意圖綜合起來，將它們重寫為一個結(jié)構(gòu)化的主提示詞。該提示詞明確闡述了以前隱式或未知的視覺屬性。隨后，統(tǒng)一圖像生成智能體（Unified Image Generation Agent, ）執(zhí)行視覺合成。與標準的 T2I（文本到圖像）模型不同，同時受文本對齊的和自適應(yīng)視覺提示的條件約束。具體而言，基于用戶意圖，該機制在生成和編輯模式之間動態(tài)選擇，以確定視覺條件源（即來自或）。這些約束有效地引導(dǎo)模型實現(xiàn)對用戶創(chuàng)意愿景的高保真度，同時嚴格遵守在知識獲取階段建立的事實和邏輯邊界。

Mind-Bench 基準測試

動機與任務(wù)定義

為了探究“認知生成”的邊界，本文提出了 Mind-Bench，一個包含 500 個樣本的綜合基準，旨在客觀評估依賴于動態(tài)外部知識和用戶意圖推理的生成能力。如下圖 1 所示，基準分為兩大類，涵蓋 10 個不同的子領(lǐng)域：

知識驅(qū)動任務(wù)（Knowledge-Driven Tasks）：包括特殊事件、天氣、角色、物體和世界知識。核心挑戰(zhàn)在于減輕對分布外（OOD）實體的幻覺。

推理驅(qū)動任務(wù)（Reasoning-Driven Tasks）：包括生活推理、地理推理、數(shù)學(xué)、科學(xué)與邏輯，以及詩歌。核心挑戰(zhàn)在于模型從表面簡單的指令中推導(dǎo)出隱式約束的能力。

基準構(gòu)建與評估標準

基準通過嚴格的“人機協(xié)作管道”構(gòu)建，確保多維度的復(fù)雜性和事實可靠性。為了準確反映模型在復(fù)雜認知任務(wù)中的可用性，本文提出了基于檢查表的嚴格準確率（Checklist-based Strict Accuracy, CSA）作為核心指標，如下圖 3 所示。該標準采用 MLLM 評判器在“整體通過標準（Holistic Pass Criterion）”下對照檢查表仔細審查生成的圖像。準確率定義為：

其中為指示函數(shù)，如果圖像滿足檢查項則返回 1。只有當(dāng)所有子項都被驗證為“通過”時，該樣本才被視為正確。

實驗

本文通過大量實驗全面評估了 Mind-Brush 框架在理解用戶意圖和生成長尾概念方面的能力，主要在 Mind-Bench、WISE 和 RISEBench 三個基準上進行了測試，并與當(dāng)前的專有模型（如 GPT-Image系列、Nano Banana系列、FLUX系列）和開源 SOTA 模型（如 SD 3.5, Bagel, Qwen-Image 等）進行了廣泛對比。此外，相關(guān)的評估協(xié)議、任務(wù)分類分布對比等詳細數(shù)據(jù)可分別在下表 7 和下表 8 中找到。

主要實驗結(jié)果總結(jié)如下：

Mind-Bench 基準上的表現(xiàn)：

如下表 1 所示，Mind-Brush 在知識驅(qū)動和推理驅(qū)動任務(wù)上均取得了顯著提升。相較于開源基線模型 Qwen-Image，Mind-Brush 將整體嚴格準確率（CSA）從 0.02 驚人地提升至 0.31，實現(xiàn)了從 0 到 1 的能力飛躍。不僅超越了 SD-3.5 Large，甚至在多項任務(wù)上媲美或超過了眾多強大的閉源專有模型（如超越了 GPT-Image-1.5 的 0.21）。

WISE 與 RISEBench 上的表現(xiàn)：

如下表 2 所示，在側(cè)重世界知識的 WISE 基準上，Mind-Brush 獲得了 0.78 的綜合 WiScore，比基礎(chǔ)模型 Qwen-Image 提高了 25.8%，追平了頂級的 GPT-Image-1。在側(cè)重邏輯與視覺編輯的 RISEBench 上，本方法在“指令推理（Instruction Reasoning）”維度獲得了 61.5 的高分，大幅超越 Bagel 等模型，整體準確率（24.7%）同樣逼近最先進的專有模型。

定性比較與過程可視化：

如下圖 4 所示，定性結(jié)果直觀地展示了 Mind-Brush 在處理知識驅(qū)動任務(wù)時如何有效利用搜索工具檢索視覺參考（例如對冷門 IP 概念的準確還原），并在推理驅(qū)動任務(wù)中正確解構(gòu)數(shù)學(xué)邏輯和空間關(guān)系，避免了基線模型常犯的事實錯誤和邏輯斷層。如下圖 19 所示和如下圖 20 所示，展示了 Mind-Brush 在處理復(fù)雜的地理數(shù)學(xué)任務(wù)和純數(shù)學(xué)可視化任務(wù)時，其逐步檢索、推理并最終約束生成的完整工作流。

消融實驗與架構(gòu)分析：

如下表 3 所示的消融研究證實了認知搜索智能體和知識推理智能體的有效性。單獨加入推理智能體或搜索智能體均能帶來特定領(lǐng)域的提升，而兩者的協(xié)同作用則達成了最優(yōu)的綜合表現(xiàn)。如下表 6 所示，在探索不同 MLLM 骨干和生成引擎的實驗中發(fā)現(xiàn)，智能體大腦的強度（如使用 GPT-5.1 替代 Qwen3-VL）主導(dǎo)了整體性能的上限；同時，更強的底層圖像生成器（如 GPT-Image-1）可以與 Mind-Brush 框架協(xié)同，實現(xiàn)性能的成倍增長。

額外基準擴展測試：

如下表 4 所示和如下表 5 所示，在側(cè)重指令遵循的 GenEval++ 和側(cè)重創(chuàng)意生成的 Imagine-Bench 上，Mind-Brush 同樣展現(xiàn)出優(yōu)越的性能，甚至在部分子任務(wù)（如位置/計數(shù)、時空異化等）上表現(xiàn)超越了目前最優(yōu)的 Agentic 基線 GenAgent，展現(xiàn)出極強的長尾指令處理與泛化能力。

總結(jié)

本文引入了 Mind-Brush，一種免訓(xùn)練的智能體框架（training-free agentic framework），它將文本到圖像（text-to-image）的生成從被動解碼轉(zhuǎn)化為一種主動的認知工作流。通過協(xié)調(diào)意圖分析、多模態(tài)錨定以及顯式的思維鏈（Chain-of-Thought）推理，Mind-Brush 有效地彌合了模糊的用戶意圖與精確的、以事實為基礎(chǔ)的視覺合成之間的差距。為了對此進行嚴格的評估，本工作建立了 Mind-Bench，這是一個旨在針對知識密集型和依賴推理的任務(wù)對模型進行壓力測試的基準。經(jīng)驗結(jié)果表明，本框架顯著優(yōu)于現(xiàn)有的最先進模型，證實了主動檢索與邏輯演繹協(xié)同作用的有效性。本工作相信，這種向“智能體生成范式（Agentic Generative Paradigm）”的轉(zhuǎn)變，為能夠在視覺合成領(lǐng)域解決復(fù)雜問題的下一代系統(tǒng)鋪平了道路。

參考文獻

[1] Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

原文標題 : 圖像生成迎來“思考-研究-創(chuàng)造”新范式！Mind-Brush:統(tǒng)一意圖分析、多模態(tài)搜索和知識推理

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

精品日韩国产无码一区二区国产一级毛片午夜福亚洲av永久无无码精品一区二区国产男女猛烈无遮掩免费视频

<thead id="hj2xx"><small id="hj2xx"></small></thead>

<thead id="hj2xx"></thead>