coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation¶

会议: CVPR 2026
arXiv: 2603.12829
代码: 待发布
领域: 图像生成 / 多智能体系统
关键词: compositional T2I generation, multi-agent dialogue, layout planning, visual context grounding, error correction

一句话总结¶

提出coDrawAgents交互式多智能体对话框架，Interpreter、Planner、Checker、Painter四个专业智能体闭环协作，以分治策略按语义优先级逐组增量规划布局，基于画布视觉上下文接地推理并显式纠错，在GenEval上以0.94 Overall Score大幅领先GPT Image 1（0.84），在DPG-Bench上达85.17 SOTA。

研究背景与动机¶

领域现状：文本到图像（T2I）生成在多对象复杂场景中面临组合保真度问题。现有探索包括：LLM辅助布局生成（LayoutLLM-T2I、LMD）、扩散注意力引导（Attend-and-Excite）、生成思维链（GoT）、和早期多智能体框架（MCCD、T2I-Copilot）。

现有痛点：

单智能体方法将解析/规划/验证交给一个模型，早期空间错误难以检测修复
现有多智能体框架本质是固定流水线，缺乏协商和视觉反馈，错误仍然传播
全局布局规划面临对象间关系的二次复杂度 \(O(N^2)\)，N个对象同时规划极困难
绝大多数方法在无视觉上下文下预测布局，只能"想象"场景

核心矛盾：复杂场景需要的布局推理能力随对象数量呈二次增长，但单次规划和固定流水线均无法有效处理这种复杂度爆炸。

本文目标 在复杂多对象场景中实现忠实的组合T2I生成，同时解决布局复杂度、缺乏视觉感知、早期错误无法纠正三大挑战。

切入角度：四智能体闭环对话式协作——分治降低复杂度 + 画布视觉接地 + 显式检查纠错。

核心 idea：让Planner看着正在生成的画面来规划下一步、让Checker回溯所有历史布局来纠错、按语义优先级分组来降低单轮复杂度。

方法详解¶

整体框架¶

Interpreter判断文本复杂度 → 简单场景直接调用T2I（layout-free模式）→ 复杂场景激活layout-aware模式：Interpreter解析文本为带属性的对象描述 + 语义优先级排序分组 → 按优先级逐轮迭代 → 每轮：Planner用VCoT增量规划布局 → Checker两阶段检查纠正 → Painter在画布上增量渲染 → 画布作为下一轮视觉上下文 → N轮后输出最终图像。

关键设计¶

Interpreter + 分治策略
- 功能：决定生成模式，将文本分解为属性丰富的对象描述，按语义显著性排序分组
- 核心思路：LLM + CoT提示执行三步：(i) 识别并分解文本为语义单元 (ii) 按语义显著性排序并分组同优先级对象 (iii) CoT引导的属性增强和背景描述生成
- 设计动机：分组后每轮仅处理同优先级对象，将\(O(N^2)\)全局规划降为多轮\(O(k^2)\)局部规划（\(k \ll N\)）。DPG-Bench平均2.79个对象仅需1.52轮Planner调用
Planner + Visualization Chain-of-Thought (VCoT)
- 功能：基于当前画布视觉上下文增量规划当前优先级对象的布局
- 核心思路：GPT-5作为MLLM执行三步VCoT：(1) Canvas State Analysis——接收画布图像 \(I_{i-1}\) 和已有布局，分析现有对象空间状态 (2) Context-Aware Planning——基于世界知识推理新对象与现有场景的合理交互 (3) Physics Constraint Enforcement——确保物理合理性（无漂浮、合理接触面）。对象接地（grounding）建立文本实体与画布区域的对应，弥补LLM对坐标的不敏感性
- 设计动机：基于实际画布规划而非"想象式"规划，从根本上解决布局-视觉不一致问题
Checker两阶段检查-修正
- 功能：验证布局的空间一致性和属性对齐，修正错误
- 核心思路：第一阶段对当前布局 \(L_i\) 做对象级（尺寸/比例/覆盖）+ 全局级（相对位置/关系）检查并修正。第二阶段回溯所有历史布局 \(\{L_1, ..., L_i\}\)，检测跨对象冲突（重叠/遮挡/尺度漂移），逐步修复并传播修正
- 设计动机：扩散模型在早期步确定粗结构后难以修正，Checker在布局阶段就进行显式纠错，避免错误被"bake in"
Painter即插即用渲染
- 功能：每轮增量渲染画布，为后续迭代提供视觉上下文
- Layout-free模式用Flux（T2I），Layout-aware模式用3DIS（L2I），不需额外训练
- 设计动机：解耦绘制能力与规划/验证逻辑，可随底层模型升级而自然受益

损失函数 / 训练策略¶

无需额外训练。全部利用预训练LLM（GPT-5）和现有T2I（Flux）/L2I（3DIS）模型，属于training-free和plug-and-play框架。

实验关键数据¶

主实验¶

GenEval基准对比

模型	Single	Two Obj.	Counting	Colors	Position	Color Attr.	Overall↑
DALL-E 3	0.96	0.87	0.47	0.83	0.43	0.45	0.67
FLUX.1-dev	0.99	0.81	0.79	0.74	0.20	0.47	0.67
GoT	0.99	0.69	0.67	0.85	0.34	0.27	0.64
UniWorld-V1	0.99	0.93	0.79	0.89	0.49	0.70	0.80
GPT Image 1 [High]	0.99	0.92	0.85	0.92	0.75	0.61	0.84
coDrawAgents	1.00	0.96	0.94	0.97	0.95	0.81	0.94

DPG-Bench对比

模型	Global	Entity	Relation	Overall↑
DALL-E 3	90.97	89.61	90.58	83.50
SD3-Medium	87.90	91.01	80.70	84.08
OmniGen2	88.81	88.83	89.37	83.57
coDrawAgents	84.78	90.15	92.92	85.17

消融实验¶

配置	DPG Overall↑	说明
Layout-free baseline	77.60	仅直接T2I
+ Layout-aware	82.61 (+5.01)	分治策略降低复杂度
+ Visual context	84.51 (+1.90)	画布接地增强空间一致性
+ Checker (完整)	85.17 (+0.66)	显式纠错提升忠实度

效率统计（DPG-Bench 1074图）

智能体	平均调用次数/图
Interpreter	1.00
Planner	1.52
Checker	1.62
Painter	1.95
场景平均对象数	2.79

关键发现¶

GenEval Overall从GPT Image 1的0.84跃升到0.94（+11.9%），全子指标均为最高
Position指标从0.75暴涨到0.95，说明画布视觉接地+分治策略极大增强了空间推理能力
Counting从0.85→0.94，分组生成有效解决了计数问题
智能体平均调用次数远少于场景对象数（1.52 vs 2.79），因分组策略减少迭代轮次

亮点与洞察¶

分治策略将N对象全局布局分解为按语义优先级逐组规划，优雅降低复杂度
画布视觉上下文作为Planner输入是核心创新——让布局推理从"想象"变为"看着画"
Checker的跨迭代回溯修正可处理早期错误的级联效应，这在固定流水线中不可能实现
VCoT三步推理（状态分析→上下文规划→物理约束）结构清晰，可推广到其他需要空间推理的生成任务

局限与展望¶

多智能体调用引入计算开销（多次LLM推理 + 多次图像生成），推理时间比单次方法长
Painter性能依赖底层T2I/L2I模型能力，属性渲染不完美（如"黑皮萝卜"）会传播
Planner和Checker依赖GPT-5 MLLM，存在幻觉和过度自信风险
仅支持2D合成，未扩展到3D场景生成
DPG-Bench Global指标（84.78）低于部分单模型（如DALL-E 3的90.97），分步生成可能损失全局一致性

评分¶

新颖性: ⭐⭐⭐⭐ 闭环多智能体对话框架和VCoT视觉接地规划有创新，但核心技术是LLM/MLLM的prompt工程
实验充分度: ⭐⭐⭐⭐ GenEval和DPG-Bench全面对比+消融+效率分析，定性比较清晰
写作质量: ⭐⭐⭐⭐ 四智能体定位和分工描述清晰，框架图直观
价值: ⭐⭐⭐ 组合生成效果惊艳但工程性强，依赖GPT-5的成本和可复现性是主要顾虑