coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation¶
会议: CVPR 2025
arXiv: 2603.12829
代码: 待确认
领域: 图像生成 / 组合式生成
关键词: 多智能体, 组合生成, 布局规划, 文本到图像, 闭环推理
一句话总结¶
提出 coDrawAgents,由 Interpreter、Planner、Checker、Painter 四个专家 agent 组成的交互式多智能体对话框架,通过分而治之的增量布局规划、视觉上下文感知推理和显式错误纠正,在 GenEval 上达到 0.94(SOTA)、DPG-Bench 上 85.17(SOTA)。
研究背景与动机¶
领域现状:T2I 模型在复杂场景中仍难以正确组合多个对象并保持属性一致性。
现有痛点:(1) 全局布局规划面临 O(n^2) 关系复杂度;(2) 多数方法无视觉反馈做空间推理;(3) 扩散管线早期确定粗略结构后难以纠正。
核心矛盾:单 agent 能力瓶颈明显;现有多 agent 多为固定管线缺乏闭环推理。
本文目标:通过多 agent 闭环对话解决复杂场景的组合式图像生成。
切入角度:将生成过程分解为四个专业角色,动态对话而非顺序流水线。
核心 idea:组合式图像生成需要"规划-检查-渲染"的闭环协作。
方法详解¶
整体框架¶
Interpreter 决定模式(layout-free/layout-aware)-> layout-aware 中:解析文本为结构化对象描述 -> 按语义优先级分组 -> 每组:Planner 增量规划 -> Checker 验证修正 -> Painter 渲染 canvas -> 循环到下组。
关键设计¶
-
Interpreter
- 功能:决定生成模式,将复杂 prompt 分解为结构化对象描述
- 核心思路:LLM + CoT 三步(识别、排序分组、丰富属性)
- 设计动机:简单 prompt 直接生成,自适应选择避免开销
-
Planner + 可视化思维链(VCoT)
- 功能:增量规划当前优先级对象的布局
- 核心思路:GPT-5 做多模态 VCoT,输入全局文本+对象描述+历史布局+部分画面+对象定位
- 三步推理:Canvas 状态分析 -> 上下文感知规划 -> 物理约束执行
- 设计动机:分治降低复杂度,视觉上下文消除"凭空想象"
-
Checker
- 功能:两阶段检查修正(当前提案检查 + 全历史回溯)
- 核心思路:对象级(尺寸、比例)+ 全局级(位置、遮挡)检查,回溯修正历史
- 设计动机:显式纠正弥补扩散模型"一旦决定难改"的缺陷
-
Painter
- 功能:layout-free 调 Flux,layout-aware 调 3DIS
- 设计为 plug-and-play,可替换任意 T2I/L2I 模型
损失函数 / 训练策略¶
Training-free 框架。Planner/Checker 用 GPT-5 推理。
实验关键数据¶
主实验¶
GenEval 对比:
| 模型 | Overall |
|---|---|
| DALL-E 3 | 0.67 |
| FLUX.1-dev | 0.67 |
| SD3-Medium | 0.74 |
| GPT Image 1 | 0.84 |
| coDrawAgents | 0.94 |
DPG-Bench: Overall 85.17(SOTA),Relation 92.92 最佳。
消融实验¶
| 配置 | Overall |
|---|---|
| Layout-free only | 77.60 |
| + Layout-aware | 82.61 |
| + Visual context | 84.51 |
| + Checker | 85.17 |
Agent 效率:平均每图仅 Planner 1.52 次、Checker 1.62 次,远少于对象数 2.79。
关键发现¶
- GenEval 0.94 比 GPT Image 1 高 10 个百分点
- Position 从 FLUX 0.20 到 0.95,增量规划+检查对空间定位极有效
- Counting 从 0.79 到 0.94,分治策略有效解决数量不准确
- 每个组件都有独立贡献(分治 +5pp、视觉上下文 +2pp、Checker +0.7pp)
亮点与洞察¶
- 闭环多 agent 对话,Checker 可回溯修正历史迭代错误
- 视觉上下文感知规划避免"凭空想象"
- 语义优先级分组高效减少 agent 调用次数
- GenEval 上 0.94 的成绩令人印象深刻
局限与展望¶
- 依赖 GPT-5,计算开销高且受幻觉影响
- Painter 受底层模型限制
- 仅限 2D 生成
相关工作与启发¶
- GoT 做一次性全局推理,coDrawAgents 做增量视觉感知推理
- 分治+视觉 CoT 范式可推广到视频/3D
评分¶
- 新颖性: ⭐⭐⭐⭐ 闭环多 agent 对话框架是有意义创新
- 实验充分度: ⭐⭐⭐⭐ 双基准全面评估,消融充分
- 写作质量: ⭐⭐⭐⭐ 框架图清晰
- 价值: ⭐⭐⭐⭐ GenEval 0.94 SOTA 具系统级意义