coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation¶

会议: CVPR 2025
arXiv: 2603.12829
代码: 待确认
领域: 图像生成 / 组合式生成
关键词: 多智能体, 组合生成, 布局规划, 文本到图像, 闭环推理

一句话总结¶

提出 coDrawAgents，由 Interpreter、Planner、Checker、Painter 四个专家 agent 组成的交互式多智能体对话框架，通过分而治之的增量布局规划、视觉上下文感知推理和显式错误纠正，在 GenEval 上达到 0.94（SOTA）、DPG-Bench 上 85.17（SOTA）。

研究背景与动机¶

领域现状：T2I 模型在复杂场景中仍难以正确组合多个对象并保持属性一致性。

现有痛点：(1) 全局布局规划面临 O(n^2) 关系复杂度；(2) 多数方法无视觉反馈做空间推理；(3) 扩散管线早期确定粗略结构后难以纠正。

核心矛盾：单 agent 能力瓶颈明显；现有多 agent 多为固定管线缺乏闭环推理。

本文目标：通过多 agent 闭环对话解决复杂场景的组合式图像生成。

切入角度：将生成过程分解为四个专业角色，动态对话而非顺序流水线。

核心 idea：组合式图像生成需要"规划-检查-渲染"的闭环协作。

方法详解¶

整体框架¶

Interpreter 决定模式（layout-free/layout-aware）-> layout-aware 中：解析文本为结构化对象描述 -> 按语义优先级分组 -> 每组：Planner 增量规划 -> Checker 验证修正 -> Painter 渲染 canvas -> 循环到下组。

关键设计¶

Interpreter
- 功能：决定生成模式，将复杂 prompt 分解为结构化对象描述
- 核心思路：LLM + CoT 三步（识别、排序分组、丰富属性）
- 设计动机：简单 prompt 直接生成，自适应选择避免开销
Planner + 可视化思维链（VCoT）
- 功能：增量规划当前优先级对象的布局
- 核心思路：GPT-5 做多模态 VCoT，输入全局文本+对象描述+历史布局+部分画面+对象定位
- 三步推理：Canvas 状态分析 -> 上下文感知规划 -> 物理约束执行
- 设计动机：分治降低复杂度，视觉上下文消除"凭空想象"
Checker
- 功能：两阶段检查修正（当前提案检查 + 全历史回溯）
- 核心思路：对象级（尺寸、比例）+ 全局级（位置、遮挡）检查，回溯修正历史
- 设计动机：显式纠正弥补扩散模型"一旦决定难改"的缺陷
Painter
- 功能：layout-free 调 Flux，layout-aware 调 3DIS
- 设计为 plug-and-play，可替换任意 T2I/L2I 模型

损失函数 / 训练策略¶

Training-free 框架。Planner/Checker 用 GPT-5 推理。

实验关键数据¶

主实验¶

GenEval 对比：

模型	Overall
DALL-E 3	0.67
FLUX.1-dev	0.67
SD3-Medium	0.74
GPT Image 1	0.84
coDrawAgents	0.94

DPG-Bench: Overall 85.17（SOTA），Relation 92.92 最佳。

消融实验¶

配置	Overall
Layout-free only	77.60
+ Layout-aware	82.61
+ Visual context	84.51
+ Checker	85.17

Agent 效率：平均每图仅 Planner 1.52 次、Checker 1.62 次，远少于对象数 2.79。

关键发现¶

GenEval 0.94 比 GPT Image 1 高 10 个百分点
Position 从 FLUX 0.20 到 0.95，增量规划+检查对空间定位极有效
Counting 从 0.79 到 0.94，分治策略有效解决数量不准确
每个组件都有独立贡献（分治 +5pp、视觉上下文 +2pp、Checker +0.7pp）

亮点与洞察¶

闭环多 agent 对话，Checker 可回溯修正历史迭代错误
视觉上下文感知规划避免"凭空想象"
语义优先级分组高效减少 agent 调用次数
GenEval 上 0.94 的成绩令人印象深刻

局限与展望¶

依赖 GPT-5，计算开销高且受幻觉影响
Painter 受底层模型限制
仅限 2D 生成

评分¶

新颖性: ⭐⭐⭐⭐ 闭环多 agent 对话框架是有意义创新
实验充分度: ⭐⭐⭐⭐ 双基准全面评估，消融充分
写作质量: ⭐⭐⭐⭐ 框架图清晰
价值: ⭐⭐⭐⭐ GenEval 0.94 SOTA 具系统级意义