Infinity and Beyond: Compositional Alignment in VAR and Diffusion T2I Models¶
会议: ICLR 2026
arXiv: 2512.11542
代码: 无
领域: 扩散模型 / 组合生成
关键词: 组合对齐, VAR 自回归, T2I-CompBench++, GenEval, 基准评测
一句话总结¶
首次系统性地对比 Visual Autoregressive (VAR) 模型和扩散模型在组合文本-图像对齐上的表现,在 T2I-CompBench++ 和 GenEval 两个基准上评测 6 个 T2I 模型,发现 Infinity-8B 在几乎所有组合维度上取得最强表现,VAR 架构在组合生成方面展现出显著优势。
研究背景与动机¶
领域现状:T2I 模型已能生成高质量、语义丰富的图像,但组合对齐(compositional alignment)——忠实地将文本中描述的物体、属性和空间关系绑定到视觉输出——仍是核心挑战。
现有痛点:虽然已有工作评估扩散模型的组合能力,但新兴的 Visual Autoregressive (VAR) 架构(如 Infinity)的组合对齐能力完全未被系统评估。VAR 模型通过 next-scale 自回归预测分层潜码,与扩散模型的去噪范式根本不同。
核心矛盾:高视觉质量 ≠ 可靠的组合正确性——模型可能生成漂亮但属性绑定错误、空间关系混乱的图像。但缺乏跨架构的系统比较。
本文目标 提供首个统一的 VAR vs 扩散模型组合对齐基准评测,覆盖颜色/纹理/形状绑定、空间关系、计数和复杂多属性组合。
切入角度:使用两个互补基准——T2I-CompBench++(检测器驱动验证)和 GenEval(规则化约束),覆盖 8 个评估维度,对 6 个代表性 T2I 模型进行全面评测。
核心 idea:VAR 模型(特别是 Infinity-8B)在组合对齐上系统性地优于扩散模型,可能因为 next-scale 自回归生成天然地在每个阶段条件化于已生成的视觉结构。
方法详解¶
整体框架¶
本文是一篇实证评测研究(benchmark study),不提出新方法。核心工作是在统一的评估协议下对比 6 个模型:
- 扩散 (UNet): SDXL
- 扩散 (Transformer): PixArt-\(\alpha\)
- DiT: Flux-Dev, Flux-Schnell
- VAR: Infinity-2B, Infinity-8B
关键设计¶
-
评估维度设计:
- T2I-CompBench++ 覆盖 8 个维度:颜色绑定、纹理绑定、形状绑定、非空间关系、2D 空间关系、3D 空间关系、计数、复杂组合
- GenEval 覆盖 7 个维度:单物体、双物体、计数、颜色、位置、颜色属性、总体
- 两个基准使用不同验证方法(检测器 vs 规则),互为 sanity check
-
评估协议:
- T2I-CompBench++:每个 prompt 生成 4 个独立随机种子的图像,报告种子平均结果(附录给出标准差)
- GenEval:遵循官方协议,每个 prompt 生成 4 个样本,报告聚合分数
-
模型覆盖:
- 从 0.6B (PixArt-\(\alpha\)) 到 12B (Flux),涵盖三种架构范式
- Infinity-2B 和 8B 用于分析 VAR 架构内的规模效应
- Flux-Dev 和 Schnell 用于分析质量-速度 trade-off
损失函数 / 训练策略¶
不涉及训练,纯评测研究。
实验关键数据¶
T2I-CompBench++ 主结果¶
| 模型 | Color | Texture | Shape | Non-Spatial | 2D Spatial | 3D Spatial | Numeracy | Complex | Mean |
|---|---|---|---|---|---|---|---|---|---|
| SDXL | 0.593 | 0.519 | 0.466 | 0.311 | 0.215 | 0.341 | 0.504 | 0.319 | 0.409 |
| PixArt-\(\alpha\) | 0.407 | 0.444 | 0.367 | 0.308 | 0.202 | 0.350 | 0.506 | 0.324 | 0.364 |
| Flux-Dev | 0.746 | 0.644 | 0.482 | 0.309 | 0.273 | 0.393 | 0.613 | 0.363 | 0.478 |
| Flux-Schnell | 0.725 | 0.683 | 0.559 | 0.312 | 0.271 | 0.373 | 0.604 | 0.364 | 0.486 |
| Infinity-2B | 0.741 | 0.636 | 0.480 | 0.310 | 0.240 | 0.406 | 0.573 | 0.382 | 0.471 |
| Infinity-8B | 0.827 | 0.753 | 0.604 | 0.316 | 0.365 | 0.414 | 0.612 | 0.397 | 0.536 |
Infinity-8B 在 8 个维度中的 7 个排名第一,均值 0.536 远超第二名 Flux-Schnell (0.486)。
GenEval 结果¶
| 模型 | Colors | Color Attr. | Position | Single Obj. | Two Obj. | Counting | Overall |
|---|---|---|---|---|---|---|---|
| SDXL | 0.862 | 0.210 | 0.105 | 0.984 | 0.664 | 0.409 | 0.539 |
| PixArt-\(\alpha\) | 0.801 | 0.093 | 0.068 | 0.978 | 0.505 | 0.438 | 0.480 |
| Flux-Dev | 0.766 | 0.470 | 0.185 | 0.988 | 0.785 | 0.716 | 0.652 |
| Flux-Schnell | 0.785 | 0.505 | 0.263 | 1.000 | 0.894 | 0.597 | 0.674 |
| Infinity-2B | 0.830 | 0.590 | 0.270 | 0.997 | 0.798 | 0.597 | 0.680 |
| Infinity-8B | 0.886 | 0.765 | 0.578 | 1.000 | 0.937 | 0.778 | 0.824 |
GenEval 结果与 T2I-CompBench++ 趋势高度一致。Infinity-8B 在所有维度上领先。
关键发现¶
- VAR 架构优势明显:Infinity-8B 在两个基准的几乎所有维度上都是最强的。即使是更小的 Infinity-2B (2B 参数) 也能匹配或超过 12B 参数的 Flux 模型
- 规模效应:Infinity-8B vs 2B 差距巨大(Overall 0.824 vs 0.680),但在某些维度上增益有限(如 Non-Spatial),表明继续规模化在某些维度上可能遇到瓶颈
- SDXL 和 PixArt-\(\alpha\) 持续垫底:高审美质量与组合正确性不相关
- 两个基准一致性好:T2I-CompBench++(检测器驱动)和 GenEval(规则驱动)给出一致排序,增强了结论可靠性
- 空间推理普遍困难:所有模型在 2D/3D 空间关系和位置指标上得分都较低
亮点与洞察¶
- 填补重要空白:首次系统评估 VAR 模型的组合能力,建立了跨架构的统一基线。在 VAR 架构快速发展的当下,这个评测很及时
- VAR 优势的可能解释:next-scale 自回归生成在每个阶段显式条件化于已生成的视觉结构,而去噪过程中全局一致性必须在多步 refinement 中隐式涌现。这个洞察值得进一步验证
- 效率-性能 trade-off:Infinity-2B 以远少于大型扩散模型的参数和显存(附录有测量)达到了可比性能,表明 VAR 在组合生成上有更好的效率scaling
局限与展望¶
- 只使用了两个基准,缺少 human evaluation
- 所有结果依赖自动评测器,可能对 prompt 歧义敏感
- 运行时和显存测量仅在单一硬件上进行
- 没有分析 WHY VAR 更好(只是观察到了结果),缺少对架构差异的深入分析
- 缺少最新模型如 SD3、Dall-E 3/4 等的对比
- 论文贡献主要是 benchmark study,没有提出新方法
相关工作与启发¶
- vs ReNO: ReNO 是一种测试时优化方法,附录中与之对比,Infinity-8B 无需额外优化即超越
- vs Attend-Excite: 组合生成改进方法主要基于扩散模型,VAR 的结果提示可能需要重新思考组合生成的方法论
- 启发:VAR 模型的分层生成可能天然适合处理结构化的组合关系——先粗后细地确定物体布局,再填充细节属性。这个思路值得在组合生成方法设计中借鉴
评分¶
- 新颖性: ⭐⭐⭐ 首次跨架构评测有价值,但本身是 benchmark study,方法论贡献有限
- 实验充分度: ⭐⭐⭐⭐ 两个基准、多种子平均、方差分析,评测协议规范
- 写作质量: ⭐⭐⭐⭐ 简洁清晰,表格丰富,结论明确
- 价值: ⭐⭐⭐ 为社区提供了重要的实证证据和基线参考,但缺少深层分析限制了影响力