跳转至

Infinity and Beyond: Compositional Alignment in VAR and Diffusion T2I Models

会议: ICLR 2026
arXiv: 2512.11542
代码: 无
领域: 扩散模型 / 组合生成
关键词: 组合对齐, VAR 自回归, T2I-CompBench++, GenEval, 基准评测

一句话总结

首次系统性地对比 Visual Autoregressive (VAR) 模型和扩散模型在组合文本-图像对齐上的表现,在 T2I-CompBench++ 和 GenEval 两个基准上评测 6 个 T2I 模型,发现 Infinity-8B 在几乎所有组合维度上取得最强表现,VAR 架构在组合生成方面展现出显著优势。

研究背景与动机

领域现状:T2I 模型已能生成高质量、语义丰富的图像,但组合对齐(compositional alignment)——忠实地将文本中描述的物体、属性和空间关系绑定到视觉输出——仍是核心挑战。

现有痛点:虽然已有工作评估扩散模型的组合能力,但新兴的 Visual Autoregressive (VAR) 架构(如 Infinity)的组合对齐能力完全未被系统评估。VAR 模型通过 next-scale 自回归预测分层潜码,与扩散模型的去噪范式根本不同。

核心矛盾:高视觉质量 ≠ 可靠的组合正确性——模型可能生成漂亮但属性绑定错误、空间关系混乱的图像。但缺乏跨架构的系统比较。

本文目标 提供首个统一的 VAR vs 扩散模型组合对齐基准评测,覆盖颜色/纹理/形状绑定、空间关系、计数和复杂多属性组合。

切入角度:使用两个互补基准——T2I-CompBench++(检测器驱动验证)和 GenEval(规则化约束),覆盖 8 个评估维度,对 6 个代表性 T2I 模型进行全面评测。

核心 idea:VAR 模型(特别是 Infinity-8B)在组合对齐上系统性地优于扩散模型,可能因为 next-scale 自回归生成天然地在每个阶段条件化于已生成的视觉结构。

方法详解

整体框架

本文是一篇实证评测研究(benchmark study),不提出新方法。核心工作是在统一的评估协议下对比 6 个模型:

  • 扩散 (UNet): SDXL
  • 扩散 (Transformer): PixArt-\(\alpha\)
  • DiT: Flux-Dev, Flux-Schnell
  • VAR: Infinity-2B, Infinity-8B

关键设计

  1. 评估维度设计:

    • T2I-CompBench++ 覆盖 8 个维度:颜色绑定、纹理绑定、形状绑定、非空间关系、2D 空间关系、3D 空间关系、计数、复杂组合
    • GenEval 覆盖 7 个维度:单物体、双物体、计数、颜色、位置、颜色属性、总体
    • 两个基准使用不同验证方法(检测器 vs 规则),互为 sanity check
  2. 评估协议:

    • T2I-CompBench++:每个 prompt 生成 4 个独立随机种子的图像,报告种子平均结果(附录给出标准差)
    • GenEval:遵循官方协议,每个 prompt 生成 4 个样本,报告聚合分数
  3. 模型覆盖:

    • 从 0.6B (PixArt-\(\alpha\)) 到 12B (Flux),涵盖三种架构范式
    • Infinity-2B 和 8B 用于分析 VAR 架构内的规模效应
    • Flux-Dev 和 Schnell 用于分析质量-速度 trade-off

损失函数 / 训练策略

不涉及训练,纯评测研究。

实验关键数据

T2I-CompBench++ 主结果

模型 Color Texture Shape Non-Spatial 2D Spatial 3D Spatial Numeracy Complex Mean
SDXL 0.593 0.519 0.466 0.311 0.215 0.341 0.504 0.319 0.409
PixArt-\(\alpha\) 0.407 0.444 0.367 0.308 0.202 0.350 0.506 0.324 0.364
Flux-Dev 0.746 0.644 0.482 0.309 0.273 0.393 0.613 0.363 0.478
Flux-Schnell 0.725 0.683 0.559 0.312 0.271 0.373 0.604 0.364 0.486
Infinity-2B 0.741 0.636 0.480 0.310 0.240 0.406 0.573 0.382 0.471
Infinity-8B 0.827 0.753 0.604 0.316 0.365 0.414 0.612 0.397 0.536

Infinity-8B 在 8 个维度中的 7 个排名第一,均值 0.536 远超第二名 Flux-Schnell (0.486)。

GenEval 结果

模型 Colors Color Attr. Position Single Obj. Two Obj. Counting Overall
SDXL 0.862 0.210 0.105 0.984 0.664 0.409 0.539
PixArt-\(\alpha\) 0.801 0.093 0.068 0.978 0.505 0.438 0.480
Flux-Dev 0.766 0.470 0.185 0.988 0.785 0.716 0.652
Flux-Schnell 0.785 0.505 0.263 1.000 0.894 0.597 0.674
Infinity-2B 0.830 0.590 0.270 0.997 0.798 0.597 0.680
Infinity-8B 0.886 0.765 0.578 1.000 0.937 0.778 0.824

GenEval 结果与 T2I-CompBench++ 趋势高度一致。Infinity-8B 在所有维度上领先。

关键发现

  • VAR 架构优势明显:Infinity-8B 在两个基准的几乎所有维度上都是最强的。即使是更小的 Infinity-2B (2B 参数) 也能匹配或超过 12B 参数的 Flux 模型
  • 规模效应:Infinity-8B vs 2B 差距巨大(Overall 0.824 vs 0.680),但在某些维度上增益有限(如 Non-Spatial),表明继续规模化在某些维度上可能遇到瓶颈
  • SDXL 和 PixArt-\(\alpha\) 持续垫底:高审美质量与组合正确性不相关
  • 两个基准一致性好:T2I-CompBench++(检测器驱动)和 GenEval(规则驱动)给出一致排序,增强了结论可靠性
  • 空间推理普遍困难:所有模型在 2D/3D 空间关系和位置指标上得分都较低

亮点与洞察

  • 填补重要空白:首次系统评估 VAR 模型的组合能力,建立了跨架构的统一基线。在 VAR 架构快速发展的当下,这个评测很及时
  • VAR 优势的可能解释:next-scale 自回归生成在每个阶段显式条件化于已生成的视觉结构,而去噪过程中全局一致性必须在多步 refinement 中隐式涌现。这个洞察值得进一步验证
  • 效率-性能 trade-off:Infinity-2B 以远少于大型扩散模型的参数和显存(附录有测量)达到了可比性能,表明 VAR 在组合生成上有更好的效率scaling

局限与展望

  • 只使用了两个基准,缺少 human evaluation
  • 所有结果依赖自动评测器,可能对 prompt 歧义敏感
  • 运行时和显存测量仅在单一硬件上进行
  • 没有分析 WHY VAR 更好(只是观察到了结果),缺少对架构差异的深入分析
  • 缺少最新模型如 SD3、Dall-E 3/4 等的对比
  • 论文贡献主要是 benchmark study,没有提出新方法

相关工作与启发

  • vs ReNO: ReNO 是一种测试时优化方法,附录中与之对比,Infinity-8B 无需额外优化即超越
  • vs Attend-Excite: 组合生成改进方法主要基于扩散模型,VAR 的结果提示可能需要重新思考组合生成的方法论
  • 启发:VAR 模型的分层生成可能天然适合处理结构化的组合关系——先粗后细地确定物体布局,再填充细节属性。这个思路值得在组合生成方法设计中借鉴

评分

  • 新颖性: ⭐⭐⭐ 首次跨架构评测有价值,但本身是 benchmark study,方法论贡献有限
  • 实验充分度: ⭐⭐⭐⭐ 两个基准、多种子平均、方差分析,评测协议规范
  • 写作质量: ⭐⭐⭐⭐ 简洁清晰,表格丰富,结论明确
  • 价值: ⭐⭐⭐ 为社区提供了重要的实证证据和基线参考,但缺少深层分析限制了影响力