Infinity and Beyond: Compositional Alignment in VAR and Diffusion T2I Models¶

会议: ICLR 2026
arXiv: 2512.11542
代码: 无
领域: 扩散模型 / 组合生成
关键词: 组合对齐, VAR 自回归, T2I-CompBench++, GenEval, 基准评测

一句话总结¶

首次系统性地对比 Visual Autoregressive (VAR) 模型和扩散模型在组合文本-图像对齐上的表现，在 T2I-CompBench++ 和 GenEval 两个基准上评测 6 个 T2I 模型，发现 Infinity-8B 在几乎所有组合维度上取得最强表现，VAR 架构在组合生成方面展现出显著优势。

研究背景与动机¶

领域现状：T2I 模型已能生成高质量、语义丰富的图像，但组合对齐（compositional alignment）——忠实地将文本中描述的物体、属性和空间关系绑定到视觉输出——仍是核心挑战。

现有痛点：虽然已有工作评估扩散模型的组合能力，但新兴的 Visual Autoregressive (VAR) 架构（如 Infinity）的组合对齐能力完全未被系统评估。VAR 模型通过 next-scale 自回归预测分层潜码，与扩散模型的去噪范式根本不同。

核心矛盾：高视觉质量 ≠ 可靠的组合正确性——模型可能生成漂亮但属性绑定错误、空间关系混乱的图像。但缺乏跨架构的系统比较。

本文目标 提供首个统一的 VAR vs 扩散模型组合对齐基准评测，覆盖颜色/纹理/形状绑定、空间关系、计数和复杂多属性组合。

切入角度：使用两个互补基准——T2I-CompBench++（检测器驱动验证）和 GenEval（规则化约束），覆盖 8 个评估维度，对 6 个代表性 T2I 模型进行全面评测。

核心 idea：VAR 模型（特别是 Infinity-8B）在组合对齐上系统性地优于扩散模型，可能因为 next-scale 自回归生成天然地在每个阶段条件化于已生成的视觉结构。

方法详解¶

整体框架¶

本文是一篇实证评测研究（benchmark study），不提出新方法。核心工作是在统一的评估协议下对比 6 个模型：

扩散 (UNet): SDXL
扩散 (Transformer): PixArt-\(\alpha\)
DiT: Flux-Dev, Flux-Schnell
VAR: Infinity-2B, Infinity-8B

关键设计¶

评估维度设计:
- T2I-CompBench++ 覆盖 8 个维度：颜色绑定、纹理绑定、形状绑定、非空间关系、2D 空间关系、3D 空间关系、计数、复杂组合
- GenEval 覆盖 7 个维度：单物体、双物体、计数、颜色、位置、颜色属性、总体
- 两个基准使用不同验证方法（检测器 vs 规则），互为 sanity check
评估协议:
- T2I-CompBench++：每个 prompt 生成 4 个独立随机种子的图像，报告种子平均结果（附录给出标准差）
- GenEval：遵循官方协议，每个 prompt 生成 4 个样本，报告聚合分数
模型覆盖:
- 从 0.6B (PixArt-\(\alpha\)) 到 12B (Flux)，涵盖三种架构范式
- Infinity-2B 和 8B 用于分析 VAR 架构内的规模效应
- Flux-Dev 和 Schnell 用于分析质量-速度 trade-off

损失函数 / 训练策略¶

不涉及训练，纯评测研究。

实验关键数据¶

T2I-CompBench++ 主结果¶

模型	Color	Texture	Shape	Non-Spatial	2D Spatial	3D Spatial	Numeracy	Complex	Mean
SDXL	0.593	0.519	0.466	0.311	0.215	0.341	0.504	0.319	0.409
PixArt-\(\alpha\)	0.407	0.444	0.367	0.308	0.202	0.350	0.506	0.324	0.364
Flux-Dev	0.746	0.644	0.482	0.309	0.273	0.393	0.613	0.363	0.478
Flux-Schnell	0.725	0.683	0.559	0.312	0.271	0.373	0.604	0.364	0.486
Infinity-2B	0.741	0.636	0.480	0.310	0.240	0.406	0.573	0.382	0.471
Infinity-8B	0.827	0.753	0.604	0.316	0.365	0.414	0.612	0.397	0.536

Infinity-8B 在 8 个维度中的 7 个排名第一，均值 0.536 远超第二名 Flux-Schnell (0.486)。

GenEval 结果¶

模型	Colors	Color Attr.	Position	Single Obj.	Two Obj.	Counting	Overall
SDXL	0.862	0.210	0.105	0.984	0.664	0.409	0.539
PixArt-\(\alpha\)	0.801	0.093	0.068	0.978	0.505	0.438	0.480
Flux-Dev	0.766	0.470	0.185	0.988	0.785	0.716	0.652
Flux-Schnell	0.785	0.505	0.263	1.000	0.894	0.597	0.674
Infinity-2B	0.830	0.590	0.270	0.997	0.798	0.597	0.680
Infinity-8B	0.886	0.765	0.578	1.000	0.937	0.778	0.824

GenEval 结果与 T2I-CompBench++ 趋势高度一致。Infinity-8B 在所有维度上领先。

关键发现¶

VAR 架构优势明显：Infinity-8B 在两个基准的几乎所有维度上都是最强的。即使是更小的 Infinity-2B (2B 参数) 也能匹配或超过 12B 参数的 Flux 模型
规模效应：Infinity-8B vs 2B 差距巨大（Overall 0.824 vs 0.680），但在某些维度上增益有限（如 Non-Spatial），表明继续规模化在某些维度上可能遇到瓶颈
SDXL 和 PixArt-\(\alpha\) 持续垫底：高审美质量与组合正确性不相关
两个基准一致性好：T2I-CompBench++（检测器驱动）和 GenEval（规则驱动）给出一致排序，增强了结论可靠性
空间推理普遍困难：所有模型在 2D/3D 空间关系和位置指标上得分都较低

亮点与洞察¶

填补重要空白：首次系统评估 VAR 模型的组合能力，建立了跨架构的统一基线。在 VAR 架构快速发展的当下，这个评测很及时
VAR 优势的可能解释：next-scale 自回归生成在每个阶段显式条件化于已生成的视觉结构，而去噪过程中全局一致性必须在多步 refinement 中隐式涌现。这个洞察值得进一步验证
效率-性能 trade-off：Infinity-2B 以远少于大型扩散模型的参数和显存（附录有测量）达到了可比性能，表明 VAR 在组合生成上有更好的效率scaling

局限与展望¶

只使用了两个基准，缺少 human evaluation
所有结果依赖自动评测器，可能对 prompt 歧义敏感
运行时和显存测量仅在单一硬件上进行
没有分析 WHY VAR 更好（只是观察到了结果），缺少对架构差异的深入分析
缺少最新模型如 SD3、Dall-E 3/4 等的对比
论文贡献主要是 benchmark study，没有提出新方法

评分¶

新颖性: ⭐⭐⭐ 首次跨架构评测有价值，但本身是 benchmark study，方法论贡献有限
实验充分度: ⭐⭐⭐⭐ 两个基准、多种子平均、方差分析，评测协议规范
写作质量: ⭐⭐⭐⭐ 简洁清晰，表格丰富，结论明确
价值: ⭐⭐⭐ 为社区提供了重要的实证证据和基线参考，但缺少深层分析限制了影响力