TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation¶

会议: NeurIPS 2025
arXiv: 2507.18537
代码: GitHub
领域: LLM推理
关键词: test-time scaling, visual auto-regressive, VAR, path searching, image generation

一句话总结¶

提出 TTS-VAR——首个针对 Visual Auto-Regressive (VAR) 模型的测试时扩展框架，将图像生成建模为路径搜索问题，通过自适应递减批量 + 早期聚类多样性搜索 + 后期重采样潜力选择，在 Infinity 2B 上将 GenEval 分数从 0.69 提升到 0.75（+8.7%），N=2 即超越 Best-of-N 的 N=8 效果。

研究背景与动机¶

领域现状：测试时扩展 (TTS) 在 LLM 中取得巨大成功（CoT、树搜索等），在扩散模型中也被探索为路径搜索问题。但 VAR（Visual Auto-Regressive）模型——通过多尺度从粗到细逐步预测"下一尺度"生成图像——尚缺乏专门的 TTS 框架。

现有痛点：(a) 扩散模型的 TTS 方法不能直接迁移——额外推理步骤会打破 VAR 的 KV Cache 机制，复杂度指数增长；(b) 在 VAR 早期尺度直接用 reward 函数评分会误判——早期中间图像与最终图像质量一致性很低，可能错误淘汰有潜力的样本；(c) 简单 Best-of-N 策略效率低下。

核心矛盾：VAR 的因果生成特性（token 一旦生成不可修改，且直接影响后续所有 token）使得早期决策至关重要，但早期尺度又难以准确评估质量。

切入角度：利用 VAR 多尺度生成的固有结构——早期尺度包含结构信息（布局/构图），后期尺度包含细节：分别采用不同策略。

核心 idea：早期用聚类保多样性（不评分），后期用 reward 选最优（高一致性），配合自适应递减批量充分利用早期低成本。

方法详解¶

整体框架¶

将 VAR 图像生成视为路径搜索问题。在 13 个尺度的生成过程中：(1) 自适应递减批量——早期尺度维持大批量生成更多候选；(2) 粗尺度聚类搜索——在需要缩减批量时，用 DINOv2 特征聚类保持结构多样性；(3) 细尺度重采样选择——在中间图像与最终质量一致性高的尺度，用 reward 函数引导选择最优候选。

关键设计¶

自适应递减批量调度 (Adaptive Descending Batch Size):
- 功能：在推理时采用从大到小的批量 {8N, 8N, 6N, 6N, 6N, 4N, 2N, 2N, 2N, 1N, 1N, 1N, 1N}
- 设计动机：VAR 早期尺度 FLOPs 和内存消耗极低（token 序列短），后期指数增长。大批量集中在低成本的早期，额外开销很小
- 效果：相比固定批量，在几乎相同总成本下探索更多生成可能性
聚类多样性搜索 (Clustering-Based Diversity Search):
- 功能：在早期尺度（scale 2, 5）缩减批量时，用 K-Means++ 对 DINOv2 语义特征聚类，从每个簇选择最近中心的样本
- 核心观察：(a) 早期图像的 reward 分数与最终图像一致性低（<0.3），直接评分会误杀好样本；(b) 但结构信息（布局/构图）在 scale 2 就已清晰可辨
- 特征提取：DINOv2 自监督特征 → PCA 降维 → K-Means++ 聚类
- 效果：保持结构多样性，避免所有候选坍缩到相似布局
重采样潜力选择 (Resampling-Based Potential Selection):
- 功能：在后期尺度（scale 6, 9）用 ImageReward 评分，按潜力分数进行多项式分布重采样
- 潜力分数设计：对比了 VALUE（当前分数）、DIFF（相邻差）、MAX（历史最高）、SUM（历史累加）四种策略
- 关键发现：VALUE 效果最好——直接用当前尺度 reward 分数即可；DIFF 效果最差（增长率不稳定）
- 重采样频率：仅在 scale 6 和 9 各做一次（增加频率收益微弱但成本高）
- 理论基础：目标是将生成分布 \(p_\theta(x)\) 偏移到 \(p_{\theta'}(x) \propto p_\theta(x) \exp(\lambda \cdot r_\phi(x,c))\)

为什么分尺度策略是必要的¶

中间状态一致性实验表明：scale 0-5 的 reward 分数与最终质量一致性 < 0.3，scale 6+ 快速上升到 0.6-0.8
在 scale 3 做重采样反而导致最终分数下降（误杀有潜力的样本）
这与扩散模型不同——扩散可以通过迭代去噪修正，VAR 的 token 一旦确定就不可更改

实验关键数据¶

主实验（GenEval）¶

方法	Two Obj.	Counting	Color Attri.	Overall
Infinity 2B	0.835	0.592	0.615	0.695
+IS (N=8)	0.897	0.622	0.655	0.718
+BoN (N=8)	0.920	0.676	0.670	0.736
+TTS-VAR (N=2)	0.928	0.711	0.678	0.740
+TTS-VAR (N=8)	0.950	0.741	0.680	0.753
Infinity 8B	0.887	0.729	0.675	0.765
+TTS-VAR (N=4)	0.930	0.804	0.760	0.819

用户研究¶

指标	Baseline	IS	BoN	TTS-VAR
图像质量	13.3%	7.9%	13.3%	65.4%
合理性	13.7%	8.6%	8.6%	69.2%
提示一致性	1.3%	1.9%	2.5%	94.3%

关键消融¶

组件	GenEval (N=4)	说明
BoN only	0.724	仅最终选择
+Resampling	0.728	加后期重采样
+Clustering	0.730	加早期聚类
+两者 (full)	0.744	聚类+重采样，最优

关键发现¶

N=2 即超越 BoN N=8：TTS-VAR 仅用 25% 的采样量就超越 Best-of-N，效率极高
8B 模型同样有效：Infinity 8B 从 0.765 提升到 0.819，说明框架可推广
用户研究压倒性优势：提示一致性上 94.3% 用户选择 TTS-VAR

亮点与洞察¶

首个 VAR 测试时扩展框架：填补了 VAR 模型生成质量提升的重要空白，方法通用、即插即用
分尺度处理的必要性：通过实验严谨论证了"早期不能评分、后期才能选择"的直觉，给出了一致性曲线作为定量依据
结构多样性 > 早期质量评分：反直觉发现——在早期保持多样性比试图选最优更有效，因为 reward 在早期不可靠
效率优势显著：利用 VAR 早期低成本的特性，以极小额外开销获得大幅提升

局限与展望¶

依赖外部 reward 模型：ImageReward 的偏差会传导到选择结果，可能对 reward 模型覆盖较差的场景效果有限
聚类特征选择：目前固定使用 DINOv2 + PCA，不同任务/风格是否需要不同特征提取器未探讨
仅验证了 Infinity 系列：其他 VAR 架构（如 VAR 原版、LlamaGen）的效果未验证
改进方向：(1) 学习自适应的尺度切换策略（而非手动设定 scale 6/9）；(2) 训练轻量级代理 reward 模型减少推理开销；(3) 探索聚类+重采样的混合尺度策略

评分¶

新颖性: ⭐⭐⭐⭐ 首个 VAR TTS 框架，分尺度聚类+重采样的设计有洞察力
实验充分度: ⭐⭐⭐⭐ GenEval/T2I-CompBench 两个 benchmark + 用户研究 + 详细消融
写作质量: ⭐⭐⭐⭐ 方法动机清晰，实验分析深入（一致性曲线的分析很好）
价值: ⭐⭐⭐⭐ 即插即用的 VAR 推理增强方案，对 AR 图像生成实用价值高