跳转至

TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation

会议: NeurIPS 2025
arXiv: 2507.18537
代码: GitHub
领域: LLM推理
关键词: test-time scaling, visual auto-regressive, VAR, path searching, image generation

一句话总结

提出 TTS-VAR——首个针对 Visual Auto-Regressive (VAR) 模型的测试时扩展框架,将图像生成建模为路径搜索问题,通过自适应递减批量 + 早期聚类多样性搜索 + 后期重采样潜力选择,在 Infinity 2B 上将 GenEval 分数从 0.69 提升到 0.75(+8.7%),N=2 即超越 Best-of-N 的 N=8 效果。

研究背景与动机

领域现状:测试时扩展 (TTS) 在 LLM 中取得巨大成功(CoT、树搜索等),在扩散模型中也被探索为路径搜索问题。但 VAR(Visual Auto-Regressive)模型——通过多尺度从粗到细逐步预测"下一尺度"生成图像——尚缺乏专门的 TTS 框架。

现有痛点:(a) 扩散模型的 TTS 方法不能直接迁移——额外推理步骤会打破 VAR 的 KV Cache 机制,复杂度指数增长;(b) 在 VAR 早期尺度直接用 reward 函数评分会误判——早期中间图像与最终图像质量一致性很低,可能错误淘汰有潜力的样本;(c) 简单 Best-of-N 策略效率低下。

核心矛盾:VAR 的因果生成特性(token 一旦生成不可修改,且直接影响后续所有 token)使得早期决策至关重要,但早期尺度又难以准确评估质量。

切入角度:利用 VAR 多尺度生成的固有结构——早期尺度包含结构信息(布局/构图),后期尺度包含细节:分别采用不同策略。

核心 idea:早期用聚类保多样性(不评分),后期用 reward 选最优(高一致性),配合自适应递减批量充分利用早期低成本。

方法详解

整体框架

将 VAR 图像生成视为路径搜索问题。在 13 个尺度的生成过程中:(1) 自适应递减批量——早期尺度维持大批量生成更多候选;(2) 粗尺度聚类搜索——在需要缩减批量时,用 DINOv2 特征聚类保持结构多样性;(3) 细尺度重采样选择——在中间图像与最终质量一致性高的尺度,用 reward 函数引导选择最优候选。

关键设计

  1. 自适应递减批量调度 (Adaptive Descending Batch Size):

    • 功能:在推理时采用从大到小的批量 {8N, 8N, 6N, 6N, 6N, 4N, 2N, 2N, 2N, 1N, 1N, 1N, 1N}
    • 设计动机:VAR 早期尺度 FLOPs 和内存消耗极低(token 序列短),后期指数增长。大批量集中在低成本的早期,额外开销很小
    • 效果:相比固定批量,在几乎相同总成本下探索更多生成可能性
  2. 聚类多样性搜索 (Clustering-Based Diversity Search):

    • 功能:在早期尺度(scale 2, 5)缩减批量时,用 K-Means++ 对 DINOv2 语义特征聚类,从每个簇选择最近中心的样本
    • 核心观察:(a) 早期图像的 reward 分数与最终图像一致性低(<0.3),直接评分会误杀好样本;(b) 但结构信息(布局/构图)在 scale 2 就已清晰可辨
    • 特征提取:DINOv2 自监督特征 → PCA 降维 → K-Means++ 聚类
    • 效果:保持结构多样性,避免所有候选坍缩到相似布局
  3. 重采样潜力选择 (Resampling-Based Potential Selection):

    • 功能:在后期尺度(scale 6, 9)用 ImageReward 评分,按潜力分数进行多项式分布重采样
    • 潜力分数设计:对比了 VALUE(当前分数)、DIFF(相邻差)、MAX(历史最高)、SUM(历史累加)四种策略
    • 关键发现:VALUE 效果最好——直接用当前尺度 reward 分数即可;DIFF 效果最差(增长率不稳定)
    • 重采样频率:仅在 scale 6 和 9 各做一次(增加频率收益微弱但成本高)
    • 理论基础:目标是将生成分布 \(p_\theta(x)\) 偏移到 \(p_{\theta'}(x) \propto p_\theta(x) \exp(\lambda \cdot r_\phi(x,c))\)

为什么分尺度策略是必要的

  • 中间状态一致性实验表明:scale 0-5 的 reward 分数与最终质量一致性 < 0.3,scale 6+ 快速上升到 0.6-0.8
  • 在 scale 3 做重采样反而导致最终分数下降(误杀有潜力的样本)
  • 这与扩散模型不同——扩散可以通过迭代去噪修正,VAR 的 token 一旦确定就不可更改

实验关键数据

主实验(GenEval)

方法 Two Obj. Counting Color Attri. Overall
Infinity 2B 0.835 0.592 0.615 0.695
+IS (N=8) 0.897 0.622 0.655 0.718
+BoN (N=8) 0.920 0.676 0.670 0.736
+TTS-VAR (N=2) 0.928 0.711 0.678 0.740
+TTS-VAR (N=8) 0.950 0.741 0.680 0.753
Infinity 8B 0.887 0.729 0.675 0.765
+TTS-VAR (N=4) 0.930 0.804 0.760 0.819

用户研究

指标 Baseline IS BoN TTS-VAR
图像质量 13.3% 7.9% 13.3% 65.4%
合理性 13.7% 8.6% 8.6% 69.2%
提示一致性 1.3% 1.9% 2.5% 94.3%

关键消融

组件 GenEval (N=4) 说明
BoN only 0.724 仅最终选择
+Resampling 0.728 加后期重采样
+Clustering 0.730 加早期聚类
+两者 (full) 0.744 聚类+重采样,最优

关键发现

  • N=2 即超越 BoN N=8:TTS-VAR 仅用 25% 的采样量就超越 Best-of-N,效率极高
  • 8B 模型同样有效:Infinity 8B 从 0.765 提升到 0.819,说明框架可推广
  • 用户研究压倒性优势:提示一致性上 94.3% 用户选择 TTS-VAR

亮点与洞察

  • 首个 VAR 测试时扩展框架:填补了 VAR 模型生成质量提升的重要空白,方法通用、即插即用
  • 分尺度处理的必要性:通过实验严谨论证了"早期不能评分、后期才能选择"的直觉,给出了一致性曲线作为定量依据
  • 结构多样性 > 早期质量评分:反直觉发现——在早期保持多样性比试图选最优更有效,因为 reward 在早期不可靠
  • 效率优势显著:利用 VAR 早期低成本的特性,以极小额外开销获得大幅提升

局限与展望

  • 依赖外部 reward 模型:ImageReward 的偏差会传导到选择结果,可能对 reward 模型覆盖较差的场景效果有限
  • 聚类特征选择:目前固定使用 DINOv2 + PCA,不同任务/风格是否需要不同特征提取器未探讨
  • 仅验证了 Infinity 系列:其他 VAR 架构(如 VAR 原版、LlamaGen)的效果未验证
  • 改进方向:(1) 学习自适应的尺度切换策略(而非手动设定 scale 6/9);(2) 训练轻量级代理 reward 模型减少推理开销;(3) 探索聚类+重采样的混合尺度策略

相关工作与启发

  • vs 扩散模型 TTS (Ma et al.):扩散模型可以在任意步骤加噪/去噪搜索,VAR 无法回退——TTS-VAR 用聚类替代早期评分,是巧妙的适配
  • vs PARM (Guo et al.):PARM 用统一理解+生成模型做 image-level CoT 自纠错,需要额外训练;TTS-VAR 纯推理时无需训练
  • vs Best-of-N:BoN 只在最终选择,浪费了中间过程信息;TTS-VAR 在生成过程中持续搜索+筛选
  • 启发:VAR 的多尺度结构天然适合分阶段策略,这种"根据信号可靠性选择不同策略"的思路可推广到其他层次化生成模型

评分

  • 新颖性: ⭐⭐⭐⭐ 首个 VAR TTS 框架,分尺度聚类+重采样的设计有洞察力
  • 实验充分度: ⭐⭐⭐⭐ GenEval/T2I-CompBench 两个 benchmark + 用户研究 + 详细消融
  • 写作质量: ⭐⭐⭐⭐ 方法动机清晰,实验分析深入(一致性曲线的分析很好)
  • 价值: ⭐⭐⭐⭐ 即插即用的 VAR 推理增强方案,对 AR 图像生成实用价值高