Inference Compute-Optimal Video Vision Language Models¶
会议: ACL 2025 (Long Paper)
arXiv: 2505.18855
代码: github/vvlm_inference_scaling
领域: 多模态VLM
关键词: 推理计算优化, 视频VLM, 缩放定律, 帧数, 视觉token数, 模型大小, 参数化建模
作者: Peiqi Wang (MIT), ShengYun Peng (Georgia Tech), Xuewen Zhang, Hanchao Yu, Yibo Yang, Fujun Liu, Qifan Wang (Meta), Lifu Huang (UC Davis)
一句话总结¶
首次系统性研究视频VLM推理计算预算的最优分配问题:在固定推理FLOPs下,通过大规模训练扫描(~100k A100小时)和add-interact参数化建模(\(R^2\)=0.98),确定语言模型大小 \(x_N\)、帧数 \(x_T\) 和每帧视觉token数 \(x_V\) 三个维度的最优权衡策略。
研究背景与动机¶
领域现状:视频VLM(如LLaVA-Video、Qwen2-VL)已广泛应用于推荐系统、内容审核等工业场景,每天需处理百万级视频。对于这类应用,预训练成本已被开源社区吸收,微调成本相对推理可忽略不计(论文估算月推理成本可达微调的340倍),因此推理FLOPs成为主导的运营开销。
现有痛点:(a) 视频VLM部署前需确定三个关键设计参数——语言模型大小 \(x_N\)、帧数 \(x_T\)、每帧token数 \(x_V\)——但此前缺乏系统性的分配策略;(b) 已有工作(如Du et al., 2024)只研究 \(x_T\) vs \(x_V\) 的权衡,忽略了模型大小 \(x_N\) 这一关键维度;(c) 此前工作普遍忽视视觉编码器的推理计算成本,仅计算LM成本,导致高估增加帧数的收益;(d) 没有工作探索微调数据量 \(n\) 如何与缩放因子 \(x\) 交互影响最优前沿。
核心矛盾:实际部署中需要在有限推理预算内做出最优的三维分配决策,但三个因子间存在复杂的交互效应,单独优化任何一个因子都是次优的。
本文目标 给定固定推理计算预算 \(c\) 和微调数据量 \(n\),如何选择最优的 \((x_N, x_T, x_V)\) 使任务性能最大化?
切入角度:借鉴Chinchilla在训练计算最优方面的研究范式——通过大规模扫描+参数化建模+约束优化——将其迁移到推理计算最优问题上,且关键区别在于微调数据量 \(n\) 不影响推理成本但可能影响最优配置。
方法详解¶
整体框架¶
推理计算优化问题形式化为:
其中 \(f(x, n)\) 为下游任务误差,\(c(x)\) 为推理计算成本。整体流程分三步:(1) 大规模训练扫描收集经验数据点 \((x, n, f)\);(2) 拟合参数化性能模型;(3) 求解约束离散优化问题得到最优前沿 \(x^*(c; n)\)。
关键设计¶
-
包含视觉编码器的推理成本模型:
- 推理FLOPs计算为:\(c(x) = 2x_T(x_M \cdot x_W + x_N \cdot x_V)\)
- 其中 \(x_M\) 为视觉模型参数量,\(x_W\) 为视觉特征数。对于SoViT-400M,这变为 \(c(x) = 2x_T(0.43\text{e}9 \cdot 768 + x_N \cdot x_V)\)
- 关键区别:此前工作仅计算LM成本 \(c_\text{LM} = 2x_N x_T x_V\),忽略了 \(c_\text{ViT} = 2x_M x_T x_W\)。但对于7B模型+\(x_V \approx 50\)的配置,视觉模型约占总推理FLOPs的50%
- 设计动机:忽略视觉编码器成本会系统性地高估增加帧数的收益(因为每增加一帧,视觉编码器也需要额外的计算)
-
add-interact参数化性能模型:
- 将任务误差建模为幂律加法形式加交互项:
\[f(x, n) = \sum_k \alpha_k x_k^{-a_k} + \sum_k \beta_k x_k^{b_k} n^{-d} + \xi n^{-d} + \varepsilon\]- 各项含义:\(\alpha_k x_k^{-a_k}\) 为随 \(x_k\) 增大可减少的误差(数据无限时的幂律衰减);\(\beta_k x_k^{b_k} n^{-d}\) 为缩放因子与数据量的交互项——当 \(b_k > 0\) 时,更大的 \(x_k\) 意味着更丰富的视觉信息,需要更多数据来充分利用但每个样本的边际收益更大;\(\xi n^{-d}\) 为仅依赖数据量的误差项;\(\varepsilon\) 为不可约误差
- 设计动机:简单的加法幂律(add)或乘法幂律(mult)无法捕捉 \(x\) 与 \(n\) 之间的交互效应。add-interact通过交互项 \(\beta_k x_k^{b_k} n^{-d}\) 建模了"更多视觉细节使数据更丰富但也更复杂"这一关键现象
-
两类训练扫描策略:
- Star sweep:以高计算配置 \((7.5\text{B}, 32, 196)\) 为中心,每次固定两个因子变化一个,在三个数据量 \(\{0.25\text{M}, 0.5\text{M}, 1\text{M}\}\) 上微调。避免昂贵的全网格搜索,更准确估计各因子的缩放指数
- IsoFLOP sweep:在固定推理FLOPs(2、5、15、30 TFLOPs)下调整 \((x_N, x_T, x_V)\),在 \(n=2\text{M}\) 上微调。用于识别给定预算下的最优配置,同时作为验证集评估参数化模型的外推能力
- 扫描范围:\(x_N \in \{1\text{B}, 2.8\text{B}, 7.5\text{B}\}\),\(x_T \in \{4, 8, 12, 16, 32\}\),\(x_V \in \{4, 16, 25, 36, 49, 100, 196\}\)
模型拟合与验证¶
- 拟合方法:在log空间中最小化MSE,使用L-BFGS优化,500次随机初始化取最优解
- Bootstrap聚合:100次bootstrap重采样训练基模型,取中位数聚合,解决~100个数据点拟合参数化模型时的高方差问题
- 模型选择:比较mult、add、add-interact-s、add-interact四种参数化形式,add-interact在分布内CV和外推上均最优
弹性分析¶
引入经济学中的"弹性"概念量化数据量对最优前沿的影响:
\(e_T = 0.1\) 表示数据量增加1%时,最优帧数增加0.1%。使用前向差分近似导数,在300个推理预算和100个数据量上取平均。
实验关键数据¶
参数化模型对比¶
| 模型 | CV MSE | CV \(E\%\) | CV \(R^2\) | 外推 MSE | 外推 \(E\%\) | 外推 \(R^2\) |
|---|---|---|---|---|---|---|
| mult | 1.21 | 1.62 | 0.88 | 6.73 | 3.55 | 0.45 |
| add | 0.56 | 1.11 | 0.94 | 2.04 | 2.15 | 0.83 |
| add-interact-s | 0.24 | 0.80 | 0.97 | 0.94 | 1.32 | 0.92 |
| add-interact | 0.20 | 0.77 | 0.98 | 0.95 | 1.33 | 0.92 |
关键发现¶
- 三维递减回报:单独增加 \(x_N\)、\(x_T\) 或 \(x_V\) 均呈边际递减效应,且递减速率因任务而异
- 联合缩放至关重要:从15到30 TFLOPs,\(x_N=1\text{B}\)的模型增益微乎其微(受模型容量瓶颈),\(x_N=7.5\text{B}\)则获得显著提升。\(x_T\) 和 \(x_V\) 存在类似的瓶颈效应
- 缩放速率不同:\(x_T\)(帧数)的边际收益通常大于\(x_V\)(token数),提升视觉模型效率比减少LM处理每帧的成本更有价值
- 任务特异性强:长视频理解(LongVideoBench)偏好增加 \(x_T\),细粒度感知(PerceptionTest)偏好增加 \(x_V\)——不存在通用分配策略
- 数据量改变最优前沿:随数据量增加,弹性分析显示 \(e_N < 0\)(减小模型)、\(e_T > 0\)(增加帧数)、\(e_V > 0\)(增加token数),趋势跨任务一致但幅度不同
- compute-optimal配置优势:在同等推理FLOPs下,最优配置相比naive配置可提升5-15%的平均任务性能
弹性(数据量敏感性)¶
| 因子 | 平均弹性 | 含义 |
|---|---|---|
| \(x_N\) | -0.22 | 数据↑ → 最优模型大小↓ |
| \(x_T\) | +0.17 | 数据↑ → 最优帧数↑ |
| \(x_V\) | +0.79 | 数据↑ → 最优token数↑ |
亮点与洞察¶
- "推理版Chinchilla"定位精准:将训练计算最优的经典研究范式——训练扫描+参数化建模+约束优化——迁移到推理场景,方法论严谨且具有高度可复现性
- 视觉编码器成本纠偏:纠正了此前工作(Li et al., 2024; Du et al., 2024)忽视视觉编码器成本的系统性偏差,对小模型+少token配置影响尤其显著
- 交互项的引入关键:add-interact相比add的核心改进在于建模了缩放因子与数据量的交互——"更多帧/token使数据更丰富但也更复杂",这是add和mult模型无法捕捉的,且直接影响了最优前沿对数据量的依赖
- 弹性分析实用性强:从经济学借用的弹性概念提供了直观且可比较的量化指标——\(e_V = 0.79\) vs \(e_T = 0.17\) 表明最优token数对数据量远比帧数敏感
- 实践指导价值:对工业部署给出了明确的指导——(1)不要只增大模型,要联合调整三个因子;(2)低预算用小模型+少帧+少token,高预算三者同步增加;(3)随着持续收集微调数据,应逐步增加视觉信息量、适当缩小模型
局限与展望¶
- 仅在LLaVA-like架构验证:使用Llama-3.2系列(1B/2.8B/7.5B),8B到70B之间无可用预训练模型,限制了对LM大小效应的完整刻画。是否适用于动态分辨率架构(如Qwen2-VL)未知
- 参数化形式手动选择:add-interact的函数形式是从4个候选中选出的,可能不是最优的描述;且在部分任务(LongVideoBench、Next-QA)上外推误差较大(\(E\% \geq 5\%\))
- 未考虑的缩放因子:vision encoder大小、下采样方法、训练策略等均被固定,可能是重要的自由度
- 推理成本估计简化:仅考虑理论FLOPs的prefill阶段,未涉及硬件利用率、decode阶段的memory-bound特性、量化/投机解码等实际部署技术
- 计算资源门槛极高:~100k A100小时的实验投入,绝大多数研究者无法复现
相关工作与对比¶
- vs Chinchilla (Hoffmann et al., 2022):Chinchilla优化训练计算在模型大小与预训练数据量间的分配;本文优化推理计算在 \(x_N\)、\(x_T\)、\(x_V\) 间的分配。关键区别:推理场景下 \(n\) 不影响计算成本但影响最优配置
- vs Du et al. (2024):仅研究 \(x_T\) vs \(x_V\) 的权衡,(1)未引入 \(x_N\),(2)未计入视觉编码器成本,(3)假设参数化模型但未直接从训练扫描观察趋势
- vs Li et al. (2024b):得出"VLM需要更少视觉token、更多参数"的结论,但忽略视觉编码器成本且不考虑数据量交互
- vs EfficientNet (Tan & Le, 2019):EfficientNet在CNN中提出compound scaling联合缩放宽度/深度/分辨率,本文将类似思想扩展到视频VLM的 \(x_N\)/\(x_T\)/\(x_V\)
- vs Sardana et al. (2024):同样考虑部署成本,但针对LM预训练而非视频VLM微调场景
启发与关联¶
- 这一"推理计算最优"研究范式可推广到任何多模态模型:如何在视觉分辨率、编码器大小和LLM大小间分配推理预算
- "数据量影响最优前沿"意味着在持续收集数据的场景下,部署配置应动态调整——与固定一次的传统做法不同
- \(x_T\) 的缩放收益大于 \(x_V\) 的发现提示:Token压缩/合并技术虽减少了 \(x_V\),但释放出的预算若分配给更多帧可能效果更好
- 对于AuroraCap等方法的公平对比提出了警示:固定 \(x_T x_V\)(总token数)但在 \(x_T\) vs \(x_V\) 的分配上不一致会导致不公平比较
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 在视频VLM领域首次系统性研究推理计算最优分配,方法论完整、定位独特
- 实验充分度: ⭐⭐⭐⭐⭐ ~100k A100小时的大规模训练扫描,8个视频任务,4种参数化模型对比,详尽的消融和弹性分析
- 写作质量: ⭐⭐⭐⭐⭐ 数学建模清晰严谨,与Chinchilla的对比帮助理解,Appendix极为详尽(6个附录涵盖FAQ/实现/扫描/拟合/弹性/结果)
- 价值: ⭐⭐⭐⭐⭐ 对视频VLM工业部署有直接且实用的指导意义,方法论可迁移到其他多模态缩放问题