AutoGaze: Attend Before Attention — Efficient and Scalable Video Understanding via Autoregressive Gazing¶
会议: CVPR 2026
arXiv: 2603.12254
代码: autogaze.github.io
领域: 视频理解 / 高效推理
关键词: 自回归注视, token压缩, 多尺度patch选择, 视频MLLM, 高分辨率长视频
一句话总结¶
提出 AutoGaze,一个仅 3M 参数的轻量模块,通过自回归地选择最小化重建损失的多尺度 patch 集合,在 ViT 之前移除视频中的冗余信息,实现 4×~100× 的 token 压缩和最高 19× 的 ViT 加速,使 MLLM 能够扩展至 1K 帧 4K 分辨率视频并在 VideoMME 上达到 67.0%。
研究背景与动机¶
领域现状:多模态大语言模型 (MLLM) 如 Qwen2.5-VL、NVILA 等已实现通用视频理解,但受限于计算成本,通常只能处理短时、低分辨率视频。人类视觉系统通过眼动注视 (saccade) 选择性关注信息丰富的区域,高效理解高 FPS 高分辨率视频流。
现有痛点:(1) 现有 MLLM 视频中每个像素和每帧的处理权重相同,忽视了视频中巨大的时空冗余(静态背景只需观看一次);(2) 现有 token 压缩方法仅在 LLM 内部或 ViT-LLM 之间剪枝,ViT 仍需处理所有像素,成为扩展瓶颈;(3) 启发式方法(注意力分数)效果不如学习方法,而基于搜索推理的方法引入额外开销。
核心矛盾:长时高分辨率视频理解的能力需求与 ViT 处理所有像素的计算瓶颈之间的矛盾。
本文目标:在 ViT 之前高效地移除视频冗余 patch,同时保留足够信息用于下游理解。
切入角度:将 patch 选择建模为自回归序列生成问题,通过最小化重建损失来决定选择哪些 patch 以及何时停止。
核心 idea:让一个轻量模型学会"先看哪里",模仿人类眼动注视机制,在 ViT 处理之前去除冗余。
方法详解¶
整体框架¶
AutoGaze 在视频处理流程的最前端工作:(1) 对视频的每一帧,卷积编码器提取帧级特征;(2) Transformer 解码器自回归地输出 patch 索引序列,同时预测当前重建损失;(3) 当预测重建损失低于用户指定阈值 \(\epsilon\) 时自动停止当前帧的注视;(4) 仅将选中的多尺度 patch 送入下游 ViT 和 MLLM。
关键设计¶
-
自回归注视 (Autoregressive Gazing):
- 功能:逐帧逐 patch 地自回归选择信息最丰富的 patch,同时利用历史帧和已选 patch 避免重复选择
- 核心思路:将 patch 选择形式化为序列到序列问题,词汇表为 patch 索引 \(\{1, \dots, V\}\),解码器基于当前及历史帧特征和已选 patch 输出下一个待选 patch 的概率分布
- 优化目标:\(\min_{p_1^1, \dots, p_{N^T}^T} L(\mathbf{X}^{1:T}, \text{Recon}(\mathbf{X}^1[p_1^1], \dots, \mathbf{X}^T[p_{N^T}^T]))\)
- 自动停止:解码器额外预测每步的重建损失,当预测损失 \(< \epsilon\) 时停止当前帧注视
- 设计动机:自回归方式可利用前序帧的注视历史避免冗余选择(如静态背景已在前帧选过),这是启发式方法无法做到的
-
多尺度注视 (Multi-Scale Gazing):
- 功能:为不同详细程度的区域分配不同分辨率的 patch,低细节区域用粗粒度 patch 覆盖
- 核心思路:解码器词汇表包含多个尺度的 patch,让模型自适应选择每个区域的最优尺度
- 验证:实验证实 AutoGaze 在细粒度区域(高 Laplacian 方差)倾向选择更细尺度,在低细节区域使用粗尺度(Spearman \(\rho = 0.12, p < 0.001\))
- 设计动机:纯色区域可用低分辨率无损表示,无需浪费全分辨率 patch
-
两阶段训练:NTP 预训练 + RL 后训练:
- 功能:先通过监督学习建立基础注视能力,再通过 RL 突破贪心搜索的次优性
- NTP 预训练:在 250K 视频上通过贪心搜索收集近似最优注视序列,使用交叉熵损失 \(L_{NTP} = -\sum_t \sum_k \log \pi_\theta(\tilde{p}_k^t | \mathbf{X}^{1:t}, \tilde{p}_{1:k-1}^t)\) 训练
- RL 后训练:采用简化的 GRPO 算法,以重建损失的负值作为奖励,优势为 \(G_k^t = \sum_{\tau=t}^T \gamma^{N^t-k+\sum_{s=t+1}^\tau N^s} \cdot (-l_{N^\tau}^\tau)\)
- 多 token 预测:采用多头同时输出多个 patch 索引,10 token 预测加速约 5× 注视过程,性能损失微小
- 设计动机:贪心搜索数据只是次优解,RL 可发现更优的注视序列
-
任意分辨率/时长推理:
- 功能:训练在 16 帧 224×224 视频上,推理时扩展至任意分辨率和时长
- 核心思路:将视频切分为 \(16 \times 224 \times 224\) 时空 tile,分别运行 AutoGaze 后合并注视位置
- ViT 适配:对不同尺度的帧和位置编码分别插值,各尺度分别做 patch embedding 后拼接送入 ViT
损失函数 / 训练策略¶
- 重建模型:定制的 VideoMAE + block-causal attention
- 重建损失:像素重建损失 + 感知损失的加权和
- 训练数据:800K 视频(包括第一/第三人称、自然场景、文本丰富视频),其中 250K 配有贪心注视序列
- 视频采样:16 帧,224 分辨率
- 最优重建损失阈值:0.7(下游 MLLM 性能下降 < 0.5%)
实验关键数据¶
主实验 (与 SOTA MLLM 对比)¶
| 模型 | Max #F | Max Res | VideoMME (w/o) | VideoMME (w/) | MVBench | HLVid |
|---|---|---|---|---|---|---|
| GPT-4o | - | - | 71.9 | 77.2 | 64.6 | 49.3 |
| Qwen2.5-VL-7B | 48 | 896 | 65.1 | 71.6 | 69.6 | 48.1 |
| VideoChat-Flash | 10000 | 448 | 65.3 | 69.7 | 74.0 | 46.6 |
| NVILA-8B-Video | 256 | 448 | 64.2 | 70.0 | 68.1 | 42.5 |
| + AutoGaze | 1024 | 3584 | 67.0 | 71.8 | 69.7 | 52.6 |
| 增益 (vs NVILA) | ×4 | ×8 | +2.8 | +1.8 | +1.6 | +10.1 |
消融实验¶
| 训练策略 | 重建损失 | 注视比例 |
|---|---|---|
| 无训练 | 0.7 | 0.263 |
| 仅 NTP 预训练 | 0.7 | 0.102 |
| 仅 RL 后训练 | 0.7 | 0.209 |
| NTP + RL | 0.7 | 0.094 |
| 多 token 预测数 | 多尺度 | 注视比例 | 推理延迟 |
|---|---|---|---|
| 1 | ✓ | 0.074 | 0.949s |
| 5 | ✓ | 0.078 | 0.246s |
| 10 | ✓ | 0.094 | 0.193s |
| 10 | ✗ | 0.220 | 0.467s |
关键发现¶
- 30FPS 4K 分辨率视频仅需约 1% 的 patch 即可达到 0.7 重建损失阈值
- ViT 加速最高 19×,MLLM 加速最高 10×,使得 4K 分辨率视频处理成为可能
- 在 HLVid 高分辨率长视频基准上提升 10.1%(42.5→52.6),超越 GPT-4o(49.3%)
- AutoGaze 的注视行为具有良好的 OOD 泛化性:对未见语义(CCTV、机器人、物体替换视频)和风格迁移后的视频均保持一致的注视模式
- 对比现有 token 压缩方法:AutoGaze 是唯一同时改善 ViT 和 LLM 延迟的方法(ViT: 2.20s→0.55s)
亮点与洞察¶
- 从根本上解决瓶颈:首次在 ViT 之前进行 token 压缩,打破了所有先前方法仅在 ViT 后压缩的格局
- 仿生设计:自回归注视机制直接模仿人类视觉系统的扫视行为,利用时序信息避免重复注视
- 极致轻量:3M 参数即实现强大的注视能力,注视本身的计算开销极低
- 首个高分辨率长视频基准 HLVid:268 个问题,要求 1K-2K 分辨率才能解答,填补了评估空白
- 两阶段训练范式:NTP+RL 的组合优于单独使用任一方法,RL 突破了贪心数据的天花板
局限与展望¶
- 在部分不需要高分辨率的基准上,过度扩展分辨率反而有害,需要自适应策略
- 依赖 VideoMAE 作为重建模型,重建质量本身可能限制注视决策质量
- HLVid 基准规模有限(268 QAs),代表性有待验证
- 多尺度 patch 输入要求对 ViT 进行修改(不同尺度分别做 patch embedding),对已部署模型的兼容性需要考量
相关工作与启发¶
- NVILA (Lin et al., 2024):作为基座 MLLM,AutoGaze 通过其实现了 1K 帧 4K 分辨率的突破
- GRPO (Shao et al.):用于注视策略的 RL 后训练,验证了 RL 在视觉 token 选择任务上的有效性
- ToMe / FastV / LongVU:先前的 token 压缩方法仅在 ViT/LLM 内部工作,AutoGaze 首次将压缩前置
- 启发:自回归序列生成 + 重建损失作为奖励这一范式可扩展到图像、3D 点云等其他模态的 token 选择
评分 (⭐星级)¶
| 维度 | 评分 |
|---|---|
| 创新性 | ⭐⭐⭐⭐⭐ |
| 技术深度 | ⭐⭐⭐⭐ |
| 实验充分性 | ⭐⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐⭐ |
| 实用价值 | ⭐⭐⭐⭐⭐ |
| 综合 | ⭐⭐⭐⭐⭐ |
| --- | |
| description: "AutoGaze:3M参数轻量模块,在ViT之前自回归选择多尺度关键patch去除视频冗余,实现4x-100x token缩减和最高19x加速,使MLLM可扩展到1K帧4K分辨率视频" | |
| tags: | |
| - CVPR 2026 | |
| - 视频理解 | |
| - token压缩 | |
| - 自回归 | |
| - 高效推理 | |
| - MLLM | |
| --- |
Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing¶
会议: CVPR 2026
arXiv: 2603.12254
代码: https://autogaze.github.io/
领域: 视频理解 / 高效推理
关键词: AutoGaze, 自回归注视, 多尺度patch选择, token压缩, 长视频高分辨率
一句话总结¶
提出 AutoGaze,一个仅 3M 参数的轻量模块,在 ViT 之前自回归选择最少的多尺度 patch 集合以重建视频,去除 4×-100× 时空冗余,实现 ViT 最高 19× / MLLM 最高 10× 加速,首次使 MLLM 可扩展到 1K 帧 4K 分辨率视频,在 VideoMME 上达到 67.0%。
研究背景与动机¶
领域现状:多模态大语言模型(MLLM)如 Qwen2.5-VL、NVILA 等推动了通用视频理解,但受限于 ViT 和 LLM 对每个像素的均等处理——视频存在大量时空冗余(静态背景、低变化区域)。
现有痛点:(1) 现有 token 缩减方法(FastV、ToMe、VisionZip 等)仅在 ViT 内部或 ViT-LLM 之间剪枝 token,ViT 本身仍需处理所有像素,是主要效率瓶颈;(2) 基于注意力分数的启发式方法效果不如学习式方法;(3) 涉及搜索和推理的方法引入额外开销,进一步限制可扩展性;(4) 现有基准只关注长视频但不关注高分辨率。
核心矛盾:人类通过扫视(saccade)选择性关注信息丰富的区域高效处理视频流,而模型均等处理每个像素——如何让模型在"看"之前先决定"看哪里"?
本文目标:在 ViT 之前去除视频的时空冗余 patch,从根本上降低视觉编码成本,使 MLLM 可扩展到长时间高分辨率视频。
切入角度:模拟人类注视行为——自回归预测哪些多尺度 patch 能以最少数量重建当前帧(在给定误差阈值内)。
核心 idea:在注意力机制之前先"注视"——用自回归模型选出最少的 patch,ViT 只需处理这些 patch。
方法详解¶
整体框架¶
AutoGaze 由卷积编码器和自回归 Transformer 解码器组成,仅 3M 参数。处理流程:(1) 依次编码每帧;(2) 基于当前帧特征和历史帧/注视信息,自回归解码 patch 索引;(3) 在解码每个 patch 时同时预测重建损失;(4) 当预测损失低于用户指定阈值时自动停止当前帧的注视;(5) 仅将选中的多尺度 patch 送入 ViT/MLLM。
关键设计¶
-
自回归注视(Autoregressive Gazing):将 patch 选择建模为序列生成问题。给定 \(T\) 帧视频 \(\bm{X}^{1:T}\),模型输出每帧的 patch 索引序列 \(p_{1:N^1}^1, \ldots, p_{1:N^T}^T\),其中 \(p_k^t \in \{1, \ldots, V\}\)。目标是找到使重建损失最小化的最少 patch 子集:\(\min_{p_1^1, \ldots, p_{N^T}^T} L(\bm{X}^{1:T}, \text{Recon}(\bm{X}^1[p_1^1], \ldots, \bm{X}^T[p_{N^T}^T]))\)。重建器为带块因果注意力的 VideoMAE,距离函数为像素重建损失和感知损失的加权和。设计动机:自回归方式允许模型参考前序帧和已选 patch 的历史,自然避免跨帧重复选择。
-
自动决定注视长度:在解码器上添加额外头,在解码每个 \(p_k^t\) 时预测"用已选 patch 重建当前帧"的损失。当预测损失 \(< \epsilon\)(用户指定阈值)时自动停止当前帧注视,实现自适应的每帧 token 数量。不同视频/帧的冗余程度不同——静态帧只需极少 patch,运动剧烈帧需更多。
-
多尺度注视:解码器词表包含多个尺度的 patch(如 \(224 \times 224\) 的 \(1/4, 1/2, 1, 2\) 倍),让模型为不同细节程度的区域选择不同分辨率:纯色区域用粗尺度低分辨率覆盖,精细纹理区域用细尺度高分辨率捕捉。下游 ViT 通过对不同尺度分别做 patch embedding + 插值位置编码来接受多尺度输入。
-
两阶段训练:(a) NTP 预训练:在 250K 视频上收集贪心搜索得到的近似最优注视序列,用 next-token-prediction 交叉熵损失 \(L_{NTP} = -\sum_t \sum_k \log \pi_\theta(\tilde{p}_k^t | \bm{X}^{1:t}, \ldots)\) 训练,同时用 \(\ell_2\) 损失监督重建损失预测。(b) RL 后训练:用简化的 GRPO 算法以重建损失作为奖励进一步优化,\(L_{GRPO} = -\sum_t \sum_k \frac{\pi_\theta(p_k^t)}{\pi_{\theta_{detached}}(p_k^t)} A_k^t\),发现比预训练上界更优的注视序列。
损失函数 / 训练策略¶
- 预训练数据:800K 视频(自中心、他中心、自然、文本丰富场景),采样为 16 帧 224 分辨率
- 贪心搜索收集注视序列:逐个穷举找重建损失最低的 patch,记录每步重建损失
- RL 后训练:在策略 on-policy 生成的注视序列上用重建损失负值作奖励,优势函数为折扣未来帧重建损失
- 多 token 预测:使用多个头同时输出多个 patch 索引,加速推理
- 推理时任意分辨率/时长:将视频切为 \(16 \times 224 \times 224\) 时空瓦片,每个瓦片独立运行 AutoGaze 后合并
实验关键数据¶
主实验¶
| 模型 | 最大帧数 | 最大分辨率 | VideoMME(w/o sub) | VideoMME(w/ sub) | MVBench | L-VidBench | HLVid |
|---|---|---|---|---|---|---|---|
| GPT-4o | - | - | 71.9 | 77.2 | 64.6 | 66.7 | 49.3 |
| Qwen2.5-VL-7B | 48 | 896 | 65.1 | 71.6 | 69.6 | 56.0 | 48.1 |
| VideoChat-Flash | 10000 | 448 | 65.3 | 69.7 | 74.0 | 64.7 | 46.6 |
| NVILA-8B-Video | 256 | 448 | 64.2 | 70.0 | 68.1 | 57.7 | 42.5 |
| NVILA + AutoGaze | 1024 | 3584 | 67.0 | 71.8 | 69.7 | 61.0 | 52.6 |
| vs NVILA 基线 | ×4 | ×8 | +2.8 | +1.8 | +1.6 | +3.3 | +10.1 |
AutoGaze 使 NVILA-8B 在帧数和分辨率上扩展 4x/8x,VideoMME 达 67.0%。HLVid 提升 10.1%,超越 GPT-4o (+3.3%)。
消融实验¶
| 类型 | 方法 | ViT延迟 | LLM延迟 | V-MME | L-Vid |
|---|---|---|---|---|---|
| - | 无缩减 | 2.20s | 1.42s | 53.4 | 51.1 |
| S-PA | 空间池化 | 2.20s | 0.18s | 51.5 | 47.2 |
| S-PA | ToMe | 2.23s | 0.11s | 51.5 | 49.3 |
| S-PD | FastV | 2.23s | 0.38s | 53.0 | 46.3 |
| T-PA | 时间池化 | 2.20s | 0.13s | 52.2 | 50.0 |
| AutoGaze | 学习式 | 降低 | 降低 | 同等/更优 | 同等/更优 |
现有方法仅降低 LLM 延迟(ViT 不变),AutoGaze 同时降低 ViT 和 LLM 延迟。在相同 6.25% token 选择率下全面优于启发式方法。
关键发现¶
- 自适应注视行为:AutoGaze 自动关注运动区域(光流高的 patch 被更频繁选择)、用细尺度捕捉精细纹理、用粗尺度覆盖平滑区域
- 重建阈值 0.7 最优:通常导致下游性能下降 <0.5%
- 冗余随 FPS/分辨率增大而增大:30-FPS 4K 视频仅需 ~1% patch
- OOD 泛化性:在 CCTV 监控、机器人操作、风格迁移等训练分布外视频上,AutoGaze 依然稳健追踪变化区域
- HLVid 新基准:首个长时间高分辨率视频 QA 基准(268 QA,5分钟 4K 视频),验证了高分辨率理解的必要性
亮点与洞察¶
- 在注意力之前注意:概念优雅——将 patch 选择从模型内部移到模型之前,从根本上解决 ViT 的计算瓶颈,而非在 ViT 输出后裁剪
- 仅 3M 参数:overhead 极小(相比 ViT 的数百M参数),添加 AutoGaze 的边际成本几乎可忽略
- NTP + RL 训练范式:先用贪心搜索收集"教科书"注视序列做预训练,再用 RL 超越教科书——与 LLM 的训练范式高度一致
- 任意分辨率/时长推理:通过时空瓦片化,在 16帧/224分辨率训练的模型可直接推理 1K帧/4K视频
- HLVid 基准贡献:填补了高分辨率长视频 QA 基准的空白
局限与展望¶
- 某些基准上扩展到过长/过高分辨率反而有害——需要自适应选择最优帧数/分辨率
- 当前训练数据仅 16帧/224分辨率,更大规模训练可能进一步提升
- AutoGaze 的注视决策是 prompt-agnostic 的,不根据用户问题调整关注区域——prompt-dependent 版本可能更优
- 多 token 预测的精度-速度权衡需进一步研究
- 未探索与 Flash Attention 等硬件级优化的协同效果
相关工作与启发¶
- VideoMAE:作为 AutoGaze 的重建器,提供了"从少量 patch 重建完整帧"的能力基础
- ToMe / FastV / VisionZip:都在 ViT 内部或之后做 token 缩减,AutoGaze 将缩减前移到 ViT 之前
- NVILA:AutoGaze 的下游 MLLM,验证了方法的通用性
- 启发:(1) "在处理之前先做粗粒度筛选"的思路可推广到 3D 点云、音频等其他模态;(2) 自回归 patch 选择本质是视觉 token 的"压缩编码",与信息论中的率失真理论有深层联系
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "在注意力之前注意"的概念简洁而深刻,从根本上解决ViT效率瓶颈
- 技术深度: ⭐⭐⭐⭐ NTP+RL训练、自适应停止、多尺度注视的设计精良
- 实验充分度: ⭐⭐⭐⭐⭐ 行为分析+效率测试+基准对比+消融+OOD测试+新基准
- 写作质量: ⭐⭐⭐⭐⭐ 图表精美,直觉清晰,人类注视的类比恰到好处
- 实用价值: ⭐⭐⭐⭐⭐ 直接解决MLLM处理长高分辨率视频的核心瓶颈