APPO: Attention-guided Perception Policy Optimization for Video Reasoning¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/GeWu-Lab/APPO
领域: LLM推理 / 多模态VLM / 视频理解
关键词: 视频推理, 强化学习, 策略优化, 注意力引导, token级稠密奖励
一句话总结¶
APPO 发现「视频推理瓶颈在感知而非推理」,于是用模型自身对视频帧的注意力把稀疏 outcome reward 转成 token 级稠密奖励——让不同回答里聚焦同一关键帧的「组内感知 token」按高/低奖励差异化加权学习,在 Qwen2.5-VL-3/7B 上稳定超过 GRPO 和 DAPO(0.5%∼4%)。
研究背景与动机¶
领域现状:用可验证奖励的强化学习(RLVR)后训练(GRPO、DAPO、GSPO 等)已经显著提升了 LLM 的推理能力,近期大量工作把这套范式搬到视频 MLLM 上,希望提升视频推理能力。它们多数在「数据质量」或「奖励设计」(如 bbox IoU、时间戳 IoU)上做文章。
现有痛点:视频推理不同于纯文本任务,它同时依赖细粒度感知(看清画面里发生了什么)和多步推理,而感知是推理的前提。但现有 RL 方法用的是稀疏 outcome reward(只在最终答案对错上给信号),无法为「该看哪一帧、看清了没有」这类细粒度感知提供指引;要直接监督感知又需要昂贵的细粒度标注或额外的奖励模型。
核心矛盾:作者先做了一个反直觉的实证拆解来定位瓶颈。他们用「分而治之」把感知和推理解耦——选 4 个感知能力递增的模型(Qwen2.5-VL-3/7/32B、Gemini-2.0-flash)先把视频描述出来,再用 4 个推理能力递增的模型(Qwen3-4/8B、Qwen3-235B-thinking、OpenAI-o3)基于描述作答,做 4×4 交叉组合。结果发现:在 SEED-Bench-R1 上固定感知模型为 Qwen2.5-VL-7B,把推理模型从 Qwen3-8B 换成 o3 只涨 0.7%;反过来只把感知模型从 7B 换到 32B 就涨 1.4%。结论:复杂视频场景里,提升感知比提升推理更关键,但现有 RL 恰恰没把感知优化好。
本文目标:在不依赖细粒度标注、不引入额外奖励模型的前提下,直接从稀疏 outcome reward 里挖出细粒度的、frame/token 级别的指引信号,在推理过程中顺带把感知练好。
核心 idea:模型对视频帧的注意力就是它感知的最直接表征。高奖励回答更可能聚焦到正确的帧、低奖励回答则往往漏看或看错。利用这个差异,可以反推出「该重点看的关键帧」,再把不同回答里聚焦同一关键帧的 token(intra-group perception tokens)拎出来,按奖励高低给它们不同的学习强度——这就把稀疏奖励变成了 token 级稠密奖励。
方法详解¶
整体框架¶
APPO 是对 GRPO/DAPO 这类组相对策略优化的改造,整条流水线是:对一个样本 \(x=\{V,q,a\}\) 用旧策略采样 \(G\) 个回答 → 规则验证器给每个回答打 reward → 按奖励阈值把这组回答分成高奖励集 \(S_1\) 和低奖励集 \(S_2\) → 第一步「注意力引导帧选择」用注意力差异挑出真正该看的关键帧 \(\psi'\) → 第二步「组内感知 token 重加权」把不同回答里聚焦同一关键帧的 token 分组,用 KL 散度衡量它们的分布差异、算出 token 级权重 \(\mathcal{W}\) → 把 \(\mathcal{W}\) 乘进 GRPO 的优势项,得到 APPO 损失去更新策略。整个过程不引入额外网络,只复用模型自己的注意力和已有的 outcome reward。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["视频 V + 问题 q"] --> B["策略模型采样 G 个回答<br/>规则验证器打 reward"]
B -->|"按阈值 τ 分组"| C["高奖励集 S₁ / 低奖励集 S₂"]
C --> D["注意力引导帧选择<br/>用注意力差异挑关键帧 ψ′"]
D --> E["组内感知 token 重加权<br/>KL 散度算 token 权重 W"]
E --> F["APPO 损失:W·Aᵢ 更新策略"]
关键设计¶
1. 注意力引导的帧选择:把稀疏奖励变成 frame 级稠密信号
痛点很直接——outcome reward 只告诉你「这个回答对不对」,不告诉你「该看哪一帧」。APPO 的做法是把模型对视频帧的注意力当作感知的代理信号。先按奖励把一组 \(G\) 个回答切成两半:
其中 \(\tau\) 是奖励阈值(实现里用准确率奖励、\(\tau=0.5\))。然后追踪「回答 token → 视觉 token」的注意力:对第 \(h\) 层、第 \(j\) 个回答 token 到第 \(v\) 个视觉 token 的权重 \(a^{(h)}_{jv}\),把它对某一帧 \(f_t\) 内所有视觉 token、跨若干层求平均,得到该 token 对这帧的注意力 \(\text{Attn}(j,f_t)=\frac{1}{\sum_h |f_t|}\sum_h\sum_{v\in f_t}a^{(h)}_{jv}\)。再对每个回答取注意力最高的 \(K_1\) 个 token 求平均,得到回答 \(o_i\) 对帧 \(f_t\) 的注意力 \(\text{Attn}(o_i,f_t)\);接着对每个回答取注意力最高的 \(K_2\) 帧构成集合 \(\psi(i)\),并在 \(S_1\)、\(S_2\) 内分别取并集:
它们分别代表「高奖励回答关注的帧」与「低奖励回答关注的帧」。最终目标帧 \(\psi'\) 有三种选法:Hard 取差集 \(\psi'=\psi^{S_1}\setminus\psi^{S_2}\)(只学高奖励看、低奖励没看的帧,信号最锐);Soft 直接用 \(\psi'=\psi^{S_1}\)(全面促进 frame 级感知);All 取并集 \(\psi'=\psi^{S_1}\cup\psi^{S_2}\)。这一步的巧妙在于:高/低奖励回答在「看哪帧」上的分歧本身就标出了关键帧,不需要任何外部标注。
2. 组内感知 token 重加权:把 frame 信号细化成 token 级稠密奖励
光知道该看哪帧还不够,要落到对参数的优化上。对 \(\psi'\) 里的每一帧 \(f_k\),\(G\) 个回答中都有若干 token 聚焦在它上面——这些跨回答、聚焦同一帧的 token 就是组内感知 token,代表模型对同一段视频内容的细粒度感知。APPO 把它们按帧分成 \(K=|\psi'|\) 个组:
即每个回答里对帧 \(f_k\) 注意力最高的 \(K_3\) 个 token,跨 \(G\) 个回答凑成一组 \(G\times K_3\) 个 token。借鉴「关键推理 token 可由 token 级分布差异识别」的思路,作者用 KL 散度衡量组内 token 与组平均分布的差异:
其中 \(\mathbb{E}[\Omega^{(k)}_j]\) 是组内各回答分布的平均。\(D^{(k)}\) 经 min-max 归一化保证数值稳定后,跨 \(K\) 组平均得到最终 token 权重:
\(\alpha\) 控制加权强度。差异越大的 token 越被放大学习——直觉上,高奖励回答里聚焦正确帧的感知 token 会被「promote」,低奖励回答里跑偏的会被相对「suppress」,于是稀疏的 outcome reward 被细化成了 token 级的稠密奖励。和 Visionary-R1 / Perception-R1 这类「强行分离感知与推理、外挂奖励模型」的做法相比,APPO 是在推理过程中联合优化感知,零额外网络。
损失函数 / 训练策略¶
把 token 权重 \(\mathcal{W}\) 乘进优势项即得 APPO 目标(沿用 DAPO 去掉 KL 约束以增强探索、并按输出长度归一化各回答贡献,省略 clip 项):
其中优势 \(A_i=\frac{r_i-\mu}{\sigma}\) 仍是组内标准化奖励,\(r_{i,t}(\theta)\) 是重要性比。训练直接从 Qwen2.5-VL-3B/7B 做 RL、不做 cold-start SFT、不用任何 CoT 数据;rollout 数 \(G=8\),batch 16,lr 1e-6,帧分辨率 224×224;超参典型取 \(\tau=0.5\)、\(K_1=15\)、\(K_2=5\)、\(K_3=64\)、\(\alpha\) 取 1.7、注意力取最后 3 层。
实验关键数据¶
主实验¶
在 Qwen2.5-VL-3B/7B 上同数据同设置对比 SFT / GRPO / DAPO(SEED-Bench-R1 取平均,含 L1 同分布、L2/L3 OOD):
| 模型 | 方法 | SEED-R1 Avg | NExT-GQA mIoU | VSI-Bench | NExT-QA Acc |
|---|---|---|---|---|---|
| 3B | GRPO | 34.0 | 10.3 | 34.8 | 74.2 |
| 3B | DAPO | 35.3 | 10.6 | 36.7 | 76.1 |
| 3B | APPO | 37.2 | 11.1 | 38.2 | 76.4 |
| 7B | GRPO | 48.9 | 32.0 | 35.9 | 78.4 |
| 7B | DAPO | 50.0 | 32.4 | 36.6 | 79.9 |
| 7B | APPO | 50.5 | 32.9 | 36.9 | 79.6 |
APPO 在视频推理类基准上稳定超过 GRPO/DAPO(3B 上 1.5%∼3.2%,7B 上 0.3%∼1.6%)。值得注意:3B 提升比 7B 更明显(SEED-R1 上相对 DAPO 涨 1.9% vs 0.5%),作者归因于 3B 感知更弱、APPO 增强细粒度感知的红利更突出。在衡量时空 grounding 的 NExT-GQA mIoU 上,GRPO/DAPO 几乎不涨(3B 仅 +0.2%/+0.4%),APPO 涨 1.0%,说明它确实改善了「看对帧」的能力。
与现有视频推理模型对比¶
仅用 Video-R1-260K 的 34K 子集训练 Qwen2.5-VL-7B,zero-shot 对比训练数据大得多的同类模型:
| 方法 | 训练量 | SEED-R1 Avg | Perception Test | VSI-Bench | NExT-QA |
|---|---|---|---|---|---|
| Video-R1 | 260K | 30.7 | 64.7 | 35.8 | 76.5 |
| VideoRFT | 310K | 30.9 | 72.0 | 30.3 | 78.3 |
| VideoChat-R1 | 18K | 31.8 | 63.2 | 19.9 | 74.5 |
| APPO | 34K | 36.1 | 76.3 | 32.7 | 79.2 |
APPO 用远小的数据量在 SEED-R1、Perception Test、VSI-Bench、MVBench、NExT-QA 上整体领先(提升 0.7%∼5.2%);NExT-GQA mIoU 上略逊于训练含时间 grounding 任务的 VideoChat-R1,但多选准确率最高。
消融实验¶
基于 SEED-Bench-R1 + Qwen2.5-VL-7B 扫超参:
| 超参 | 最优 | 现象与原因 |
|---|---|---|
| \(K_1\)(每回答取几 token 算帧注意力) | 越大越好(≈15–25) | 越大越能准确刻画回答对帧的注意力,选帧更可靠 |
| \(K_2\)(每回答取几帧) | 3 | 太小漏关键帧,太大引入帧噪声、误导优化方向 |
| \(K_3\)(每帧取几 token 进组) | 适中 | 单帧内容有限,token 过多反而干扰真正有用的感知 token |
| \(\alpha\)(加权强度) | 1.7 | 1.2→2.0 先升后降;对 OOD 更敏感(L3 最大差 2.7%,L1 仅 1%) |
| 注意力层 | 最后 3 层 | 仅末层信息不准;5 层更好但更费显存,3 层折中 |
关键发现¶
- 感知 > 推理是全文立论:固定一方增强另一方,增强感知带来的整体提升明显大于增强推理,这一拆解实验是方法的逻辑起点。
- APPO 训练中生成熵和梯度范数都高于 GRPO/DAPO,说明优化组内感知 token 给了模型更大的探索空间,且 reward 曲线更高。
- OOD 上提升更大:SEED-R1 的 L2/L3(来自 Ego4D 的跨环境任务)相对 DAPO 涨 1.6%/3.2%,远超 L1 同分布的 0.9%,\(\alpha\) 对 OOD 也更敏感,提示 token 优化强度与泛化能力强相关。
亮点与洞察¶
- 把注意力当免费的感知监督信号:不引入任何额外标注或奖励模型,纯靠「高/低奖励回答看哪帧的分歧」反推关键帧,这个「自蒸馏式」信号源很省。
- 稀疏→稠密的两级细化(outcome reward → frame 级 → token 级)思路清晰,且 token 级权重直接乘进 GRPO 优势项、对现有 RLVR 框架几乎零侵入,迁移成本低。
- 小模型/OOD 受益更大这一现象有实用价值:算力受限或部署在分布外场景时,APPO 的性价比更突出。
- 用 KL 散度衡量组内 token 分布差异来定「该重点学哪个 token」,把「关键推理 token 可由分布差异识别」的文本经验成功迁到了视频感知 token 上,是可复用的 trick。
局限与展望¶
- 论文承认 7B 上提升不如 3B 明显,说明方法对感知已较强的大模型边际收益递减——对更大规模(32B+)是否仍有效未验证。
- 多处关键细节(Hard/Soft/All 三策略的完整对比、训练数据具体构成)放在补充材料,正文未给,复现需查附录。⚠️ 部分公式(如 \(\text{Attn}\) 的归一化、KL 项的下标)原文 OCR 较乱,以原文为准。
- 注意力作为「感知」的代理本身有噪声(注意力≠真实感知),方法对注意力层数、\(K_1/K_2/K_3\) 较敏感,超参需逐基准调。
- 改进方向:把帧选择的三种策略做成自适应、或在更长视频/更高帧率下验证 token 分组的可扩展性。
相关工作与启发¶
- vs GRPO / DAPO:两者都用稀疏 outcome reward 做组相对优化,对「该看哪帧、看清没」无能为力;APPO 在同框架内插入注意力引导的 token 级稠密奖励,专门补强细粒度感知,因此在感知主导的视频推理上更强。
- vs Visionary-R1 / Perception-R1:它们靠额外奖励、或强制「先 caption 再推理」来注入感知监督,硬性分离感知与推理且依赖额外神经网络;APPO 在推理过程中联合优化感知、零额外模型,开销更低。
- vs Time-R1 / Space-R / Video-R1:这些为特定任务(bbox/时间 IoU)设计专有奖励;APPO 不依赖任务专有标注,靠模型内在注意力通用地强化感知。
评分¶
- 新颖性: ⭐⭐⭐⭐ 「感知>推理」的实证拆解+用注意力把稀疏奖励细化到 token 级,角度新颖且自洽。
- 实验充分度: ⭐⭐⭐⭐ 覆盖 6 个基准、3/7B 两规模、与 SOTA 及完整超参消融,但部分对比藏在附录。
- 写作质量: ⭐⭐⭐ 逻辑清楚、动机扎实,但公式排版/OCR 较乱,需对照原文。
- 价值: ⭐⭐⭐⭐ 对现有 RLVR 框架零侵入、小模型/OOD 受益大,实用性强。