AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video¶

会议: CVPR 2026
arXiv: 2508.03100
代码: https://people-robots.github.io/AVATAR/
领域: 人类理解 / 多模态推理
关键词: 多模态推理, 强化学习, GRPO, 音视频理解, 时间优势塑造

一句话总结¶

提出AVATAR框架，通过离线策略训练架构（分层回放缓冲区）和时间优势塑造(TAS)策略解决GRPO在多模态视频推理中的数据低效、优势消失和均匀信用分配三大问题，在音视频理解基准上显著超越标准GRPO（OmniBench +3.7，样本效率提升5倍）。

研究背景与动机¶

领域现状：多模态大语言模型(MLLM)需要对齐视频、音频和语言模态以支持长时推理。GRPO已成为增强推理能力的有力方法，在数学等可验证领域表现出色。

现有痛点：GRPO在开放域视频任务上存在三大限制——(1) 在线策略（on-policy）导致数据低效，尤其视频数据标注昂贵；(2) 优势消失问题：当组内所有响应奖励相同时（全对或全错），优势变为零，学习信号消失；(3) 均匀信用分配：所有token接收相同奖励，忽略了推理链中不同阶段的重要性差异。

核心矛盾：视频推理中，初始规划（定位声音来源）和最终综合（结合视听线索识别说话者）是关键阶段，但GRPO平等对待所有token，稀释了梯度信号。

切入角度：(1) Transformer的attention sink效应——初始token持续获得注意力作为规划参考；(2) 最终token对综合答案至关重要。

核心idea：离线策略架构用分层回放缓冲区解决数据效率和优势消失；U型抛物线加权(TAS)强调推理链首尾阶段。

方法详解¶

整体框架¶

三阶段RL训练管线：冷启动SFT(S0)→视觉推理RL(S1)→音视频推理RL(S2)→音频目标定位RL(S3)。每阶段使用不同数据集和奖励配置。

关键设计¶

离线策略架构（Off-Policy Architecture）:
- 分层回放缓冲区：大小10K，三层固定容量——Easy(25%)、Medium(35%)、Hard(40%)。层分配基于prompt的移动平均奖励 \(\bar{R}(q)\)，动态分位数决定阈值
- 解决优势消失：从缓冲区采样包含成功和失败轨迹的训练组，确保组内奖励多样性→非零优势→持续梯度更新
- 提示机制(Hinting)：当prompt持续困难（低 \(\bar{R}(q)\)）且策略KL散度低时，触发预计算提示引导exploration
- 混合训练：\(\mathcal{J}_{AVATAR} = \mathcal{J}_{on\text{-}policy} + \alpha \cdot \mathcal{J}_{off\text{-}policy}\)，离线项用重要性采样校正策略漂移
时间优势塑造(TAS):
- 功能：对推理链中不同位置的token施加不同权重
- 核心思路：U型抛物线加权函数 \(w_t = 1.0 + \lambda_{TAS} \cdot (2\tilde{t} - 1)^2\)，其中 \(\tilde{t} = t/(L-1) \in [0,1]\)。首尾token权重为 \(1.0 + \lambda_{TAS}\)，中间token权重为1.0
- 成型优势：\(A_{i,t}^{TAS} = w_{i,t} \cdot A_i\)
- 设计动机：Transformer的attention sink效应和综合阶段的关键性，强化规划和综合阶段的学习信号
多源奖励函数:
- 格式奖励 \(R_{format}\)：验证......格式
- 准确度奖励 \(R_{acc}\)：非零数值任务用rMAE提供密集奖励
- 自奖励 \(R_{self}\)：组内多数投票产生伪正确答案用于共识学习
- 步骤推理评判 \(R_{judge}\)：冻结的VLM评判器(InternVL3-2B)评估推理质量

损失函数 / 训练策略¶

各阶段奖励配置不同：S1用0.5×格式+0.5×准确度；S2加入自奖励；S3加入推理评判。

实验关键数据¶

主实验（Qwen2.5-Omni基线）¶

模型	OmniBench	DailyOmni	AV-Counting	WorldSense
Qwen2.5-Omni (基线)	44.2	44.0	22.3	44.2
+ GRPO	45.4 (+1.2)	44.8 (+0.8)	22.8 (+0.5)	45.1 (+0.9)
+ AVATAR	49.1 (+4.9)	47.0 (+3.0)	23.1 (+0.8)	46.0 (+1.8)

AVATAR vs GRPO: OmniBench +3.7, Video-Holmes +1.9。样本效率5倍（减少80%生成量达到目标性能）。

消融实验¶

配置	OmniBench	MMVU	Video-Holmes
GRPO (基线)	45.4	56.6	39.0
+ Off-Policy	47.2	57.5	39.8
+ TAS	47.8	57.9	40.2
+ Both (AVATAR)	49.1	58.2	40.5

关键发现¶

离线策略和TAS各自独立贡献显著，组合后进一步提升
AVATAR对两个不同基线(Ola-7B和Qwen2.5-Omni)都有效，证明方法无关模型
在AV-Odyssey和IntentBench等更难的基准上也有提升
回放缓冲区的分层设计避免了Easy样本被频繁淘汰，保持训练多样性

亮点与洞察¶

优势消失问题的优雅解决：通过分层回放缓冲区引入组内奖励多样性，从根本上避免了零优势梯度。这个思路对所有GRPO类方法都有价值
TAS的简洁性：仅用一个U型抛物线函数就有效强化了推理链的关键阶段，无需训练critic网络
三阶段渐进训练：从视觉推理→音视频推理→精细定位的课程安排，逐步增加任务难度

局限与展望¶

TAS的抛物线形状是手工设计的，可能不是最优形状——能否自动学习每个token的重要性？
提示机制依赖预计算的hint，增加了数据准备成本
当前离线数据的重要性采样比可能不稳定，需clipping保护
仅在选择题形式上验证，开放式视频问答的表现有待探索

评分¶

新颖性: ⭐⭐⭐⭐ 离线GRPO和TAS创意好，但各组件相对独立
实验充分度: ⭐⭐⭐⭐⭐ 多基线、多基准、95%置信区间、样本效率分析
写作质量: ⭐⭐⭐⭐ 问题分析清晰，但论文较长
价值: ⭐⭐⭐⭐ 对GRPO训练范式有通用改进价值

AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video¶

会议: CVPR 2026
arXiv: 2508.03100
代码: https://people-robots.github.io/AVATAR/
领域: 人体理解 / 多模态推理
关键词: 音视频推理, GRPO改进, 离策略强化学习, 时间优势塑形, 多模态大语言模型

一句话总结¶

提出AVATAR框架，通过离策略训练架构（分层重放缓冲区）和时间优势塑形（TAS，U形加权强调推理链首尾）两个核心组件改进GRPO，解决其数据低效、优势消失和均匀信用分配三大问题，在音视频推理基准上显著超越GRPO基线。

研究背景与动机¶

领域现状：MLLM需要对齐视频、音频和语言模态来支持长时推理。GRPO作为RL方法已展示出增强推理的潜力，但在开放式视频域有显著局限。
GRPO三大问题：
- 数据低效：在策略方法，每次更新后丢弃经验，在昂贵视频标注数据上浪费严重
- 优势消失：组内奖励方差坍缩时（全正确或全错误），优势归零，学习信号消失
- 均匀信用分配：对推理链中所有token施加相同奖励，忽视规划阶段（开头）和综合阶段（结尾）的关键性
切入角度：从RL算法设计角度系统解决GRPO的三个结构性缺陷。
核心idea：离策略架构+分层重放缓冲区解决前两个问题；TAS的U形位置加权解决第三个问题。

方法详解¶

整体框架¶

三阶段RL训练流程：Stage 0 SFT冷启动 → Stage 1 视觉推理RL → Stage 2 音视频推理RL → Stage 3 音频目标定位RL。每阶段使用不同数据集和奖励配置。

关键设计¶

离策略架构与分层重放缓冲区:
- 功能：复用历史经验提高样本效率，保证组内奖励多样性
- 核心思路：维护容量10K的分层缓冲区 \(\mathcal{B}\)，分三层：Easy(25%)、Medium(35%)、Hard(40%)。每个prompt的移动平均奖励 \(\bar{R}(q)\) 决定层级分配。混合目标 \(\mathcal{J}_{AVATAR} = \mathcal{J}_{on} + \alpha \cdot \mathcal{J}_{off}\)，离策略部分用重要性采样比 \(r_i^{off} = \pi_\theta(o_i|q) / \pi_{\theta_{off}}(o_i|q)\) 校正策略漂移
- 设计动机：(1) Hard层容量最大，确保困难样本被反复训练；(2) 历史成功/失败轨迹混合入组，保证奖励方差非零，解决优势消失问题
Hinting机制:
- 功能：当prompt持续困难且策略停止探索时，注入预计算提示引导
- 核心思路：监控 \(D_{KL}(\pi_\theta || \pi_\beta)\)，当 \(\bar{R}(q)\) 低且KL低时触发hint（如"先定位发声物体，再计数"），由Qwen2.5-VL-72B预生成
- 设计动机：帮助agent逃离局部最优，保持训练在有挑战但可解的区间
时间优势塑形(TAS):
- 功能：对推理链中不同位置的token施加不同权重的优势
- 核心思路：U形抛物线加权 \(w_t = 1.0 + \lambda_{TAS} \cdot (2\tilde{t} - 1)^2\)，其中 \(\tilde{t} = t/(L-1)\)。序列首尾（规划+综合阶段）获得最高权重 \(1+\lambda_{TAS}\)，中间token权重为1.0。token级优势 \(A_{i,t}^{TAS} = w_{i,t} \cdot A_i\)
- 设计动机：基于Transformer的注意力沉降效应（初始token持续获得注意力）和最终token在综合答案中的关键作用，强化推理链的首尾
多奖励函数设计:
- 格式奖励 \(R_{format}\)：验证推理格式
- 准确度奖励 \(R_{acc}\)：用rMAE做密集奖励
- 自奖励 \(R_{self}\)：多数投票产出的伪正确答案做一致性奖励
- 推理质量判断 \(R_{judge}\)：冻结InternVL3-2B评估推理过程

损失函数 / 训练策略¶

在标准GRPO目标上混合离策略项，用TAS替换均匀优势。三阶段训练逐步从视觉推理过渡到音视频推理再到精细定位。

实验关键数据¶

主实验（多基准对比）¶

模型	OmniBench	MMVU	Video-Holmes	AV-Odyssey
Qwen2.5-Omni (基线)	44.2	-	-	29.8
+ GRPO	45.4 (+1.2)	-	-	31.3 (+1.5)
+ AVATAR	49.1 (+4.9)	-	-	32.1 (+2.3)
Ola-7B (基线)	45.3	-	-	25.6
+ GRPO	46.8 (+1.5)	-	-	27.0 (+1.4)
+ AVATAR	47.2 (+1.9)	-	-	28.8 (+3.2)

AVATAR vs GRPO on Qwen2.5-Omni: OmniBench +3.7, Video-Holmes +1.9, 同时只需80%更少的生成补全达到目标性能。

消融实验¶

组件	OmniBench	DailyOmni	说明
GRPO (基线)	45.4	44.8
+ Off-policy only	+1.5	+1.2	离策略架构贡献
+ TAS only	+1.0	+0.8	时间塑形贡献
+ Both (AVATAR)	+3.7	+2.2	两者互补

关键发现¶

AVATAR在两个基础模型(Qwen2.5-Omni和Ola-7B)上都一致有效，证明方法的模型无关性
样本效率提升5×：需要80%更少的生成补全即可达目标性能
离策略和TAS的增益互补而非重叠
所有改进均附95%置信区间(bootstrap)，统计可靠

亮点与洞察¶

系统性解决GRPO缺陷：很好地将RL中的经典问题（离策略学习、信用分配、探索-利用）工程化应用到MLLM训练中
TAS的U形加权简洁有效：理论上对齐了Transformer的注意力模式，实现上只需一行公式修改，无需额外网络或critic
Hinting机制的实用性：利用大模型（72B）为小模型预计算学习引导，是一种实用的teacher-student RL策略

局限与展望¶

TAS的U形是固定形状，不同任务/不同推理长度可能需要自适应的形状
Hinting依赖外部大模型，在完全自主学习场景中不可用
仅在音视频QA任务上验证，对更长时间推理（如规划、决策）的效果未知
重放缓冲区的大小(10K)和层级比例(25/35/40)是手动设定的

评分¶

新颖性: ⭐⭐⭐⭐ 组合已有RL技术（离策略、信用分配），但在MLLM场景中的应用有新意
实验充分度: ⭐⭐⭐⭐ 多基准、多基础模型、统计检验、消融充分
写作质量: ⭐⭐⭐⭐⭐ 问题分析清晰，三个限制→三个解决方案的对应关系明确
价值: ⭐⭐⭐⭐ 对MLLM RL训练的通用性改进，方法可广泛应用

AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验（Qwen2.5-Omni基线）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验（多基准对比）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验（Qwen2.5-Omni基线）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验（多基准对比）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶