EVA: Efficient Reinforcement Learning for End-to-End Video Agent¶

会议: CVPR 2026
论文: CVF Open Access
代码: 有（论文首页 "Our Code and model are at this link"，SenseTime Research）
领域: 强化学习 / 视频理解 / 多模态VLM
关键词: 视频智能体, 强化学习, GRPO, KTO, planning-before-perception

一句话总结¶

EVA 把长视频理解建模成一个"先规划、后感知"的马尔可夫决策过程，让 MLLM 智能体仅凭文本问题就决定"看哪段、看几帧、看多清"，再用 SFT 冷启动 → KTO 离线纠偏 → 数据增强 GRPO 的三段式训练把它从"格式模仿者"练成"会主动探索的看视频高手"，在 6 个视频基准上以约 1/10 的视觉 token 取得比通用 MLLM 高 6–12%、比已有自适应智能体高 1–3% 的精度。

研究背景与动机¶

领域现状：用多模态大模型（MLLM）做视频理解，主流做法是把整段视频或均匀采样的若干帧一股脑喂进去，让模型当"被动识别器"一次性出答案。长视频动辄上千秒、token 序列极长，里面又充斥时间冗余帧。

现有痛点：被动喂帧有两个死穴——均匀采样要么塞了一堆冗余帧、撑爆上下文，要么恰好漏掉关键帧、证据不足；更糟的是把整段视频先摆在面前，会用噪声视觉线索"锚定"住规划，把模型带偏。近期的"智能体"方法（引入选帧工具）算是往前走了一步，但仍是手工设计的固定工作流：采样率固定、动作维度单一（只能调时间区间，不能调帧数和分辨率），而且通常还是先喂一批均匀采样帧再开始推理，本质仍是"感知优先"，在长视频上既冗余又低效。

核心矛盾：感知效率和推理深度之间存在张力——看得越全越准但越贵，看得越省越快但越容易漏。已有方法把 MLLM 当成"工作流里的固定零件"，沿单一控制维度产出预定参数，从没把"决定怎么看"的自主权真正交给智能体。

本文目标：训练一个端到端自主视频智能体，让它能根据问题和已获得的视觉证据，自己决定看哪段（when）、看哪里（what）、看多细（how），并知道证据够了就停手作答。

切入角度：作者提出 planning-before-perception（先规划后感知） 范式——智能体在接触任何视觉输入之前，先只凭文本问题推理出第一步该怎么取帧，再把"总结–规划–动作–反思"组成迭代循环，逐轮精化感知。

核心 idea：把视频理解写成一个 MDP，配一个能同时控制时间窗口、帧数、空间分辨率的灵活取帧工具，再用"SFT 冷启动 + KTO 纠偏 + GRPO 在线强化"三段式把这套迭代推理策略真正训出来。

方法详解¶

整体框架¶

EVA 的核心是把"看视频回答问题"当成一个智能体在 MDP 里的序贯决策过程，再用一条三阶段训练流水线把策略练出来。

形式化上，每个时刻 \(t\) 智能体观察到信念状态 \(s_t=\{q, h_t, F_t\}\)，其中 \(q\) 是用户问题、\(h_t\) 是图文交错的历史、\(F_t\) 是迄今工具调用取回的帧证据；策略 \(\pi_\theta(a_t\mid s_t)\) 输出下一步动作。关键设定是初始状态 \(s_0\) 只给问题、不给任何帧——逼模型先规划再感知。动作就是调用一个灵活取帧工具，参数有四个：start_time、end_time（时间窗口）、nframes（窗口内采几帧）、resize（空间下采样比例，实现 zoom-in/zoom-out）。多取帧能抓清动态动作，高分辨率能抠出细节，于是智能体每一轮都在"时间×空间"的大动作空间里学怎么分配视觉 token。传统智能体方法只是这个框架的受限特例（固定工作流、只能调时间）。

每一轮智能体按 Summary → Planning → Action → Reflection 走：先总结已取回帧的内容、再规划列出几个候选动作并估计代价与收益、然后发出工具调用、最后反思现有视觉证据是否足够——不够就继续取帧，够了才作答。

训练侧是三段流水线，自下而上把能力一层层叠上去：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["Qwen2.5-VL-7B 基座<br/>+ 灵活取帧工具"] --> B["Planning-before-perception 循环<br/>summary→plan→action→reflection"]
    B --> C["SFT 冷启动<br/>注入工具调用与四段式行为先验"]
    C --> D["KTO 离线纠偏<br/>从成功/失败轨迹学策略偏好"]
    D -->|采集失败案例| E["Data-Enhanced GRPO + 复合奖励<br/>在线强化并防 reward hacking"]
    E --> F["自适应视频智能体<br/>会决定何时/何处/多细地看"]

关键设计¶

1. Planning-before-perception：把视频理解建成"先规划后感知"的 MDP + 灵活取帧工具

这一设计直击"感知优先"的两个痛点：均匀采样要么冗余撑爆上下文、要么漏掉关键帧，而把整段视频先摆出来还会用噪声线索锚定规划。EVA 的做法是把初始状态 \(s_0\) 设成"只有问题 \(q\)、零视觉输入"，强制智能体先从文字推理出第一步该取哪段帧，再进入 \(s_t=\{q,h_t,F_t\}\) 的迭代。配套的取帧工具把动作空间从"只能选时间区间"扩成"时间窗口 + 帧数 + 分辨率"三维联合控制——比如先用低分辨率高帧率把 6600 秒的长视频整体扫一眼（省 token 拿全局），定位到关键区间后再以高帧率高分辨率精取那一小段（抠细节出正确答案）。和把 MLLM 当固定零件、沿单维出预定参数的旧智能体相比，EVA 真正把"怎么看"的自主权还给了模型，旧方法只是它的受限特例。

2. SFT 冷启动：用 Summary–Plan–Action–Reflection 数据注入行为先验

直接上强化学习，模型连工具调用格式和图文交错推理都不会，探索会很不稳。冷启动阶段用 Qwen2.5-VL-72B 当教师 MLLM，在 llava-video（短视频）和 cgbench（长视频）的 QA 对上，按 EVA 的问题设定生成高质量轨迹，并用三类提示词增强多样性：教师自总结的"过往成功经验"、指导高效规划选帧的"多样工作流提示"、鼓励谨慎权衡的"反思提示"。每条数据严格按四段式组织：Summary 让模型逐帧详细描述内容、把注意力压到取回的视觉证据上并理解工具参数与输出；Planning 训练在超大动作空间里提候选动作并估代价收益；Action 产出规范工具调用；Reflection 专门构造"证据不足"的数据，教模型在作答前先判断视觉信息够不够、不够就继续取帧。这一阶段给后续更激进的优化提供了稳定的行为先验（EVA-SFT 共 1 万条）。

3. KTO 离线纠偏：从成功/失败轨迹里学细粒度策略偏好

SFT 学会了格式和推理模式，却还选不好策略——典型翻车是"证据不足就硬猜""在短窗口里塞太多帧""在长窗口里采太少帧"。作者用 Kahneman–Tversky Optimization 在 GRPO 之前先纠这些已知坏案例。选 KTO 而非 DPO，是因为 DPO 要成对偏好数据、会强制共享对话轮次，这和多轮交互设定冲突、可能截断策略；KTO 只需单样本"chosen/rejected"标签，还能从外部采集的经验里学（而非自博弈），更稳更省样本。数据上用 LLM-as-Judge 把"明明视觉 token 不够却仍作答=猜"的轨迹标为 rejected，再重采高质量成功轨迹当 chosen（EVA-KTO 1.1 万条，按推荐比例 63% 正确 / 37% 错误，\(\beta=0.1\)）。在线 GRPO 之前先把这些已知失败模式纠掉，能显著改善收敛性、鲁棒性和稳定性。

4. Data-Enhanced GRPO + 复合奖励：在线强化并防止 reward hacking

常规 GRPO 在固定数据集上只迭代几个 epoch，对视频智能体尤其受限——模型只能从一小撮失败的"问题–视频"对里学，比如意识到自己计数弱却没新样本可练。EVA 的 Data-Enhanced GRPO 先从 KTO 模型采失败案例建 RL 数据集，跑若干步后再收集新失败案例，把它们当 in-context 示例喂给教师 MLLM，让它针对 HD-VILA 的未见视频生成新 QA 对后重训 GRPO，持续扩充挑战多样性。优化目标是 KL 正则的策略优化 \(\max_\theta \mathbb{E}_{\tau\sim\pi_\theta}[R(\tau)]-\lambda\,\mathbb{E}_{(s,a)\sim\pi_\theta}[\mathrm{KL}(\pi_\theta(\cdot\mid s)\,\|\,\pi_{\mathrm{ref}}(\cdot\mid s))]\)，参考模型 \(\pi_{\mathrm{ref}}\) 由 SFT+KTO 初始化。奖励是复合的：

\[R(\tau)=w_{\mathrm{acc}}\,r_{\mathrm{acc}}+w_{\mathrm{fmt}}\,r_{\mathrm{fmt}},\qquad r_{\mathrm{acc}}=\begin{cases} r_{\mathrm{csv}}, & \text{多选}\\ r_{\mathrm{rouge}}, & \text{开放式}\end{cases}\]

多选题用 Completeness Self-Verification 奖励：让同一基座当裁判，喂它问题 + EVA 最后一轮取回的图，只有裁判和 EVA 都答对才 \(r_{\mathrm{csv}}=1\)，否则 0，逼模型真正定位到正确帧而非瞎猜。开放式题用 ROUGE 奖励 \(r_{\mathrm{rouge}}=\frac{1}{3}(R_1+R_2+R_L)\in[0,1]\)。还有一个格式奖励：调了工具但答错只给 0.05 的补偿——因为随机猜的期望准确率约 0.20~0.25，这个故意压得很低的奖励让模型无法靠"装样子调工具"骗分。混入开放式数据是关键防 hacking 手段：纯多选会让模型靠猜刷奖励，开放式逼它把答案落到视觉证据上。

损失函数 / 训练策略¶

基座选 Qwen2.5-VL-7B-Instruct（支持多分辨率输入、小分辨率帧省 token）。SFT 用 EVA-SFT + 开源智能体数据训 2 epoch，batch=8，lr=2e-6；KTO 沿用同 lr、\(\beta=0.1\)；GRPO 用 EVA-RL（90% 开放式 + 10% 多选）训 1 epoch，batch=64，每样本 8 个 rollout，lr=1e-6，跑在 32 张 H100 上。

实验关键数据¶

主实验¶

在采样困境基准 LSDBench 上，EVA 用极少视觉 token 逼近大模型精度：

模型	帧数	视觉 token	准确率(%)
Gemini-2.0-Flash（闭源）	2700	696.6k	56.2
Qwen2.5-VL	768	499.2k	52.5
Qwen2.5-VL(RHS)	225	146.2k	52.2
Baseline Qwen2.5-VL*	32	21.0k	49.2
EVA	76.9	10.3k	51.0

EVA 仅用 ~10K 视觉 token（不到 Gemini 的 1/60）就拿到 51.0%，比 32 帧基线高 +2.6%，说明推理驱动的视觉规划有效缓解了采样困境。

在四个长视频基准上，三阶段逐级提升（帧数带 * 为按 650 token/帧折算的估计值）：

模型	LongVideoBench	MLVU	VideoMME(Overall)	LVBench
Qwen2.5-VL（32帧）	43.2	48.4	53.6	31.6
FrameThinker（自适应智能体）	52.9	59.1	—	36.6
EVA-SFT	49.9	52.3	56.0	26.5
EVA-KTO	53.2	57.4	56.5	36.0
EVA-GRPO	55.0	68.3	60.2	43.3

EVA-GRPO 在四个基准全面领先多数开源与自适应智能体，且每段视频只处理约 20–30 帧。在零样本的 Video-Holmes 推理基准上，EVA-GRPO 取得 37.2% Overall，超过 Video-R1（36.5）、VideoChat-R1（33.0），显示推理驱动智能体的强迁移性。

消融实验¶

配置	表现趋势	说明
SFT only	帧多、轮数多、分数最低	只学会工具格式，不会高效探索
+ KTO	帧数和轮数都明显下降、分数大涨	纠掉"证据不足硬猜"等失败模式
+ GRPO（Full）	帧数比 KTO 更少、但轮数变多、全基准最高	转向"少帧多轮、精打细算分配 token"
GRPO 数据：纯多选	VideoMME 偏低	易被 reward hacking（靠猜刷分）
GRPO 数据：纯开放式	中等	—
GRPO 数据：混合 MC+OE	VideoMME 最高	逼模型把答案落到视觉证据、训练更稳

关键发现¶

三阶段是一条清晰的进化路径：SFT 教格式但不会探索；KTO 大幅压缩帧数与轮数并显著提分；GRPO 进一步减帧、却增加交互轮数到最高分——说明它从"被动少看少走"转向"更审慎的多轮推理 + 每轮更精准地花视觉 token"。
GRPO 训练数据组成至关重要：纯多选会被 reward hacking（凭似是而非的猜测刷分），混入开放式数据强制答案 grounding 到视觉内容，VideoMME 上明显更稳更高。
多轮推理不等于更贵：尽管要多轮规划感知，总 token 数与均匀采样基线相当甚至更低，文本 token 只占很小一部分，推理时延由紧凑的自适应视觉 token 主导、不随推理步数线性增长。

亮点与洞察¶

"先规划后感知"是个反直觉但漂亮的设定：初始零视觉输入，逼模型像人一样"先想清要看哪段再去看"，从根上避免了整段视频锚定规划的噪声问题——这个 \(s_0\) 不给帧的细节是整套范式的支点。
取帧工具把动作空间从一维扩到三维：时间窗口 + 帧数 + 分辨率联合可控，"低清扫全局 → 高清抠局部"的工作流是旧智能体（只能调时间）做不到的，可迁移到任何需要"由粗到细"检索的长上下文任务。
KTO 卡在 SFT 和 GRPO 之间是个聪明的工程选择：单样本偏好天然适配多轮设定、又能从外部失败经验学习，先把已知坏案例纠掉再上在线 RL，省了大量在线探索的不稳定。
格式奖励只给 0.05 这种"负向设计"很实用：用低于随机猜期望的奖励精确堵住"装样子调工具骗分"的漏洞，是 reward shaping 里值得复用的小 trick。

局限与展望¶

作者承认：当前推理循环依赖预定义的工具接口，面对未见或带噪的问题分布可能力不从心；未来想做更灵活的工具生态、自演化推理策略、跨模态记忆。
自己发现的局限：三阶段流水线 + 三套自建数据集（EVA-SFT/KTO/RL）+ 教师 MLLM 在线造数据，整套训练管线相当重，复现成本高；教师用 Qwen2.5-VL-72B 生成数据，学生上限可能受教师质量约束。
横向比较需谨慎：表 2 的帧数是按 650 token/帧反推的估计值（⚠️ 实际帧数随自适应分辨率变化），不同模型的帧数不宜直接比大小；LSDBench 的 SOTA 数据直接引自他文，对比口径需留意。
改进思路：把固定工具接口换成可学习/可组合的工具集，或引入跨轮的显式记忆，缓解长视频里"反复重取相邻帧"的潜在浪费。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "先规划后感知 + 三维取帧工具 + SFT/KTO/GRPO 三段式"组合在视频智能体上是清晰且自洽的新范式
实验充分度: ⭐⭐⭐⭐ 覆盖 6 个基准 + 三阶段消融 + 数据组成消融，但部分帧数是估计值、效率分析略粗
写作质量: ⭐⭐⭐⭐ 动机推导和三阶段逻辑讲得清楚，图 2 数据管线信息密但稍乱
价值: ⭐⭐⭐⭐⭐ 用 ~1/10 token 取得更高精度，对长视频高效理解和 agentic RL 训练范式都有实用参考价值