VAST: Video Ability-Stratified Taxonomy for Data-Efficient Video Reasoning¶

会议: CVPR 2026
代码: zhongan-wang.github.io/VAST
论文: CVF Open Access
领域: 视频理解 / 视频推理 / 强化学习
关键词: 视频推理, 能力分层taxonomy, 数据高效RL, 一致性奖励, MLLM

一句话总结¶

VAST 主张按"底层推理能力"而非"任务格式"来组织视频推理训练数据，提出 Perception/Reasoning/Cognition 三层认知 taxonomy 与配套 VAST-15K/VAST-Bench，并用只加一致性奖励、不改架构的 Video-VAST 强化学习框架，在 MVBench 上以 66.3% 超过 Video-R1 的 62.7%，却省下约 72% GPU 时与 96% 训练样本。

研究背景与动机¶

领域现状：强化学习（RL）已成为提升多模态大模型（MLLM）视频推理能力的有效手段，跟随 reasoning 模型的成功被广泛采用。

现有痛点：现有方法效率低，原因有二。① 数据按任务格式组织而非按底层能力——这导致模型学到的是任务特定模式而非可迁移能力，要提升泛化就得覆盖海量"能力×任务"组合，RL 训练成本极高；② 靠复杂算法设计硬补效率——专门的时序架构、多目标奖励框架等让训练更复杂。

核心矛盾：任务格式 ≠ 推理能力。把数据按任务切分，模型会过拟合任务模式，无法把一种能力迁移到别的任务，于是只能靠堆数据和堆架构补，越补越贵。

本文目标：用更少的数据和算力，训出泛化更好的视频推理能力。

核心 idea：把视频理解按认知能力分层（感知→推理→认知）来组织数据，并用最简单的一致性奖励 RL（不改架构）对齐推理轨迹与最终答案。

方法详解¶

整体框架¶

VAST 是「认知 taxonomy + 数据/基准 + RL 框架」三件套。taxonomy 把视频理解分成三层；据此构建 VAST-15K 训练集与 VAST-Bench 评测集；再用 Video-VAST（带一致性奖励的 RL）在该数据上训练，无需任何架构改动。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["视频 + 问题"] --> B["认知三层 taxonomy<br/>感知/推理/认知"]
    B --> C["VAST-15K 训练集 + VAST-Bench 评测集<br/>按能力而非任务组织"]
    C --> D["Video-VAST RL<br/>一致性奖励对齐轨迹与答案"]
    D --> E["数据高效的视频推理 MLLM"]

关键设计¶

1. 三层认知 taxonomy：按能力（感知/推理/认知）而非任务格式组织数据

VAST 把视频理解结构化为三层递进能力：Perception（感知）——看清视频里有什么；Reasoning（推理）——基于感知做时序/因果推断；Cognition（认知）——更高层的理解与抽象。关键转变是：训练数据按这三层能力而非按任务格式（QA/caption/grounding 等）来组织。这样模型学的是"可迁移的能力"而非"任务专属模式"，从而无需覆盖海量"能力×任务"组合就能泛化——这正是数据效率的来源。基于此构建了 VAST-15K（训练）和 VAST-Bench（评测，带逐层诊断）。

2. Video-VAST 的一致性奖励：不改架构，只对齐推理轨迹与最终答案

针对"靠复杂时序架构/多目标奖励硬补效率"的痛点，Video-VAST 反其道而行——不做任何架构修改，只在 RL 里加一个一致性奖励，鼓励模型生成的推理轨迹（reasoning trace）与最终答案保持一致。直觉是：当模型的"想"和"答"对齐时，推理是真实有效的而非事后编造，这种自洽信号本身就是高质量的训练监督。配合按能力组织的数据，一致性奖励让模型用极少样本就学到稳健、可迁移的推理，而无需专门架构或多目标奖励的复杂工程。

实验关键数据¶

主实验¶

与 Video-R1 在相同训练设置下对比：

方法	MVBench	VAST-Bench	GPU 时	训练样本
Video-R1	62.7%	54.3%	基线	基线
Video-VAST（本文）	66.3%	57.4%	省 ~72%	省 ~96%

核心：更高精度 + 大幅更省算力与数据（约 72% 更少 GPU 时、96% 更少样本）。

消融/分析¶

配置	效果	说明
完整 Video-VAST	最佳	能力分层数据 + 一致性奖励
按任务组织数据	泛化变差	学到任务模式而非能力
w/o 一致性奖励	推理-答案脱节、精度降	缺自洽监督

关键发现¶

数据组织方式 > 算法复杂度：仅靠按能力分层 + 简单一致性奖励，就用极少数据超过用更多数据的 Video-R1，说明效率瓶颈在数据组织而非架构。
能力分层带来可迁移性：按能力训练让一种能力跨任务泛化，省去覆盖海量组合的成本。
一致性奖励是廉价高质量监督：对齐"想"与"答"无需额外标注或架构，却显著提质。

亮点与洞察¶

"按能力而非任务组织数据"是最有价值的视角转变，可迁移到任何 RL 训练效率低的多模态推理任务（图像推理、文档推理、具身规划）。
极致的数据/算力节省（96% 更少样本仍更强）极具实用价值，降低了视频推理 RL 的门槛。
不改架构只加一致性奖励体现了"简单即有效"，对抗了"靠复杂设计补效率"的趋势。

局限与展望¶

三层认知 taxonomy 的划分粒度与边界带主观性，跨数据集迁移时可能需重新定义。
一致性奖励依赖推理轨迹质量，若模型生成的轨迹本身低质，自洽信号可能强化错误模式。
评测主要在 MVBench/VAST-Bench，更广的视频长时序/多事件推理上的效果待验证。

评分¶

新颖性: ⭐⭐⭐⭐ "按能力分层组织数据"+一致性奖励的视角较新
实验充分度: ⭐⭐⭐⭐ 精度与效率双维度对比 + 消融，benchmark 覆盖中等
写作质量: ⭐⭐⭐⭐ 两个低效根因—taxonomy—RL 链条清晰
价值: ⭐⭐⭐⭐ 大幅降低视频推理 RL 的数据/算力成本，实用性强