VideoMiner: Iteratively Grounding Key Frames of Hour-Long Videos via Tree-based Group Relative Policy Optimization¶
会议: ICCV 2025
arXiv: 2510.06040
代码: GitHub
领域: 视频理解 / 长视频问答
关键词: 长视频理解, 关键帧提取, 强化学习, GRPO, 树结构, 层次化视频表示
一句话总结¶
提出VideoMiner——基于强化学习的长视频理解树结构框架,通过迭代分割-描述-聚类构建层次化视频树,并提出T-GRPO(树结构Group Relative Policy Optimization)引导策略模型自适应探索关键帧,在4个长视频基准上取得SOTA,并发现T-GRPO可自发激发推理链。
研究背景与动机¶
小时级长视频理解是MM-LLM面临的前沿挑战,涵盖体育精彩片段检测、电影叙事摘要、监控异常检测等应用。与静态图像和短视频相比,长视频包含数千帧和复杂时序动态,带来两大核心挑战:
挑战1:如何消除大量无关冗余信息?¶
- 端到端方法(如LLaVA-Video、Qwen2-VL):将视频简化为均匀采样的帧列表,但随视频长度增加,无关信息指数增长,LLM被淹没
- 层次化方法(如VideoTree):引入结构降低复杂度,但可能破坏原始视频结构,丢失时序信息
挑战2:如何在复杂层次结构中精确定位关键帧?¶
- VideoTree的视觉聚类+相关性评分在小时级视频中效果有限
- 关键帧提取需要同时满足三个原则:(1) 整合事件级时空信息 (2) 查询导向探索 (3) 适应层次树结构
- 现有方法缺乏自适应决策能力——何时停止探索、何时继续深入?
VideoMiner的核心思路:从粗到细的层次分解(视频→事件→帧)保持时序连贯性,T-GRPO训练策略模型学会何时接受、何时继续、何时丢弃树节点。
方法详解¶
整体工作流¶
VideoMiner由三个组件串联:
- 场景分割+描述+聚类:将长视频迭代分解为层次化树结构
- T-GRPO树探索:策略模型决策每个节点的命运(accept/continue/delete)
- LLM推理:选中的关键帧+问题输入VLM生成最终答案
场景分割¶
采用灰度直方图变化检测实现无参数分割:
- 对每帧计算归一化灰度直方图 \(H_t(k)\)
- 用Bhattacharyya距离量化相邻帧差异:
- 选取距离序列中Top \(K-1\) 个变化点作为分割边界
- 得到 \(K\) 个事件段 \(E = \{E_1, \ldots, E_K\}\)
亮点:基于事件而非离散帧进行分割,保留了时序连贯性。
描述生成与聚类¶
- 描述生成:针对每个事件 \(E_m\),结合用户问题 \(Q\),用VLM生成描述:
问题导向的描述确保提取的信息与用户意图相关。
- 聚类建树:将描述通过embedding模型编码为向量 \(v_m\),用DBSCAN聚类:
每个聚类簇构成一个树节点,\(C \leq K\) 确保语义相关的场景被归并。
树探索:策略模型¶
策略模型 \(\text{PM}\) 接收三个输入作出决策:
- 事件描述:提供时空信息
- 用户问题:确保探索方向与查询对齐
- 节点深度:提供层次位置信息
三种决策状态: - Accept:节点包含足够关键帧,无需继续探索 - Continue:节点可能相关,展开为新的子节点(重新分割-描述-聚类) - Delete:节点与问题无关,丢弃
T-GRPO:树结构Group Relative Policy Optimization¶
T-GRPO基于DeepSeek的GRPO改进,适配树结构和视频理解任务。
Rollout过程:执行VideoMiner流程,生成 \(n\) 棵不同的树 \(T = \{\vec{T_1}, \ldots, \vec{T_n}\}\)。
奖励设计分为两级:
节点级奖励 \(R_{\text{node}}\)包含三个分量:
-
格式奖励 \(r_{\text{format}}\):完全符合格式获得 \(\delta_{\max}\),部分符合获得 \(\delta_{\text{corr}}\)
-
长度奖励 \(r_{\text{length}}\):高斯分布建模,控制策略模型的输出token长度:
更长的输出→更详细的推理→更高准确率。
- 动作奖励 \(r_{\text{action}}\):不同动作获得不同奖励(\(\delta_d > \delta_a > \delta_c\)),定义树生长素:
直觉来自植物生长素:适度抑制继续探索(continue),鼓励及时做出终止决策(accept/delete),提升定位效率。
树级奖励 \(R_{\text{tree}}\):基于最终答案准确性。
总奖励:
损失函数:计算组优势后用PPO-clip风格的损失优化策略模型:
实验¶
主实验:长视频理解基准 (表1)¶
| 方法 | 基座模型 | EgoSchema | Video-MME Long | LongVideoBench (900-3600s) | MLVU M-Avg |
|---|---|---|---|---|---|
| LLaVA-Video | Qwen2-7B | 60.2 | 49.3 | 45.5 | 62.1 |
| InternVL2.5 | InternVL-2-8B | 60.0 | 50.6 | 46.4 | 59.2 |
| VideoTree | Qwen-plus | 59.8 | 39.3 | 44.6 | 51.6 |
| LLoVi | Qwen-plus | 62.8 | 50.6 | 39.5 | 54.9 |
| VideoMiner | Qwen2-VL-7B | 66.2 | 52.2 | 49.3 | 65.1 |
在所有长视频子任务上全面SOTA。视频越长,VideoMiner相对优势越大(Video-MME Long超越最佳baseline +1.6pp,LongVideoBench超越+2.9pp)。
消融实验¶
图3a:聚类方法对比
| 方法 | 效果 | 效率 |
|---|---|---|
| 无聚类 | 低 | 最慢(节点指数增长) |
| 帧聚类 | 中 | 较慢 |
| 事件聚类 | 最高 | 最快 |
事件聚类保留更多时序信息,使策略模型能更早做出准确决策。
图3b:强化学习方法对比
| 方法 | 表现 |
|---|---|
| 无RL(基础模型) | 最差,随视频长度增加严重退化 |
| RF(无树级奖励) | 显著优于基线 |
| T-GRPO(含树级奖励) | 最优 |
树级奖励让策略模型考虑当前决策对未来的影响。
图5b:生长素 \(\lambda_{\text{auxin}}\) 的影响
- \(\lambda < 1\):模型偏好continue,探索彻底但效率低,且可能陷入无目的探索反而降低性能
- \(\lambda \approx 1\):最佳平衡点——足够探索且及时终止
- \(\lambda > 1\):过早终止,可能遗漏关键帧
亮点与洞察¶
- T-GRPO自发激发推理链:策略模型在训练后自发生成CoT风格的推理过程("这个节点展示了运动比赛…与问题相关…决定continue"),显著增强推理深度
- 树生长素的生物学类比精妙:借鉴植物学中auxin调控生长的概念,用奖励比例调控树的探索深度
- DBSCAN的自适应性:不需要预设聚类数,自动根据描述语义分布确定节点数
- 无需训练VLM本身,仅训练一个轻量策略模型即可大幅提升长视频理解
局限性¶
- 多次调用VLM生成描述+最终推理的级联式架构延迟较高,难以实时应用
- 场景分割依赖灰度直方图(简单但粗糙),对光照突变敏感,可能产生虚假分割点
- 策略模型的奖励设计(6个超参数)需要仔细调优
- 在短视频任务上相对端到端方法有劣势——对本不需要关键帧选择的场景引入了不必要的复杂性
相关工作¶
- 长视频理解: LLoVi, VideoTree, VideoAgent, LLaVA-Video
- 视频RL: GRPO, PPO, RWM-RL
- 关键帧提取: VideoTree, VideoAgent
评分¶
- 创新性:⭐⭐⭐⭐⭐ — T-GRPO将GRPO拓展到树结构是RL+视频理解的新方向;自发涌现推理链令人惊喜
- 实用性:⭐⭐⭐⭐ — 直接提升现有VLM的长视频能力,但延迟较高
- 实验充分度:⭐⭐⭐⭐ — 4个基准、10个baseline、聚类/RL消融完整
- 写作质量:⭐⭐⭐⭐ — 工作流图清晰,case study生动