跳转至

Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

会议: NeurIPS2025
arXiv: 2512.10359
代码: GitHub
领域: 视频理解 / 多模态推理
关键词: [VideoQA, tool-augmented LLM, spatiotemporal reasoning, agentic framework, video toolkit]

一句话总结

提出了包含 22 个工具的视频工具包和 STAR(Spatiotemporal Reasoning)框架,通过时间-空间工具交替调度策略渐进式定位 3D RoI,在 VideoMME 上将 GPT-4o 提升 8.2%,同时大幅减少处理帧数和计算开销。

研究背景与动机

领域现状:视频问答(VideoQA)是评估模型动态场景理解能力的关键任务。当前方法分为两类:Video-LLM(如 Qwen-VL)直接处理大量帧,计算冗余;工具增强 LLM(如 DoraemonGPT)引入外部工具辅助推理。

现有痛点:现有工具增强方法存在三个根本缺陷:(1) 工具单维度——要么只关注时间要么只关注空间,无法同时建模帧内空间关系和帧间时间因果;(2) 工具数量与多样性不平衡——简单堆砌工具导致 LLM 调用混乱;(3) 工具调度策略不足——缺乏有效调度机制导致工具链"走捷径"(Toolchain Shortcut),即 LLM 跳过逐步推理直接调用通用工具回答。

核心矛盾:需要同时在时间和空间维度上渐进细化,但无约束的工具调度会导致 LLM 取捷径。

本文目标:构建一套全面的视频工具包并设计有效的时空工具交替调度策略,解决工具链捷径问题。

切入角度:受链式思维(CoT)启发,将视频理解分解为时间定位和空间分析的交替迭代。

核心 idea:时间工具和空间工具交替调用,渐进式缩小时空搜索范围定位 3D RoI,如同视觉推理版的 System 2 思维。

方法详解

整体框架

STAR 是一个无需训练的、可扩展的 Agent 推理框架。包含三类工具集(时间工具集 \(T_t\)、空间工具集 \(T_s\)、通用工具集 \(T_g\))和一个核心 LLM Planner。初始化时稀疏均匀采样帧填入可见帧字典 \(V\);然后交替调用时间和空间工具,时间工具负责选择/缩减帧索引,空间工具负责处理指定帧并更新 \(V\) 中的信息;LLM Planner 每步判断信息是否充分,不足则继续调工具,最后必要时调用通用工具生成答案。

关键设计

  1. 22 工具视频工具包:

    • 功能:构建涵盖时间、空间、通用三个维度的全面工具集,包括 Frame Selector(基于 LLM 的帧选择)、Temporal Grounding(时间定位)、Object Detection(YOLO/Grounding DINO)、Patch Zoomer(区域放大)、OCR、Image Captioner、Person ReID 等 22 个工具
    • 核心思路:所有工具采用标准化 Tool Card 封装,即插即用。空间工具支持三种 bbox 利用方式:文本化描述、区域放大、Set-of-Mark 标注。时间工具支持帧级和片段级操作(单帧选择、视频剪辑、连续片段提取)
    • 设计动机:视频处理任务天然分解为时间和空间维度,工具需要在两个维度上都提供细粒度能力;通过 Tool Card 标准化接口保证可扩展性
  2. 时空交替调度策略(STAR 算法):

    • 功能:约束工具链使时间和空间工具交替调用,通用工具仅作最后兜底
    • 核心思路:算法维护可见帧字典 \(V\)(键为帧索引,值为各工具收集的信息)。第一步自动选择时间或空间工具;之后奇偶步交替使用另一维度工具。每步 LLM Planner 生成 Thought → 选择工具 → 执行 → Observation → 更新 \(V\)。如果时间工具缩小了时间范围,空间工具可以在更少帧上做精细分析;空间分析的结果又反馈影响后续时间工具的选择,形成渐进定位 3D RoI 的闭环
    • 设计动机:解决 Toolchain Shortcut 问题——无约束时 LLM 倾向于直接调用 VLM 一步回答,绕过多步推理。交替约束强制 LLM 进行时空渐进推理,类似于 CoT 中的 System 2 模式

损失函数 / 训练策略

STAR 是完全无训练的框架,所有工具即插即用。STAR 版本使用 GPT-4o 作为 Planner,搭配最大 3B 参数的开源模型工具(QwenVL-2.5-3B 等);STAR-mini 版本使用 GPT-3.5-turbo 作为 Planner,工具不超过 500M 参数(BLIP 等),可在个人电脑上运行。

实验关键数据

主实验

方法 参数量 帧数↓ 运行时间↓ VideoMME↑ LongVideoBench↑
GPT-4o (32帧) - 32 <30s 61.8 52.6
GPT-4o (1fps/384) - 384 >10min 71.9 66.7
Qwen2.5-VL-7B 7B - - 65.1 53.7
InternVL3-8B 8B 64 <30s 66.3 48.9
Qwen2-VL-72B 72B 2fps 6-8min 71.2 -
STAR (ours) - 30.2 15.8s 70.0 (+8.2) 57.2 (+4.6)

NExT-QA 测试集(STAR vs 最优基线 AKeyS 78.1%):

方法 帧数↓ 因果↑ 时间↑ 描述↑ 总计↑
AKeyS (GPT-4o) 7.6 72.9 79.0 86.1 78.1
STAR (GPT-4o) 7.2 81.1 81.5 86.3 82.1 (+1.2)

消融实验

工具链策略 准确率↑ 帧数↓ 链长↑ 工具种类↑
无约束 61.2 112.6 2.9 1.3
Prompting 60.4 98.7 3.6 1.9
In-Context Learning 63.2 50.1 5.4 3.2
时空解耦 68.6 40.6 5.6 3.4
STAR(交替) 70.0 30.2 8.7 6.3

关键发现

  • 时空交替比时空解耦提升 1.4%,同时减少 10.4 帧——时空之间的信息反馈至关重要
  • 无约束策略导致工具链极短(2.9 步),仅用 1.3 种工具,帧数却高达 112.6——典型的 Toolchain Shortcut
  • STAR 以约 30 帧 / 15 秒的开销接近 GPT-4o 使用 384 帧 / 10 分钟以上的性能

亮点与洞察

  • Toolchain Shortcut 概念:首次定义并分析了工具链捷径现象,揭示了无约束 LLM Agent 的典型失败模式
  • 效率-精度帕累托最优:以 30 帧达到 70% VideoMME,接近 72B 模型用数千帧的性能
  • 可扩展架构:22 个工具全部即插即用,新工具可通过 Tool Card 标准化接入
  • EgoSchema 可扩展性:随帧数增加 STAR 的性能持续增长,展现强 scaling 特性

局限与展望

  • 仍依赖 GPT-4o API 作为 Planner,带来成本和延迟,替换为开源轻量模型是重要方向
  • 当前仅聚焦视频内容,未整合字幕和音频信息,这是 Gemini 等模型领先的关键因素
  • 工具调用次数与 API 成本线性相关,长视频的多轮交互开销可能较高
  • 工具输出质量受底层模型(YOLO、BLIP 等)限制,存在误差传播风险

相关工作与启发

  • DoraemonGPT:使用 text-to-SQL 查询工具输出数据库,但 SQL 查询经常失败;STAR 通过可见帧字典避免了这一问题
  • AKeyS / T*:LLM 驱动的帧选择方法,本文在此基础上增加了空间维度的工具支持
  • ReAct 框架:STAR 基于 ReAct 的 Thought-Action-Observation 循环,但加入了时空交替约束
  • 启发:工具增强 Agent 的关键不仅是工具数量,更是调度策略的设计——适当约束反而能释放更强的推理能力

评分

  • 新颖性: ⭐⭐⭐⭐ 时空交替调度策略和 Toolchain Shortcut 概念有洞察力
  • 实验充分度: ⭐⭐⭐⭐ 四个 benchmark 全面评测,消融研究详尽
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图表直观
  • 价值: ⭐⭐⭐⭐ 为视频 Agent 系统设计提供了可复现的框架和设计原则