Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task¶

会议: NeurIPS2025
arXiv: 2512.10359
代码: GitHub
领域: 视频理解 / 多模态推理
关键词: [VideoQA, tool-augmented LLM, spatiotemporal reasoning, agentic framework, video toolkit]

一句话总结¶

提出了包含 22 个工具的视频工具包和 STAR（Spatiotemporal Reasoning）框架，通过时间-空间工具交替调度策略渐进式定位 3D RoI，在 VideoMME 上将 GPT-4o 提升 8.2%，同时大幅减少处理帧数和计算开销。

研究背景与动机¶

领域现状：视频问答（VideoQA）是评估模型动态场景理解能力的关键任务。当前方法分为两类：Video-LLM（如 Qwen-VL）直接处理大量帧，计算冗余；工具增强 LLM（如 DoraemonGPT）引入外部工具辅助推理。

现有痛点：现有工具增强方法存在三个根本缺陷：(1) 工具单维度——要么只关注时间要么只关注空间，无法同时建模帧内空间关系和帧间时间因果；(2) 工具数量与多样性不平衡——简单堆砌工具导致 LLM 调用混乱；(3) 工具调度策略不足——缺乏有效调度机制导致工具链"走捷径"（Toolchain Shortcut），即 LLM 跳过逐步推理直接调用通用工具回答。

核心矛盾：需要同时在时间和空间维度上渐进细化，但无约束的工具调度会导致 LLM 取捷径。

本文目标：构建一套全面的视频工具包并设计有效的时空工具交替调度策略，解决工具链捷径问题。

切入角度：受链式思维（CoT）启发，将视频理解分解为时间定位和空间分析的交替迭代。

核心 idea：时间工具和空间工具交替调用，渐进式缩小时空搜索范围定位 3D RoI，如同视觉推理版的 System 2 思维。

方法详解¶

整体框架¶

STAR 是一个无需训练的、可扩展的 Agent 推理框架。包含三类工具集（时间工具集 \(T_t\)、空间工具集 \(T_s\)、通用工具集 \(T_g\)）和一个核心 LLM Planner。初始化时稀疏均匀采样帧填入可见帧字典 \(V\)；然后交替调用时间和空间工具，时间工具负责选择/缩减帧索引，空间工具负责处理指定帧并更新 \(V\) 中的信息；LLM Planner 每步判断信息是否充分，不足则继续调工具，最后必要时调用通用工具生成答案。

关键设计¶

22 工具视频工具包:
- 功能：构建涵盖时间、空间、通用三个维度的全面工具集，包括 Frame Selector（基于 LLM 的帧选择）、Temporal Grounding（时间定位）、Object Detection（YOLO/Grounding DINO）、Patch Zoomer（区域放大）、OCR、Image Captioner、Person ReID 等 22 个工具
- 核心思路：所有工具采用标准化 Tool Card 封装，即插即用。空间工具支持三种 bbox 利用方式：文本化描述、区域放大、Set-of-Mark 标注。时间工具支持帧级和片段级操作（单帧选择、视频剪辑、连续片段提取）
- 设计动机：视频处理任务天然分解为时间和空间维度，工具需要在两个维度上都提供细粒度能力；通过 Tool Card 标准化接口保证可扩展性
时空交替调度策略（STAR 算法）:
- 功能：约束工具链使时间和空间工具交替调用，通用工具仅作最后兜底
- 核心思路：算法维护可见帧字典 \(V\)（键为帧索引，值为各工具收集的信息）。第一步自动选择时间或空间工具；之后奇偶步交替使用另一维度工具。每步 LLM Planner 生成 Thought → 选择工具 → 执行 → Observation → 更新 \(V\)。如果时间工具缩小了时间范围，空间工具可以在更少帧上做精细分析；空间分析的结果又反馈影响后续时间工具的选择，形成渐进定位 3D RoI 的闭环
- 设计动机：解决 Toolchain Shortcut 问题——无约束时 LLM 倾向于直接调用 VLM 一步回答，绕过多步推理。交替约束强制 LLM 进行时空渐进推理，类似于 CoT 中的 System 2 模式

损失函数 / 训练策略¶

STAR 是完全无训练的框架，所有工具即插即用。STAR 版本使用 GPT-4o 作为 Planner，搭配最大 3B 参数的开源模型工具（QwenVL-2.5-3B 等）；STAR-mini 版本使用 GPT-3.5-turbo 作为 Planner，工具不超过 500M 参数（BLIP 等），可在个人电脑上运行。

实验关键数据¶

主实验¶

方法	参数量	帧数↓	运行时间↓	VideoMME↑	LongVideoBench↑
GPT-4o (32帧)	-	32	<30s	61.8	52.6
GPT-4o (1fps/384)	-	384	>10min	71.9	66.7
Qwen2.5-VL-7B	7B	-	-	65.1	53.7
InternVL3-8B	8B	64	<30s	66.3	48.9
Qwen2-VL-72B	72B	2fps	6-8min	71.2	-
STAR (ours)	-	30.2	15.8s	70.0 (+8.2)	57.2 (+4.6)

NExT-QA 测试集（STAR vs 最优基线 AKeyS 78.1%）：

方法	帧数↓	因果↑	时间↑	描述↑	总计↑
AKeyS (GPT-4o)	7.6	72.9	79.0	86.1	78.1
STAR (GPT-4o)	7.2	81.1	81.5	86.3	82.1 (+1.2)

消融实验¶

工具链策略	准确率↑	帧数↓	链长↑	工具种类↑
无约束	61.2	112.6	2.9	1.3
Prompting	60.4	98.7	3.6	1.9
In-Context Learning	63.2	50.1	5.4	3.2
时空解耦	68.6	40.6	5.6	3.4
STAR（交替）	70.0	30.2	8.7	6.3

关键发现¶

时空交替比时空解耦提升 1.4%，同时减少 10.4 帧——时空之间的信息反馈至关重要
无约束策略导致工具链极短（2.9 步），仅用 1.3 种工具，帧数却高达 112.6——典型的 Toolchain Shortcut
STAR 以约 30 帧 / 15 秒的开销接近 GPT-4o 使用 384 帧 / 10 分钟以上的性能

亮点与洞察¶

Toolchain Shortcut 概念：首次定义并分析了工具链捷径现象，揭示了无约束 LLM Agent 的典型失败模式
效率-精度帕累托最优：以 30 帧达到 70% VideoMME，接近 72B 模型用数千帧的性能
可扩展架构：22 个工具全部即插即用，新工具可通过 Tool Card 标准化接入
EgoSchema 可扩展性：随帧数增加 STAR 的性能持续增长，展现强 scaling 特性

局限与展望¶

仍依赖 GPT-4o API 作为 Planner，带来成本和延迟，替换为开源轻量模型是重要方向
当前仅聚焦视频内容，未整合字幕和音频信息，这是 Gemini 等模型领先的关键因素
工具调用次数与 API 成本线性相关，长视频的多轮交互开销可能较高
工具输出质量受底层模型（YOLO、BLIP 等）限制，存在误差传播风险

评分¶

新颖性: ⭐⭐⭐⭐ 时空交替调度策略和 Toolchain Shortcut 概念有洞察力
实验充分度: ⭐⭐⭐⭐ 四个 benchmark 全面评测，消融研究详尽
写作质量: ⭐⭐⭐⭐ 结构清晰，图表直观
价值: ⭐⭐⭐⭐ 为视频 Agent 系统设计提供了可复现的框架和设计原则