LensWalk: Agentic Video Understanding by Planning How You See in Videos¶

会议: CVPR 2026
arXiv: 2603.24558
代码: 无
领域: 视频理解
关键词: 视频智能体, 主动观测, 视觉语言模型, 长视频理解, 工具调用

一句话总结¶

提出LensWalk，一个让LLM推理器主动控制视频观测范围和采样密度的智能体框架，通过reason-plan-observe循环实现自适应视频理解，无需微调即可在长视频基准上带来5%以上的即插即用性能提升。

研究背景与动机¶

视频理解是计算机视觉的核心任务，但视频的密集时序性质给自动分析带来巨大挑战。现有视频理解方法面临一个根本矛盾：推理与感知之间存在断裂。

现有方法主要存在三类问题：(1) 单次前向方法将视频均匀采样为固定视觉上下文，容易遗漏关键事件或被冗余信息淹没；(2) 启发式关键帧选择方法虽更精细，但仍是一次性静态采样，无法随中间假设变化而调整；(3) 基于检索的智能体虽可动态获取信息，但操作的是预处理过的静态表征（如ASR转录、clip级caption），无法从源视频中按需生成新的观测。

核心矛盾：模型的推理过程应该驱动它"看什么"和"怎么看"，但现有管线将观测和推理割裂——观测在推理之前一次性完成，或受限于固定的预处理工件。本文的切入角度是借鉴人类的视觉认知策略：人类通过有目的的信息搜寻来应对信息过载，不断在宏观扫视和精细聚焦之间切换，并在过程中持续反思和校验。核心idea：让LLM推理器自主决定观测的时间范围和采样密度，将视频理解转化为主动的推理-计划-观测循环。

方法详解¶

整体框架¶

LensWalk将视频理解建模为一个多轮迭代过程。每一轮中，LLM推理器(\(M_r\))分析当前问题和已积累的证据，制定包含观测工具选择、引导子问题、时间范围和采样密度的行动计划(\(a_t\)）。该计划由VLM观察器(\(M_o\))执行，从视频中提取视觉证据。证据被追加到历史记录中，形成下一轮推理的输入。此外，系统维护时间戳锚点和全局实体记忆表来保证跨轮次的一致性。

关键设计¶

多粒度观测工具套件:
- 功能：提供三种互补的观测工具，支持不同粒度的视频浏览
- 核心思路：Scan Search在宽时间范围内并行扫描切片来发现线索；Segment Focus对单个时间段进行高密度采样提取细粒度细节；Stitched Verify将多个不连续时间段的帧组合成单一批次，支持跨段对比和因果验证
- 设计动机：三个工具形成"发现-聚焦-验证"的完整认知链，覆盖从全局线索搜索到局部细节提取再到跨段整合验证的全部需求
推理调度的主动观测机制:
- 功能：让推理器在每一步显式控制观测的时间范围(\(\mathcal{I}_t\))和采样策略
- 核心思路：每个行动\(a_t = (o_t, q_t, \mathcal{I}_t, \rho_{o_t})\)包含工具选择、引导问题、时空范围和工具特定参数，实现推理状态到观测计划的端到端映射
- 设计动机：将参数化的观测计划嵌入历史记录中，使智能体能追踪自身探索进度，为后续步骤针对未充分探索的区域提供依据
证据锚定与实体记忆:
- 功能：确保长时多轮推理过程中的时间定位精度和实体一致性
- 核心思路：时间戳锚点在VLM观察时插入帧间时间标记，使观察器返回带有精确时间引用的答案；全局实体记忆表在推理历史外独立维护，记录实体属性和出现时间
- 设计动机：避免跨轮次中重复识别相同实体的开销，防止长历史上下文中实体引用混乱，同时为后续精确重新观测提供时间锚点

损失函数 / 训练策略¶

LensWalk是一个无需训练的即插即用框架，不涉及模型微调
智能体被限制最多20次工具调用，每轮一次
Scan Search、Segment Focus和Stitched Verify的每次调用帧预算分别为180、32和128
推理器同时作为实体记忆表的更新器

实验关键数据¶

主实验¶

数据集	指标	本文(最佳配置)	之前SOTA	提升
LVBench	Accuracy	68.6% (o3自身)	60.8% (MR.Video)	+7.8%
VideoMME Long	Accuracy(w/o sub)	71.4% (o3自身)	67.3% (DVD)	+4.1%
LongVideoBench	Accuracy	70.6% (o3自身)	68.6% (DVD)	+2.0%
MMVU (MC)	Accuracy	80.9% (o3/GPT-4.1)	78.9% (o3)	+2.0%
Video-MMMU	Overall	78.33% (o3自身)	75.44% (o3)	+2.89%
EgoSchema	Val	77.2% (o3/Qwen2.5-VL-72B)	76.6% (DVD)	+0.6%

消融实验¶

配置	关键指标(VideoMME Long)	说明
完整LensWalk (o3/GPT-4.1)	70.0%	基线
去掉Scan Search	65.4%	下降4.6%，定位线索最关键
去掉Stitched Verify	66.8%	下降3.2%，跨时间段整合重要
去掉Segment Focus	68.1%	下降1.9%，细粒度提取有贡献
无Timestamp Anchor	69.4%	下降0.6%
无Subject Memory	69.7%	下降0.3%

关键发现¶

o3作为自我观测者（推理器和观察器为同一模型）时表现极好，LVBench上提升11.5%，VideoMME Long上提升6.7%，作为"免费午餐"
开源推理器Qwen3-235B-A22B对弱观察器（Qwen2.5-VL-7B提升4.3%）有效，但对强观察器（GPT-4.1仅+0.1%）帮助有限
智能体展现出六种行为模式：直接查询、渐进缩放、范围分割、策略反思、整合验证和静态重复
框架自适应分配观测预算：简单问题用少量帧快速解决，复杂问题投入更多观测轮次

亮点与洞察¶

将"如何观测"纳入推理循环的核心设计理念非常优雅，类比人类有目的的视觉搜索策略
无需微调的即插即用特性使其可以直接提升现有模型，工程价值很高
涌现出的多样化认知策略（渐进缩放、策略反思等）展示了智能体的自主推理能力
Token消耗与单次前向方法相当，同时大幅降低了每轮峰值Token数，缓解了长上下文的内存压力

局限与展望¶

框架效果高度依赖推理器的认知能力——弱推理器可能生成无效的观测计划
仍存在少量"静态重复"行为（反复观测相同区域），虽然比例低但表明规划机制仍不完美
当前的观测工具仅适用于视觉模态，未利用音频、字幕等多模态信息
最大20次工具调用的限制在极端长视频场景下可能不够

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将视频理解重新定义为主动观测调度问题，理念创新且实现优雅
实验充分度: ⭐⭐⭐⭐⭐ 6个基准、多种模型组合、详细消融和行为分析
写作质量: ⭐⭐⭐⭐⭐ 叙事流畅，原理阐述清晰，实验分析深入
价值: ⭐⭐⭐⭐⭐ 即插即用框架，可直接提升现有强模型，实用性极高