PixFoundation 2.0: Do Video Multi-Modal LLMs Use Motion in Visual Grounding?¶

会议: NeurIPS 2025
arXiv: 2509.02807
代码: https://github.com/MSiam/PixFoundation-2.0
领域: 视频理解 / 视觉接地
关键词: 运动中心评估, 视觉接地, 视频 MLLM, 指称分割, 运动理解

一句话总结¶

通过提出四项运动中心的探测技术和 MoCentric-Bench 基准，证明当前视频多模态 LLM 在像素级视觉接地任务中未能真正利用运动信息，可被静态关键帧欺骗。

领域现状：多模态大语言模型在视频高层任务（QA、描述）表现良好，但像素级视觉接地能力未被深入探讨。

现有痛点：现有基准假设运动是必需的，但实际上单个静态帧往往足以解决运动表达任务。视频 MLLM 声称利用时间信息，但可能只依赖强大的视觉编码器和 LLM。

核心矛盾：无法区分"真运动"（时间动态）和"伪运动"（静态关键帧可模拟），缺乏评估运动顺序理解的基准。

切入角度：设计运动存在性和运动顺序两类探测技术，构建 MoCentric-Bench 强制模型利用真运动。

三层结构：(1) 问题诊断——分析 RefDAVIS、MeVIS 等现有基准的缺陷；(2) 运动中心探测设计——自动合成虚假运动和反转运动；(3) 基线和适配——提供单帧强基线和 Sa2VA 的 LoRA 微调版本。

运动存在性探测（Motion Existence）
- 功能：判断模型是否真正依赖运动信息
- 核心思路：用 Qwen2.5-VL 进行粗粒度时间定位找关键帧，生成虚假视频（关键帧重复），与原始视频组合成 4 种布局，检查模型是否被欺骗
- 设计动机：运动表达（如"跳向左边"）可能仅用单帧+空间布局就能推导
运动顺序探测（Motion Order）
- 功能：判断模型是否理解时间方向
- 核心思路：用 GPT-4o 将"拉"转换为"推"等反向运动描述，反向播放视频，检查模型能否区分
- 设计动机：如果模型真正理解运动，应能区分正向和反向视频
MLLM + SAM 2.0 强基线
- 功能：验证单帧方法的竞争力
- 核心思路：Qwen2.5-VL 在关键帧做 bounding box 定位，SAM 2.0 生成完整分割掩码，完全不涉及时间推理
- 设计动机：如果单帧基线接近 SOTA，说明现有数据集不够"运动中心"

Sa2VA★ 微调版本采用 LoRA 微调视觉编码器，在 MoCentric-Bench 合成数据上监督学习。

模型	原 val	单帧混合	下降%	反向混合	下降%
VidGLAMM	48.2	21.6	-55.2%	34.0	-29.4%
Sa2VA	58.9	28.5	-51.6%	61.1	+3.7%
MLLM+SAM2†	57.4	28.1	-51.0%	53.1	-7.5%
Sa2VA★ (微调)	63.1	38.2	-39.5%	56.4	-10.6%