FPS-Bench: A Benchmark for High Frame-Rate Video Understanding¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无（论文称将发布数据与代码，地址以官方为准）
领域: 视频理解
关键词: 高帧率视频理解, 视频问答基准, minFPS, 时序推理, VLM 评测

一句话总结¶

针对当下视频大模型几乎都把视频降采样到 <1 FPS 这一盲点，作者构建了 FPS-Bench——一个全部由"必须看高帧率才能答对"的问题组成的视频问答基准（1000 题 / 554 段视频），并提出 minFPS 指标量化每道题的最低帧率需求；结果显示 SOTA VLM 准确率仅约 30%（随机 25%），而人类超过 70%，暴露出模型在快速时序事件感知上的根本缺陷。

研究背景与动机¶

领域现状：现代视频-语言模型（VLM）出于显存和 token 成本考虑，普遍把输入视频从原生 30 FPS 暴力降采样到 1 FPS 甚至更低（Gemini 降到 1 FPS，GPT-4o 等干脆固定取 8–16 帧）。背后有个被广泛接受的假设——视频时序冗余高，"多看几帧并不带来更多信息"。

现有痛点：这个假设让几乎所有主流评测基准都"自证其说"。Kinetics、ActivityNet、MSR-VTT 这类早期基准随机抽几帧就能解；连 MVBench、Video-MME 这种新基准，很多题在单帧里就能找到答案，甚至 0.1 FPS 就够；号称聚焦细粒度运动的 MotionBench、长视频的 EgoSchema 也都能用很低帧率解出来。于是"低帧率够用"成了循环论证：模型只在低帧率上训练和评测，从没人系统检验过降采样到底丢失了什么能力。

核心矛盾：真正需要高帧率的视觉任务（目标跟踪、视频分割、机器人感知）通常交给专用模型，并不在通用 VLM 的评测视野里。而那些"通用 VLM 在低帧率下注定答不对"的问题——比如"视频里相机闪光过吗？"，在 2 FPS、4 FPS 下根本看不到闪光，只有到 14 FPS 才能捕捉——既没有基准覆盖，又恰恰是当前评测体系的系统性盲区。

本文目标：造一个完全由高帧率问题构成的通用 VLM 基准，并提供一个能客观刻画"这道题到底需要多高帧率"的量化标准，从而把"降采样损失的能力"摆到台面上量化。

切入角度：与其用"看多长视频"（EgoSchema 的 temporal certificate）来衡量难度，不如直接问"需要多高的采样帧率"——因为一段 10 分钟视频按 1 FPS 和按 30 FPS 取，certificate 时长一样，但前者会把瞬时高频事件完全抹平。

核心 idea：定义 minFPS（最低必要帧率）作为每道题的时序难度标尺，严格筛选所有题 minFPS ≥ 4，构建一个"非高帧率不可解"的问答基准来逼出 VLM 的真实短板。

方法详解¶

整体框架¶

这是一篇基准/数据集论文，"方法"即数据构建与评测协议两条主线。第一条主线围绕新指标 minFPS：先给出它的定义，再用一套人工二分/递增的流程为每道题测出 minFPS，并以 minFPS ≥ 4 作硬门槛筛题；第二条主线是九类高频时序题型的设计、纯人工标注与多重质检，确保题目"人易、机难、且必须看视频"。最终产出 1000 题 / 554 视频的基准，再在其上系统评测开源/闭源/图像类 VLM 与人类。

下面这张图概括数据采集到评测的流水线：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["YouTube-8M<br/>多领域视频源"] --> B["九类高频时序题型<br/>定义答题能力维度"]
    B --> C["minFPS 测量<br/>人工二分/递增定最低帧率"]
    C -->|"minFPS ≥ 4 才保留"| D["多重质检<br/>双标注+外审+LLM 去无视频可解"]
    D --> E["FPS-Bench<br/>1000 题 / 554 视频"]
    E --> F["评测 VLM 与人类<br/>多选 QA 准确率"]

关键设计¶

1. minFPS：用"最低必要帧率"量化一道题的时序难度

痛点在于过去衡量视频题难度的指标（如 EgoSchema 的 temporal certificate，即人需要看多长时长才能验证答案）只刻画"时间跨度"，却对"采样密度"无感——同一个 certificate 时长，1 FPS 采样和 30 FPS 采样含的帧数差几十倍，前者会让快速事件直接消失。作者把 minFPS 定义为：对一个视频-问题对，人类标注者能稳定得到正确答案的最低整数帧率；且关键约束是——任何低于该阈值的采样率都必须使得正确答案无法被验证。这等于把"必须看到的那一帧"精确卡死在某个帧率门槛上。两个指标可乘起来互补：总输入帧数 ≈ minFPS × temporal certificate，minFPS 管"密度"，certificate 管"时长"。

2. minFPS 的人工测量流程与 ≥4 硬门槛：保证每题都"非高帧率不可解"

光有定义还不够，得能稳定测出来。标注者从 1 FPS 开始看视频+问题+答案：若 1 FPS 答不出，就每次 +1 FPS 递增直到答案变得明确无歧义；若 1 FPS 已能答出，则按 2 的因子不断减半帧率直到答不出为止，由此逼近门槛。测量时的降采样统一用"丢帧"模拟现代 VLM 的真实采样行为。所有入库题强制 minFPS ≥ 4（该阈值来自对其它基准的实测——它们大多不超过 1–2），最终全库平均 minFPS 达 6.67、中位数 6.0，远高于 Video-MME 的 0.5。这条流程把"高帧率必要性"从主观判断变成可复现的操作定义。

3. 九类高频时序题型：覆盖"快、细、瞬时"的能力维度而不沦为窄任务

为了让基准既需高帧率又保持通用性（不像 DIVE 那种只考字幕召回的玩具任务），作者定义九类题型，每类约 110 题：重复运动计数（Repetitive Motion，数高速周期动作的次数）、速度识别（Speed Recognition）、细粒度运动（Fine-Grained Motion，辨别动作形态的细微差异）、动作顺序（Action Order，几乎同时发生的事件谁先谁后）、事件时状态（State at Event，瞬时交互那一刻物体的状态）、一闪而过（Blink and Miss，只出现一两帧的极短事件如闪光）、因果检测（Causality Detection）、同步性评估（Synchronization Assessment）、实例计数（Instance Count，统计快速离散事件发生次数）。这些题对人简单、对模型却难，且都内在地要求较高输入 FPS，从而把"快速运动感知"这一能力从通用问答里单独拎出来考。

4. 纯人工标注 + 多重质检：确保"人能答、机难答、且必须看视频"

由于目标任务超出 VLM 能力，作者放弃了 MVBench/EgoSchema 常用的"LLM 从字幕自动生成 QA"，改为招募具备 VLM 经验的标注员全程人工从 YouTube-8M 找视频、配题、写 4 个似真选项外加一个"以上皆非"。质检按 Video-MME/MVBench 的严格协议层层把关：每题至少两名其他标注员复核；minFPS 由原标注者和另一标注者各测一次、取两者最小值（更保守）；单独标注员检查题面清晰、选项不过于显然、答案正确；三名外部评审在不看答案的情况下答题，被一致答错的题会被标记复查；最后还用 LLM 查拼写语法，并照搬 Video-MME 协议——去掉"以上皆非"后让 Gemini-1.5 Pro 在不给视频的条件下随机打乱选项答 4 次，若 4 次里答对超过 3 次就标记审查，以剔除能脱离视频靠先验解出的题。

一个完整示例¶

以图 1 的相机闪光题"视频里相机闪过光吗？"走一遍：标注者从 1 FPS 看起——看不到闪光，无法验证"闪过"这个正确答案；逐步 +1 FPS，到 2 FPS、4 FPS 仍然看不到那一两帧的闪光；一直加到 14 FPS 才首次稳定看到闪光、能确认答案。于是这道题的 minFPS = 14。这意味着任何把视频采到 14 FPS 以下的模型，从信息层面就永远不可能答对——它根本没见过那一帧。这正是 FPS-Bench 想逼出的失败：模型的错不是推理错，而是关键证据在降采样里被丢掉了。

实验关键数据¶

主实验¶

基准规模：1000 题、554 视频、五大视觉领域（媒体娱乐 / 爱好游戏 / 体育健身 / 车辆 / 其它）；平均视频约 10 秒，平均 temporal certificate 仅 2.1 秒——即"短而信息密集"。minFPS 对比上，FPS-Bench 平均近 7 FPS，比 Video-MME（0.5）高一个量级，比号称高速理解的 AirLetters、MotionBench（约 2）也高出 2.5× 以上，却仍保持题目领域的多样与通用。

主评测（多选 QA 准确率，随机基线 25%）：

模型	Overall	Instance Count	Action Order	备注
GPT-4o	31.8%	32.1%	35.8%	最佳闭源
Oryx (omni)	31.3%	11.6%	48.6%	开源最佳，超过 Gemini
Qwen-3-VL-32B	30.7%	18.8%	39.4%	—
Gemini 2.5 Pro	28.9%	22.3%	32.7%	闭源
InternVL-3.5-8B	28.7%	15.2%	34.9%	—
DeepSeek-VL2-Base	24.0%	7.1%	32.1%	接近随机
Human	72.2%	66.5%	73.1%	人机差 >2×

关键观察：所有 SOTA VLM 都只比随机略好、远逊人类；实例计数（Instance Count）是模型最差的题型（多在 7%–18%，因为它既要极高帧率又要在整段长 certificate 里持续计数）；最容易的是动作顺序与因果检测，二者平均 minFPS 也最低（约 5.3）。还出现反常规模律：InternVL-14B 反而不如 8B，而 Qwen-32B 强于 8B；开源 Oryx 超过 Gemini，说明开闭源差距在收窄。

消融实验¶

作者用两种"放水"实验拆解差距来源：

配置	含义	代表结果（Gemini-2.5-Pro / GPT-4o）	结论
Default	原始 10 秒片段	28.9% / 31.8%	基线
Temp. Cert.	只喂 certificate 片段（去掉检索难度）	29.7% / 32.2%	几乎无提升
Temp. Cert. + minFPS（放慢视频）	把视频放慢到模型能看到关键帧	33.7% / 32.1%	略升但远不及人类

变化帧数/FPS 的扫描（表 3）：Qwen-3-VL 随 FPS 1→30 单调上升（27.6%→34.1%），但多数模型如 InternVL、LLaVA-NeXT 在帧数/FPS 增大后反而掉点（如 InternVL-3.5-8B 从 16 帧 33.1% 降到 512 帧 26.5%），暴露长上下文处理缺陷。

关键发现¶

失败不在 token 限制，而在能力：把视频放慢到保证模型"看得到"关键帧后，准确率只小幅回升、远不及人类，说明即便给足相关上下文，模型也无法稳定地对快速事件做推理。
不是检索问题：只喂 temporal certificate 片段（移除"大海捞针"难度）并没让题变简单，否定了"模型只是没找到那一帧"的猜想。
更多帧 ≠ 更好：多数模型在更高 FPS/更多帧下性能不升反降，作者推测高 FPS 下相邻帧差异极小、上下文却爆炸增长，而 VLM 几乎没在这种数据上训练过。
定性失败模式（图 5）：即便放慢后给齐所有帧，Gemini 仍会漏掉"快速踢球""球弹到门柱"这类一闪而过的细节，或把动作顺序数错——错在细粒度感知而非语言推理。

亮点与洞察¶

minFPS 是一个简洁却补位的指标：它精准抓住了 temporal certificate 没覆盖的"采样密度"维度，且"低于该帧率必不可解"的定义让难度可操作、可复现；两指标可乘（帧数 ≈ minFPS × certificate）形成正交的难度坐标系。
"循环论证"诊断很犀利：论文指出现有低帧率基准其实是"用低帧率评测又佐证低帧率够用"的自证陷阱，这种反思本身就有方法论价值。
保守取最小值的质检巧思：minFPS 由两人各测取 min、外审一致答错即复查、Gemini 无视频四答三对则剔除——多道闸门叠加，把"靠先验/靠选项偏置解题"的捷径堵死，可迁移到任何需要"必须看模态"的基准构建。
反常规模律的暴露：基准的价值之一是把"参数更大未必更强""更多帧未必更好"这类被平均指标掩盖的现象直接量化出来，为后续高帧率训练指明问题。

局限与展望¶

作者承认：题型与视觉域偏向"高速短时事件"，未必覆盖多数 VLM 用户的真实用例（这些其它基准已覆盖）；且相比主流视频基准，FPS-Bench 规模偏小（1000 题）。
自己发现的局限：纯人工标注虽保证质量但难规模化，YouTube-8M 来源也带来领域偏置；minFPS 由人工逐题测量，主观性虽经多人取 min 缓解，但"能稳定答对"的判定仍依赖标注者；评测里各模型送帧方式不一（有的收原始 mp4、有的最多 64 帧、有的 512 帧），公平性需谨慎解读。
改进方向：论文提出标注流水线可扩展、计划随模型采用而扩库；可进一步把 minFPS 用作训练时的难度课程或采样策略信号，而不仅是评测标尺。

评分¶

新颖性: ⭐⭐⭐⭐ minFPS 指标 + "非高帧率不可解"的基准定位切中真实盲区，思路清晰但属"补位"型而非范式创新
实验充分度: ⭐⭐⭐⭐ 覆盖开源/闭源/图像类十余个 VLM，配 certificate/放慢/帧数扫描三组拆解实验，仅库规模偏小
写作质量: ⭐⭐⭐⭐ 动机推导扎实、循环论证诊断有洞见，缓存文本有个别笔误（如 "Figure Z"）但不影响理解
价值: ⭐⭐⭐⭐ 暴露 VLM 高频时序感知的系统性短板，为高帧率视频理解的训练与评测提供了可复现标尺