Pioneering Perceptual Video Fluency Assessment: A Novel Task with Benchmark Dataset and Baseline¶

会议: CVPR 2026
arXiv: 2603.26055
代码: https://github.com/KeiChiTse/VFA
领域: 视频理解 / 视频质量评估
关键词: 视频流畅度评估, 时序质量, 基准数据集, 自注意力, 自监督学习

一句话总结¶

本文首次将视频流畅度评估（VFA）从传统视频质量评估（VQA）中独立出来，构建了首个流畅度评估数据集 FluVid（4,606 视频），并提出 FluNet 基线模型，通过时序排列自注意力（T-PSA）实现高效帧间交互，SRCC/PLCC 分别达到 0.816/0.821。

研究背景与动机¶

领域现状：视频质量评估（VQA）是目前量化视频主观感受的主流方法，已有大量模型（如 Fast-VQA、DOVER）被广泛使用。VQA 将空间质量（噪声、色彩等）和时序质量（运动一致性、帧连续性等）混合在一起进行整体评估。

现有痛点：作者通过先导实验发现，现有 VQA 模型的预测高度偏向空间质量，而对时序维度（即流畅度）的评估能力严重不足。这导致 VQA 预测分数无法有效指导自适应帧率编码、帧插值等时序相关的下游任务。

核心矛盾：VQA 模型的"空间-时序"纠缠使得流畅度信号被大幅稀释。人眼对时序失真比空间失真更敏感，但模型输出却恰恰相反。造成这一问题的根本原因有三：（1）缺乏独立的流畅度评分标准；（2）缺乏大规模的流畅度标注数据集；（3）缺乏针对流畅度设计的模型架构。

本文目标 将视频流畅度评估形式化为独立感知任务 VFA；构建首个流畅度评分标准和数据集 FluVid；设计流畅度感知baseline FluNet。

切入角度：从视觉心理学和认知科学出发，流畅度由三个核心视频成分决定——前景、背景和相机运动。同时，现有方法的主要障碍是输入帧数不足和帧间交互不充分。

核心 idea：通过通道压缩+时序维度排列的自注意力机制（T-PSA），在保持计算量可控的前提下大幅扩展时序窗口，配合自监督排序训练策略，让模型学会感知流畅度差异。

方法详解¶

整体框架¶

FluNet 包含三个部分：patch embedding 层 \(F_p\)（单层卷积）、编码器 \(F_e\)（含 T-PSA 的四阶段 Transformer）和 VFA 预测头 \(F_h\)（两层逐点卷积）。输入视频 \(V \in \mathbb{R}^{T \times H \times W \times 3}\) 先经过 \(F_p\) 映射为特征图，再逐层编码，最后通过 \(F_h\) 回归流畅度分数。整个架构基于 Swin Transformer 的层次化设计，四个 stage 分别含 (2,2,6,2) 个 T-PSA block。

关键设计¶

时序排列自注意力（T-PSA）:
- 功能：在扩大时序感受野的同时保持计算效率
- 核心思路：标准自注意力中 \(\mathbf{Q}\), \(\mathbf{K}\), \(\mathbf{V}\) 的通道维度均为 \(C\)。T-PSA 将 \(\mathbf{K}\), \(\mathbf{V}\) 的通道压缩为 \(C/\gamma\)（\(\gamma=2\)），然后将时序 token 排列到通道维度，使得 \(\mathbf{K}_p, \mathbf{V}_p\) 的窗口从 \((D,S,S)\) 变为 \((D/\gamma,S,S)\)，但通道维度恢复为 \(C\)，从而可以与 \(\mathbf{Q}\) 正常计算注意力。这样时序窗口可以从 8 扩大到 32，而 GFLOPs 反而从 1114 降到 308
- 设计动机：传统方法用 32 帧稀疏采样无法捕捉微妙的流畅度变化；直接增加帧数则计算爆炸。T-PSA 只扩展时序窗口 \(D\) 而固定空间窗口 \(S\)，实现"聚焦流畅度而非空间细节"
自监督排序训练策略:
- 功能：在无流畅度标注的情况下让模型学会判断流畅度等级
- 核心思路：从 HD-VILA 数据集采样 2,000 个高质量锚定视频，对每个视频通过随机丢帧+复制帧合成 \(K=7\) 个不同流畅度等级的视频。丢帧率按等级递增，丢帧位置随机分布在 \(M=5\) 个时间区间。排序损失为 margin ranking loss：\(\mathcal{L}_{\text{rank}} = \frac{1}{K}\sum_{i=0}^{K-1}\max(0, \hat{y}_{i+1} - \hat{y}_i + \beta)\)，其中 \(\beta=0.4\)
- 设计动机：流畅度标注需要专业人员在实验室环境下进行，成本极高。通过合成不同流畅度等级的视频对进行排序学习，可以用无标签数据训练模型的流畅度排序能力
FluVid 数据集构建:
- 功能：提供首个面向流畅度评估的基准数据集
- 核心思路：基于两个设计原则——（1）按影响流畅度的三个视频成分（前景/背景/相机）收集视频；（2）确保内容和参数多样性。从 SSv2 和 5 个 UGC-VQA 数据集中筛选 4,606 个视频，20 位专家按 5 级 ACR 标准标注流畅度 MOS
- 设计动机：现有 VQA 数据集聚焦整体质量，缺乏流畅度中心的数据和标注，无法支撑 VFA 模型的训练和评估

损失函数 / 训练策略¶

训练分三阶段：（1）可选的 LSVQ 预训练使模型具备质量感知能力（FluNet++）；（2）排序学习阶段使用 \(\mathcal{L}_{\text{rank}}\) 在 16,000 个合成视频上训练 30 个 epoch；（3）微调阶段使用 606 个 FluVid 视频的 L1 损失 \(\mathcal{L}_{\text{ft}} = \|\hat{y}_b - y_b\|_1\) 训练 60 个 epoch。

实验关键数据¶

主实验¶

方法	类型	帧数	窗口大小	GFLOPs	SRCC↑	PLCC↑
Fast-VQA	VQA	32	(8,7,7)	279	0.640	0.633
DOVER	VQA	-	-	-	0.638	0.614
Qwen 2.5-VL	LMM	-	-	-	0.598	0.584
FineVQ	LMM	-	-	-	0.622	0.609
Fast-VQA+128帧+排序+微调	VQA	128	(8,7,7)	1114	0.725	0.716
FluNet (Ours)	VFA	128	(32,7,7)	308	0.774	0.770
FluNet++ (Ours)	VFA	128	(32,7,7)	308	0.816	0.821

消融实验¶

配置	SRCC↑	PLCC↑	说明
仅排序学习	0.722	0.718	排序学习有效
仅微调	0.710	0.693	微调也有效
联合训练	0.753	0.748	联合效果不如分阶段
排序→微调	0.774	0.770	分阶段最优
窗口(8,7,7)	0.736	0.722	小窗口性能差
窗口(16,7,7)	0.758	0.749	窗口越大越好
窗口(32,7,7)	0.774	0.770	最优窗口大小
Stage 1-3 用 T-PSA	0.779	0.766	最佳阶段配置
全部 4 个 stage 用 T-PSA	0.774	0.770	第4阶段加不加差别不大

关键发现¶

FluNet 在 GFLOPs 仅为 308 的情况下超越了 1114 GFLOPs 的 Fast-VQA（+4.9% SRCC），证明 T-PSA 的效率优势
增加输入帧数（32→128）对所有方法都有增益，但 T-PSA 的独特优势在于可以同时扩大时序窗口
排序→微调的分阶段策略优于联合训练，说明先学会排序再校准分数是更好的学习路径
VQA 方法整体优于 LMM，说明精细的质量感知能力比通用理解更重要；但 LMM 中 Qwen 2.5-VL 表现最好，受益于其高帧率处理能力

亮点与洞察¶

T-PSA 的通道-时序维度交换是一个非常巧妙的设计。通过压缩 K/V 通道维度然后将时序 token 排列到通道维度，在不增加计算量的情况下实现了 4 倍时序窗口扩展。这个思路可以迁移到任何需要长时序建模的视频任务中
将 VFA 从 VQA 中独立出来的洞察本身有很大价值。作者通过定量实验证明 VQA 模型偏向空间质量，这一发现对视频生成评估也很有启发——当前用 VQA 指标评估视频生成质量可能严重低估了时序问题
合成排序训练巧妙地解决了标注稀缺问题，丢帧+复制帧的合成方式虽然简单，但有效模拟了真实世界的卡顿

局限与展望¶

FluVid 数据集仅 4,606 个视频，规模有限且主要来自 UGC 视频，缺少 AI 生成视频
合成的排序训练数据仅模拟了丢帧卡顿，未覆盖其他流畅度问题（如运动模糊、帧率不稳定等）
T-PSA 的通道压缩比 \(\gamma\) 固定为 2，没有探索自适应压缩策略
未考虑将 VFA 与 VQA 结合做联合预测的方案，而这在实际应用中可能更有价值

评分¶

新颖性: ⭐⭐⭐⭐ 首次定义 VFA 任务并构建完整生态（标准+数据+方法），T-PSA 设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 23 种方法的全面 benchmark + 详尽消融实验 + 多维度分析
写作质量: ⭐⭐⭐⭐ 问题动机清晰，行文结构完整，figure 设计直观
价值: ⭐⭐⭐⭐ 填补了流畅度评估空白，对视频生成质量评估和视频处理优化有实际指导意义