Pioneering Perceptual Video Fluency Assessment: A Novel Task with Benchmark Dataset and Baseline¶
会议: CVPR 2026
arXiv: 2603.26055
代码: https://github.com/KeiChiTse/VFA
领域: 视频理解 / 视频质量评估
关键词: 视频流畅度评估, 时序质量, 基准数据集, 自注意力, 自监督学习
一句话总结¶
本文首次将视频流畅度评估(VFA)从传统视频质量评估(VQA)中独立出来,构建了首个流畅度评估数据集 FluVid(4,606 视频),并提出 FluNet 基线模型,通过时序排列自注意力(T-PSA)实现高效帧间交互,SRCC/PLCC 分别达到 0.816/0.821。
研究背景与动机¶
领域现状:视频质量评估(VQA)是目前量化视频主观感受的主流方法,已有大量模型(如 Fast-VQA、DOVER)被广泛使用。VQA 将空间质量(噪声、色彩等)和时序质量(运动一致性、帧连续性等)混合在一起进行整体评估。
现有痛点:作者通过先导实验发现,现有 VQA 模型的预测高度偏向空间质量,而对时序维度(即流畅度)的评估能力严重不足。这导致 VQA 预测分数无法有效指导自适应帧率编码、帧插值等时序相关的下游任务。
核心矛盾:VQA 模型的"空间-时序"纠缠使得流畅度信号被大幅稀释。人眼对时序失真比空间失真更敏感,但模型输出却恰恰相反。造成这一问题的根本原因有三:(1)缺乏独立的流畅度评分标准;(2)缺乏大规模的流畅度标注数据集;(3)缺乏针对流畅度设计的模型架构。
本文目标 将视频流畅度评估形式化为独立感知任务 VFA;构建首个流畅度评分标准和数据集 FluVid;设计流畅度感知baseline FluNet。
切入角度:从视觉心理学和认知科学出发,流畅度由三个核心视频成分决定——前景、背景和相机运动。同时,现有方法的主要障碍是输入帧数不足和帧间交互不充分。
核心 idea:通过通道压缩+时序维度排列的自注意力机制(T-PSA),在保持计算量可控的前提下大幅扩展时序窗口,配合自监督排序训练策略,让模型学会感知流畅度差异。
方法详解¶
整体框架¶
FluNet 包含三个部分:patch embedding 层 \(F_p\)(单层卷积)、编码器 \(F_e\)(含 T-PSA 的四阶段 Transformer)和 VFA 预测头 \(F_h\)(两层逐点卷积)。输入视频 \(V \in \mathbb{R}^{T \times H \times W \times 3}\) 先经过 \(F_p\) 映射为特征图,再逐层编码,最后通过 \(F_h\) 回归流畅度分数。整个架构基于 Swin Transformer 的层次化设计,四个 stage 分别含 (2,2,6,2) 个 T-PSA block。
关键设计¶
-
时序排列自注意力(T-PSA):
- 功能:在扩大时序感受野的同时保持计算效率
- 核心思路:标准自注意力中 \(\mathbf{Q}\), \(\mathbf{K}\), \(\mathbf{V}\) 的通道维度均为 \(C\)。T-PSA 将 \(\mathbf{K}\), \(\mathbf{V}\) 的通道压缩为 \(C/\gamma\)(\(\gamma=2\)),然后将时序 token 排列到通道维度,使得 \(\mathbf{K}_p, \mathbf{V}_p\) 的窗口从 \((D,S,S)\) 变为 \((D/\gamma,S,S)\),但通道维度恢复为 \(C\),从而可以与 \(\mathbf{Q}\) 正常计算注意力。这样时序窗口可以从 8 扩大到 32,而 GFLOPs 反而从 1114 降到 308
- 设计动机:传统方法用 32 帧稀疏采样无法捕捉微妙的流畅度变化;直接增加帧数则计算爆炸。T-PSA 只扩展时序窗口 \(D\) 而固定空间窗口 \(S\),实现"聚焦流畅度而非空间细节"
-
自监督排序训练策略:
- 功能:在无流畅度标注的情况下让模型学会判断流畅度等级
- 核心思路:从 HD-VILA 数据集采样 2,000 个高质量锚定视频,对每个视频通过随机丢帧+复制帧合成 \(K=7\) 个不同流畅度等级的视频。丢帧率按等级递增,丢帧位置随机分布在 \(M=5\) 个时间区间。排序损失为 margin ranking loss:\(\mathcal{L}_{\text{rank}} = \frac{1}{K}\sum_{i=0}^{K-1}\max(0, \hat{y}_{i+1} - \hat{y}_i + \beta)\),其中 \(\beta=0.4\)
- 设计动机:流畅度标注需要专业人员在实验室环境下进行,成本极高。通过合成不同流畅度等级的视频对进行排序学习,可以用无标签数据训练模型的流畅度排序能力
-
FluVid 数据集构建:
- 功能:提供首个面向流畅度评估的基准数据集
- 核心思路:基于两个设计原则——(1)按影响流畅度的三个视频成分(前景/背景/相机)收集视频;(2)确保内容和参数多样性。从 SSv2 和 5 个 UGC-VQA 数据集中筛选 4,606 个视频,20 位专家按 5 级 ACR 标准标注流畅度 MOS
- 设计动机:现有 VQA 数据集聚焦整体质量,缺乏流畅度中心的数据和标注,无法支撑 VFA 模型的训练和评估
损失函数 / 训练策略¶
训练分三阶段:(1)可选的 LSVQ 预训练使模型具备质量感知能力(FluNet++);(2)排序学习阶段使用 \(\mathcal{L}_{\text{rank}}\) 在 16,000 个合成视频上训练 30 个 epoch;(3)微调阶段使用 606 个 FluVid 视频的 L1 损失 \(\mathcal{L}_{\text{ft}} = \|\hat{y}_b - y_b\|_1\) 训练 60 个 epoch。
实验关键数据¶
主实验¶
| 方法 | 类型 | 帧数 | 窗口大小 | GFLOPs | SRCC↑ | PLCC↑ |
|---|---|---|---|---|---|---|
| Fast-VQA | VQA | 32 | (8,7,7) | 279 | 0.640 | 0.633 |
| DOVER | VQA | - | - | - | 0.638 | 0.614 |
| Qwen 2.5-VL | LMM | - | - | - | 0.598 | 0.584 |
| FineVQ | LMM | - | - | - | 0.622 | 0.609 |
| Fast-VQA+128帧+排序+微调 | VQA | 128 | (8,7,7) | 1114 | 0.725 | 0.716 |
| FluNet (Ours) | VFA | 128 | (32,7,7) | 308 | 0.774 | 0.770 |
| FluNet++ (Ours) | VFA | 128 | (32,7,7) | 308 | 0.816 | 0.821 |
消融实验¶
| 配置 | SRCC↑ | PLCC↑ | 说明 |
|---|---|---|---|
| 仅排序学习 | 0.722 | 0.718 | 排序学习有效 |
| 仅微调 | 0.710 | 0.693 | 微调也有效 |
| 联合训练 | 0.753 | 0.748 | 联合效果不如分阶段 |
| 排序→微调 | 0.774 | 0.770 | 分阶段最优 |
| 窗口(8,7,7) | 0.736 | 0.722 | 小窗口性能差 |
| 窗口(16,7,7) | 0.758 | 0.749 | 窗口越大越好 |
| 窗口(32,7,7) | 0.774 | 0.770 | 最优窗口大小 |
| Stage 1-3 用 T-PSA | 0.779 | 0.766 | 最佳阶段配置 |
| 全部 4 个 stage 用 T-PSA | 0.774 | 0.770 | 第4阶段加不加差别不大 |
关键发现¶
- FluNet 在 GFLOPs 仅为 308 的情况下超越了 1114 GFLOPs 的 Fast-VQA(+4.9% SRCC),证明 T-PSA 的效率优势
- 增加输入帧数(32→128)对所有方法都有增益,但 T-PSA 的独特优势在于可以同时扩大时序窗口
- 排序→微调的分阶段策略优于联合训练,说明先学会排序再校准分数是更好的学习路径
- VQA 方法整体优于 LMM,说明精细的质量感知能力比通用理解更重要;但 LMM 中 Qwen 2.5-VL 表现最好,受益于其高帧率处理能力
亮点与洞察¶
- T-PSA 的通道-时序维度交换是一个非常巧妙的设计。通过压缩 K/V 通道维度然后将时序 token 排列到通道维度,在不增加计算量的情况下实现了 4 倍时序窗口扩展。这个思路可以迁移到任何需要长时序建模的视频任务中
- 将 VFA 从 VQA 中独立出来的洞察本身有很大价值。作者通过定量实验证明 VQA 模型偏向空间质量,这一发现对视频生成评估也很有启发——当前用 VQA 指标评估视频生成质量可能严重低估了时序问题
- 合成排序训练巧妙地解决了标注稀缺问题,丢帧+复制帧的合成方式虽然简单,但有效模拟了真实世界的卡顿
局限与展望¶
- FluVid 数据集仅 4,606 个视频,规模有限且主要来自 UGC 视频,缺少 AI 生成视频
- 合成的排序训练数据仅模拟了丢帧卡顿,未覆盖其他流畅度问题(如运动模糊、帧率不稳定等)
- T-PSA 的通道压缩比 \(\gamma\) 固定为 2,没有探索自适应压缩策略
- 未考虑将 VFA 与 VQA 结合做联合预测的方案,而这在实际应用中可能更有价值
相关工作与启发¶
- vs Fast-VQA:Fast-VQA 使用稀疏帧采样+固定窗口的 attention,FluNet 通过 T-PSA 在相同计算量下实现了更大的时序窗口和更多输入帧,SRCC 从 0.640 提升到 0.774
- vs LMM 方法(Qwen 2.5-VL, FineVQ):LMM 具有强大的语义理解能力但缺乏细粒度的流畅度感知。质量感知的 LMM(如 FineVQ)表现优于通用 LMM,但仍不及专门设计的 VFA 方法
- 这项工作对视频生成评估有很大启发:当前用 FVD 等指标评估视频生成质量时,流畅度维度可能被严重忽视
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次定义 VFA 任务并构建完整生态(标准+数据+方法),T-PSA 设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 23 种方法的全面 benchmark + 详尽消融实验 + 多维度分析
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,行文结构完整,figure 设计直观
- 价值: ⭐⭐⭐⭐ 填补了流畅度评估空白,对视频生成质量评估和视频处理优化有实际指导意义