MDS-VQA: Model-Informed Data Selection for Video Quality Assessment¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/Multimedia-Analytics-Laboratory/MDS-VQA
领域: 视频理解 / 视频质量评估 / 主动学习
关键词: 视频质量评估, 模型驱动数据选择, 失败预测, 主动微调, 学习排序
一句话总结¶
MDS-VQA 让 VQA 模型"自己指出哪些视频它评不准",用一个排序式失败预测器估计难度、再叠加内容多样性做贪心选择,只标注 5% 的"难且多样"子集做主动微调,就把多目标域平均 SRCC 从 0.651 提到 0.722 并拿到 gMAD 竞赛第一。
研究背景与动机¶
领域现状:视频质量评估(VQA)要预测和人类主观判断一致的感知质量。模型侧一路从手工特征、2D/3D CNN、Transformer(FAST-VQA)演进到视觉语言模型(VisualQuality-R1 等用强化学习对齐 MOS);数据侧则不断做新的主观实验、采集均值意见分(MOS, Mean Opinion Score)。
现有痛点:两条线是脱节的。模型侧在一小撮被反复复用的基准上迭代架构/损失/训练配方,容易过拟合数据集的特异性;数据侧花大量人力采新标注,却很少系统地针对当前最强模型真正会评错的样本。结果是"易数据集问题"——数据里充斥着失真容易识别的内容,连不带时空分析的简单基线都能打得有声有色,掩盖了高级架构的短板,新标注的边际价值越来越低。
核心矛盾:标注预算有限,但被动采样(按代表性或随机)会把预算浪费在模型本就评得准的"同质化简单样本"上,无法照亮模型真正的盲区,也就无法可靠驱动跨域泛化。
本文目标:在固定标注预算下,挑出一个对基模型最"有信息量"的子集去标注,使得主动微调后既提升平均相关性、又改善最坏情况泛化。
切入角度:作者主张让数据筛选模型感知(model-aware)——优先标注 1) 对基模型困难、2) 内容多样的视频。难度可以用一个辅助"失败预测器"估计;多样性可以用深层语义特征度量。
核心 idea:用一个"失败预测器 + 多样性度量"闭环把模型的弱点反向引导数据采集,再用采到的数据回头改进模型——即"难且多样"的主动微调闭环。
方法详解¶
整体框架¶
MDS-VQA 把数据筛选写成一个子集优化问题:在未标注视频池 \(\mathcal{U}\) 上,求子集 \(\mathcal{D}\subset\mathcal{U}\) 最大化 \(\mathrm{Diff}(\mathcal{S};f)+\lambda\,\mathrm{Div}(\mathcal{S})\),其中 \(\mathrm{Diff}\) 衡量子集对基模型 \(f(\cdot)\) 有多难、\(\mathrm{Div}\) 鼓励内容覆盖、\(\lambda\) 调和两者。整条管线分三步落地:先冻结基质量模型、训练一个辅助失败预测器 \(g(\cdot)\) 估计每个视频的难度;推理时把难度分和内容多样性结合、用贪心规则选出 5% 子集;对这批子集做人工标注后,用 LoRA 做主动微调更新 \(f(\cdot)\),必要时还能再迭代一轮。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["未标注视频池 U<br/>+ 冻结的基 VQA 模型 f"] --> B["排序式难度建模<br/>失败预测器 g 估计每个视频难度"]
B --> C["难度×多样性贪心选择<br/>Diff + λ·Div 选 5% 子集"]
C --> D["尺度无关配对标注 + LoRA 主动微调<br/>人工标注后更新 f"]
D -->|预算允许时迭代| B
D --> E["更新后的 VQA 模型<br/>泛化更好"]
关键设计¶
1. 排序式难度建模:用失败预测器估计"模型会评错多少"
痛点是怎么量化"这个视频对基模型有多难"。直接回归绝对预测误差,会被不同数据集 MOS 量纲差异带偏;二分"易/难"又太粗、难样本之间没有区分度。作者把难度学习改成学习排序:给基模型 \(f(\cdot)\)(主实验用 VisualQuality-R1,基于 Qwen2.5-VL)挂上 LoRA 模块得到失败预测器 \(g(\cdot)\),权重 \(W_{\mathrm{LoRA}}=W_0+\frac{\alpha}{r}BA\),只训练低秩 \(A,B\)、冻结原权重。对一对视频 \((x,y)\),\(g\) 输出两个标量,在 Thurstone 模型下把它们当作单位方差高斯的均值,得到 \(x\) 比 \(y\) 更难的概率 \(\hat p(x,y)=\Phi\!\big(\frac{g(x)-g(y)}{\sqrt2}\big)\)。监督信号来自 \(f\) 的真实预测误差:若 \(|f(x)-\mu(x)|\ge|f(y)-\mu(y)|\)(\(\mu\) 为 MOS)则 \(p=1\) 否则 \(0\),再用保真度损失 \(\ell=1-\sqrt{p\hat p}-\sqrt{(1-p)(1-\hat p)}\) 优化。这样只需相对比较、天然免疫量纲差异,让 \(g\) 给"让 \(f\) 误差更大的视频"打更高难度分。训练时还用一段固定结构化提示词,要求模型在 <answer> 标签里输出 1~5 的难度分。
2. 难度×多样性贪心选择:避免反复标注近似重复的难样本
只挑最难的视频会陷入"一堆近似重复的硬样本",浪费预算。作者把多样性也量化进来:每个视频用 CLIP 视觉编码器抽帧级语义特征 \(\mathcal{F}_x\),两视频间用 Chamfer 距离 \(d_{\mathrm{CD}}\) 度量帧级特征的不相似度(捕捉超出单一池化描述子的语义差异),子集多样性 \(\mathrm{Div}(\mathcal{S})\) 取所有配对的平均 Chamfer 距离;子集难度 \(\mathrm{Diff}(\mathcal{S})=\frac{1}{|\mathcal{S}|}\sum_{x\in\mathcal{S}}g(x)\) 取平均失败分。由于原始子集优化是组合 NP-hard,作者用贪心近似:从空集出发,每步加入最大化 \(g(x)+\frac{\lambda}{|\mathcal{D}_k|}\sum_{y\in\mathcal{D}_k}d_{\mathrm{CD}}(\mathcal{F}_x,\mathcal{F}_y)\) 的视频,直到预算用尽(\(\lambda=0.25\))。这样选出的子集既难又不冗余,更全面地覆盖基模型的盲区。
3. 尺度无关配对标注 + LoRA 主动微调:把新标注无缝并入已有数据并闭环
选完子集后做主观实验拿到人类质量判断。关键技巧是把新标注表示成尺度无关的配对形式:从标注视频构造比较对,这种成对表达对任意单次实验的绝对评分尺度不变,于是新子集可以直接和已有的成对 VQA 数据合并,不需要跨数据集的感知尺度对齐。微调沿用 VisualQuality-R1 的训练配方(提示、批内即时配对、强化学习排序优化),但把全量微调换成 LoRA,缓解过拟合/灾难性遗忘的同时保持高效适配。整个流程闭环:模型弱点引导数据采集、采到的数据回头改进模型;预算允许时可用更新后的模型重新估难度、再选再标,逐步把标注力气转向不断演化的失败模式。
实验关键数据¶
评测涉及五个 VQA 数据集:YouTube-UGC(约 1500 段,作源域训基模型)、CGVDS(云游戏流)、LIVE-Livestream(4K 体育直播)、YouTube-SFV+HDR(短视频 SDR/HDR)、AIGVQA-DB(AI 生成视频),后四者共 4 万余段作目标域"未标注池";最坏情况评测额外用 LSVQ-1080p 做 gMAD。基模型为在 YouTube-UGC 上训的 VisualQuality-R1(LoRA:\(r=64,\alpha=128\),AdamW,lr \(1\times10^{-5}\),10 epoch)。对比 8 种数据选择策略。
指标说明:SRCC(Spearman 秩相关)、PLCC(Pearson 线性相关)衡量预测与 MOS 的一致性;gMAD(group maximum differentiation,群体最大区分竞赛)专门搜出两模型分歧最大的样本,探测最坏情况泛化。
主实验¶
失败识别(在选出的 5% 子集上算基模型预测与 MOS 的 SRCC/PLCC,越低越好,说明越聚焦失败样本):
| 方法 | CGVDS | LIVE-Livestream | YT-SFV SDR | YT-SFV HDR2SDR | AIGVQA-DB | 平均 |
|---|---|---|---|---|---|---|
| Base model | 0.544/0.635 | 0.473/0.493 | 0.665/0.710 | 0.538/0.591 | 0.733/0.740 | 0.591/0.634 |
| Random sampling | 0.673/0.782 | 0.521/0.555 | 0.642/0.787 | 0.438/0.407 | 0.652/0.729 | 0.585/0.652 |
| Core-set [23] | 0.415/0.599 | 0.289/0.378 | 0.599/0.741 | 0.516/0.555 | 0.676/0.742 | 0.499/0.603 |
| FreeSel [45] | 0.252/0.450 | 0.232/0.418 | 0.546/0.690 | 0.262/0.422 | 0.565/0.643 | 0.371/0.525 |
| MDS-VQA (Ours) | 0.162/0.316 | 0.133/0.288 | 0.264/0.361 | 0.161/0.354 | 0.487/0.487 | 0.241/0.361 |
MDS-VQA 在所有目标域都拿到最低 SRCC/PLCC:CGVDS 上 SRCC 从随机的 0.673 降到 0.162(↓70.2%)。值得注意的是基模型和失败预测器都没见过目标域数据和标注,说明不确定性/不一致性模式比质量映射本身更"域无关"、更易迁移。
主动微调(在 YouTube-UGC 训练集 + 5% 目标域子集上微调后各测试集 SRCC/PLCC,越高越好):
| 方法 | YT-UGC | CGVDS | LIVE-LS | YT-SFV SDR | YT-SFV HDR2SDR | AIGVQA-DB | 平均 |
|---|---|---|---|---|---|---|---|
| Base model | 0.708/0.709 | 0.766/0.780 | 0.561/0.587 | 0.666/0.718 | 0.495/0.557 | 0.711/0.748 | 0.651/0.683 |
| Random | 0.760/0.756 | 0.807/0.804 | 0.569/0.628 | 0.703/0.761 | 0.518/0.588 | 0.756/0.751 | 0.686/0.715 |
| FreeSel [45] | 0.814/0.798 | 0.832/0.849 | 0.627/0.646 | 0.719/0.787 | 0.498/0.590 | 0.789/0.785 | 0.713/0.742 |
| MDS-VQA (Ours) | 0.819/0.807 | 0.874/0.875 | 0.632/0.654 | 0.731/0.794 | 0.507/0.595 | 0.769/0.769 | 0.722/0.749 |
平均 SRCC 由基模型 0.651 提到 0.722、为所有方法最高,说明选出的样本提供了广泛可迁移的监督而非窄域过拟合。⚠️ 在 AIGVQA-DB 上 MDS-VQA(0.769)略低于 FreeSel/NoiseStability(0.789/0.790),即"难且多样"在 AI 生成视频这一域上并非全局最优,但平均仍领先。
消融实验¶
| 配置 | SRCC Rank | gMAD Rank | ΔRank | 说明 |
|---|---|---|---|---|
| MDS-VQA (Ours) | 1 | 1 | 0 | 平均相关与最坏情况都第一 |
| FreeSel [45] | 2 | 2 | 0 | 次优,两榜一致 |
| NoiseStability [13] | 3 | 6 | -3 | 平均强但最坏情况掉队 |
| Core-set [23] | 5 | 8 | -3 | SRCC-gMAD 排名明显错位 |
| Base model | 10 | 7 | 3 | — |
gMAD 在 LSVQ-1080p 上做:MDS-VQA 同时拿 SRCC 与 gMAD 双榜第一(ΔRank=0),而若干竞品出现明显的 SRCC-gMAD 排名错位(如 NoiseStability、Core-set 的 gMAD 排名远落后于 SRCC 排名),说明只看平均相关会掩盖罕见但要命的失败。
关键发现¶
- 难度与多样性缺一不可:只靠不确定性(MC dropout)或只靠多样性(Core-set/RD/FreeSel)都不如二者结合——多样性约束避免反复标注近似重复的硬样本,鼓励覆盖互补的失败模式。
- 跨域可迁移:失败预测器在源域训练即可在未见目标域有效挑出难样本,因为"模型在哪不确定/不自洽"比"质量映射"本身更域无关。
- 平均 vs 最坏:MDS-VQA 在 gMAD 上同样第一,定性分析显示当它作攻击者时,能暴露 Core-set 诱导的模型严重低估高 MOS 的动画/抽象画面,而自身诱导的模型在被攻击时更贴合人类感知。
亮点与洞察¶
- 把"哪些数据值得标"交给模型自己回答:用学习排序训失败预测器,规避了绝对误差回归对 MOS 量纲的敏感,是一个干净的"模型→数据"反馈接口。
- 尺度无关配对标注是被低估的工程巧思:让新采的标注能直接并入已有成对数据集,免去跨数据集感知尺度对齐这一老大难,复用性很强。
- 用 gMAD 而不仅是平均 SRCC 来证明泛化,揭示了很多选择策略"平均好、最坏差"的隐患——这个评测视角可迁移到任何质量/打分类任务。
局限与展望¶
- ⚠️ 在 AI 生成视频(AIGVQA-DB)这一域,"难且多样"主动微调略逊于 FreeSel 等纯多样性方法,说明语义/逻辑型失真下难度信号的有效性可能下降。
- 失败预测器依赖基模型自身的预测误差作监督,若基模型本身系统性偏置,难度估计可能继承同样的盲点。
- 迭代式选择需要额外标注预算,论文中作为可选项;多轮选择的成本-收益曲线未充分展开。
- 多样性用 CLIP 语义特征 + Chamfer 距离度量,对纯信号级失真(如压缩块效应)的区分度是否足够,值得进一步验证。
相关工作与启发¶
- vs 纯不确定性选择(MC dropout [21]):他们只按模型不确定性挑样本,本文额外引入排序式失败预测与多样性约束,区别在于难度信号更细粒度且避免冗余,平均与最坏情况都更优。
- vs 纯多样性/代表性选择(Core-set [23] / RD [42] / FreeSel [45]):他们只追内容覆盖、不感知模型在哪评错,本文把模型失败信号显式纳入目标,在失败识别上大幅领先(CGVDS SRCC 0.162 vs 0.252~0.673)。
- vs VisualQuality-R1 [44]:本文以它为基模型,不改架构而是改"喂什么数据",证明数据侧的模型感知筛选能在强 VLM 基础上再榨出可观增益。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把失败预测+多样性闭环成模型感知数据选择,接口干净但单个组件(LoRA、排序、Chamfer)均为已知技术的组合。
- 实验充分度: ⭐⭐⭐⭐⭐ 五数据集、8 个对比方法、失败识别/主动微调/gMAD 三视角,且加了最坏情况评测。
- 写作质量: ⭐⭐⭐⭐ 动机与公式清晰,闭环叙事完整;部分实现细节(迭代成本、AIGVQA 偏弱原因)展开不足。
- 价值: ⭐⭐⭐⭐ 仅 5% 标注就显著提升泛化,对"标注预算受限的质量评估"很实用,方法可迁移到其他打分任务。