VGA-Bench: A Unified Benchmark for Video Aesthetics and Generation Quality Evaluation¶

会议: CVPR 2026
arXiv: 2604.10127
代码: 有
领域: 图像/视频生成评估
关键词: 视频质量评估, 美学评估, AIGC评估, 多任务评估器, 视频生成

一句话总结¶

VGA-Bench提出了一个统一的AIGC视频评估基准，包含三层分类体系（美学质量、美学标签、生成质量）、1016个提示词、60000个视频和三个专用评估模型，实现了与人类判断对齐的自动化评估。

领域现状：AIGC视频生成技术飞速发展（扩散模型、Transformer等），但评估框架仍聚焦于技术保真度（FVD、CLIP Score），忽视了美学吸引力等高层感知质量。

现有痛点：V-Bench等基准将"视频美学"简化为单一分数，严重依赖外部评分模型（MUSIQ/DINO），粒度不足、偏差显著、可控性差。

核心矛盾：视频生成模型日益强大，但缺乏综合、细粒度、可解释的评估体系来同时衡量技术质量和美学质量。

本文目标：建立涵盖生成质量、美学质量和视觉形式元素的三维统一评估体系。

切入角度：设计分层分类法，为每个维度分解出细粒度子属性（构图、色彩和谐、光照、运动美学等），并训练专用评估模型。

核心idea：用三个专用神经评估器替代外部评分模型的拼凑，实现端到端、一致且可扩展的自动化评估。

三层分类法：美学质量（构图、色彩、光照、运动美学等）+ 美学标签（风格、场景等视觉形式元素）+ 生成质量（时间一致性、提示对齐、失真等）。1016个提示词 → 12个视频生成模型 → 60000个视频 → 人工标注子集 → 训练VAQA-Net、VTag-Net、VGQA-Net三个评估器。

三层分类评估体系:
- 功能：实现系统性的全方位视频评估
- 核心思路：将评估分解为美学质量（整体美感和细粒度属性如构图、色彩和谐）、美学标签（自动标记视觉形式元素如风格、场景类型）和生成质量（技术保真度如时间一致性、伪影检测）三个维度
- 设计动机：V-Bench仅有1个美学维度和16个总维度，VGA-Bench大幅扩展了评估的细粒度和覆盖范围
三个专用多任务评估模型:
- 功能：消除对外部评分模型的依赖
- 核心思路：VAQA-Net预测美学质量分数，VTag-Net进行美学标签自动标记，VGQA-Net评估生成和基本质量属性。基于人工标注训练，实现与人类判断的对齐
- 设计动机：外部模型（MUSIQ等）不是为AIGC视频设计的，引入系统性偏差
大规模多样化提示套件:
- 功能：确保评估的覆盖范围和挑战性
- 核心思路：设计1016个多样化提示，覆盖各种场景、动作、风格和挑战性场景。使用12个最新视频生成模型各生成约5000个视频，总计60000个
- 设计动机：需要足够多样且大规模的测试数据才能进行公平的跨模型比较

三个评估模型分别使用人工标注数据训练。多任务学习框架内每个模型处理各自维度下的多个子属性。