UniVBench: Towards Unified Evaluation for Video Foundation Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/JianhuiWei7/UniVBench
领域: 视频理解 / 视频基础模型评测
关键词: 统一视频模型、评测基准、智能体评测、视频重建、多镜头

一句话总结¶

UniVBench 用 200 段人工创作、无版权的多镜头视频和一套智能体评测系统 UniV-Eval，把视频理解、生成、编辑、以及新提出的"视频重建"四类能力放进同一把尺子里，第一次能在统一框架下回答"统一视频模型到底有没有把感知和生成都做好"。

研究背景与动机¶

领域现状：视频基础模型（video foundation models）想把视频理解、生成、编辑、指令跟随都塞进一个架构里，被视为下一代多模态系统的主方向。代表工作如 Chameleon、Show-o、Emu3、BAGEL、Janus-Pro 等，把 LLM、视觉 tokenizer 和视频解码器拼在一起，号称能在一条指令下既看懂视频又生成视频。

现有痛点：架构在进步，但没人能客观说清"统一"到底带来了什么收益。原因出在评测基准本身是碎的——视频理解 benchmark（AuroraCap、ShotBench）只评 captioning，且大量用爬来的版权视频，存在数据污染风险；生成 benchmark（VBench、AIGVE-60K）只评 text-to-video，不支持理解和编辑；编辑 benchmark（TGVE、VACE-Bench）只覆盖单镜头。每个基准各管一摊、各用各的指标（理解用 BLEU/CIDEr、生成用 FVD/CLIPScore、编辑临时拼几个指标），跨任务根本没法横向比较。

核心矛盾：统一模型的卖点是"一个模型干所有事"，可评测却是"一个 benchmark 评一件事"。能力定义和度量方式之间的错位，导致一个最关键的问题悬而未决：统一是真涨点，还是只是把多个半成品缝在一起？ 更糟的是，传统指标只给一个标量分，掩盖了模型在不同维度上的强弱权衡，没法回头指导训练。

本文目标：造一个能在同一套数据、同一套协议下，同时评测理解 / 生成 / 编辑 / 重建四类能力的统一基准，并且能把失败归因到"感知"还是"生成"。

切入角度：作者抓住两个被忽视的维度——多镜头（multi-shot）叙事内容，和电影级（cinematic）细粒度维度（风格、主体、动作、背景、相机、光照、色彩、空间关系）。真实视频是多镜头、有叙事的，固定的标量指标抓不住这种复杂性。

核心 idea：用"指令驱动的多镜头视频任务"统一六种子任务，配一套能动态规划、镜头级打分、输出可追溯弱点清单的智能体评测系统，把"整体生成质量"拆成可解释的多维 checklist，而不是压成一个数。

方法详解¶

整体框架¶

UniVBench 由两块组成：一套数据集和一套评测系统 UniV-Eval。数据集提供 200 段无版权多镜头视频，每段配详细 caption、多格式编辑指令和参考图，覆盖 8 大电影维度、21 个子维度；UniV-Eval 则把任意输入（源视频、参考图、参考文本）和任意输出（视频或文本）放进统一流程里评分。

整个基准把统一视频模型的能力拆成六个任务：视频描述 V2T、文本生成视频 T2V、参考图生成视频 R2V、文本指令编辑 TV2V、参考图编辑 RV2V、以及新提出的视频重建 V2V。其中 V2V 是诊断关键——它先让模型自己理解源视频写出文本，再仅凭这段自产文本重建视频，从而把"感知—生成"的耦合损失暴露出来。

评测时，UniV-Eval 接受一个任务设定下的任意输入，先做规划与分解，再逐镜头细评，最后汇总成一张带分数和弱点反馈的 checklist。流程如下：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：源视频 + 参考图 + 指令<br/>（各模态均可选）"] --> B["多任务多镜头数据集<br/>200 段无版权视频"]
    B --> C["V2V 重建任务<br/>自产文本→重建→诊断感知/生成耦合"]
    C --> D["分解与规划<br/>PySceneDetect 切镜 + 镜头分类对齐"]
    D --> E["镜头级细粒度评测<br/>9 大类 / 21 子维度逐镜打分"]
    E --> F["评分聚合<br/>弱点 checklist + 六任务维度分数"]
    F --> G["输出：可追溯反馈<br/>定位失败到感知 or 生成"]

关键设计¶

1. 多任务、多镜头、无版权的数据集构建：先治"数据本身就有病"这个根

现有理解类 benchmark 用爬来的网络视频，既可能与模型训练集重叠造成污染，又有版权问题，根本不能拿来公平评测编辑和重建。UniVBench 的做法是全部人工创作、版权干净。作者先从前人工作里抽取 8 个基础维度并扩展成 21 个细粒度子维度（风格、主体的类别/质量/外观、动作、背景、相机的对焦/景别/运动/视角/角度/高度/技法、光照的方向/亮度/效果、色彩的色相/对比度/饱和度、空间关系等），每个子维度预先分类好取值（如风格分写实/动画/2D，光照分日光/黄金时刻/影棚）。

15 位有视频制作背景的专家先按维度组合写逐镜头剧本、经二次评审，再用商用 API（Hailuo、Kling、Veo3）生成视频，并走三级人在环过滤：① VLM 自动去水印和 IP 内容；② 三位审核员独立核对每段视频是否符合剧本的全部八维、只接受一致通过的；③ 质量专家排查伪影、非自然运动和时序不一致。平均每段视频要生成 2.3 次才通过，最终得到 100 段单镜头 + 100 段多镜头（平均 3.72 镜）视频。caption 由 Gemini 2.5 Pro 分维度抽取后合成，再经三人核验、GPT-4o 交叉验证，平均改 1.8 次；参考图用 Gemini 2.5 Flash Image 和 Seedream4.0 生成，分主体/风格/场景三类，共 864 张。这套重流程换来的是"评测数据本身可信"这个前提。

2. V2V 视频重建任务：用"自产文本重建"把感知和生成的耦合损失逼出来

统一模型的卖点是理解和生成共用一套表示，但以往任务要么只测理解、要么只测生成，测不出两者衔接处的损失。作者新设计的 V2V 重建任务专门打这个点：先让模型理解源视频、生成对应的详细 caption，再仅凭这段自己生成的文本去重建视频，最后直接把重建视频和原视频比对。逻辑很直接——一个真正好的统一模型必须两关都过，先靠理解写出优质 caption，再靠生成把 caption 还原成高质量视频；任意一关掉链子，重建结果都会和原视频明显偏离。

与之对照，T2V 用的是视频的 ground-truth caption（外部给定的完美文本），V2V 用的是模型自产文本。两者一比，就能把"信息在 V2T→T2V 管线里丢了多少"单独量化出来。实验里 V2V 的不一致明显比 T2V 更严重，正说明当前统一模型在感知—生成衔接处存在系统性损耗，这是单看理解或单看生成都发现不了的。

3. UniV-Eval 智能体评测系统：把"一个标量分"拆成可规划、镜头级、可追溯的多维 checklist

传统评测有两个硬伤：单标量分掩盖强弱权衡、给不出训练可用的反馈；固定维度又适配不了多样视频（有的视频看重实例保真，有的看重叙事连贯）。UniV-Eval 用一套动态自适应的智能体流程来破：

先做分解与规划——由于生成长度受限，长视频先机械切成片段 \(V=\{c_i\}_{i=1}^{C}\)，再用 PySceneDetect 把每个片段切成镜头级单元 \(V=\{v_1,\dots,v_n\}\)；镜头分类智能体把参考图 \(I\) 和用户指令 \(T\) 对齐到各自镜头，得到镜头级三元组 \((v,i,t)\)，且所有输入模态都可选、按场景灵活组合。

再做镜头级细粒度评测——给定被测模型输出 \(o\) 和输入三元组 \((v,i,t)\)，镜头评测智能体按 9 大类（主体、相对位置、动作、背景与场景、色彩、光照、视频风格、氛围、相机）、共 21 个子维度逐项比对，产出一张结构化的弱点 checklist，标出具体到时间段、问题类型、描述和修复建议的细粒度缺陷。最后由评分智能体把这些诊断信号聚合成六个评测维度的最终分数。整套系统跨所有任务统一了 prompt、指令解析和打分标准，保证分数差异反映的是模型能力而非评测噪声。

实验关键数据¶

主实验¶

评测在 8 张 H100 上完成，统一协议：商用模型走官方 API（GPT-5、Gemini 2.5 Pro、Seed 1.6、Seedance），开源模型用官方 checkpoint，统一 50 步 DDIM、CFG=7.5、原生分辨率，评测 LLM 用 Seed-1.6。下表是各任务上代表模型的平均分（满分 100%）：

任务	代表模型	Average	备注
理解 V2T	Gemini 2.5 Pro（商用）	54.1%	理解任务最强
理解 V2T	Showo-2（统一模型）	16.3%	统一模型感知能力弱
生成 T2V	Seedance-1.0-Pro（商用）	77.9%	T2V 最强
生成 T2V	Wan2.2-14B（开源）	74.9%	接近商用
生成 R2V	Seedance-1.0-Lite	66.7%	参考图生成
编辑 TV2V	Wan2.1-VACE-14B	65.1%	文本指令编辑
编辑 RV2V	Wan2.1-VACE-14B	66.4%	参考图编辑
重建 V2V	Wan2.1-VACE-14B	62.7%	重建最强
重建 V2V	CogVideoX-1.5-5B	20.7%	重建最弱

跨基准对比¶

UniVBench 相比已有基准的覆盖优势（Table 1 / Table 2 浓缩）：

基准	适用任务	多镜头	无版权	电影维度覆盖
AuroraCap（理解）	V2T	✗	存疑	仅主体/相机
VBench（生成）	T2V	✗	NA	缺光照/空间
TGVE（编辑）	TV2V	✗	是	仅主体/背景
VACE-Bench（编辑）	R2V/TV2V/RV2V	✗	存疑	部分
UniVBench	V2T~V2V 全六任务	✓	是	8 维全覆盖

关键发现¶

没有任何单一模型能横扫全谱：理解最强的 Gemini 2.5 Pro 在 V2T 拿 54.1%，而擅长统一的 Showo-2 在同一任务只有 16.3%；反过来生成任务又是 Seedance、Wan 这类生成专精模型领先。结果定量证实"统一"目前还停留在架构层面，能力上仍是各管一摊。
'动作'维度是公认软肋：跨所有任务，Action 维度普遍得分最低（尤其理解任务里 Qwen3-VL-30B 仅 6.4%、AuroraCap 6.9%），说明准确解读和合成复杂时序动态仍是大难题；而色彩、光照、视频风格这类静态风格属性，生成模型反而控制得最好。
重建暴露感知—生成损耗：V2V 重建的不一致显著大于用 GT 文本的 T2V，直接指向 V2T→T2V 管线的信息传递损失，这是单任务评测看不到的。
UniV-Eval 与人对齐约 85%：随机抽 10% 数据做三折交叉人工核验，平均一致率近 85%，说明这套智能体打分能可靠反映人类判断；相比之下 BLEU 会因不同模型 caption 长度差异严重失真，普通 LLM-as-a-Judge 又只给少数维度、缺可解释性。

亮点与洞察¶

V2V 重建是最巧的设计：用"自产文本重建"这一招，把统一模型最该被检验、却最难单独测的"感知—生成衔接"变成了可量化的差异。这个思路可迁移到任何 encoder-decoder 共享表示的多模态系统（如图像、音频的理解-生成统一模型）做端到端诊断。
把评测当成"可规划的智能体任务"而非"算一个指标"：先切镜、再对齐、再逐镜出弱点清单、最后聚合打分，输出的是带时间戳和修复建议的结构化反馈，能直接回喂训练——这比单标量分有用得多。
从源头治数据污染：全程人工创作 + 三级人在环 + 平均 2.3 次重生成，虽然贵，但换来"评测数据与训练集无重叠"这个对评测公平性至关重要的前提，对评测类工作是可复用的方法论。

局限与展望¶

规模偏小：作者自己承认 200 段视频虽足够做综合评测，但量级有限，未来核心工作是大幅扩充数据集。对统计显著性和长尾覆盖来说，200 段确实容易让个别模型的排名受样本波动影响。
评测依赖商用 LLM/API：UniV-Eval 用 Seed-1.6 当评测 LLM，数据也靠 Hailuo/Kling/Veo3、Gemini、Seedream 等商用 API 生成。这带来可复现性隐患——API 版本一变，分数基线可能漂移；也让"无版权"主要体现在最终人工筛过的产物上，而非生成链路完全自主。
打分绝对值跨任务不可直接比大小：不同任务难度天然不同（如理解任务整体分数明显低于生成），表格里 V2T 54% 和 T2V 78% 不能简单解读为"生成比理解更接近完成"，横向解读需谨慎。
改进方向：扩库之外，可引入更多开源可控的视频生成链路降低对商用 API 的依赖；并把弱点 checklist 真正接入训练 loop，验证"诊断反馈能否反哺统一模型训练"这一最有价值的下游主张。

评分¶

新颖性: ⭐⭐⭐⭐ 首个统一六任务评测基准，V2V 重建任务和智能体打分系统都是有价值的新设计，但单项技术（人工标注、智能体评测）多为已有思路的组合。
实验充分度: ⭐⭐⭐⭐ 覆盖 6 任务 × 8 维度 × 十余个商用/开源模型，含人对齐验证和案例分析；扣分在数据集仅 200 段、评测依赖商用 API。
写作质量: ⭐⭐⭐⭐ 动机、痛点、贡献交代清晰，三张对比表把碎片化问题讲得很直观。
价值: ⭐⭐⭐⭐ 为"统一视频模型到底统一了没有"提供了第一把统一的尺子，对该方向的训练评估有实际指导意义。