V2V-Bench: A Comprehensive Benchmark for Video-to-Video Generation Evaluation¶

会议: ICML 2026
arXiv: 2606.05665
代码: 待确认
领域: 视频生成 / 评测基准
关键词: 视频到视频生成、评测基准、帧级对应、时序一致性、编辑保真度

一句话总结¶

针对视频到视频（V2V）编辑「既要听指令改、又要逐帧对齐源视频」这一现有 T2V/I2V 指标测不出的核心难题，本文提出 V2V-Bench——一个分 5 大类、11 个解耦维度（其中 6 个为 V2V 专属）的评测基准，配合「先查合规、再细评」的四阶段流水线，在 6 个 V2V 核心维度上与人类判断的 Spearman 相关性达到 0.905。

研究背景与动机¶

领域现状：视频到视频生成已成为可控视频编辑的重要范式——给定一段源视频和一条编辑指令，模型要在保留源视频时序结构、场景动态和空间关系的前提下完成变换。扩散与自回归视频模型在生成真实运动和高保真画面上进步很快，商用模型 Grok、Runway、Kling、Sora 等也纷纷上线 V2V 能力。

现有痛点：评测却严重滞后。VBench、VBench-I2V、EvalCrafter 这些主流基准都假设「单输入」范式（只有文本 prompt 或一张图），度量的是感知质量、语义相关性、整体真实感。但 V2V 的根本要求是——输出要和源视频保持细粒度逐帧对应，同时忠实施加指定编辑，这一点上述指标根本捕捉不到。

核心矛盾：编辑保真度（edit faithfulness）、时序一致性（temporal consistency）和源视频保留（source preservation）三者之间存在 trade-off，不同方法在三者间做了不同取舍，但缺乏一个统一协议把它们拆开、分别量化、横向比较。把所有东西揉成一个总分，既看不出模型在哪类变换上成功/失败，也无法诊断失败原因。

本文目标：构建一个能把 V2V 质量分层解耦的诊断式基准——不仅报总分，还要逐维度揭示模型为什么成功、为什么失败；并用人类标注验证这些维度确实贴合人类偏好。

切入角度：作者观察到 V2V 真正区别于 T2V/I2V 的是「源-输出在时间轴上的对应约束」（\(o_t \leftrightarrow s_t\)），于是把这个约束拆成可测的子维度，并先用一道「合规性预检」把连帧数/帧率都对不齐的输出挡在评测之外。

核心 idea：用「先合规过滤、再 11 维分层评测」代替「单一总分打分」，并专门设计 6 个 V2V 专属维度来度量源对应与编辑保真。

方法详解¶

整体框架¶

V2V-Bench 是一条四阶段顺序流水线：输入是一组源视频 \(\{v_1, v_2, \ldots\}\) 加一份 JSON 任务配置（视频 ID、编辑 prompt、任务类别），输出是每个模型在 11 个维度上的可解释诊断分数。四个阶段分别是——阶段 1 输入准备：一个 Task Dispatcher 解析输入、调度编辑任务；阶段 2 视频生成：任务经一个 Model Registry 路由，支持即插即用接入异构编辑模型（Veo-3.1、Grok、Open-Sora2 及自定义模型）；阶段 3 质量控制：对生成视频与源视频做合规性预检（比对帧数和帧率），不一致直接标为失败；阶段 4 多维评测：对通过的视频对，在 11 个维度上打分。其中阶段 1、2 是通用脚手架，阶段 3 的合规预检与阶段 4 的 V2V 专属维度才是本文真正的贡献。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["源视频集 + JSON 任务配置<br/>（编辑 prompt / 类别）"] --> B["Model Registry<br/>即插即用接入异构模型"]
    B --> C["合规性预检<br/>比对帧数 T'=T 与帧率"]
    C -->|不一致 → 标记失败<br/>仍记录待分析| D["失败样本池"]
    C -->|通过 / 重叠帧对齐| E["11 维分层评测<br/>6 个 V2V 专属 + 4 个 VBench 复用 + 内容保留"]
    E --> F["五类解耦诊断分数<br/>+ 人类偏好相关性验证"]

关键设计¶

1. 合规性预检：把「帧级对应」当成 V2V 评测的硬门槛而非格式细节

V2V 与 T2V/I2V 的根本区别在于源-输出必须随时间保持结构对应，因此本文先定义三条约束：(i) 时长保留 \(T'=T\)；(ii) 帧率一致 \(\mathrm{FPS}(\mathcal{V}_o)=r\)；(iii) 帧级对应，要求对所有 \(t\) 存在映射 \(o_t \leftrightarrow s_t\)。前两条在评测前由合规预检强制检查，第三条则交给下游的时序/结构维度评估。这道门槛的价值在实验里被放大——商用 Veo-3.1 在全部 41 个样本上合规率 100%，而 Grok 与 Open-Sora-2 因无法稳定生成足够时长（如 192 帧只生成 185 / 129 帧）全部不合规。作者强调合规不是「格式约束」，而是忠实 V2V 评测的前提，它本身就成了模型长时视频生成能力的一个信号。对不合规模型，本文仍把它们纳入评测，但只在重叠生成帧上做对齐比较，保证横向可比。

2. 六个 V2V 专属维度：为「源对应 + 编辑保真」量身定制的指标

这是本文最核心的贡献。针对 T2V/I2V 指标测不出源对应的痛点，作者设计了 6 个专属维度，每个都有明确公式：

帧对应（Frame Correspondence）：对每帧对 \((s_t, o_t)\) 融合 DINO ViT-B/16 语义特征与 SSIM，\(S_{\mathrm{fc}}=\frac{1}{T}\sum_{t=1}^{T}[\alpha \cdot \cos(f_s^t, f_o^t) + (1-\alpha)\cdot \mathrm{SSIM}(s_t, o_t)]\)，取 \(\alpha=0.7\) 让语义对应（DINO，70%）优先于像素相似（SSIM，30%），因为风格迁移/外观编辑应保留高层内容而非精确重建。
时序一致（Temporal Consistency）：用源/生成视频光流场的相对端点误差衡量运动模式是否保留，\(S_{\mathrm{temp}}=\exp(-\frac{1}{T-1}\sum_{t} \mathbb{E}[\frac{\|F_t^s - F_t^o\|_2}{\|F_t^s\|_2 + 1}])\)。
结构保留（Structural Preservation）：提取 Canny 边缘图并计算带空间容差的边缘级 F1 分数，看物体边界与空间结构是否在编辑后保留。
布局贴合（Layout Adherence）：直接用源/生成帧的 SSIM 衡量全局空间排布是否保持。
编辑保真（Edit Faithfulness）：用 CLIP 图文相似度衡量生成帧是否跟从文本指令，\(S_{\mathrm{edit}}=\frac{1}{T}\sum_t \frac{\cos(f_{\mathrm{CLIP}}(I_t^o), f_{\mathrm{CLIP}}(p))+1}{2}\)。
风格迁移质量（Style Transfer Quality）：同时测变化的「幅度」与「方向」，\(S_{\mathrm{style}}=\lambda \cdot M_{\mathrm{Gram}} \cdot G_{\mathrm{dir}} + (1-\lambda)\cdot D_{\mathrm{CLIP}}\)，其中 \(M_{\mathrm{Gram}}\) 是 VGG-19 Gram 矩阵距离（幅度），\(D_{\mathrm{CLIP}}\) 是方向性 CLIP 相似度，\(\lambda=0.6\) 偏重幅度（风格迁移首先要有可感知变化），\(G_{\mathrm{dir}}\) 对偏离目标方向的编辑惩罚（同向得 1.0，反向得 0.5）。

这些指标各自针对一个 V2V 失败模式，合起来才能把「改没改对 + 像不像源」拆开来看。

3. 五类分层解耦框架 + 多场景任务套件

11 个维度被组织进 5 大类——时序对齐、结构保真、变换质量、视频质量、语义对齐。除上面 6 个 V2V 专属维度外，视频质量类复用 VBench 已验证的 4 个维度（运动平滑度、美学质量、成像质量、时序闪烁，均与源无关），语义对齐类还有一个内容保留（Content Preservation），用 RGB 直方图相关度作为轻量代理 \(S_{\mathrm{content}}=\frac{1}{T}\sum_t \mathrm{HistSim}(I_t^s, I_t^o)\)，共 11 维。任务套件含 81 个有效任务实例，覆盖五类编辑目标：物体编辑、外观编辑、风格迁移、运动编辑、身份保留；源视频平均约 8 秒，用 Gemini-2.5-Flash 生成结构化、且都锚定在源视频可视内容上的 prompt。分层解耦的好处是：报告不再是一个含糊总分，而是能定位「哪类变换做得好、哪类崩」的诊断图谱。

实验关键数据¶

主实验¶

评测两个商用模型（Veo-3.1、Grok-Imagine-Video）和一个开源模型（Open-Sora2），共 81 条编辑 prompt，全部在单张 NVIDIA H100 上完成生成与评测。

合规性预检结果（41 个评测样本）：

模型	通过	通过率	主要失败模式
Grok	0 / 41	0.0%	帧数 192→185
Veo-3.1	41 / 41	100.0%	无
Open-Sora-2	0 / 41	0.0%	帧数 192→129

11 维三模型对比（41 个公共任务平均）：

维度	Grok	Veo	Open-Sora
成像质量	0.4979	0.6522	0.3031
时序闪烁	0.9836	0.9856	0.9814
结构保留	0.5726	0.2926	0.2225
时序一致	0.5289	0.1752	0.3464
帧对应	0.7895	0.7118	0.6697
编辑保真	0.6187	0.6161	0.6105
美学质量	0.4981	0.4976	0.4931
运动平滑	0.9657	0.9865	0.9645
布局贴合	0.7822	0.6564	0.6692
风格迁移	0.8660	0.6903	0.6141
内容保留	0.6086	0.7489	0.4633
平均	0.7011	0.6376	0.5762
赢得维度	7 / 11	4 / 11	0 / 11

结论是模型各有所长：Grok 在编辑保真与源保留上更强（总分最高、赢 7 维），Veo-3.1 在纯视觉质量（成像、内容保留、运动平滑）上更好。

消融 / 鉴别力分析¶

对比「6 个 V2V 专属维度」与「全部 11 维」的鉴别力：

配置	Grok 平均	Veo 平均	Open-Sora 平均	Grok 赢得维度
仅 6 个 V2V 专属维度	0.6937	0.5237	0.5221	6 / 6
全部 11 维	0.7011	0.6376	0.5762	7 / 11

在 6 个 V2V 专属维度上，模型间差距明显拉大（Grok 0.6937 vs Veo 0.5237），Grok 横扫全部 6 维；而在闪烁、美学、运动平滑等通用维度上三模型接近。这说明 V2V 专属维度比通用视频质量维度更具鉴别力。

人类/VLM 偏好对齐（Spearman 相关，4 视频 × 10 任务，3 名标注者）：

配对	全 11 维	V2V-core 6 维
Human ↔ Bench	0.688	0.905
Human ↔ Gemini 2.5 Pro	0.713	0.899
Human ↔ GPT-4o	0.737	0.816

关键发现¶

合规预检是 V2V 评测的第一道分水岭：Grok / Open-Sora 因生不出足够帧数全军覆没，这本身就暴露了它们长时视频合成的短板，而不只是格式问题。
V2V-core 6 维与人类判断高度一致（0.905），远高于全 11 维的 0.688，且在该子集上比两个 VLM judge（GPT-4o、Gemini 2.5 Pro）与人类的一致性更高——说明专为源对应/编辑保真设计的维度更贴合人类对 V2V 的偏好。
总分会掩盖能力差异：通用维度上各模型趋同，只有拆到 V2V 专属维度才看得出谁真正保住了源结构。

亮点与洞察¶

「先合规、再评测」的两段式设计很务实：它把「连帧数都对不齐」与「编辑质量好坏」两类问题分开，避免用一堆精致指标去评一段长度都不对的视频，是 V2V 评测特有且容易被忽略的前提。
6 个 V2V 专属指标都是「拼装现成模块」（DINO、SSIM、光流、Canny F1、CLIP、Gram 矩阵），实现门槛低、无需训练，却针对性地覆盖了源对应的各个面向——这种「轻量代理 + 解耦维度」的思路可迁移到其他需要源对应的生成任务（如图像编辑、3D 编辑）评测。
方向性风格分（\(G_{\mathrm{dir}}\)）很巧妙：用 CLIP 空间里视觉变化方向 \(\Delta I\) 与文本目标方向 \(\Delta T\) 的夹角判断「改对了方向没有」，把「有没有变」和「变得对不对」分开打分。

局限与展望¶

规模偏小：81 个任务、3 个模型、人类对齐实验只用 4 视频 × 10 任务 × 3 标注者，统计稳健性有限；商用模型只测了 Grok 和 Veo，覆盖面不够。
依赖代理指标：内容保留用 RGB 直方图、编辑保真用 CLIP 相似度，都是轻量代理，可能对复杂语义编辑不敏感；DINO+SSIM 的 \(\alpha=0.7\) 虽称在 \([0.65, 0.8]\) 稳定，但跨任务最优权重未必固定。
不合规模型的「重叠帧对齐」比较隐含不公：在更短的生成帧上算分，可能掩盖了模型「漏帧」本身造成的内容缺失，需谨慎解读其分数。
可改进方向：把任务套件扩到更长视频、更多源类型（目前集中在人体运动视频），并引入更细的语义级编辑保真度量（如分割/检测一致性），减少对粗代理的依赖。

评分¶

新颖性: ⭐⭐⭐⭐ 首个专为 V2V 设计、带合规预检与 6 个源对应专属维度的解耦基准，切口清晰。
实验充分度: ⭐⭐⭐ 维度设计与人类对齐验证到位，但模型数、任务数、标注规模偏小。
写作质量: ⭐⭐⭐⭐ 流水线与每个维度公式都讲得清楚，诊断式呈现直观。
价值: ⭐⭐⭐⭐ 填补 V2V 评测空白，指标轻量易复现，对推动可控视频编辑评测有实用价值。