跳转至

LocoT2V-Bench: Benchmarking Long-form and Complex Text-to-Video Generation

会议: ICML 2026
arXiv: 2510.26412
代码: 待确认
领域: 视频生成 / 多模态 VLM / 评估基准
关键词: 长视频生成基准, 复杂文本对齐, 分层元数据, 角色一致性

一句话总结

LocoT2V-Bench 是面向长视频 + 复杂场景生成的专业基准——234 段真实视频 × 18 主题 × 平均 249 字提示词,配套 LoCoT2V-Eval 5 维度 17 子维度评估框架(含分层 VQA + 条件门控 + Auditor-Evaluator 双代理 HERD),系统评估 17 个长视频生成模型,揭示了"感知质量强、细粒度对齐弱、角色一致性差"的普遍瓶颈。

研究背景与动机

领域现状:T2V 在短视频已显著进展,但长视频(> 10 秒、多场景、复杂时空动态)仍是开放问题。现有基准(VBench / EvalCrafter)面向短视频,采用简化提示,难以评估复杂场景生成。

现有痛点: - 主要聚焦帧级视觉质量和整体提示一致性,忽视细粒度对齐(角色属性、动作)。 - CLIP-Score / FID 不适配长视频和复杂多场景提示。 - 对角色一致性、长期时间连贯性、高层叙事表达评估不足。

核心矛盾:长视频生成的专业级控制需求(精确角色设定 / 摄像机动作 / 多场景连贯性)与当前简化评估框架之间的鸿沟。

本文目标: - 构建面向专业级生产流程的长视频基准(234 段真实视频、18 主题、多场景结构化提示)。 - 设计全面多维度评估框架——感知质量 / 文本对齐 / 时间连贯 / 动态质量 / 人类期望达成。

切入角度:从真实视频出发、采用分层元数据(场景 / 角色 / 背景 / 摄像机)和多轮条件式 VQA,更精确评测长视频生成。

核心 idea分层 VQA + 条件门控 + Auditor-Evaluator 双代理 HERD——系统评估长视频生成模型在细粒度对齐和高层期望达成上的能力。

方法详解

整体框架

两个核心模块: - 数据构建:YouTube 收集 234 段视频,通过 MLLM + LLM + 人工验证构建多场景、分层元数据的复杂提示集。 - 评估:LoCoT2V-Eval 框架用 5 大维度、17 子维度评估生成视频。

关键设计

  1. 分层 VQA + 条件门控(细粒度对齐):

    • 功能:把文本-视频对齐从粗粒度(整体 CLIP)细化为细粒度(逐场景、逐角色、逐属性验证)。
    • 核心思路:构建树状多轮问答框架,对每个场景执行 3 个维度的层级验证——场景存在性门控 → 角色定位与属性验证 → 背景与摄像机验证。用"定位查询"(Locate Query "有穿红帽的男人吗?")先锚定角色,再用"判断查询"(Judge Query "这个男人高吗?")验证属性,避免幻觉属性。角色属性 \(f^c_{\text{attr}} = \frac{1}{N_c} \sum_k y_k\),动作 \(f^c_{\text{action}} = a^c_s \cdot \frac{1}{M_c} \sum_q A(q \mid H_{N_c})\)\(a^c_s\) 为锚定标志)。
    • 设计动机:复杂提示需要验证多层级细节;条件门控防止模型在未成功定位角色时仍给动作分数(虚幻评分);多轮对话历史 \(H_k = H_{k-1} \cup \{(q^{c, k}, y_k)\}\) 保证后续查询基于已验证上文。
  2. 多维度评估框架(5 大维度 17 子维度):

    • 功能:系统评估感知质量(PQ)、文本视频对齐(TVA:整体 OA + 细粒度 FGA)、时间质量(TQ:CC / BC / WE)、动态质量(DQ)、人类期望达成度(HERD)。
    • 核心思路:
    • PQ:DeQA-Score 多尺度帧采样 \(PQ(v) = \frac{1}{|W|} \sum_w \frac{1}{n_\alpha} \sum_{f \in w} \text{DeQA}(f)\)
    • OA:Qwen3-VL-8B 替代 CLIP,评分 0-100 捕捉角色 / 场景 / 交互多维一致性。
    • CC:SAM3 追踪 → MLLM 验证 → FG-CLIP2 嵌入相似度。
    • BC / WE:相邻帧 FG-CLIP2 + 光流,流式计算避免长视频 OOM。
    • DQ:帧级(动作度、平滑度)+ 高层(段级、视频级非周期性 + 信息流)聚合。
    • 设计动机:现有基准缺细粒度对齐、角色身份一致性、高层叙事表达评估;多维度覆盖从低级(像素)到高级(情感)的完整评估链;流式评估支持超长视频。
  3. Auditor-Evaluator 双代理(HERD 评估):

    • 功能:减少主观偏差,准确评估生成视频对文本提示所隐含人类期望的满足程度。
    • 核心思路:Auditor 代理独立分析视频(不见期望参考)生成客观内容报告 → Evaluator 结合报告与视频对 6 个期望维度(情感 / 叙事 / 角色发展 / 视觉风格 / 主题表达 / 总体印象)各给 1-5 分 → 加权聚合得 \(S_{\text{HERD}} = \frac{1}{|D|} \sum_d s_d\)
    • 设计动机:单代理易受第一印象 / 幻觉影响;双代理职责分离(报告生成 vs 期望评价)提高客观性和可审计性。

数据构建对比

基准 样本 平均字数 复杂度 特色
EvalCrafter 700 12.33 3.74 基础短视频
VBench-Long 946 7.64 2.54 长视频简化
VBench 2.0 90 125.46 8.13 复杂单场景
LocoT2V-Bench 234 248.85 8.70 长视频 + 复杂 + 分层元数据

实验关键数据

主实验(17 个长视频生成模型,节选)

方法 感知质量 整体对齐 细粒度对齐 TVA 均值 角色一致 背景一致 TQ 均值 HERD 动态质量 总体
FreeNoise 73.89 18.12 10.38 14.25 15.38 98.77 69.85 53.65 50.55 52.44
DiTCtrl 56.55 48.25 45.54 46.90 25.72 96.86 72.50 60.75 49.37 57.21
LongLive 80.51 55.50 36.15 45.83 54.92 99.18 83.66 81.30 61.52 70.56
LongCat-Video 77.75 65.59 51.01 58.30 42.08 98.31 78.45 84.80 59.29 71.72
Sora2 66.59 69.64 54.09 61.87 45.40 99.10 80.97 86.42 64.78 72.13
Kling 3.0 70.26 73.08 56.94 65.01 36.97 98.96 78.55 87.47 56.16 71.49

关键发现

  • 感知质量强,细粒度对齐弱:PQ 70-84%,但 FGA 仅 10-56%,相差 2-7 倍——模型生成高质量帧但难以精确遵循复杂文本约束。
  • 背景稳定优,角色一致性差:BC 普遍 95-99%,但 CC 多数 < 50%(即便最好的 CausVid 也仅 45.97%)——能保环境稳定但难维持角色身份。
  • 整体 vs 细粒度对齐巨大差距:OA 50-73%,但 FGA 仅 10-56%(平均下跌 40 个百分点)——MLLM 倾向给乐观整体评分忽视细节遗漏。
  • Kling 3.0 / Sora2 领先:HERD 最高 87.47% / 86.42%,TVA 最高 65.01% / 61.87%——专有模型的人类期望对齐能力更强。
  • 多提示 vs 直接输入:直接输入方法(CausVid / SkyReels-V2)整体 FGA 通常优于多提示分解方法(FreeNoise / MEVG)——端到端方法对复杂文本的处理能力更强。

亮点与洞察

  • 分层元数据设计:不同于以往 LLM 直接生成冗长描述,本文从真实视频反向构建场景-角色-背景-摄像机四维分层元数据,为细粒度评估提供明确依据。
  • 条件门控 VQA:多轮对话中"定位查询 → 判断查询"切换 + 乘法门控 \(a^c_s\) 防虚幻评分,可迁移到其他需要多轮条件推理的评估任务。
  • Auditor-Evaluator 解耦:打破单代理评估的幻觉 / 偏差,模仿电影审查流程(内容分析 vs 质量评分),提高 HERD 等主观度量的可靠性。
  • 流式评估:将 EvalCrafter / VBench 的耗显存算法改为流式(多尺度采样、流式 CLIP / 光流),完全支持超长视频。
  • 复杂提示库(248.85 字、8.70 复杂度)是目前最具挑战的基准,真实反映专业级视频生产的文本约束密度。

局限与展望

  • 样本量 234 相对较小,无法覆盖所有极端场景和边界情况。
  • HERD 的 6 维度定义主观性强,GPT-5 生成的期望与真实用户期望可能存在偏差。
  • 角色一致性评估基于 SAM3 追踪,对复杂动作 / 部分遮挡 / 长期轨迹可能累积误差。
  • 评估工具链依赖多个模型,部署复杂,工具升级影响历史对标可比性。
  • 改进:扩大样本量到 500-1000 + 真实用户评估验证 HERD + 改进角色追踪。

相关工作与启发

  • vs VBench / EvalCrafter:为短视频设计的简化提示;本文采用复杂多场景提示 + 分层元数据 + 细粒度对齐评估。
  • vs VBench 2.0:用 125 字复杂提示但样本仅 90;本文 249 字 × 234 样本 × 18 主题,覆盖更广且提示来自真实视频降低幻觉。
  • vs 多提示输入方法(Vlogger / StoryAdapter):用 LLM 分解长提示渐进生成;本文直接输入方法表现更优,提示分解可能丧失上下文。
  • 启发:细粒度评估框架(条件 VQA)可迁移到 3D 生成、图像编辑等多模态任务;分层元数据可用于更系统地构建复杂提示基准。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个系统引入分层元数据 + 条件门控 VQA + HERD 的长视频生成基准。
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 17 个代表模型(多提示 + 直接输入两类),暴露角色一致性 / 细粒度对齐的普遍瓶颈。
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,方法精确,实验组织完善,结论具体可操作。
  • 价值: ⭐⭐⭐⭐⭐ 为长视频生成提供目前最全面评估基准;暴露瓶颈指导后续模型改进;分层元数据 + 条件 VQA 设计思路广泛迁移性。