LocoT2V-Bench: Benchmarking Long-form and Complex Text-to-Video Generation¶
会议: ICML 2026
arXiv: 2510.26412
代码: 待确认
领域: 视频生成 / 多模态 VLM / 评估基准
关键词: 长视频生成基准, 复杂文本对齐, 分层元数据, 角色一致性
一句话总结¶
LocoT2V-Bench 是面向长视频 + 复杂场景生成的专业基准——234 段真实视频 × 18 主题 × 平均 249 字提示词,配套 LoCoT2V-Eval 5 维度 17 子维度评估框架(含分层 VQA + 条件门控 + Auditor-Evaluator 双代理 HERD),系统评估 17 个长视频生成模型,揭示了"感知质量强、细粒度对齐弱、角色一致性差"的普遍瓶颈。
研究背景与动机¶
领域现状:T2V 在短视频已显著进展,但长视频(> 10 秒、多场景、复杂时空动态)仍是开放问题。现有基准(VBench / EvalCrafter)面向短视频,采用简化提示,难以评估复杂场景生成。
现有痛点: - 主要聚焦帧级视觉质量和整体提示一致性,忽视细粒度对齐(角色属性、动作)。 - CLIP-Score / FID 不适配长视频和复杂多场景提示。 - 对角色一致性、长期时间连贯性、高层叙事表达评估不足。
核心矛盾:长视频生成的专业级控制需求(精确角色设定 / 摄像机动作 / 多场景连贯性)与当前简化评估框架之间的鸿沟。
本文目标: - 构建面向专业级生产流程的长视频基准(234 段真实视频、18 主题、多场景结构化提示)。 - 设计全面多维度评估框架——感知质量 / 文本对齐 / 时间连贯 / 动态质量 / 人类期望达成。
切入角度:从真实视频出发、采用分层元数据(场景 / 角色 / 背景 / 摄像机)和多轮条件式 VQA,更精确评测长视频生成。
核心 idea:分层 VQA + 条件门控 + Auditor-Evaluator 双代理 HERD——系统评估长视频生成模型在细粒度对齐和高层期望达成上的能力。
方法详解¶
整体框架¶
两个核心模块: - 数据构建:YouTube 收集 234 段视频,通过 MLLM + LLM + 人工验证构建多场景、分层元数据的复杂提示集。 - 评估:LoCoT2V-Eval 框架用 5 大维度、17 子维度评估生成视频。
关键设计¶
-
分层 VQA + 条件门控(细粒度对齐):
- 功能:把文本-视频对齐从粗粒度(整体 CLIP)细化为细粒度(逐场景、逐角色、逐属性验证)。
- 核心思路:构建树状多轮问答框架,对每个场景执行 3 个维度的层级验证——场景存在性门控 → 角色定位与属性验证 → 背景与摄像机验证。用"定位查询"(Locate Query "有穿红帽的男人吗?")先锚定角色,再用"判断查询"(Judge Query "这个男人高吗?")验证属性,避免幻觉属性。角色属性 \(f^c_{\text{attr}} = \frac{1}{N_c} \sum_k y_k\),动作 \(f^c_{\text{action}} = a^c_s \cdot \frac{1}{M_c} \sum_q A(q \mid H_{N_c})\)(\(a^c_s\) 为锚定标志)。
- 设计动机:复杂提示需要验证多层级细节;条件门控防止模型在未成功定位角色时仍给动作分数(虚幻评分);多轮对话历史 \(H_k = H_{k-1} \cup \{(q^{c, k}, y_k)\}\) 保证后续查询基于已验证上文。
-
多维度评估框架(5 大维度 17 子维度):
- 功能:系统评估感知质量(PQ)、文本视频对齐(TVA:整体 OA + 细粒度 FGA)、时间质量(TQ:CC / BC / WE)、动态质量(DQ)、人类期望达成度(HERD)。
- 核心思路:
- PQ:DeQA-Score 多尺度帧采样 \(PQ(v) = \frac{1}{|W|} \sum_w \frac{1}{n_\alpha} \sum_{f \in w} \text{DeQA}(f)\)。
- OA:Qwen3-VL-8B 替代 CLIP,评分 0-100 捕捉角色 / 场景 / 交互多维一致性。
- CC:SAM3 追踪 → MLLM 验证 → FG-CLIP2 嵌入相似度。
- BC / WE:相邻帧 FG-CLIP2 + 光流,流式计算避免长视频 OOM。
- DQ:帧级(动作度、平滑度)+ 高层(段级、视频级非周期性 + 信息流)聚合。
- 设计动机:现有基准缺细粒度对齐、角色身份一致性、高层叙事表达评估;多维度覆盖从低级(像素)到高级(情感)的完整评估链;流式评估支持超长视频。
-
Auditor-Evaluator 双代理(HERD 评估):
- 功能:减少主观偏差,准确评估生成视频对文本提示所隐含人类期望的满足程度。
- 核心思路:Auditor 代理独立分析视频(不见期望参考)生成客观内容报告 → Evaluator 结合报告与视频对 6 个期望维度(情感 / 叙事 / 角色发展 / 视觉风格 / 主题表达 / 总体印象)各给 1-5 分 → 加权聚合得 \(S_{\text{HERD}} = \frac{1}{|D|} \sum_d s_d\)。
- 设计动机:单代理易受第一印象 / 幻觉影响;双代理职责分离(报告生成 vs 期望评价)提高客观性和可审计性。
数据构建对比¶
| 基准 | 样本 | 平均字数 | 复杂度 | 特色 |
|---|---|---|---|---|
| EvalCrafter | 700 | 12.33 | 3.74 | 基础短视频 |
| VBench-Long | 946 | 7.64 | 2.54 | 长视频简化 |
| VBench 2.0 | 90 | 125.46 | 8.13 | 复杂单场景 |
| LocoT2V-Bench | 234 | 248.85 | 8.70 | 长视频 + 复杂 + 分层元数据 |
实验关键数据¶
主实验(17 个长视频生成模型,节选)¶
| 方法 | 感知质量 | 整体对齐 | 细粒度对齐 | TVA 均值 | 角色一致 | 背景一致 | TQ 均值 | HERD | 动态质量 | 总体 |
|---|---|---|---|---|---|---|---|---|---|---|
| FreeNoise | 73.89 | 18.12 | 10.38 | 14.25 | 15.38 | 98.77 | 69.85 | 53.65 | 50.55 | 52.44 |
| DiTCtrl | 56.55 | 48.25 | 45.54 | 46.90 | 25.72 | 96.86 | 72.50 | 60.75 | 49.37 | 57.21 |
| LongLive | 80.51 | 55.50 | 36.15 | 45.83 | 54.92 | 99.18 | 83.66 | 81.30 | 61.52 | 70.56 |
| LongCat-Video | 77.75 | 65.59 | 51.01 | 58.30 | 42.08 | 98.31 | 78.45 | 84.80 | 59.29 | 71.72 |
| Sora2 | 66.59 | 69.64 | 54.09 | 61.87 | 45.40 | 99.10 | 80.97 | 86.42 | 64.78 | 72.13 |
| Kling 3.0 | 70.26 | 73.08 | 56.94 | 65.01 | 36.97 | 98.96 | 78.55 | 87.47 | 56.16 | 71.49 |
关键发现¶
- 感知质量强,细粒度对齐弱:PQ 70-84%,但 FGA 仅 10-56%,相差 2-7 倍——模型生成高质量帧但难以精确遵循复杂文本约束。
- 背景稳定优,角色一致性差:BC 普遍 95-99%,但 CC 多数 < 50%(即便最好的 CausVid 也仅 45.97%)——能保环境稳定但难维持角色身份。
- 整体 vs 细粒度对齐巨大差距:OA 50-73%,但 FGA 仅 10-56%(平均下跌 40 个百分点)——MLLM 倾向给乐观整体评分忽视细节遗漏。
- Kling 3.0 / Sora2 领先:HERD 最高 87.47% / 86.42%,TVA 最高 65.01% / 61.87%——专有模型的人类期望对齐能力更强。
- 多提示 vs 直接输入:直接输入方法(CausVid / SkyReels-V2)整体 FGA 通常优于多提示分解方法(FreeNoise / MEVG)——端到端方法对复杂文本的处理能力更强。
亮点与洞察¶
- 分层元数据设计:不同于以往 LLM 直接生成冗长描述,本文从真实视频反向构建场景-角色-背景-摄像机四维分层元数据,为细粒度评估提供明确依据。
- 条件门控 VQA:多轮对话中"定位查询 → 判断查询"切换 + 乘法门控 \(a^c_s\) 防虚幻评分,可迁移到其他需要多轮条件推理的评估任务。
- Auditor-Evaluator 解耦:打破单代理评估的幻觉 / 偏差,模仿电影审查流程(内容分析 vs 质量评分),提高 HERD 等主观度量的可靠性。
- 流式评估:将 EvalCrafter / VBench 的耗显存算法改为流式(多尺度采样、流式 CLIP / 光流),完全支持超长视频。
- 复杂提示库(248.85 字、8.70 复杂度)是目前最具挑战的基准,真实反映专业级视频生产的文本约束密度。
局限与展望¶
- 样本量 234 相对较小,无法覆盖所有极端场景和边界情况。
- HERD 的 6 维度定义主观性强,GPT-5 生成的期望与真实用户期望可能存在偏差。
- 角色一致性评估基于 SAM3 追踪,对复杂动作 / 部分遮挡 / 长期轨迹可能累积误差。
- 评估工具链依赖多个模型,部署复杂,工具升级影响历史对标可比性。
- 改进:扩大样本量到 500-1000 + 真实用户评估验证 HERD + 改进角色追踪。
相关工作与启发¶
- vs VBench / EvalCrafter:为短视频设计的简化提示;本文采用复杂多场景提示 + 分层元数据 + 细粒度对齐评估。
- vs VBench 2.0:用 125 字复杂提示但样本仅 90;本文 249 字 × 234 样本 × 18 主题,覆盖更广且提示来自真实视频降低幻觉。
- vs 多提示输入方法(Vlogger / StoryAdapter):用 LLM 分解长提示渐进生成;本文直接输入方法表现更优,提示分解可能丧失上下文。
- 启发:细粒度评估框架(条件 VQA)可迁移到 3D 生成、图像编辑等多模态任务;分层元数据可用于更系统地构建复杂提示基准。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个系统引入分层元数据 + 条件门控 VQA + HERD 的长视频生成基准。
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 17 个代表模型(多提示 + 直接输入两类),暴露角色一致性 / 细粒度对齐的普遍瓶颈。
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,方法精确,实验组织完善,结论具体可操作。
- 价值: ⭐⭐⭐⭐⭐ 为长视频生成提供目前最全面评估基准;暴露瓶颈指导后续模型改进;分层元数据 + 条件 VQA 设计思路广泛迁移性。