NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Qh3CQBTB1g
项目主页: https://amap-ml.github.io/NarrLV-Website/
领域: 视频生成 / 评测基准
关键词: 长视频生成, 叙事评测, Benchmark, 时序叙事原子(TNA), MLLM 问答评估

一句话总结¶

NarrLV 提出"时序叙事原子(TNA)"作为量化叙事丰富度的基本单位，配合可任意扩展 TNA 数量的提示词套件和基于 MLLM 问答的三级渐进式评测指标，首次系统地衡量长视频生成模型"讲故事"的能力，并发现现有模型最多只能稳定表达约 2 个叙事单元。

研究背景与动机¶

领域现状：基础视频生成模型（Wan、HunyuanVideo、CogVideoX 等）受算力限制只能产出短视频，于是涌现出一批长视频生成模型（FreeNoise、Presto、RIFLEx、FreeLong 等），它们通过改造去噪模块、注入分段文本来延长时长并表达随时间演化的叙事。学界逐渐意识到：长视频生成的目标不只是"更长"，更在于在更长的画面里准确表达更丰富的叙事内容。

现有痛点：评测严重滞后。早期靠 FID/FVD/CLIP-SIM 等通用指标，与人类判断脱节；后来的 VBench、TC-Bench、StoryEval 等基准虽然维度丰富，但它们的提示词叙事都很简单——TNA 数量集中在很窄的低值区间（VBench 多为 1，TC-Bench 聚焦 2，StoryEval 也只覆盖 2–4 个事件）。结果是长视频模型只能"将就"在为短视频设计的 VBench 上评测，无法暴露其真正的叙事表达边界。

核心矛盾：长视频生成追求的是"叙事丰富度"这一抽象能力，而现有基准既缺乏量化叙事丰富度的统一单位，也缺乏能随叙事复杂度灵活扩展的提示词与评测协议。

本文目标：构建首个面向长视频生成、专门评估叙事表达能力的基准 NarrLV，做到提示词可按叙事丰富度任意扩展、评测指标与人类偏好高度对齐，并据此刻画当前模型的能力边界。

核心 idea：【量化叙事的最小单位】 借鉴电影叙事学中"Beat"的概念，把"维持连续视觉呈现的最小叙事单元"定义为时序叙事原子 TNA，用 TNA 数量直接度量叙事丰富度；【从理论锚定可调因子】 基于电影叙事 6D 原则锁定影响 TNA 数量的三个可调因子（场景属性、对象属性、对象动作）；【渐进式 MLLM 问答评测】 把叙事表达拆成"元素保真→单元覆盖→单元连贯"三个递进层次，用 MLLM 问答框架计算。

方法详解¶

整体框架¶

NarrLV 由三部分串联：先从电影叙事理论出发定义 TNA 并锁定三个可调因子；再据此搭建一条 LLM 驱动的自动提示词生成流水线，产出 TNA 数量可灵活扩展的提示词套件；最后用 MLLM 问答框架，沿"元素保真度 / 单元覆盖率 / 单元连贯性"三个渐进维度对生成视频打分，并验证其与人类偏好的对齐。

flowchart LR
    A[电影叙事理论<br/>定义 TNA + 6D原则] --> B[三个可调因子<br/>场景属性/对象属性/对象动作]
    B --> C[LLM 自动提示词流水线<br/>so,f,n → 提示词]
    C --> D[提示词套件<br/>360 条, TNA 1~6]
    D --> E[视频生成模型<br/>基础模型 + 长视频模型]
    E --> F[MLLM 问答评测]
    D --> F
    F --> G[Rfid 元素保真]
    F --> H[Rcov 单元覆盖]
    F --> I[Rcoh 单元连贯]

关键设计¶

1. 时序叙事原子 TNA 与三个可调因子：把"叙事丰富度"落成可数的量。 叙事丰富度本是抽象概念，论文借电影叙事学的 Beat 把"连续视觉呈现下的最小叙事单元"定义为 TNA，TNA 越多叙事越丰富（如"老师上台→板书→讲解→擦写→下台"含 5 个 TNA）。进一步追问"什么决定 TNA 数量"，作者引用电影叙事 6D 原则（总帧数、时间连续性、空间连续性、场景、动作、对象）：在视频生成设定下，总帧数由模型固有时长决定，时空连续性又被训练数据强制保证（剔除镜头切换等不连续样本），因此真正可调的只剩场景、对象、动作三项，形式化为因子集 $F = [s_{att}, t_{att}, t_{act}]$（场景属性、对象属性、对象动作）。这一步把模糊的"会不会讲故事"转化为"能表达多少个 TNA"，为后续提示词扩展和指标设计提供了统一标尺。

2. 可扩展的 TNA 驱动提示词套件：自动批量造出叙事可控的测试集。 为避免人工设计的高成本，作者用 LLM 搭建自动流水线。先从用户向数据集 VideoUFO-1M 与富叙事数据集 DropletVideo-1M 各随机采样 10 万条文本，用 Qwen2.5-32B 抽取每条的场景 $s$ 与主要对象列表 $o$，同场景下合并对象列表得到场景-对象对集合 $SO$。生成时取一个实例 $so$、随机采 1–2 个对象，指定 TNA 数量 $n$ 与变化因子 $f$，由 GPT-4o 补全属性/动作的演化过程产出提示词： $$(so, f, n) \xrightarrow{\text{LLM}} p_{f,n}, \quad so \in SO,\ f \in F,\ n \in [1, N_{tna}]$$ 后处理阶段把 $SO$ 归为 14 个大类，每个因子-数量组合从各大类选 1–3 个 $so$，最终每组取 20 条；设 $N_{tna}=6$、3 个因子，共得 $20\times 6\times 3 = 360$ 条评测提示词。整条流水线天然可扩展——未来要评更长视频，只需把 $N_{tna}$ 调大重跑即可。

3. 渐进式三级评测指标 + 五次投票去噪：让 MLLM 问答可靠地量化叙事。 评测沿"基本元素→它们构成的叙事单元"递进展开，对每条提示词 $p_{f,n}$，模型生成视频 $v$，LLM 据语义生成维度专属问题集 $Q$，MLLM 回答得 $A$ 再映射为结果 $R$：$(p_{f,n})\xrightarrow{m}v,\ (p_{f,n})\xrightarrow{\text{LLM}}Q,\ (Q,v)\xrightarrow{\text{MLLM}}A\to R$。三个维度为：叙事元素保真度 $R_{fid}$，对场景类别/属性、对象类别/属性/动作/初始布局等元素逐个生成二元判断题；叙事单元覆盖率 $R_{cov}$，对每个 TNA 问"是否出现"，问题数随 $n$ 增长；叙事单元连贯性 $R_{coh}$，对相邻 TNA 对问"是否存在过渡"。针对 MLLM 对不确定问题答案不稳定的现象，对同一 $(Q,v)$ 让 MLLM 连答五次取占比作为单题分： $$r^k_{fid} = \frac{1}{5}\sum_{t=1}^{5}\delta(a^{k,t}_{fid}, a^k_{pos}), \quad R_{fid} = \frac{1}{N_{fid}}\sum_{k=1}^{N_{fid}} r^k_{fid}$$ 连贯性还引入 TNA 存在比例 $\rho_{tna}$ 做前提约束（先存在才谈过渡）： $$\rho_{tna} = \frac{1}{N_{cov}}\sum_{k=1}^{N_{cov}}\Theta(r^k_{cov}-\tau_{cov}), \quad R_{coh} = \frac{1}{2}(R'_{coh}+\rho_{tna})$$ 其中 $\tau_{cov}=0.3$。这一渐进式问答设计相比"一次性整体打分"更能定位模型在叙事各层级上的具体短板。

实验关键数据¶

主实验表格¶

在三种变化因子下，各模型三维指标得分（节选 Table 1，数值越大越好）：

模型	Rfid(satt/tatt/tact)	Rcov(satt/tatt/tact)	Rcoh(satt/tatt/tact)
Wan（基础）	74.9/77.8/82.5	68.8/72.7/70.3	50.1/52.4/54.5
HunyuanVideo	74.4/77.2/76.9	64.3/64.6/57.9	44.7/44.2/40.8
CogVideoX	67.3/69.9/69.1	62.9/60.2/58.6	44.5/38.9/43.1
RIFLEx（长视频）	59.6/62.4/67.8	56.1/59.4/52.7	39.2/39.9/39.2
FreeNoise	77.6/71.5/74.5	58.5/63.0/51.2	40.7/43.1/34.4
TALC	38.0/37.1/40.4	31.0/33.0/31.6	21.9/23.4/21.7
Mean	67.9/67.6/71.4	57.4/60.3/53.7	39.6/40.7/37.9

与人类判断对齐准确率（Table 2，Consist-n/3 为三名标注者中 n 人一致的子集）：

指标	Consist-2/3 (Rfid/Rcov/Rcoh)	Consist-3/3 (Rfid/Rcov/Rcoh)
VBench-2.0	0.33/0.32/0.28	0.31/0.27/0.29
StoryEval	0.41/0.51/0.51	0.55/0.55/0.56
Ours	0.63/0.67/0.67	0.81/0.80/0.79

消融实验表格¶

MLLM 重复回答次数与容量对对齐准确率的影响（Table 3）：

#	变体	Consist-2/3 (Rfid/Rcov/Rcoh)	Consist-3/3 (Rfid/Rcov/Rcoh)
1	baseline（5 次）	0.63/0.67/0.67	0.81/0.80/0.79
2	1 次回答	0.61/0.63/0.64	0.81/0.77/0.78
3	3 次回答	0.62/0.66/0.67	0.81/0.78/0.80
4	换 32B MLLM	0.65/0.63/0.64	0.78/0.72/0.75

回答次数从 1→3→5 准确率递增并趋于收敛，故选 5 次；把 72B MLLM 换成 32B 会明显拉低覆盖/连贯准确率。

关键发现¶

叙事越丰富，单元表达越差，但基本元素几乎不受影响：随 TNA 增多，$R_{cov}$、$R_{coh}$ 显著下降，而 $R_{fid}$ 仅小幅波动——模型能抓住关键元素，但难以把它们组织成随时间演化的叙事。
现有模型只能稳定表达极少叙事单元：定义 $N_{exp}=R_{cov}\times n$ 表示可有效表达的 TNA 数，随 TNA 增加 $N_{exp}$ 增长极缓、与上界差距越拉越大；实践上建议提示词 TNA 数不超过 2。
基础模型决定长视频模型的叙事天花板：FIFO-Diffusion/FreeLong/FreePCA/FreeNoise 同源于 VideoCraft，它们在 $R_{cov}$、$R_{coh}$ 上都优于 VideoCraft（证明长视频模块有效），但彼此差异很小，说明叙事能力主要由底座决定；且这些长视频模型整体弱于最新基础模型。
动作因子最难做"变化"：模型在初始对象动作 $t_{act}$ 上的元素保真最好，但在叙事单元（覆盖/连贯）上恰恰在 $t_{act}$ 最差——擅长生成单个动作，却难做多样的动作演变。

亮点与洞察¶

用电影叙事学给"会不会讲故事"做了可计算的定义：TNA + 6D 原则把抽象叙事丰富度收敛为三个可调因子和一个可数单位，理论锚点扎实，也让提示词扩展和指标设计有了统一语言。
渐进式三级指标定位精准：把保真/覆盖/连贯分层评估，能清晰区分"元素生成"与"叙事组织"两类能力，正是这种分解让作者发现"元素稳、单元崩"的核心规律。
工程上对 MLLM 不确定性的务实处理：五次投票取占比 + TNA 存在比例约束连贯性，简单有效地提升了与人类的对齐度（Consist-3/3 达 0.79–0.81，远超 VBench-2.0 与 StoryEval）。
可扩展性强：提示词流水线只需调大 $N_{tna}$ 即可评测更长视频，基准不会随模型进步迅速过时。

局限与展望¶

TNA 上限暂设为 6：虽称可扩展，但论文未在更高 TNA（如 10+）上验证模型表现与指标稳定性，超长叙事的评测仍待补足。
重度依赖闭源/大模型：提示词生成用 GPT-4o、评测用 Qwen2.5-VL-72B，消融已显示换小模型会掉点，复现成本和评测一致性受 MLLM 能力波动影响。
聚焦文本到视频、连续时空设定：显式排除了镜头切换等时空不连续样本，因此对真正含转场剪辑的"电影级"叙事尚未覆盖。
TNA 划分与因子假设带主观性：把可调因子简化为场景/对象/动作三项是一种工程取舍，可能遗漏情绪、镜头语言等更高阶叙事维度。

评分¶

新颖性: ⭐⭐⭐⭐ 首个面向长视频"叙事表达"的基准，TNA 量化单位与渐进式指标设计有理论支撑且原创性强。
实验充分度: ⭐⭐⭐⭐ 覆盖 6 个长视频 + 5 个基础模型、360 条提示词、600 对人工标注，主实验/消融/对齐分析齐全；超长 TNA 与更多模态因子的验证略欠。
写作质量: ⭐⭐⭐⭐ 从理论到流水线到指标逻辑清晰，图表（TNA 分布、三维结果、词云、特征距离）支撑充分。
价值: ⭐⭐⭐⭐ 为长视频生成提供了可量化、可扩展、对齐人类的叙事评测工具，并给出"TNA≤2"等可操作结论，对模型研发和评测都有实用价值。