EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation¶

会议: AAAI 2026
arXiv: 2511.11002
代码: https://zane-zyqiu.github.io/EmoVid (Project Page)
领域: Video Understanding
关键词: 情感视频数据集, 视频生成, 情绪标注, 文本到视频, 情感计算

一句话总结¶

提出 EmoVid，首个面向艺术化/非写实内容的大规模多模态情绪视频数据集（22,758 个视频片段），覆盖动画、电影和表情贴纸三种类型，并通过微调 Wan2.1 模型展示了情绪条件化视频生成的有效性，在情绪准确率指标上显著优于基线。

研究背景与动机¶

视频是叙事和表达的强大媒介，情绪在观众参与度中起着关键作用。近年来视频生成模型在视觉连贯性和运动方面取得了长足进步，但对情绪表达的关注非常有限。特别是在创意应用（如漫画人物动画、表情包制作、电影剪辑）中，情感表达力至关重要但尚未被充分探索。

现有视频情绪数据集存在以下问题：

规模有限：如 CAER（12h）、MELD（1.4h）、DEAP（2h）等数据集规模较小

内容单一：几乎所有数据集都聚焦于真实场景中的人脸表情，缺乏风格化和非写实内容

模态不全：很多数据集缺少音频或文本描述

不适用于生成任务：现有数据集主要面向情绪识别，缺乏丰富的视觉多样性

核心矛盾：情绪在视频创作中极为重要，但缺乏适合创意场景的情绪基准数据集和对应的评估协议。EmoVid 填补了这一空白，覆盖了动画、电影和表情贴纸三种艺术化视频类型。

方法详解¶

整体框架¶

EmoVid 的构建和应用包括三个部分： 1. 数据集构建（收集、标注、属性提取） 2. 数据分析（情绪模式、颜色-情绪关联、时序动态） 3. 基准评估与模型微调（T2V 和 I2V 任务）

关键设计¶

多源数据收集:
- 功能：从三种来源收集视频——MagicAnime 数据集（2,807 个动画面部片段）、Condensed Movies（13,255 个电影片段，经 PySceneDetect 切分并保留 4-30 秒片段）、Tenor API（6,696 个 GIF 表情贴纸）
- 核心思路：覆盖多种艺术风格和内容类型，涵盖美式/中式/日式动画、电影场景、网络表情包
- 设计动机：确保情绪表达的多样性和跨域通用性
人机协作标注方案:
- 功能：采用 Mikels 八情绪模型（amusement, awe, contentment, excitement, anger, disgust, fear, sadness），结合人工标注和 VLM 自动标注
- 核心思路：先用人工标注 20% 数据（每个视频由 3 人标注，至少 2 人一致才保留），再在此基础上微调 NVILA-Lite-2B 模型标注剩余 80%
- 质量验证：随机抽取 1% 验证集，计算三名人工标注者与 VLM 之间的 Cohen's kappa 分数，差异 < 4%，表明 VLM 标注质量与人工相当
- 设计动机：平衡标注精度和资源消耗
多维度属性标注与分析:
- 功能：为每个片段提取颜色属性（colorfulness, brightness, hue）、用 NVILA-8B 生成文本描述
- 核心发现：
  - 积极情绪（正效价）的视频更亮、更丰富多彩
  - 高唤醒度情绪更暗但颜色更丰富
  - 电影片段的情绪马尔可夫转移矩阵显示强自持性（fear 0.53, anger 0.46）
  - 同效价内的转换远多于跨效价转换
- 设计动机：为情绪感知视频生成提供可利用的颜色和时序先验

损失函数 / 训练策略¶

使用 DiffSynth Studio 框架微调 Wan2.1 模型
LoRA 配置：rank=32, lr=1e-4, epochs=3, batch_size=1
训练数据平衡处理：2,727 动画 + 8,000 电影 + 6,616 贴纸

实验关键数据¶

主实验¶

T2V 任务:

方法	FVD↓	CLIP↑	Flicker↓	EA-2cls↑	EA-8cls↑
VideoCrafter-V2	610.1	0.3012	0.0184	80.42	42.50
HunyuanVideo	552.6	0.2776	0.0116	76.87	40.41
CogVideoX	584.0	0.3013	0.0213	82.91	44.58
WanVideo (before)	594.3	0.2982	0.0091	84.17	44.16
WanVideo (after)	573.7	0.3021	0.0143	88.33	48.33

I2V 任务:

方法	FVD↓	SD↑	Flicker↓	EA-2cls↑	EA-8cls↑
DynamiCrafter512	512.3	0.7288	0.0280	90.41	71.25
CogVideoX	528.4	0.7214	0.0331	90.83	70.83
WanVideo (before)	517.9	0.7146	0.0325	91.25	71.30
WanVideo (after)	517.8	0.7193	0.0324	94.58	76.25

消融实验¶

配置	EA-8cls (T2V)	EA-8cls (I2V)	说明
WanVideo 原始	44.16	71.30	未微调基线
WanVideo + EmoVid 微调	48.33	76.25	情绪准确率显著提升
提升量	+4.17	+4.95	证明 EmoVid 有效
超越最强竞品	+3.75 (vs CogVideoX)	+5.42 (vs DynamiCrafter)	全面优于所有竞品

关键发现¶

微调后模型在通用视觉指标（FVD, CLIP）上保持甚至略有改善，情绪准确率（EA）大幅提升
I2V 任务的情绪准确率改善（+4.95）比 T2V（+4.17）更显著
电影片段中发现 "hold, intra-valence drift, arousal leap" 情绪轨迹模式
负面情绪展现链式升级模式：sadness → fear/anger
定性结果显示微调模型能更精准捕捉情绪意图（如面部表情更到位、情绪一致的运动模式）

亮点与洞察¶

首个艺术化内容的情绪视频基准：填补了风格化视频情感计算的数据空白
多模态完备性：同时包含视频、音频、文本描述、颜色属性、情绪标签
情绪时序分析：马尔可夫转移矩阵揭示了电影中情绪演化的规律
实用应用：LoRA 微调生成的表情贴纸可直接用于社交媒体
评估协议完善：EA-2cls 和 EA-8cls 指标为情绪感知生成提供了标准化评估

局限与展望¶

假设每个片段只传达单一情绪，现实中情绪可能是复杂和复合的
音频模态尚未充分利用，未来可构建统一的视频-音频-文本多模态模型
情绪分布不均衡（如 amusement 和 awe 较少），可能影响模型对少数类的表现
表情贴纸没有音频（GIF 格式限制），模态完整性存在缺口
微调增加了 flicker 指标值（0.0091→0.0143），视觉稳定性略有下降

评分¶

新颖性: ⭐⭐⭐⭐ — 首个面向艺术化内容的情绪视频数据集，定位独特
实验充分度: ⭐⭐⭐⭐ — T2V/I2V 双任务评估充分，但消融较简单
写作质量: ⭐⭐⭐⭐ — 结构清晰，数据分析详尽
价值: ⭐⭐⭐⭐ — 数据集+基准+分析洞察对社区有持续贡献