ActivityForensics: A Comprehensive Benchmark for Localizing Manipulated Activity in Videos¶

会议: CVPR 2026
arXiv: 2604.03819
代码: https://activityforensics.github.io
领域: 视频生成
关键词: 视频篡改检测, 活动级伪造, 时间定位, 扩散模型特征正则化, 视频取证

一句话总结¶

首次提出活动级视频伪造定位任务和ActivityForensics大规模基准数据集（6K+伪造片段），通过grounding辅助的自动化数据构造管线制造高度逼真的活动篡改，并提出Temporal Artifact Diffuser (TADiff)基线方法，通过扩散式特征正则化放大伪造线索。

领域现状：视频篡改定位旨在识别未裁剪视频中的篡改片段。现有基准（ForgeryNet、Lav-DF、AV-Deepfake1M、TVIL）主要关注外观级伪造（人脸替换、目标移除）。

现有痛点：随着视频生成技术（Wan、Sora、VACE等）的飞速进步，活动级伪造已成为新兴威胁——修改人物动作以扭曲事件语义（如将政客的中性站姿篡改为不当行为），高度逼真且极具欺骗性，严重威胁媒体真实性和公信力。但目前没有针对活动级伪造定位的基准。

核心矛盾：外观级伪造和活动级伪造的检测逻辑根本不同——前者依赖像素层面的纹理异常，后者需要理解动作语义变化与时间一致性。直接将动作定位模型迁移到伪造定位上会导致过度依赖语义信息。

切入角度：构建首个活动级伪造定位基准，利用视频描述和时间grounding自动化数据构造（避免高成本人工操作），同时提出针对性基线方法。

核心idea：(1) grounding辅助的自动化数据管线将篡改片段无缝嵌入原始视频；(2) TADiff通过注入噪声扰动抑制语义偏差，再通过扩散去噪放大伪造伪影线索。

数据构造管线：原始视频→视频描述+时间grounding（获取活动描述和时间段）→LLM修改描述（语义篡改）→视频生成/编辑模型合成篡改片段→无缝替换原始片段→产出精确时间标注。

TADiff方法：帧级特征提取→ActionFormer多尺度Transformer编码器→TADiff扩散式特征正则化→伪造置信度头+边界回归头。

Grounding辅助的数据构造:
- 功能：自动化生成活动级伪造视频和精确时间标注
- 核心思路：利用视频描述和时间grounding模型自动定位活动片段，LLM将描述修改为语义篡改版本（如"挥手"→"竖拇指"），再用视频生成/编辑模型（Wan、Scifi、FCVG、Vidu、VACE、LTX）合成篡改片段并无缝融入
- 设计动机：解决人工构造活动级伪造数据的高成本问题，同时确保高视觉一致性
Temporal Artifact Diffuser (TADiff):
- 功能：在时间特征空间中注入噪声再去噪，放大伪造伪影线索
- 核心思路：
  - 前向过程：向特征序列注入高斯噪声 \(x_s = \sqrt{\bar{\alpha}_s} f + \sqrt{1-\bar{\alpha}_s} \epsilon\)，扰动偏离语义流形
  - 反向过程：轻量时间卷积去噪器（FiLM条件化），DDIM式更新 \(x_{s-1} = \sqrt{\bar{\alpha}_{s-1}}\hat{x}_0 + \sqrt{1-\bar{\alpha}_{s-1}-\sigma_s^2}\hat{\epsilon} + \sigma_s z\)
  - 去噪步数设为3步
- 设计动机：动作定位模型的特征过度编码高层语义，对伪造检测所需的低层伪影线索（纹理不一致、运动不连续）不敏感。扩散过程通过注噪抑制语义偏差，去噪过程放大伪造敏感信号
数据集统计:
- 6个篡改方法（4个视频生成+2个视频编辑）
- 6K+伪造片段，分布均匀
- 60%+的篡改片段占视频总时长<30%（定位挑战性高）
- 三种评估设置：域内、跨域、开放世界

\(\mathcal{L} = \mathcal{L}_{cls} + \mathcal{L}_{reg}\)：focal loss（伪造置信度）+ smooth L1 loss（边界回归）。端到端训练，AdamW优化器，batch_size=16，lr=0.001。

设置	方法	AP@0.75	AP@0.95	avg AP	avg AR
域内	ActionFormer	86.29	46.79	70.67	74.31
	UMMAFormer	87.02	48.55	71.94	75.74
	DiGIT	78.61	44.92	64.69	70.43
	TADiff (Ours)	87.52	56.57	75.05	77.15
开放世界	ActionFormer	89.81	57.08	77.82	83.31
	UMMAFormer	91.13	57.57	78.79	84.15
	TADiff (Ours)	92.35	69.06	83.64	87.92

方向	方法	avg AP	avg AR
A→B	ActionFormer	67.18	72.14
	TADiff (Ours)	69.63 (+2.45)	74.91 (+2.77)
B→A	ActionFormer	37.14	51.03
	TADiff (Ours)	40.89 (+3.75)	52.56 (+1.53)