Explainable Forensics of Manipulated Segments in Untrimmed Long Videos¶
会议: ICML 2026
arXiv: 2606.02402
代码: 待确认
领域: AIGC 检测 / AI 安全 / 视频取证
关键词: AI 生成视频检测, 时序定位, 可解释性, 长视频取证, 边界感知
一句话总结¶
本文提出了长视频中 AI 生成片段的时序定位与可解释分析任务,引入 TASLE 大规模数据集和两阶段 MSLoc 基线方法——通过边界感知提议生成和 MLLM 精化实现对混合真伪视频中篡改片段的精确定位和可解释推理。
研究背景与动机¶
领域现状:当前 AI 生成视频检测方法主要聚焦于短视频片段的二分类(真/假),代表工作如 DeMamba、BusterX++ 都是在数秒时长的独立视频片段上进行训练与评估。同时现有 AIGC 检测数据集(GenVideo、GenVidBench)几乎全部为短视频或全生成视频,缺乏混合场景(真实和生成内容混杂)的标注。
现有痛点:现实世界中视频篡改通常呈现为"稀疏嵌入"模式——少量 AI 生成内容混杂在大量真实视频中而非整段都是伪造。这种设定下现有短视频检测器面临两大挑战——(1)边界信息丧失:模型对真假交界处的细微异常不敏感,无法捕捉从真实到生成内容的平稳过渡;(2)长尾干扰:大量无关的真实内容引入噪声,若直接用滑窗推断于整个长视频计算成本爆炸,但均匀采样又会稀释关键边界线索。
核心矛盾:短视频检测器设计假设是"每个输入片段要么完全真要么完全假",这个假设在长视频混合场景中彻底崩溃。现有 MLLM 时序定位模型(如 Trace)虽然拥有推理能力,但对几十秒的长视频进行端到端处理时会因均匀采样而淹没在大量无关帧中。
本文目标:建立"长视频中 AI 生成片段的时序定位与可解释性分析"这一新任务,并以此为中心构建对应的大规模数据集与基线方法。
切入角度:核心观察是篡改片段在长视频中往往以"边界"形式出现——真实与生成内容交界处的细微不一致是最强的判别线索。作者提出用"多分类"而非"二分类"来捕捉这些边界信息,并设计两阶段 pipeline:先用轻量级模型做粗提议(聚焦边界),再用 MLLM 做精细定位与解释(理解语义)。
核心 idea:将长视频取证从单阶段的片段级二分类转变为两阶段的边界感知提议 + MLLM 精化框架,通过边界分类和自适应采样显式地对真假交界处的异常进行建模。
方法详解¶
整体框架¶
MSLoc 采用典型的"粗到精"两阶段设计: - 第一阶段(MSLoc-PG 提议生成):对长视频进行高效的初步扫描,快速筛选出可疑篡改区域的粗定位。使用滑窗策略(2 秒窗口,8 帧采样)避免逐帧处理带来的计算爆炸。关键创新是将检测问题重新表述为四分类任务(真实、生成、真→伪边界、伪→真边界),使模型显式学习边界特征。 - 第二阶段(MSLoc-PR 精化模块):接收第一阶段的提议,对每个候选区域进行精细化处理。采用自适应采样策略将提议分解为"边界区域"(提议两端 φ%)和"事件区域"(提议内部),分别进行密集采样(捕捉细微不一致)和稀疏采样(提取语义上下文)。
关键设计¶
-
边界感知四分类:
- 功能:在提议生成阶段替代传统二分类,显式捕捉真伪交界处的异常。
- 核心思路:定义标签空间 \(\mathcal{Y} = \{y_{\text{real}}, y_{\text{fake}}, y_{\text{r2f}}, y_{\text{f2r}}\}\),其中 \(y_{\text{r2f}}\) 和 \(y_{\text{f2r}}\) 分别表示真→伪和伪→真边界。在滑窗的每个 2 秒窗口内均匀采样 8 帧,用交叉熵损失优化 \(\mathcal{L}_{\text{ce}} = -\frac{1}{N_b} \sum_{i=1}^{N_b} \log(p_{i, t_i})\)。模型学会在连续帧间捕捉边界信号,而非只判断整体真假。
- 设计动机:长视频中篡改片段的起始和结束位置通常伴随视觉不连贯(运动状态突变、光照不匹配),四分类目标直接鼓励模型对这些"过渡区"的时序变化更敏感——消融显示 F1Loc 从 54.0 提升到 64.8。
-
自适应采样 + 差异感知建模(DAM + EAM):
- 功能:在精化阶段对提议的不同部分采取差异化处理策略。
- 核心思路:对每个粗提议 \(P_i\) 分为边界区域(两端 φ%,通常 φ=20%)和事件区域。边界区域进行密集采样(2 × Nb 帧,Nb=16 时为 32 帧)以捕捉细微的帧间异常;事件区域进行稀疏采样(8 帧)以获取高层语义。通过 Q-Former 对边界特征压缩,并利用相邻帧对应像素点的相似性先验分别计算帧间变异和帧间不变 token。对事件特征则采用时空联合压缩。
- 设计动机:长视频中真假交界往往只占提议的很小部分但信息密度最高;事件区域主要用于生成解释性文本不需要逐帧精细处理;这种不对称采样既提高边界定位精度(相比均匀采样提升 2-3%),又通过压缩减少 MLLM 计算负担;out-of-domain F1Loc 提升 17.6%。
-
异常感知损失:
- 功能:引导 MLLM 在生成解释时关注真正的生成伪迹,而非泛泛而谈。
- 核心思路:在 MLLM 输入中注入三个特殊的"异常感知 token",编码为 LLM 能理解的格式。这些 token 的输出 embedding 通过分类头预测异常类别(如"边界开始解释"、"对象异常"等),使用交叉熵损失 \(\mathcal{L}_{\text{AA}}\) 优化。
- 设计动机:由于 TASLE 数据集中的 AI 生成内容在参考帧约束下具有极高相似度,模型易发生"幻觉"生成虚假解释;异常感知 token 强制模型将推理过程与具体的异常类别绑定,提高解释的真实性——表 3 显示加入该损失后 RQ(可解释性评分)从 3.79 提升到 3.99。
实验关键数据¶
主实验¶
| 方法 | 数据 | F1Det | F1Loc | RQ |
|---|---|---|---|---|
| D3 | 见 AIGC 类型 | 34.6 | 31.1 | ✗ |
| BusterX++* (微调) | TASLE | 33.6 | 36.4 | ✗ |
| DeMamba* (二分类) | TASLE | 54.9 | 54.0 | ✗ |
| MSLoc-PG (四分类) | TASLE | 67.5 | 64.8 | ✗ |
| Trace* + DeMamba | TASLE | 55.7 | 59.1 | 3.45 |
| Trace* + MSLoc-PG | TASLE | 69.0 | 70.9 | 3.91 |
| MSLoc (完整) | TASLE | 70.1 | 72.2 | 4.05 |
泛化性评估(Out-of-Domain)¶
| 设定 | MSLoc-PG | MSLoc | 提升 |
|---|---|---|---|
| 见过的生成类型 | 62.7 F1Det | 67.0 F1Det | +4.3% |
| 未见过的生成类型 | 50.0 F1Loc | 62.8 F1Loc | +25.6% |
| Out-of-Domain (TVSum) | 38.7 F1Loc | 56.3 F1Loc | +45.5% |
关键发现¶
- 四分类相比二分类获得显著收益:MSLoc-PG (67.5 F1Det) vs DeMamba (54.9),证明显式边界建模的效果。
- 两阶段设计在泛化上优势明显——MSLoc 在 unseen AIGC 类型上提升 25.6%。
- 边界采样至关重要——表 4 显示边界采样帧数从 8 减少到 16 时 RQ 从 4.01 降到 3.80。
- 计算效率可控:相比 Trace (9 分钟),MSLoc (12 分钟) 仅增加 33% 推理开销但 F1Loc 从 37.3 提升到 63.8。
亮点与洞察¶
- 边界分类范式转换:从"短视频二分类"到"长视频四分类"是一个简洁而有力的改进;传统 AIGC 检测忽视了真假交界处的时序线索;可迁移到其他时序异常检测任务(深伪检测、行为异常识别)。
- 两阶段架构的渐进式细化:MSLoc 的设计虽然是经典 coarse-to-fine,但创新在于第一阶段不仅是"候选生成"而是"边界感知的粗定位";第二阶段则通过自适应采样和多模态推理实现边界精化与可解释性;对长尾问题特别有效。
- 自适应采样的启示:边界区域密集采样、事件区域稀疏采样的思路体现了对"问题结构"的深刻理解;可借鉴于其他长序列处理任务(长文档阅读理解、视频事件定位)。
局限与展望¶
- 级联架构的误差传播:MSLoc 采用级联两阶段设计,第一阶段的漏检会直接导致后续无法恢复;未来计划探索 end-to-end 联合训练。
- 生成伪迹的快速演进:当前模型检测能力依赖于 AI 生成内容的视觉伪迹可见性;随着视频生成技术进步,新型生成器的伪迹会变得更隐蔽——作者承诺持续更新 TASLE 数据集。
- 多模态线索的融合:当前仅利用视觉信息,未来可探索音视频同步性、说话人唇形、背景一致性等多模态线索。
相关工作与启发¶
- vs 短视频 AIGC 检测(DeMamba、BusterX++):现有工作聚焦二分类,假设输入片段独立;本文扩展到混合长视频场景,引入四分类和边界建模。
- vs 视频时序定位(Trace、TimeChat):这些模型原本为语义事件定位设计,直接用于生成伪迹检测效果不佳(Trace 单独跑只有 37.5 F1Loc);MSLoc 通过两阶段设计和自适应采样解决了这一痛点。
- vs 可解释性方法(FakeShield、IVY-FAKE):这些方法提供自然语言解释但基于短视频;TASLE 提供的边界级和对象级双层次解释注解粒度更细。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 系统性地提出了长视频 AIGC 定位与可解释分析的新任务,通过四分类和两阶段设计实现了对传统短视频方法的完整升级。
- 实验充分度: ⭐⭐⭐⭐⭐ 引入 12.5K 大规模数据集 + 完善的消融分析 + 多种泛化评估场景,对比基线充分。
- 写作质量: ⭐⭐⭐⭐ 问题陈述清晰,技术方案逻辑严密,方法章节层次分明。
- 价值: ⭐⭐⭐⭐⭐ 数据集和方法都具有高实用价值,直指真实世界中的视频取证需求;应用前景包括内容审核、司法取证、自动驾驶安全等多个领域。