VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL¶

会议: ICLR 2026
arXiv: 2510.02282
代码: 项目页面
领域: 多模态VLM
关键词: AI生成视频检测, MLLM推理, GRPO, 时序伪影, 可解释取证

一句话总结¶

VidGuard-R1 是首个采用 GRPO（Group Relative Policy Optimization）强化学习微调 MLLM 的视频真伪检测器，通过构建 14 万无快捷方式的真/假视频对数据集，并设计时序伪影奖励和扩散步数质量奖励两种专用奖励机制，在自建数据集上达到 86.17% 准确率，在 GenVidBench 和 GenVideo 基准上实现 95%+ 的 SOTA 零样本检测性能，同时生成可解释的思维链推理。

研究背景与动机¶

领域现状：AI 视频生成模型（Sora、HunyuanVideo、Wan 等）的视频质量飞速提升，生成视频与真实视频的界限日益模糊，带来虚假信息传播、隐私侵犯、诈骗等严重社会风险，亟需准确且可解释的检测工具。

现有痛点：

传统检测器局限性大：早期 DeepFake 检测器仅针对面部伪造，无法泛化到开放域多场景视频；时空一致性方法容易被后处理绕过
MLLM 直接应用效果差：GPT-4o 等强大 MLLM 直接用于视频真伪判断时准确率仅约 57%，与随机猜测相差无几
SFT 微调推理能力弱：SFT 虽提升了检测准确率，但模型无法生成"为什么是假的"这样有意义的解释——推理能力不足
现有数据集有快捷方式：GenVideo、GenVidBench 等基准中真假视频在分辨率、帧率、码率、时长上存在系统性差异，模型利用元数据而非视觉真实性进行判断

核心矛盾：需要模型既能准确检测又能深度推理"假在哪里"，而 SFT 只能教会格式无法激发探索性推理。

本文方案：引入 GRPO 强化学习框架，通过多路径推理采样和组内排名，鼓励模型自主发现物理不一致性，并设计两种专用奖励信号引导时序推理和质量感知。

方法详解¶

整体框架¶

VidGuard-R1 想解决的是"既能准确判断视频真伪、又能说清楚假在哪里"这件事，而单纯把强大的 MLLM 直接拿来用（GPT-4o 准确率仅约 57%）或只做监督微调都做不到。它以 Qwen2.5-VL-7B 为基座，整条流水线分两段：先用 30K 带思维链（CoT）注释的视频做监督微调（SFT），让模型学会"先思考再判真伪"的输出格式；再在 100K 视频上做强化学习（RL），用组相对策略优化（GRPO，Group Relative Policy Optimization）激发模型自主探索推理路径。检测能力的真正来源是 RL 阶段——其中两个针对生成视频内在缺陷设计的专用奖励 GRPO-TA、GRPO-Q，一个逼模型盯住时序、一个逼模型感知质量退化，最终输出真/假判定、可解释的思维链，以及对生成视频的质量档位估计。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实视频<br/>InternVid + ActivityNet"] --> B["无快捷方式数据集构建<br/>配对生成假视频 + 标准化 + CoT标注<br/>(140K视频对)"]
    B --> C["SFT：学会先思考再判真伪的<br/>CoT输出格式"]
    C --> D["GRPO 探索式强化学习<br/>采样多条推理路径 + 组内排名"]
    D --> E["GRPO-TA<br/>注入时序伪影<br/>逼模型看帧间动态"]
    D --> F["GRPO-Q<br/>扩散步数当质量标尺<br/>细粒度感知退化"]
    E --> G["真/假判定 + CoT解释<br/>(+生成质量档位)"]
    F --> G

关键设计¶

1. 无快捷方式的训练数据：让模型学视觉真实性而非元数据

现有基准（GenVideo、GenVidBench）的致命问题是真假视频在低级特征上系统性可分——真实视频常 >10 秒、生成视频 <4 秒，分辨率、帧率、码率也各不相同，模型只要数元数据就能"作弊"，根本没在看画面。本文构建 140K 视频对（70K 真 + 70K 假）消除这种捷径：真实视频取自 InternVid（55K）和 ActivityNet（15K），再用 HunyuanVideo-I2V（50K）和 CogVideoX-5B（20K）以真实视频的首帧加文本描述生成一一对应的假视频，使真假样本内容配对、抹掉内容偏置。所有视频统一标准化为 49 帧、8 FPS、720×480、YUV420p，彻底抹平元数据差异。最后用 Qwen2.5-VL-72B 在给定真伪标签的条件下，沿物体交互、背景细节、光照不一致等维度自动标注 CoT 推理注释，供后续 SFT 学习解释格式（其中 30K 用于 CoT 学习、100K 用于 RL）。这样训出的模型被迫从画面本身找破绽，泛化才有可能。

2. GRPO 探索式强化学习：从被动模仿升级为主动探索推理路径

光有数据还不够——SFT 只能让模型照抄注释里的理由、学会输出格式，本身不具备判别能力（消融里 SFT 仅 66%）；DPO 靠静态偏好对（把配对真假视频的 CoT 互换构造正负样本），难以捕捉不断演化的时序不一致。GRPO 换了条路：对同一视频采样一组 \(G\) 个推理输出，用组内相对排名来更新策略——优势项 \(A_i\) 把奖励 \(r_i\) 在组内归一化，鼓励模型自己探索、对比多条推理路径，而不是死记一条。因为不依赖偏好标注，视频标签可直接当奖励信号（预测对给 1、错给 0）。检测能力的真正来源就是这一步：消融里从 DPO 到 GRPO 再提约 2%，零样本泛化大幅领先，正是因为探索-排名学到的是物理一致性而非偏好捷径，也为下面两个专用奖励留出了改造奖励函数的接口。

3. GRPO-TA：用时序伪影逼模型看"动起来对不对"

标准 GRPO 容易躺在单帧线索上（像素失真、光照异常）拿分，对时序不一致性视而不见。GRPO-TA（GRPO with Temporal Artifacts）主动往训练里注入时序破坏来纠偏：对视频按高斯分布选一段区域做片段重复或帧序反转，制造原本不存在的时序异常，这些篡改后的视频都应被判为假，模型认出来就给额外奖励。奖励设计刻意非对称——真实视频运动连贯，被篡改后的异常更隐蔽，认出来给高奖励 \(\alpha_1 = 0.5\)；生成视频本就运动不稳、破绽多，篡改后更易发现，只给 \(\alpha_2 = 0.3\)，把学习压力压到难的一侧。为避免模型还没学好时乱给奖励，额外奖励 \(w_i\) 仅在原始视频已预测正确、且篡改视频的组内准确率 \(\tilde{p} > \mu = 0.8\) 时才激活，整体写作

\[r_i^{\text{GRPO-TA}} = \begin{cases} r_i^{\text{GRPO}} + w_i, & \text{若 } o_i \text{ 正确且 } \tilde{p} > \mu \\ r_i^{\text{GRPO}}, & \text{否则} \end{cases}\]

这一项把模型的注意力从静态像素拉到帧间动态，正是生成视频最易露馅的地方。

4. GRPO-Q：用扩散步数当"质量标尺"做细粒度感知

扩散模型有个天然属性——反向去噪步数越少，生成视频质量越差、伪影越重。GRPO-Q（GRPO with Quality evolutionary videos）把这个连续属性变成可监督的信号：对 12K 真实视频用 10-50 不等的扩散步数各生成 5 个质量档（对应 20%、40%、60%、80%、95%），每个生成模型凑出 72K 样本，让模型不止判真假、还要估出生成视频退化到什么程度。标签空间从二值扩展为 \(\mathcal{Y} = \{\text{real}\} \cup \{\text{fake-}s\}\)（\(s\) 为扩散步数）。奖励按预测档位与真实档位的接近程度给分——真/假判错给 0，完全对上得满分 \(\delta = 1\)，只判对真假但步数估偏则按距离折算 \(g(o_i, y_i) = \delta \cdot (1 - |s(o_i) - s(y_i)|)\)，其中 \(s(\cdot)\) 把输出映射到 \([0,1]\) 的归一化质量刻度。把二值判真伪升级成连续质量回归，模型对"假"的理解从有无变成程度，这也是消融里增益最大的一项（+2.5%）。

实验结果¶

主实验：自建数据集上的检测性能¶

方法	类型	CogVideoX 准确率(%)	HunyuanVideo 准确率(%)
I3D	CNN	64.78	62.13
SlowFast	CNN	77.87	77.03
TimeSformer	Transformer	78.53	74.55
VideoSwin	Transformer	76.81	79.71
GPT-4o	MLLM	56.81	57.42
Qwen2.5-VL-7B	MLLM	50.95	52.83
VidGuard-R1 (CoT/SFT)	MLLM	66.18	63.19
VidGuard-R1 (DPO)	MLLM	79.13	80.88
VidGuard-R1 (GRPO)	MLLM	81.30	81.90
VidGuard-R1 (GRPO-TA)	MLLM	82.17	83.72
VidGuard-R1 (GRPO-Q)	MLLM	84.32	86.17

关键观察：(1) Qwen2.5-VL-7B/GPT-4o 直接应用接近随机（~50-57%）；(2) SFT 将准确率提升至 66%，但仍不如传统视频模型；(3) GRPO 在 DPO 基础上再提 ~2%；(4) GRPO-TA 和 GRPO-Q 分别再提 ~2% 和 ~5%，证实专用奖励的有效性。

跨基准零样本泛化¶

方法	GenVidBench 均值(%)	GenVideo 最优指标
MViT V2	79.90	-
GPT-4.1 mini	59.62	-
VidGuard-R1 (GRPO, 零样本)	96.37	F1: 0.97
VidGuard-R1 (GRPO, 微调)	97.53	F1: 0.98

VidGuard-R1 在 GenVidBench 上零样本达到 96.37%，超过先前 SOTA（MViT V2, 79.90%）约 17 个百分点；在 GenVideo 上 F1 也大幅领先。微调后进一步提升至 97.53%。

消融实验：各训练阶段贡献¶

训练配置	CogVideoX	HunyuanVideo	增益来源
SFT (CoT)	66.18	63.19	基础推理格式
+ DPO	79.13	80.88	偏好对齐 +15%
+ GRPO	81.30	81.90	组排名探索 +2%
+ GRPO-TA	82.17	83.72	时序推理 +1.8%
+ GRPO-Q	84.32	86.17	质量感知 +2.5%

每个阶段都带来明确且一致的提升，其中从 SFT 到 DPO 的跳跃最大（~15%），说明偏好学习是关键；GRPO-Q 的质量分级奖励带来最强的增量提升。

论文评价¶

优点¶

首创性：首次将 GRPO 强化学习应用于 AI 生成视频检测，建立了"检测 + 解释"的范式
奖励设计巧妙：GRPO-TA 的非对称时序伪影奖励和 GRPO-Q 的扩散步数质量奖励都利用了生成模型的内在特性，针对性强
数据集严谨：通过标准化消除快捷方式，确保模型学习视觉真实性而非元数据差异
泛化能力突出：零样本即在 GenVidBench/GenVideo 上达到 95%+，远超之前所有方法

不足¶

基座模型固定为 Qwen2.5-VL-7B，未验证在其他 MLLM 上的通用性
GRPO-Q 需要生成多种扩散步数的视频，数据构建成本高
生成模型快速迭代，检测方法的持久有效性不确定

评分¶

⭐⭐⭐⭐ — 将推理型 RL 引入视频取证领域的开创性工作，方法设计精巧、实验充分，为可解释的 AI 安全检测提供了强有力的范式。