AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: AI安全 / 音视频伪造检测 / 多模态评测基准
关键词: 音视频伪造检测, AV-LMM, 评测基准, 多级标注, 混合伪造生成

一句话总结¶

AVFakeBench 是首个覆盖「人类+通用场景、7 类音视频伪造组合、4 级标注」的综合音视频伪造检测基准（3K 片段 / 12K 问答），用一套「专有模型规划 + 专家生成模型执行」的多阶段混合伪造框架批量造假数据，并评测了 11 个音视频大模型（AV-LMM）和 2 个专家检测器，发现 AV-LMM 在二分类真伪判断上已超过专家模型，但在细粒度伪造分类与解释推理上几乎全线崩溃。

研究背景与动机¶

领域现状：音视频（AV）伪造检测目前主要靠两类资源支撑——一类是早期的人脸 deepfake 数据集（FF++、Celeb-DF、DFDC），另一类是引入跨模态组合的多模态 deepfake 数据集（FakeAVCeleb、LAV-DF、AVDeepFake1M）。检测方法上则以针对合成语音/人脸的专家检测器（LipFD、AVH-Align）为主。

现有痛点：现有基准在三个维度上同时受限。(1) 主体单一：几乎只盯着人脸/人声，无法覆盖自然风光、动物、交通、工业等真实世界的广阔场景；(2) 伪造类型单一：要么只做编辑（editing）、要么只做合成（synthesis），不建模二者共存以及跨模态混合的复杂组合；(3) 标注粒度单一：只有「真/假」二元标签，没有伪造类型、伪造细节、可解释理由这些细粒度标注，离人类感知的伪造判断差得远。

核心矛盾：生成模型（Sora、KLING、FoleyCrafter 等）已经能造出高保真、音画同步的伪造内容，伪造正在从「人脸 deepfake」迅速扩散到「任意自然场景 + 音视频任意模态」；而评测基准还停留在人脸二分类时代，导致我们既不知道新一代检测器在真实场景下到底行不行，也无法考核它「能不能定位、描述、解释伪造」。

本文目标：造一个同时拓宽「主体广度、伪造类型、标注深度」三轴的基准，并据此回答一个关键问题——天然带语言生成能力的 AV-LMM，能不能当统一的、可解释的伪造检测器？

切入角度：作者注意到 AV-LMM（如 VideoLLaMA2、video-SALMONN）能联合处理视听信号并生成自然语言，这让「可解释的伪造评测」第一次成为可能；于是不止考二分类，而是设计四级递进任务把 AV-LMM 的感知与推理能力逐层压测。

核心 idea：用「专有模型规划伪造意图 + 专家生成模型精确执行」的解耦式混合伪造框架，低成本批量造出跨场景、跨模态、多类型的高保真伪造数据，再配 4 级标注，把音视频伪造检测从「二分类」升级为「检测—定位—描述—解释」的多任务评测。

方法详解¶

整体框架¶

AVFakeBench 的核心不是一个模型，而是一套数据基准 + 评测协议。它由四块拼成：① 一个把音视频内容划成 Real/Edit/Synthesis 三态、并交叉组合出 7 类合法跨模态伪造类型的分类体系（taxonomy）；② 人类主体部分（1500 片段），从已有数据集重组到 7 类体系里；③ 通用主体部分（1500 片段），全部由多阶段混合伪造框架新造；④ 一套 4 级标注 + 4 个评测任务，用 LMM 辅助标注 + 人工核验把每个样本升级成多级问答。最终得到 3K 音视频片段、12K 问答对。

伪造类型的组合矩阵是基础：音、视频各有 Real(R)/Edit(E)/Synthesis(S) 三态，理论上 9 种组合，但「一模态合成 + 另一模态编辑」（如合成视频配局部编辑音频）会带来明显的语义/时序错位、难以造出自然样本，因此剔除 SA&EV、EA&SV 两种，保留 7 类语义自洽的组合：RA&RV、RA&EV、RA&SV、EA&RV、EA&EV、SA&RV、SA&SV。

数据构建的关键在通用主体的伪造生成 pipeline，它把「想怎么造假」和「具体怎么造」解耦成三阶段，并分合成 / 编辑两条支路：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实音视频<br/>(VGGSound 等)"] --> B["伪造类型体系<br/>R/E/S 三态 × 7 类组合"]
    B --> C["专有模型规划<br/>生成动态描述 / 编辑指令"]
    C -->|合成支路| D["专家模型执行·合成<br/>I2V→V2A 造全新内容"]
    C -->|编辑支路| E["专家模型执行·编辑<br/>SAM2 掩膜+局部改+对齐音"]
    D --> F["伪造组合<br/>重组真/伪音视频流→7类"]
    E --> F
    F --> G["多级标注与问答<br/>L1判真伪/L2分类/L3选细节/L4解释"]
    G --> H["AVFakeBench<br/>3K片段 / 12K QA"]

关键设计¶

1. 三态 × 7 类跨模态伪造体系：把「真实世界的混合伪造」结构化

现有基准只标「真/假」，无法表达「音频被编辑但视频真实」这类真实世界常见的混合攻击。作者把音、视频内容各定义为 Real / Edited / Synthesized 三种规范状态，按模态交叉组合。理论 \(3\times3=9\) 种里剔除两种语义难自洽的（合成+编辑跨模态错配），保留 7 类：RA&RV（全真）、RA&EV、RA&SV、EA&RV、EA&EV、SA&RV、SA&SV。这套体系既给数据构建定了目标配方，也给评测里的「伪造类型分类（L2/T2）」提供了 7 选项标签空间，让模型不只要判真伪、还要说清「假在哪个模态、是编辑还是合成」。

2. 多阶段混合伪造框架：规划与执行解耦，低成本造高保真假数据

通用场景比人脸难造——物体、环境、事件高度多样，直接让视频生成模型自由发挥，往往得到运动不稳、物理不合理的画面。作者的解法是把伪造拆成「规划意图」和「精确执行」两层，并分合成、编辑两条三阶段支路。合成支路：Stage 1 用专有 LMM 做规划，两种条件策略——frame-driven（拿真实视频首帧当视觉锚点、让 LMM 预测合理的时序演化）和 scenario-driven（按 10 个真实场景之一生成静态场景描述，经 T2I 如 Midjourney 转成首帧），再把静态描述扩成结构化的动态运动规格；Stage 2 用 I2V 模型（KLING、QingYing）把首帧+运动提示合成视频，再用 V2A 生成器（FoleyCrafter）配上时序对齐的音频；Stage 3 把真/合成的音视频流重组，实例化 RA&SV、SA&RV、SA&SV 三类。编辑支路：Stage 1 对真实视频均匀采 8 帧，让专有模型提一个合理的局部篡改建议（如「在 3-5 秒内移除水中央的小船」），转成含目标区域、时间窗、编辑操作的结构化编辑规格；Stage 2 走两条互补路径——生成式编辑（把片段+指令喂给闭源视频编辑模型如 KLING，并手动约束编辑区域保证局部性）和掩膜式编辑（用 SAM2 分割目标对象、把 mask 连同原片段交给视频编辑模型精确改），改完再用 V2A 生成对齐的编辑音频；Stage 3 把编辑后的音视频段插回原位置并重组，实例化 RA&EV、EA&RV、EA&EV 三类。整个过程在关键阶段都有人工监督把关真实性、保真度与多样性。这种「专有模型当导演、专家模型当执行者、人当质检」的分工，是它能批量造出跨场景、跨模态、高保真伪造的关键。

3. 4 级递进标注 + LMM 辅助标注流水线：把数据从「真假标签」升级成「可解释问答」

要考核 AV-LMM 的感知与推理，光有真假标签不够。作者设计 4 级标注：L1 二元判断（这段音视频是否经 AI 处理）、L2 伪造类型分类（属于 7 类中哪一类）、L3 伪造细节选择（5 选 1 挑出最显著的伪造证据）、L4 解释推理（用自然语言说清在哪、改了什么、有何视觉/语义破绽）。其中 L1、L2 在数据构建时就由已知真假态和伪造体系直接确定；但给 12000 个复杂样本人工写 L3/L4 既耗时又主观，于是作者搭了 LMM 多模态标注器：给 LMM 喂一组互补证据——均匀采样的视频帧（空间外观）、运动热力图（时序运动）、Mel 频谱（频域异常）、放大的高频图（混合痕迹/篡改噪声等细微 artifact），再给出真值伪造类型标签（让模型专注「解释怎么造的」而非猜类别）。LMM 先生成 L4 自然语言理由，再从理由里抽最显著证据作为 L3 正确项、并生成 4 个语义相关的干扰项凑成 5 选 1；所有 L3/L4 标注最后过人工核验把关合理性、正确性与清晰度。

评测协议与指标¶

基准配套 4 个递进任务：T1 二元真伪判断、T2 多选伪造类型分类、T3 伪造细节选择、T4 开放式伪造解释。T1–T3 报告 accuracy 与 macro-F1（兼顾整体正确率与类别不均衡）；因部分开源 AV-LMM 指令跟随差，采用稳健的答案解析（先查显式选项字母，字母与解释内容矛盾时以解释里提到的选项内容为准，必要时用 GPT-5 当中立解析器抽取意图选项，无法识别记为 NA）。T4 开放式解释用 GPT-Score（GPT-5 打的推理分，0-100）。此外用基于各伪造类型 recall 的 Normalized Bias Index (NBI) 量化模型系统性偏好（某模型不看内容、只偏向某一两个选项的倾向）。

实验关键数据¶

评测覆盖 5 个开源 AV-LMM（PandaGPT、OneLLM、VideoLLaMA2、video-SALMONN、AVicuna）、6 个专有 AV-LMM（GPT-4o + Gemini-2.0/2.5 系列共 5 个）、2 个专家检测器（LipFD、AVH-Align）。

主实验：四级任务总体表现（部分模型，%）¶

模型	T1 真伪 F1 (Overall)	T2 分类 F1 (Overall)	T3 细节 F1 (Overall)	T4 解释 GPT-Score
LipFD（专家）	32.1	—	—	—
AVH-Align（专家）	42.8	—	—	—
GPT-4o	56.9	12.2	27.5	29.0
Gemini-2.5-flash	59.0	11.3	31.8	26.6
Gemini-2.5-pro	59.9	19.2	21.9	30.9
video-SALMONN（开源）	40.0	4.6	17.8	4.4
Video-LLaMA2（开源）	51.1	2.5	13.0	21.4
PandaGPT（开源）	25.0	5.5	12.6	20.4

关键对比：专家检测器在人类主体上 F1 仅 45.0/51.7%，到通用主体进一步跌到 18.9–34.3%——说明它们重度依赖人脸 deepfake artifact，出了训练域就失效；而 Gemini-2.5-pro 在人类主体 63.3%、通用主体仍有 54.3%，跨域更稳。但所有模型一到 T2/T3/T4 就断崖式下跌，最强的 Gemini-2.5-pro 在 T2 也只有 19.2% F1，相对 T1 约 70% 的性能跌幅。

分析：伪造类型分类按三态拆分（T2，F1 %）¶

模型	Real F1	Edit F1	Synthesis F1	Overall F1
GPT-4o	15.2	3.9	5.5	12.2
Gemini-2.5-flash-lite	49.3	5.4	5.8	15.6
Gemini-2.5-pro	42.8	7.5	13.9	19.2
PandaGPT	7.2	0.3	2.2	5.5
Video-LLaMA2	0.0	2.4	3.7	2.5

Edit（编辑类）是最难的一档：即便最强的 Gemini-2.5-pro 在编辑伪造上也只有 7.5% F1，远低于其在真实/合成样本上的表现。编辑往往是局部、低可见度的改动，模型几乎抓不住，直接证明当前 AV-LMM 缺乏可靠的细粒度感知。

关键发现¶

AV-LMM 已是有潜力的统一伪造检测器：在 T1 二元真伪判断上普遍超过专门训练的专家检测器，且在人类/通用主体间表现更均衡——天然的跨域鲁棒性来自大模型的通用先验。
细粒度感知是硬伤：从 T1 到 T2/T3，性能约掉 70%；编辑类伪造（局部低可见度篡改）最难识别，是当前模型的共同盲区。
解释推理能力极弱：开源模型在 T4 GPT-Score 普遍个位数到 20 出头（OneLLM 仅 1.0、video-SALMONN 仅 4.4），专有模型虽更好但 GPT-4o 也只有 29.0，离实用差很远。
强系统性偏置（NBI）：多数模型在 T2 上塌缩到一两个主导类别（尤其偏向 RA&RV「全真」），说明它们没学到可靠的跨模态篡改线索，不确定时就退回到「最安全/统计上最常见」的选项。

亮点与洞察¶

「规划—执行解耦」是造高保真伪造数据的关键 trick：用专有 LMM 当导演产出结构化的动态描述/编辑指令，再交给专家生成模型精确执行，既绕开了视频生成自由发挥导致的物理不合理，又能批量覆盖多场景多类型——这套范式可迁移到其他需要可控合成数据的任务（如可控视频编辑数据集、对抗样本生成）。
多模态证据喂给标注 LMM：把帧、运动热力图、Mel 频谱、放大高频图一起给 LMM 当上下文，让它从空间/时序/频域三个角度找破绽再写解释——这是给「可解释伪造标注」找证据的实用配方。
NBI 偏置指标点破假象：用基于 recall 的归一化偏置指数揭示模型「不看内容只猜安全选项」的塌缩行为，提醒后续 benchmark 不能只看 accuracy，否则会被偏置刷出的高分误导。
最大「啊哈」点：AV-LMM 在二分类上能赢专家模型，却在「说清楚假在哪」上几乎全军覆没——说明它们更像「凭通用先验猜真假」，而非真的感知到伪造痕迹。

局限性 / 可改进方向¶

依赖闭源生成与标注模型：伪造数据用 KLING/QingYing/Midjourney 等闭源模型生成、L3/L4 标注用 LMM + GPT-5，数据分布与标注质量受这些黑盒模型左右，复现与版本漂移是隐患。
剔除了 2 类跨模态组合：为保自然性砍掉 SA&EV、EA&SV，伪造类型空间并非完整 9 类，对「合成+编辑混搭」这类潜在攻击覆盖不足。
规模偏评测向：3K 片段 / 12K QA 适合评测，但作为训练集偏小；论文也未充分探讨能否用它微调出更强的检测/解释能力（基准定位本就如此，但这是自然延伸）。
解释质量靠 GPT-Score：T4 用 GPT-5 打分，评测器本身的偏好与可靠性会影响结论，缺乏与人工评分的一致性校验（⚠️ 细节以原文 Appendix 为准）。
改进思路：补齐细粒度感知（如显式接入高频/频谱分支再做对齐）、用 NBI 做去偏训练、把基准扩成训练集做检测器对齐，都是值得跟进的方向。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个「多主体 + 7 类跨模态伪造 + 4 级标注」的综合 AV 伪造基准，并提出规划/执行解耦的混合伪造框架
实验充分度: ⭐⭐⭐⭐⭐ 评测 11 个 AV-LMM + 2 个专家检测器、4 级任务 + NBI 偏置 + 模态差异等多维分析
写作质量: ⭐⭐⭐⭐ 三轴动机清晰、图表完整；数据构建细节较多，部分指标定义需查 Appendix
价值: ⭐⭐⭐⭐⭐ 揭示 AV-LMM「能判真伪、不会解释」的真实差距，为下一代可解释伪造检测立了标尺