跳转至

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

会议: CVPR 2026
arXiv: 2506.01783
代码: 无
领域: LLM推理
关键词: 人脸反欺骗, 思维链推理, 多模态大语言模型, VQA数据集, 渐进式学习

一句话总结

构建首个面向人脸反欺骗(FAS)的CoT-VQA数据集 FaceCoT(108万样本,14种攻击类型),并提出分两阶段渐进学习策略 CEPL,在11个FAS基准上平均AUC提升4.06%、HTER降低5.00%。

研究背景与动机

领域现状:人脸反欺骗(FAS)需要检测打印攻击、屏幕重放、3D面具等呈现攻击。现有方法主要依赖单一视觉模态的CNN/ViT分类器,在跨设备、跨环境、跨攻击类型时泛化能力有限,且缺乏可解释性。

现有痛点:多模态大语言模型(MLLMs)在图文理解和语义推理上已有突破,但FAS领域缺乏高质量的视觉-语言多模态数据集——公开FAS数据集只有图像/视频+二值标签,没有结构化语言标注。

核心矛盾:直接用有限标签数据训练MLLM会过拟合,且无法提供可解释的推理链。同时端到端训练CoT推理和分类会导致任务干扰——分类目标收敛快,推理目标优化不充分。

本文目标 (1) 构建FAS领域的大规模CoT-VQA数据集;(2) 设计能充分利用CoT数据的训练策略。

切入角度:模仿人类"从全局到局部"的层次化推理过程,设计6层CoT标注格式;用GPT-4o+人工校验+RL微调的caption模型三阶段构建数据集。

核心 idea:用结构化CoT标注数据增强MLLM的视觉编码器对细粒度面部特征的感知,再联合训练推理+分类实现FAS。

方法详解

整体框架

方法包含两部分:(1) FaceCoT 数据集构建(6层CoT格式、GPT-4o标注、RL增强caption模型扩展);(2) CoT-Enhanced Progressive Learning (CEPL) 两阶段训练策略。输入是人脸图像,输出是真假判别+CoT推理文本。

关键设计

  1. FaceCoT 数据集构建:

    • 功能:构建108万样本的FAS CoT-VQA数据集
    • 核心思路:
      • 6层CoT格式:Caption(全图) → Facial Description(面部区域) → Facial Attributes(面部属性细节) → Reasoning(综合分析) → Spoofing Description(欺骗特征描述) → Conclusion(结论)
      • FaceCoT-Gold100K:从 CelebA-Spoof + WFAS 平衡采样10万样本,用GPT-4o标注初始CoT,正确率约98.97K/100K;581个hard case由专业标注员手动修正
      • FaceCoT-Silver982K:在Gold100K上训练FAS caption模型,用RL(VRFT)优化——准确度奖励(Conclusion与GT一致得1分)+ 格式奖励(是否符合模板),将标注准确率从SFT的88%提升到99.6%。用该模型标注剩余数据得98.2万条
    • 设计动机:分层CoT模拟人类认知过程,从全局场景到局部细节再到逻辑判断;RL优化解决了SFT caption模型在OOD数据上的语义+格式错误
  2. CoT-Enhanced Progressive Learning (CEPL) — Stage 1: Visual Enhancement Pre-training:

    • 功能:用CoT数据增强视觉编码器的细粒度特征表示
    • 核心思路:对MLLM全参数做SFT,输入图像、监督信号为CoT推理文本。迫使视觉编码器学会提取与语言描述精确对齐的面部细节特征(质感、光照、边缘伪影等)
    • 设计动机:如果端到端同时训练CoT+分类,分类loss收敛快会"截断"CoT推理的优化,视觉编码器无法充分利用CoT中的细粒度视觉线索
  3. CEPL — Stage 2: Multi-task Joint Training:

    • 功能:联合优化CoT推理和二值分类
    • 核心思路:保留Stage 1的视觉编码器权重,将connector和LLM decoder重置为预训练权重,用LoRA微调decoder。在CoT标注数据和二值标签数据上联合训练,多任务loss
    • 设计动机:重置decoder防止Stage 1的CoT-only训练偏置影响分类性能;LoRA高效微调保持预训练知识;继承视觉编码器确保细粒度特征表示不丢失

损失函数 / 训练策略

Stage 1: 标准自回归语言建模loss on CoT文本,全参数SFT。Stage 2: 多任务loss = CoT生成loss + 二值分类loss,LoRA微调LLM decoder + connector。RL阶段:准确度奖励(0/1) + 格式奖励的组合。

实验关键数据

主实验

11个FAS基准数据集,平均指标

方法 Avg HTER(%)↓ Avg AUC(%)↑
ViTAF 23.85 82.82
ViT-B 23.48 82.98
ViT-L ~20 ~85
FLIP ~18 ~87
I-FAS ~13 ~92
Ours-All ~8 ~96

关键单数据集结果

数据集 Ours-All HTER Ours-All AUC I-FAS HTER I-FAS AUC
CASIA-MFSD 0.00 100.00 1.11 99.88
3DMask 0.40 99.98 6.18 98.40
OULU-NPU 5.86 97.72 14.86 91.68
HiFiMask 15.93 91.30 28.23 77.17

消融实验

配置 效果 说明
Ours-CelebA 基础 仅用CelebA-Spoof的caption模型标注
Ours-100K 稍好 FaceCoT-Gold100K(GPT-4o+人工校验)
Ours-All 最优 Gold100K + Silver982K 完整数据集
w/o CEPL (端到端) 较差 验证了两阶段训练的必要性
SFT-only caption model 88%准确率 RL显著提升至99.6%

关键发现

  • 数据规模至关重要:从100K到1.08M的数据扩展(Silver数据)在难数据集(如HiFiMask)上带来显著提升
  • CEPL两阶段策略比端到端训练大幅优于——分阶段优化避免了CoT推理和分类之间的任务干扰
  • RL微调将caption模型标注准确率从88%提升到99.6%,解决了跨域语义和格式错误
  • 在多个数据集上达到100% AUC(如CASIA-MFSD),说明CoT引导的细粒度特征学习极为有效
  • 3D面具攻击(HiFiMask)仍然最具挑战性,但本方法将HTER几乎减半(28.23→15.93)

亮点与洞察

  • 6层CoT标注格式设计精巧:Caption→Facial Description→Facial Attributes→Reasoning→Spoofing Description→Conclusion,从全局到局部再到逻辑判断,完全模拟了人类专家的认知流程。这种层次化设计不仅适用于FAS,可迁移到任何需要多粒度视觉推理的安全检测任务
  • RL增强caption模型实现低成本数据扩展:用10万高质量标注训练caption模型+RL微调,即可自动标注近100万条数据且准确率达99.6%,大幅降低了标注成本。这个"少量金标+RL扩展"的流程可复用
  • 两阶段训练解耦推理和分类:Stage 1专注于用CoT文本监督强化视觉编码器,Stage 2重置decoder后联合训练。关键洞察是分类loss收敛快会"饿死"推理loss的优化空间

局限与展望

  • 数据集构建高度依赖GPT-4o,初始标注质量与GPT-4o能力绑定;若开源模型能达到类似质量可降低成本
  • 108万量级对MLLM训练来说仍不算很大,可探索更激进的数据扩展
  • 仅在静态图像上验证,未涉及视频级别的时序线索(如闪烁、3D运动)
  • Stage 1全参数SFT的计算开销较大,可探索是否LoRA也能达到类似效果
  • CoT推理文本作为中间输出在推理时增加了延迟,实际部署需考虑是否可省略

相关工作与启发

  • vs I-FAS: I-FAS 是之前的MLLM-based FAS方法,但没有CoT推理。本文在I-FAS擅长的Rose-Youtu上持平,但在跨域场景下大幅领先
  • vs LLaVA-CoT: LLaVA-CoT 用 "summary-caption-reasoning-conclusion" 4层结构做通用推理,本文针对FAS设计了更细化的6层结构,加入了Facial Description和Attributes两个面部特定层次
  • vs VRFT (RL策略): 借鉴了VRFT的可验证RL策略,将其应用于caption模型训练,设计了FAS特定的准确度+格式奖励

评分

  • 新颖性: ⭐⭐⭐⭐ 首个FAS CoT-VQA数据集+渐进式训练策略,但技术组件(CoT, CEPL)本身并不全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 11个基准数据集、多个训练配置对比、详尽的消融
  • 写作质量: ⭐⭐⭐⭐ 数据构建流程清晰,但方法创新部分相对简单
  • 价值: ⭐⭐⭐⭐ 数据集贡献显著,方法有效但特定于FAS领域