Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing¶

会议: CVPR 2026
arXiv: 2506.01783
代码: 无
领域: LLM推理
关键词: 人脸反欺骗, 思维链推理, 多模态大语言模型, VQA数据集, 渐进式学习

一句话总结¶

构建首个面向人脸反欺骗(FAS)的CoT-VQA数据集 FaceCoT（108万样本，14种攻击类型），并提出分两阶段渐进学习策略 CEPL，在11个FAS基准上平均AUC提升4.06%、HTER降低5.00%。

研究背景与动机¶

领域现状：人脸反欺骗(FAS)需要检测打印攻击、屏幕重放、3D面具等呈现攻击。现有方法主要依赖单一视觉模态的CNN/ViT分类器，在跨设备、跨环境、跨攻击类型时泛化能力有限，且缺乏可解释性。

现有痛点：多模态大语言模型(MLLMs)在图文理解和语义推理上已有突破，但FAS领域缺乏高质量的视觉-语言多模态数据集——公开FAS数据集只有图像/视频+二值标签，没有结构化语言标注。

核心矛盾：直接用有限标签数据训练MLLM会过拟合，且无法提供可解释的推理链。同时端到端训练CoT推理和分类会导致任务干扰——分类目标收敛快，推理目标优化不充分。

本文目标 (1) 构建FAS领域的大规模CoT-VQA数据集；(2) 设计能充分利用CoT数据的训练策略。

切入角度：模仿人类"从全局到局部"的层次化推理过程，设计6层CoT标注格式；用GPT-4o+人工校验+RL微调的caption模型三阶段构建数据集。

核心 idea：用结构化CoT标注数据增强MLLM的视觉编码器对细粒度面部特征的感知，再联合训练推理+分类实现FAS。

方法详解¶

整体框架¶

方法包含两部分：(1) FaceCoT 数据集构建（6层CoT格式、GPT-4o标注、RL增强caption模型扩展）；(2) CoT-Enhanced Progressive Learning (CEPL) 两阶段训练策略。输入是人脸图像，输出是真假判别+CoT推理文本。

关键设计¶

FaceCoT 数据集构建:
- 功能：构建108万样本的FAS CoT-VQA数据集
- 核心思路：
  - 6层CoT格式：Caption(全图) → Facial Description(面部区域) → Facial Attributes(面部属性细节) → Reasoning(综合分析) → Spoofing Description(欺骗特征描述) → Conclusion(结论)
  - FaceCoT-Gold100K：从 CelebA-Spoof + WFAS 平衡采样10万样本，用GPT-4o标注初始CoT，正确率约98.97K/100K；581个hard case由专业标注员手动修正
  - FaceCoT-Silver982K：在Gold100K上训练FAS caption模型，用RL(VRFT)优化——准确度奖励（Conclusion与GT一致得1分）+ 格式奖励（是否符合模板），将标注准确率从SFT的88%提升到99.6%。用该模型标注剩余数据得98.2万条
- 设计动机：分层CoT模拟人类认知过程，从全局场景到局部细节再到逻辑判断；RL优化解决了SFT caption模型在OOD数据上的语义+格式错误
CoT-Enhanced Progressive Learning (CEPL) — Stage 1: Visual Enhancement Pre-training:
- 功能：用CoT数据增强视觉编码器的细粒度特征表示
- 核心思路：对MLLM全参数做SFT，输入图像、监督信号为CoT推理文本。迫使视觉编码器学会提取与语言描述精确对齐的面部细节特征（质感、光照、边缘伪影等）
- 设计动机：如果端到端同时训练CoT+分类，分类loss收敛快会"截断"CoT推理的优化，视觉编码器无法充分利用CoT中的细粒度视觉线索
CEPL — Stage 2: Multi-task Joint Training:
- 功能：联合优化CoT推理和二值分类
- 核心思路：保留Stage 1的视觉编码器权重，将connector和LLM decoder重置为预训练权重，用LoRA微调decoder。在CoT标注数据和二值标签数据上联合训练，多任务loss
- 设计动机：重置decoder防止Stage 1的CoT-only训练偏置影响分类性能；LoRA高效微调保持预训练知识；继承视觉编码器确保细粒度特征表示不丢失

损失函数 / 训练策略¶

Stage 1: 标准自回归语言建模loss on CoT文本，全参数SFT。Stage 2: 多任务loss = CoT生成loss + 二值分类loss，LoRA微调LLM decoder + connector。RL阶段：准确度奖励(0/1) + 格式奖励的组合。

实验关键数据¶

主实验¶

11个FAS基准数据集，平均指标

方法	Avg HTER(%)↓	Avg AUC(%)↑
ViTAF	23.85	82.82
ViT-B	23.48	82.98
ViT-L	~20	~85
FLIP	~18	~87
I-FAS	~13	~92
Ours-All	~8	~96

关键单数据集结果

数据集	Ours-All HTER	Ours-All AUC	I-FAS HTER	I-FAS AUC
CASIA-MFSD	0.00	100.00	1.11	99.88
3DMask	0.40	99.98	6.18	98.40
OULU-NPU	5.86	97.72	14.86	91.68
HiFiMask	15.93	91.30	28.23	77.17

消融实验¶

配置	效果	说明
Ours-CelebA	基础	仅用CelebA-Spoof的caption模型标注
Ours-100K	稍好	FaceCoT-Gold100K（GPT-4o+人工校验）
Ours-All	最优	Gold100K + Silver982K 完整数据集
w/o CEPL (端到端)	较差	验证了两阶段训练的必要性
SFT-only caption model	88%准确率	RL显著提升至99.6%

关键发现¶

数据规模至关重要：从100K到1.08M的数据扩展（Silver数据）在难数据集（如HiFiMask）上带来显著提升
CEPL两阶段策略比端到端训练大幅优于——分阶段优化避免了CoT推理和分类之间的任务干扰
RL微调将caption模型标注准确率从88%提升到99.6%，解决了跨域语义和格式错误
在多个数据集上达到100% AUC（如CASIA-MFSD），说明CoT引导的细粒度特征学习极为有效
3D面具攻击（HiFiMask）仍然最具挑战性，但本方法将HTER几乎减半（28.23→15.93）

亮点与洞察¶

6层CoT标注格式设计精巧：Caption→Facial Description→Facial Attributes→Reasoning→Spoofing Description→Conclusion，从全局到局部再到逻辑判断，完全模拟了人类专家的认知流程。这种层次化设计不仅适用于FAS，可迁移到任何需要多粒度视觉推理的安全检测任务
RL增强caption模型实现低成本数据扩展：用10万高质量标注训练caption模型+RL微调，即可自动标注近100万条数据且准确率达99.6%，大幅降低了标注成本。这个"少量金标+RL扩展"的流程可复用
两阶段训练解耦推理和分类：Stage 1专注于用CoT文本监督强化视觉编码器，Stage 2重置decoder后联合训练。关键洞察是分类loss收敛快会"饿死"推理loss的优化空间

局限与展望¶

数据集构建高度依赖GPT-4o，初始标注质量与GPT-4o能力绑定；若开源模型能达到类似质量可降低成本
108万量级对MLLM训练来说仍不算很大，可探索更激进的数据扩展
仅在静态图像上验证，未涉及视频级别的时序线索（如闪烁、3D运动）
Stage 1全参数SFT的计算开销较大，可探索是否LoRA也能达到类似效果
CoT推理文本作为中间输出在推理时增加了延迟，实际部署需考虑是否可省略

评分¶

新颖性: ⭐⭐⭐⭐ 首个FAS CoT-VQA数据集+渐进式训练策略，但技术组件（CoT, CEPL）本身并不全新
实验充分度: ⭐⭐⭐⭐⭐ 11个基准数据集、多个训练配置对比、详尽的消融
写作质量: ⭐⭐⭐⭐ 数据构建流程清晰，但方法创新部分相对简单
价值: ⭐⭐⭐⭐ 数据集贡献显著，方法有效但特定于FAS领域