AbductiveMLLM: Boosting Visual Abductive Reasoning Within MLLMs¶

会议: AAAI 2026
arXiv: 2601.02771
代码: https://github.com/ChangPtR/AbdMLLM
领域: 多模态VLM
关键词: visual abductive reasoning, MLLM, diffusion model, contrastive learning, pictorial thinking

一句话总结¶

受人类认知中"语言溯因+图像想象"双模式启发，提出 AbductiveMLLM，通过 Reasoner（因果对比学习筛选假设）和 Imaginer（扩散模型图像化推理）两个协同组件增强 MLLM 的视觉溯因推理能力，在 VAR 和 YouCookII 基准上取得 SOTA。

研究背景与动机¶

视觉溯因推理（VAR）要求 AI 从不完整的视觉观测中推断最可能的解释，是人类认知的核心能力之一。当前面临的核心问题：

MLLM 溯因能力不足：虽然 GPT-4o 等 MLLM 在 VQA 等任务上表现优秀，但在因果推理方面与人类存在显著差距——GPT-4o-mini 在 VAR 上 CIDEr 仅 7.30，远低于人类的 147.79
现有方法局限：传统小模型（REASONER、UPD-Trans）专注于语言推理，忽略了人类认知中的"图像化思维"——人类不仅能用语言推理，还能在脑中想象可能的场景
核心切入点：模拟人类认知中语言推理（verbal abduction）与图像想象（pictorial abduction）的协同作用

方法详解¶

整体框架¶

AbductiveMLLM 包含两个端到端联合训练的组件： 1. Reasoner（语言域）：用盲 LLM 生成候选假设 → 因果对比学习筛选 → 作为先验指导 MLLM 推理 2. Imaginer（图像域）：基于 Stable Diffusion 的扩散模型，利用 Reasoner 的输出嵌入和视觉观测生成"想象"场景，反哺语言推理

任务定义：给定视频序列 \(\mathcal{V}=\{O_1,\dots,O_{t-1},H,O_t,\dots,O_{T-1}\}\)，其中 \(H\) 是未观测事件，目标是推断 \(H\) 的最可能语言解释 \(E_h\)。

关键设计¶

设计一：因果感知假设生成与筛选（CHG）

分两步实现：

Step 1 - 候选假设生成：用预训练 MLLM 为每个观测事件生成视频描述 \(\mathcal{C}=\{C_t\}_{t=1}^{T-1}\)，然后以高温度（1.4）多次提示 GPT-4o-mini 生成 \(L\) 个多样化候选假设 \(\mathcal{Y}=\{Y_i\}_{i=1}^{L}\)。

Step 2 - 因果对比学习筛选：将视频序列分为初始段 \(\mathcal{I}\)、过程段 \(\mathcal{P}\)、终结段 \(\mathcal{F}\)，通过视觉编码器 \(\Phi_V\) 和文本编码器 \(\Phi_T\) 映射到联合因果空间。训练使用 NT-Xent 损失：

\[\mathcal{L}_{\text{Contrast}}=-\log\frac{\exp(\langle \boldsymbol{X}_{\mathcal{I}}+\boldsymbol{X}_{\mathcal{P}}^{+}, \boldsymbol{X}_{\mathcal{F}}\rangle/\tau)}{\sum_{i=1}^{M}\exp(\langle \boldsymbol{X}_{\mathcal{I}}+\boldsymbol{X}_{\mathcal{P}}^{i-,+}, \boldsymbol{X}_{\mathcal{F}}\rangle/\tau)}\]

推理时对每个候选假设计算因果相关度分数 \(\text{Score}(Y_i)=\langle \boldsymbol{X}_{\mathcal{I}}+\boldsymbol{X}_{Y_i}, \boldsymbol{X}_{\mathcal{F}}\rangle\)，选取 top-\(k\)（\(k=3\)）假设。与标准对比学习的本质区别在于：这里的"正样本"基于因果关系而非表面相似性——即使假设与视频内容相似但因果不成立，也会被排除。

设计二：Imaginer 扩散模型的图像化推理

在 Stable Diffusion 的 U-Net 中引入三种轻量级适配器：

V-Adapter（视觉交叉注意力）：注入观测视频的视觉先验。采用局部-全局混合表示：
- 局部表示：用 CLIP 计算每帧与解释 \(E_h\) 的相似度 \(\gamma^i\)，保留高分帧拼接为 \(\boldsymbol{c}_{local}\)
- 全局表示：加权平均 \(\boldsymbol{c}_{global}=\sum_{i=1}^{N}\gamma^i \boldsymbol{c}_v^i\)
- 交叉注意力：\(\text{V-Adapter}(\boldsymbol{Q},\boldsymbol{K}_v,\boldsymbol{V}_v)=\text{Softmax}(\frac{\boldsymbol{Q}\boldsymbol{K}_v^{\top}}{\sqrt{d_k}})\boldsymbol{V}_v\)
T-Adapter（时间卷积）：建模帧间时间依赖，使用深度可分离 3D 卷积：\(\text{T-Adapter}(\boldsymbol{x})=\boldsymbol{x}+\text{Conv3D}_{up}(\text{Conv3D}_{down}(\boldsymbol{x}))\)
F-Adapter（FFN 适配器）：增强空间表示，与 FFN 并行：\(\text{F-Adapter}(\boldsymbol{x})=\boldsymbol{x}+\text{FC}_{up}(\text{GELU}(\text{FC}_{down}(\boldsymbol{x})))\)

设计三：两阶段端到端训练

Stage I：分别训练——MLLM 用 LoRA 微调（\(\mathcal{L}_{CE}\)），Imaginer 冻结 SD 权重只训练适配器（\(\mathcal{L}_{Diffusion}\)），加 Min-SNR 加权策略
Stage II：联合端到端微调——\(\mathcal{L}=\mathcal{L}_{CE}+\alpha\mathcal{L}_{Diffusion}\)，其中 \(\alpha=5\)

损失函数 / 训练策略¶

总损失：\(\mathcal{L}=\mathcal{L}_{CE}+\alpha\mathcal{L}_{Diffusion}\)，\(\alpha=5\) 时效果最佳。Stage I 训练 2 个 epoch，对比学习模块训练 10 个 epoch（每个正样本 100 个难负例），Stage II 联合微调 1 个 epoch。使用 4 张 A800 80GB GPU。

实验关键数据¶

主实验¶

VAR 测试集结果：

方法	BLEU@4	METEOR	ROUGE	CIDEr	BERT-S
Human	11.35	19.36	36.92	147.79	40.59
REASONER	3.44	9.05	22.89	30.75	30.64
UPD-Trans	5.40	11.16	25.62	41.66	30.80
GPT-4o-mini	0.63	7.38	13.64	7.30	12.27
Qwen2VL-7B	2.41	11.29	21.61	29.25	30.01
Qwen2VL-7B (FT)	5.67	12.77	27.11	50.82	36.03
AbductiveMLLM	6.54	13.41	27.95	57.04	36.80

YouCookII 测试集结果：

方法	BLEU@4	METEOR	ROUGE	CIDEr	BERT-S
REASONER	3.54	9.47	24.62	32.99	23.19
Qwen2VL-7B (FT)	5.66	12.62	28.64	68.44	29.09
AbductiveMLLM	6.16	13.46	30.06	77.70	30.77

消融实验¶

核心组件消融（VAR 测试集）：

CHG	Imaginer	BLEU@4	METEOR	ROUGE	CIDEr	BERT-S
✗	✗	5.67	12.77	27.11	50.82	36.03
✓	✗	6.33	12.96	27.21	53.60	36.31
✗	✓	6.35	13.07	27.52	55.00	36.40
✓	✓	6.54	13.41	27.95	57.04	36.80

Imaginer 适配器消融：

变体	CIDEr	BERT-S
完整模型	57.04	36.80
去掉 V-Adapter	54.51	36.68
去掉 T-Adapter	54.99	36.68
去掉 F-Adapter	54.52	36.63

Top-\(k\) 假设数量：\(k=3\) 最优（CIDEr 57.04），\(k=10\) 时下降至 53.66。

关键发现¶

CHG 和 Imaginer 各自独立贡献约 +2.78 和 +4.18 CIDEr，联合使用达到 +6.22
Imaginer（图像化推理）在语义指标（METEOR/ROUGE）上贡献更大，说明视觉想象能丰富语言表达
即使最强 MLLM（Qwen2VL-7B FT）也远低于人类表现（57.04 vs 147.79 CIDEr）
\(\alpha\) 系数在 1-9 范围内变化不敏感，模型鲁棒性好

亮点与洞察¶

首次将"图像化思维"引入视觉溯因推理，模拟人类双模式认知
因果对比学习（而非表面相似性匹配）是筛选假设的关键，捕捉了从前提到结论的因果链
扩散模型不是为了生成高质量图像，而是作为推理引导——潜空间的去噪损失迫使模型收敛到视觉上合理的结果
轻量级适配器设计（V/T/F-Adapter）使得在 Stable Diffusion 上做视频推理成为可能

局限与展望¶

与人类表现差距仍然巨大（CIDEr 57.04 vs 147.79），说明溯因推理依然是 AI 的重大挑战
Imaginer 基于 SD-v1-4（256×256 分辨率），升级到更强的生成模型可能进一步提升
假设生成依赖 GPT-4o-mini，受限于其知识和推理能力
仅在两个数据集上验证，泛化性有待进一步检验

评分¶

新颖性: ⭐⭐⭐⭐ 首次将图像化思维引入 VAR，Reasoner+Imaginer 双模式设计有创新
实验充分度: ⭐⭐⭐⭐ 两个数据集、完整消融（组件/假设数/系数/适配器），分析详尽
写作质量: ⭐⭐⭐⭐ 从人类认知出发的动机清晰，方法阐述详细
价值: ⭐⭐⭐⭐ 扩散模型作为推理引导而非生成器的思路值得推广，但与人类差距仍大