A Causal Marriage between VLM and IRM from Understanding to Reasoning¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 多模态VLM
关键词: CLIP, 不变风险最小化(IRM), 因果表示, OOD泛化, 过程奖励强化学习

一句话总结¶

本文从 token 级因果表示出发，证明"词表受限的 InfoNCE"与 IRM 的不变性准则在形式上等价，据此提出无需改架构的中训范式 CLIP-IRM 提升 OOD 理解，并把它的不变对齐分数当作过程级奖励喂给 GRPO，把 IRM 的 OOD 保证一路迁移到多模态推理。

研究背景与动机¶

领域现状：CLIP 这类视觉-语言模型在零样本/少样本下表现出惊人的分布外（OOD）泛化能力，已成为开放词表识别的事实标准。但人们对"它为什么这么鲁棒"的理解基本停留在现象层面，缺一个能预测性地分析和改进它的理论框架。

现有痛点：不变风险最小化（IRM）本来就是为 OOD 泛化量身定做的严谨范式——它要求预测器只依赖与标签因果相关的特征、对跨环境的伪相关保持不变。直觉上 CLIP 的鲁棒性和 IRM 的目标高度吻合，但两者在结构上根本不同：CLIP 是双塔编码器 + 对比目标、训在无结构数据上；IRM 通常是需要显式"环境"划分的双层优化问题。这种架构和目标的错配，让"把 CLIP 当 IRM 看"一直停在类比层面，无法形式化。

核心矛盾：要把两者真正连起来，必须找到一个共同的因果语言。作者的关键观察是：图文对的语义对齐背后有一个潜在因果结构，其中"跨模态不变的变量"决定了内容；而文本 prompt 天然可以拆成类相关 token（因果因子）和类无关上下文 token（环境因子）——这个 token 级的视角，正是打通 CLIP 与 IRM 的钥匙。

本文目标：(1) 在 token 级因果表示框架下，证明一个受词表约束的 InfoNCE 目标与 IRM 目标形式等价；(2) 据此设计一个不改双塔架构的中训（mid-training）范式，把不变性信号注入预训练 CLIP；(3) 把这套不变对齐进一步迁移到多模态强化学习推理。

核心 idea：用"按 token 角色重构 InfoNCE 的监督与 batch"来实现 IRM，而不是去解 IRM 那个难搞的双层优化；再把 CLIP-IRM 算出的不变对齐分数当作 RL 的过程级奖励，把 OOD 保证从"理解"搬到"推理"。

方法详解¶

整体框架¶

全篇是一条"理论等价 → OOD 理解 → OOD 推理"的链条。先在 token 级因果表示（block 可辨识性，Theorem 2 / Corollary 3）下证明：最优 CLIP 编码器恢复的就是词-短语粒度的模态不变因果块；再把 prompt 拆成类 token（因果）与上下文 token（环境），证明"词表受限 + 剪掉环境 token 的 InfoNCE"（Theorem 5）等价于 IRM 目标。落到工程上，这条等价被实现成两步：① 中训 CLIP-IRM——保留 InfoNCE，但用类词表 \(V\) 与环境词表 \(E\) 重构监督和 batch，强迫编码器只沿"类相关、环境无关"的因果坐标对齐，得到零样本 OOD 更强的 CLIP-IRM；② 过程奖励推理——把 MLLM 解码器与 CLIP 文本编码器用滑窗耦合，用 CLIP-IRM 的词表受限对齐分数当作过程级奖励，通过 GRPO 优化策略，让推理链既正确又落在不变的类相关特征上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["预训练 CLIP<br/>+ 图文对"] --> B["token级因果等价<br/>类token=因果 / 上下文token=环境<br/>词表受限InfoNCE ≡ IRM"]
    B --> C["词表监督中训 CLIP-IRM<br/>类词表V + 环境token剪枝"]
    C -->|零样本 / prompt-tuning| D["OOD 理解<br/>跨域识别"]
    C -->|对齐分数当过程奖励| E["CLIP-IRM 过程奖励 + GRPO<br/>滑窗耦合解码器-编码器"]
    E --> F["OOD 多模态推理<br/>数学/去幻觉"]

关键设计¶

1. token 级因果等价：把"词表受限 InfoNCE"证成 IRM

这是全文的理论地基，针对的痛点是 CLIP 与 IRM 架构/目标错配、无法形式化连接。作者借用 token 级因果表示的 SCM 假设（Assumption 1）：图文对由一个跨模态不变变量 \(z_{inv}\) 加各自的私有/依赖分量经非线性混合生成，文本被建模成逐 token 递归采样的矩阵 \(X^{(tex)}\)。在此之上，block 可辨识性（Theorem 2，最小化模态对齐泛函 \(L_{MMAlign}\)）保证：最优编码器 \(f^*,g^*\) 在可逆映射意义下恢复出模态不变块 \(z_{inv}\)；而 Corollary 3 进一步说明，达到这组最优编码器当且仅当最小化双向 InfoNCE。换句话说，CLIP 的对比目标本身就在"对齐词-短语粒度的不变因果坐标"。

关键一步是把 \(z_{inv}\) 按 token 角色拆开。Definition 4 给出三条桥接条件：类集合与词表一致 \(\mathcal{Y}=V\)、上下文 token 与类集合不相交、以及 \(z_{inv}=(z^{(env)}, z^{(cls)})\) 可分解（上下文 token 只由环境分量 \(z^{(env)}\) 生成）。在这些条件下，作者把对齐目标改成只保留类 token、剔除环境 token 的"词表监督"版本：

\[L_{SMMAlign}(f,g;V,E) := \mathbb{E}\big[\,\|f(x^{(img)}) - g(X^{(tex)}_{y/e})\|\,\big] - H(f(x^{(img)})) - H(g(X^{(tex)}_{V/E}))\]

其中 \(X^{(tex)}_{y/e}\) 表示"含类名 \(y\)、但抹掉环境 token \(e\)"的 token 序列。Theorem 5 证明：约束版对齐目标 \(\min_{f,g} L_{SMMAlign}\)（在 \(L_{MMAlign}\) 最优解的约束下）与 IRM 的双层目标等价。这之所以成立，是因为词表监督相当于在"类相关子空间"内对齐、在环境子空间上保持不变——正好就是 IRM 要求的"跨环境不变、保留因果特征"。⚠️ 各定理证明在附录，公式以原文为准。

2. 词表监督中训 CLIP-IRM：用数据重构而非双层优化实现 IRM

Theorem 5 只是说"存在一个等价目标"，这一步把它落成可训练的范式，痛点是 IRM 原版需要解双层优化、无法直接套到 CLIP 双塔上。作者的做法是保留 InfoNCE 不动，只重构监督信号和 batch：在 LAION 大规模数据上挖出一个类词表 \(V\) 和一个环境词表 \(E\)，抽取类 token、剪掉环境 token，并通过"同类但不含环境 token 的 caption 互换"合成环境不变的图文对，得到增广 batch \(D^{(K)}_V\)。中训目标是两路 InfoNCE 的加权和：

\[\min_{f,g}\ \mathbb{E}_{D^{(K)},D^{(K)}_V}\Big[L^{img\to tex}_{InfoNCE}(D^{(K)}_V) + L^{tex\to img}_{InfoNCE}(D^{(K)}_V)\Big] + \lambda\Big[L^{img\to tex}_{InfoNCE}(D^{(K)}) + L^{tex\to img}_{InfoNCE}(D^{(K)})\Big]\]

第一项在 \(D^{(K)}_V\) 上做"环境无关"的图文对齐，把 Theorem 2 的不变分解落到 token 级；第二项（权重 \(\lambda\)）保留标准 CLIP 预训练的覆盖度与多样性，起稳定优化、防过约束的作用。它的好处是：在 Theorem 5 条件下这个单阶段目标就等价于 IRM，绕开了双层优化，却保住了不变预测的保证；而且完全不改 CLIP 的两塔结构，只需做数据 curation + batch 重构，可以直接插在 LAION 初始预训练之后。中训出来的 CLIP-IRM 不仅零样本 OOD 更强，因为类/环境因子被显式解耦，还成为少样本 prompt-tuning 更好的初始化（base-to-new、跨数据集迁移都更稳）。

3. CLIP-IRM 过程奖励 + GRPO：把不变对齐分数变成推理的 step-wise reward

这一步把"理解"侧的不变性迁移到"推理"侧，痛点是：IPO（IRM 的 RL 变体）要求共享表示 \(\Phi\) 上存在一个跨域最优策略 \(\pi\)，但 CLIP 的文本编码器 \(g\) 是双向编码、撑不起长程推理与信用分配；直接换成 MLLM 解码器 \(\pi_\theta\) 又脱离了 Theorem 5 的不变监督通道。作者用滑窗耦合的解码器-编码器化解这个矛盾：让 MLLM 解码器 \(\pi_\theta\) 自回归生成 token 序列，在第 \(k\) 步取一个窗口 \(t_{k-w+1:k}\) 喂给 CLIP 文本编码器 \(g\) 得到 \(h^{(tex)}_k\)，再与图像特征 \(v^{(img)}=f(x^{(img)})\) 算一个词表受限的 InfoNCE 分数作为过程奖励：

\[r^{(proc)}_k \triangleq \ell_{InfoNCE}(v^{(img)}, h^{(tex)}_k; V) - \alpha\,\ell_{env}(t_{k-w+1:k}; E)\]

前项鼓励生成的 token 落在类相关子空间、与图像对齐，后项 \(\ell_{env}\) 惩罚与环境词表 \(E\) 的重叠。由于 \(f,g\) 已按 Eq. 11 中训满足 Theorem 5，最大化 \(r^{(proc)}_k\) 就等于推着策略满足 IPO 的不变性准则。为加强视觉落地，还可选地用校准 proposal 网络选高置信图像 patch，加一项局部 grounding 奖励 \(r^{(patch)}_k=\max_m \mathrm{sim}(v_m, h^{(tex)}_k)\)。最后用 GRPO 把过程奖励和任务奖励一起优化：

\[R(\tau) = \sum_{k=1}^{T}\big(r^{(task)}_k + \lambda_{proc}\, r^{(proc)}_k\big)\]

其中 \(r^{(task)}_k\) 衡量答案/步骤正确性与格式。训练上做了三个稳定化处理：逐 batch 归一化 \(r^{(proc)}\)、对 \(\lambda_{proc}\) 退火、早期冻结 \(f,g\) 后期再小学习率微调。这样就把 IPO 式不变性和 GRPO 耦合起来，引导推理轨迹既跨域最优又始终落在图像上。

损失函数 / 训练策略¶

理解侧：Eq. 11 双路 InfoNCE（词表监督路 \(D^{(K)}_V\) + 标准预训练路 \(D^{(K)}\)，权重 \(\lambda\)），插在 LAION 预训练之后做中训；CLIP-IRMv1 用 ViT-B/16 对齐 OOD baseline，CLIP-IRMv2 用更强的 ViT-L/14。
推理侧：基座 Qwen2.5-VL-7B-Instruct，EasyR1（基于 verL）框架，GRPO 优化器，奖励 \(R(\tau)=\sum_k(r^{(task)}_k+\lambda_{proc}r^{(proc)}_k)\) 外加 KL 约束 \(\beta_{KL}\,\mathrm{KL}(\pi_\theta\|\pi_{\theta_0})\)；训练集为 Geometry3K（2.1K 几何）+ MMK12（6.4K K-12 数学），全部从选择题改成自由作答以防 reward hacking。

实验关键数据¶

主实验：零样本 OOD 泛化（Table 1，准确率）¶

五个域泛化 benchmark 上对比传统 OOD 方法、多模态基础模型与 CLIP-IRM：

方法	PACS	VLCS	OfficeHome	NICO++	DomainNet	Avg
ERM	85.8	78.4	68.0	79.6	47.4	71.8
IRM	84.7	78.1	68.2	79.7	47.3	71.6
CLIP	97.7	73.4	85.4	88.7	76.7	83.4
GPT-4V	96.9	87.2	84.8	88.0	74.8	86.3
Gemini	98.7	83.2	89.7	89.7	75.9	87.4
CLIP-IRMv1 (ViT-B/16)	95.1	78.8	83.9	87.7	72.7	83.6
CLIP-IRMv2 (ViT-L/14)	98.6	83.3	88.3	91.8	78.1	88.0

CLIP-IRMv1 用和传统 OOD baseline 一样的 ViT-B/16，借 LAION 规模优势全面超过它们；CLIP-IRMv2 超过所有基础模型，相比非闭源模型领先 >4.6%，在最难的 NICO++ / DomainNet 上还压过 GPT-4V 和 Gemini。
⚠️ CLIP-IRM 相对原始 CLIP 的优势主要体现在 v2（更强 backbone）；v1 平均仅 83.6 vs CLIP 83.4，说明不变中训的增益与 backbone 规模叠加才显著。

prompt-tuning 与推理（Fig. 3 / Fig. 4，数值见原文图）¶

设置	对比	结论
Base-to-New 泛化（11 子域）	CLIP vs CLIP-IRM ×	全部 5 个 baseline 的 new-class 都提升，3/5 的 base-class 提升；提升最大的是 PromptSRC
跨数据集迁移（6 子集）	同上	target 域 5/5 提升、source 域 4/5 提升；target 增益 > source 增益，说明是真鲁棒而非记忆
多模态推理（OOD：MathVerse/MathVision/MathVista/WeMath；去幻觉：HallusionBench；ID：Geometry3K）	GRPO vs GRPO+CLIP-IRM 过程奖励	4 个 OOD 数学 benchmark 一致提升且随训练拉大（越难的 MathVerse/MathVision 越明显）；HallusionBench 全程更高（更少幻觉）；ID 后期反超、最终奖励与样本效率都更好

关键发现¶

不变性增益在难分布上最明显：无论理解（NICO++/DomainNet）还是推理（MathVerse/MathVision），越偏离训练分布、CLIP-IRM 的相对优势越大，印证"剪掉环境 token"确实在抑制伪相关。
环境剪枝既提性能又抑幻觉：推理侧 HallusionBench 全程领先，说明"视觉落地 + 环境剪枝"的过程奖励让模型更忠实于图像。
架构无关：prompt-tuning 五种方法换上 CLIP-IRM 都北上（new-class 涨），说明增益来自更好的表示底座而非某种 tuning 技巧。

亮点与洞察¶

把 InfoNCE 证成 IRM：核心"啊哈"是发现 prompt 的 token 角色（类 token=因果、上下文 token=环境）正好对上 IRM 的因果/环境划分，于是"词表受限 InfoNCE ≡ IRM"——把一个难解的双层优化换成了一次数据重构，工程上极其轻量。
理论保证可迁移：同一个不变对齐分数，既能当理解侧的训练目标，又能当推理侧的过程奖励，等于把 IRM→IPO 的等价链条用一个 CLIP-IRM 模型贯穿。这种"一份不变性、两处复用"的思路可迁移到任何"先表示后决策"的多模态任务。
滑窗耦合解码器-编码器：用滑窗把自回归 MLLM 解码器和双向 CLIP 编码器拼起来，既保留生成推理能力又接回不变监督通道，是个能直接借用的工程 trick。

局限与展望¶

强依赖词表质量：整套方法的"环境不变"建立在能从大规模数据里准确挖出类词表 \(V\) 和环境词表 \(E\) 上；词表噪声或覆盖不全会直接削弱不变性，论文未充分讨论词表构建的敏感性。
理论条件较强：Definition 4 的三条桥接条件（\(\mathcal{Y}=V\)、上下文与类不相交、\(z_{inv}\) 可分解）在真实开放词表场景未必严格满足，等价性更像理想条件下的结论。⚠️ 实际数据上偏离这些条件多少会影响保证，原文未给量化。
v1 增益有限：CLIP-IRMv1 相对 CLIP 几乎打平，说明不变中训需要足够强的 backbone 才划算，小模型上性价比存疑。
推理实验范围窄：推理只在数学（Geometry3K/MMK12）域验证，是否能推广到一般视觉推理/具身决策仍待观察。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把 CLIP 对比目标与 IRM 在 token 级因果表示下证成等价，并贯穿理解→推理
实验充分度: ⭐⭐⭐⭐ 理解侧 5 个 OOD benchmark + prompt-tuning 充分，推理侧仅数学域、且部分结果只在图中
写作质量: ⭐⭐⭐⭐ 理论链条清晰，但公式密集、部分桥接条件偏理想化
价值: ⭐⭐⭐⭐⭐ 给 CLIP 的 OOD 鲁棒性提供了可操作的因果解释，且不变性可迁移到 RL 推理