Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework¶

会议: CVPR 2026
arXiv: 2603.07659
代码: https://github.com/KaihuaTang/Self-Critical-Inference-Framework
领域: 多模态VLM
关键词: LVLM鲁棒性, 反事实推理, 语言偏差, 语言敏感性, 测试时缩放

一句话总结¶

提出 Self-Critical Inference (SCI) 框架，通过多轮文本+视觉反事实推理的 logit 聚合来同时解决 LVLM 的语言偏差和语言敏感性问题，并提出 DRBench 动态鲁棒性基准来模型特异地评估鲁棒性。增加反事实推理轮次可持续提升鲁棒性，开辟了测试时缩放的新方向。

研究背景与动机¶

领域现状：LVLM 通过将视觉编码器与预训练 LLM 结合并联合微调，取得了强大的视觉语言能力。

现有痛点： - 语言偏差：模型依赖语言先验而非视觉输入回答问题，产生物体幻觉（如生成不存在的内容） - 语言敏感性：对提示词的微小语义等价变化产生不同回答，破坏一致性和可靠性 - VCD 等方法只处理视觉反事实（偏差问题），完全忽略了文本反事实（敏感性问题）

核心矛盾：VCD 本质是对原始 logit 用 TIE logit 进行加权，只有一个维度（视觉）的反事实；但 LVLM 的鲁棒性问题是双维度的。

本文目标：同时缓解语言偏差和语言敏感性，并发现增加推理轮次可以提升鲁棒性。

切入角度：从 CF-VQA 的因果分析角度统一理解 VCD，揭示 \(\alpha\) 的物理意义（TIE 的温度参数），然后自然扩展到文本反事实。

核心idea：VCD = TIE 重加权，那么可以同时做 Textual Counterfactual (TC) 和 Visual Counterfactual (VC)，通过多轮 logit 聚合实现测试时鲁棒性缩放。

方法详解¶

整体框架¶

SCI 想在不训练的前提下，同时压住 LVLM 的两个老毛病——靠语言先验瞎编（语言偏差）和换个措辞就改口（语言敏感性）。它的做法是把"自我批判"塞进解码：对原始输入 \((v^0, q^0)\)，一方面造出 N 个语义等价但说法不同的文本变体 \(\{q^i\}\)，一方面造出 M 个抹掉关键内容的视觉变体 \(\{v^j\}\)，分别算出文本反事实 logit（TC）和视觉反事实 logit（VC），最后在 exp 域把两者按各自温度加权相乘得到预测：\(p_{SCI}(y) \propto \exp(TC/\tau_1) \cdot \exp(VC/\tau_2)\)。两条反事实线各管一种鲁棒性，缺一不可，而变体数 M、N 越大、推理轮次越多，鲁棒性越高——这正是它"测试时缩放"的入口。整套机制的理论支点则来自一个观察：VCD 本质就是拿 TIE logit 给原始分布做温度重加权，这让"把反事实从视觉维度扩展到文本维度"变得顺理成章。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["原始输入 (v⁰, q⁰)"]
    subgraph TCG["文本反事实 TC（压语言敏感性）"]
        direction TB
        B1["生成 N 个语义等价提示变体 {qⁱ}"] --> B2["LVLM 前向得各变体 logit"]
        B2 --> B3["逐位取最大<br/>TCₖ = maxᵢ Zₖ(v⁰,qⁱ)"]
    end
    subgraph VCG["视觉反事实 VC（压语言偏差）"]
        direction TB
        C1["生成 M 张内容移除图 {vʲ}"] --> C2["LVLM 前向得各图 logit"]
        C2 --> C3["减去平均响应<br/>VC = Z(v⁰,q⁰) − E[Z(vʲ,q⁰)]"]
    end
    A --> B1
    A --> C1
    B3 --> D["exp 域温度加权聚合<br/>p_SCI ∝ exp(TC/τ₁)·exp(VC/τ₂)"]
    C3 --> D
    D --> E["采样得鲁棒预测 y<br/>调大 M、N → SCI3 / SCI5 / SCI7 缩放"]

关键设计¶

1. 把 VCD 看成 TIE 重加权：给文本维度的扩展找到理论支点

之前 VCD 这类去偏方法只在视觉一侧动手，要把同样的思路搬到文本一侧，先得想清楚 VCD 到底在做什么。本文从 CF-VQA 的因果视角拆解 VCD 的 logit：\(Z_{vcd} = (1+\alpha)Z(v,q) - \alpha Z(v^*,q)\)，其中 \(v^*\) 是抹掉内容的反事实图像。把它放到 exp 域展开，会得到 \(p(y) \propto \exp(Z(v,q)) \cdot \exp(\text{TIE}/\tau)\)——也就是说 VCD 本质上是拿 TIE（总间接效应）logit 当一个词汇级的重加权项乘到原始分布上，而 \(\alpha\) 不是什么神秘系数，它就是温度 \(\tau = 1/\alpha\)。这一步把 VCD 和 CF-VQA 接到了同一套框架里，关键意义在于：既然反事实重加权可以沿视觉维度做，那它同样可以沿文本维度做，TC 的引入就有了顺理成章的落点。

2. Textual Counterfactual：用"逐位取最大"挑出跨措辞最稳的预测，压住语言敏感性

语言敏感性的症结是同一个问题换个说法答案就变，说明模型在某些 token 上被特定措辞带偏了。TC 的对策是把语义等价的多个提示变体 \(\{q^i\}\) 一起喂进去，对每个词汇位置 \(k\) 取所有变体 logit 的逐元素最大值：\(TC_k = \max_i\big(Z_k(v^0, q^i)\big)\)。直觉是：如果某个候选 token 只在个别措辞下被强行推高、在其他说法下并不突出，那它多半是措辞带来的噪声；而真正由视觉证据支撑的答案，会在各种措辞下都保持高 logit，取最大值恰好保留这些一致信号、削掉措辞专属的偏置。举个具体的：问"图里有几只猫"和"数一数画面中猫的数量"，若前者因句式诱导把"three"顶高、后者没有，TC 不会让这种不稳定的"three"主导最终分布。

3. Visual Counterfactual：用多张内容移除图的平均 logit 稳健估计语言偏差

VCD 只拿单张噪声图当反事实，估出来的偏差方差大、不稳。VC 把它扩成多张反事实图像：\(VC = Z(v^0, q^0) - \mathbb{E}\big[Z(v^j, q^0)\big]\)，用 M 张内容被移除的图像的平均响应来刻画"没有视觉证据时模型会怎么答"，再从原始 logit 里减掉这部分纯语言先验。多张取均值让偏差估计更平滑，因此减偏更可靠，这也是它比单图 VCD 更稳的原因。

4. SCI3 / SCI5 / SCI7：把变体数当旋钮，换来测试时鲁棒性缩放

把 TC 的 N 和 VC 的 M 一起调大，就得到不同档位的 SCI：SCI3 取 \(M=N=1\)（共 3 次前向），SCI5 取 \(M=N=2\)（5 次），SCI7 取 \(M=N=3\)（7 次）。实验里档位越高鲁棒性越强，代价是前向次数线性增长。它的意义在于给出了一条和 CoT 拉长中间 token 正交的缩放轴——不靠更长的思维链，而靠更多轮反事实推理来换鲁棒性。

损失函数 / 训练策略¶

纯推理时方法，无需训练。TC 与 VC 的温度参数 \(\tau_1, \tau_2\) 在验证集上调一次即可。

实验关键数据¶

主实验（DRBench BS Subset Overall）¶

方法	LLaVA-NeXT BS↑	Qwen2-VL BS↑
Baseline	18.75	14.52
TIE	27.31	-
VCD	27.89	-
M3ID	29.05	-
SCI3	32.72	-
SCI5	34.19	-
SCI7	34.92	-

消融分析¶

配置	效果	说明
仅 VC (≈VCD)	偏差改善但敏感性不变	只解决一半问题
仅 TC	敏感性改善但偏差不变	只解决另一半
VC + TC (SCI)	同时改善两个问题	统一框架的优势
SCI3→SCI5→SCI7	持续提升1-2%	测试时缩放有效

关键发现¶

偏差与敏感性样本重叠极少：LLaVA-NeXT 的 24.68% 困难样本中仅 7.34% 与 Qwen2-VL 共享，证明鲁棒性是模型特异的
Qwen2-VL 整体更鲁棒，但更容易受偏差影响；LLaVA-NeXT 敏感性问题更突出
增加反事实轮次（SCI3→SCI7）持续提升，暗示测试时鲁棒性缩放的潜力未被充分探索
TC 和 VC 解决不同类型的鲁棒性问题，缺一不可

亮点与洞察¶

统一了 VCD 和 CF-VQA：揭示 VCD 就是加了温度缩放的 TIE 重加权，这个分析本身就有独立价值
测试时鲁棒性缩放：不同于传统的测试时缩放（增加中间 token 长度），通过增加反事实推理轮次来提升鲁棒性。这开辟了与 CoT 扩展正交的新方向
DRBench 的设计思想：动态、模型特异的 benchmark，可以自动从任何数据集转化，解决了固定 benchmark 被后续模型训练数据包含的问题
方法与模型无关，可以直接插入任何 LVLM 推理流程

局限与展望¶

推理成本线性增长：SCI7 需要 7 次前向传播
文本变体和视觉变体的生成策略相对简单，更先进的反事实生成可能进一步提升
温度参数 \(\tau_1, \tau_2\) 需要人工调优
DRBench 依赖特定的反事实生成方法来构建偏差和敏感性子集

评分¶

新颖性: ⭐⭐⭐⭐ 统一分析有洞察力，测试时缩放方向新颖
实验充分度: ⭐⭐⭐⭐ 6个数据集两个模型，DRBench设计合理
写作质量: ⭐⭐⭐⭐⭐ 理论分析精彩，从VCD到SCI的推导自然
价值: ⭐⭐⭐⭐ 实用的推理时鲁棒性增强方法