Vision Language Models are Biased¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=DG4S2OlGQA
论文: 项目页
代码: https://vlmsarebiased.github.io
领域: 多模态VLM
关键词: VLM偏置, 反事实图像, 视觉计数, 视觉语言模型评测, VLMBias

一句话总结¶

这篇论文提出 VLMBias 反事实视觉评测框架，系统修改动物、Logo、国旗、棋盘、棋类棋盘、错觉图和图案网格中的标志性视觉元素，发现主流 VLM 在客观计数任务上平均只有 17.05% 准确率，并且 75.70% 的回答会回到常识先验而不是图像证据。

研究背景与动机¶

领域现状：VLM 已经被用于大量视觉问答、图像理解和多模态推理任务，很多评测会默认模型既能识别语义对象，也能观察图像里的细节变化。另一方面，LLM/VLM 的偏置研究通常关注社会、文化、性别等关联偏置，或者在视觉语言任务里用带诱导性的 Yes/No 问题测试模型是否会顺着文本提示产生幻觉。

现有痛点：这些已有 benchmark 很难回答一个更基础的问题：当问题本身是中性的、答案是客观可数的，VLM 是否仍会被熟悉对象的常识知识牵着走？例如用户问“这只动物有几条腿”，图像里是一只被加了一条腿的狗；如果模型回答 4，它究竟是看不清，还是知道狗通常有 4 条腿后没有认真数？过去的评测常把偏置写进 prompt 或答案选项里，因此无法干净地区分文本诱导、视觉困难和模型先验。

核心矛盾：VLM 的优势恰恰也是风险来源。模型从互联网语料中学到了“鸡有两条腿”“Adidas 有三条杠”“美国国旗有十三条横纹”等强先验，这些知识在普通识别里有用，但在反事实图像中会与真实视觉证据冲突。论文要验证的是：当局部视觉证据和全局常识/背景语境冲突时，VLM 更相信哪一边。

本文目标：作者把问题拆成三个层次：先验证模型确实认识原始对象；再构造只改动少量关键元素的反事实图像，测试模型能否完成计数和识别；最后分析偏置来自哪里，包括背景视觉线索、图中对象名称、推理 token、工具使用和视觉编码器本身是否已经包含正确信息。

切入角度：论文选择“计数”作为主任务，因为计数问题既常见又相对客观，答案可以直接判对错，而且不需要复杂语义判断。更重要的是，精确计数要求模型定位相关视觉元素并维护数量，而不能只靠“看到某类熟悉对象就输出标准答案”的捷径。

核心 idea：用反事实图像把“常识答案”和“图像答案”拆开，再用中性计数/识别问题衡量 VLM 在冲突条件下到底依赖视觉证据还是记忆先验。

方法详解¶

整体框架¶

VLMBias 的整体流程可以理解为一个“先确认有先验、再制造冲突、最后定位偏置来源”的评测框架。输入是一批知名视觉主体及其标准元素数量，输出是跨 7 类任务、多个模型和多种干预条件下的准确率、偏置率与错误模式分析。框架的关键不在于训练模型，而在于用半自动生成和人工审核得到足够自然、可判定的反事实图像，让 VLM 的常识先验和图像证据正面相撞。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["知名视觉主体<br/>与标准答案"] --> B["反事实图像构建<br/>改动标志性元素"]
    B --> C["人工质量审核<br/>保留清晰样本"]
    C --> D["中性问题评测<br/>Q1/Q2 计数 + Q3 识别"]
    D --> E["偏置率度量<br/>区分正确/先验/其他错误"]
    E --> F["偏置来源分析<br/>背景、文本、推理和工具"]

具体来说，作者先从常见动物、品牌 Logo、国旗、棋类棋盘、游戏棋盘、经典光学错觉和自造图案网格中选取可系统改动的对象。每张图像只做最小反事实修改，例如给鸟加一条腿、给 Adidas 鞋标加一条白杠、给美国国旗多加一条横纹、从棋盘初始局面中移走一个棋子，或者让某个网格单元不遵循周围格子的数量模式。然后对模型提出中性的计数问题，例如 “How many legs does this animal have?”，并要求用花括号输出数字，避免答案解析本身引入额外歧义。

为了确认失败确实和偏置有关，论文还加了两类控制。第一类是原始未修改图像的 sanity check：如果模型连正常 Adidas 或正常动物都认不出，就不能说它在反事实图像上“被先验带偏”。结果所有被测模型在原图识别和计数上都达到 100%。第二类是 Q3 的 Yes/No 识别问题，例如“这是 4 条腿的动物吗？”或“这是 Adidas logo 吗？”，用来验证模型是否连“对象已经被改过”这件事都无法承认。

关键设计¶

1. 反事实图像构建：把常识答案和视觉答案强行拆开

这篇论文最关键的设计是让同一个熟悉主体保留足够强的身份线索，同时只改变一个可数的标志性元素。这样一来，VLM 看到的不是陌生图像，而是一个“几乎像原物、但答案已经变了”的对象：狗还是狗，但多了一条腿；Audi 还是车标语境，但圆环从 4 个变成 5 个；棋盘仍像标准开局，但少了或替换了一个棋子。这个构造让错误具有诊断性：如果模型输出标准数量，就不是一般意义上的不会回答，而是在视觉证据和熟悉先验冲突时选择了先验。

图像生成也按对象类型分层处理。动物和 Logo 使用 Gemini-2.0 Flash、GPT-4o 等图像生成/编辑模型，并通过人工筛掉不清晰或争议样本；国旗、棋盘、棋类棋盘、错觉图和图案网格则用 SVG 或 Python 脚本生成，保证可控性。最终主 benchmark 包含 1,392 张反事实图像，覆盖照片式图像和抽象结构图像两种形态，减少“某一种图像生成方式导致失败”的解释空间。

2. 中性计数与偏置率：不靠诱导 prompt 也能测出先验支配

论文没有采用“这是不是一只正常的狗？”这种容易把答案方向写进问题里的设置，而是用两个中性计数问题 Q1/Q2 和一个验证性 Q3。Q1 通常是“How many ...”，Q2 是“Count ...”，两者都要求模型输出数字；Q3 则问当前图像是否仍满足原始身份或标准数量。这样的设计让模型无法把失败归因于题干里的偏置陈述，因为问题本身只要求观察图像。

为了进一步区分“答错但不是偏置”和“答错且回到先验”，作者定义了 bias rate。若反事实 Adidas 图像真实答案是 4 条杠，而模型答 3，则这个错误被记为 bias-aligned；若模型答 5 或其他数字，则属于 other errors。形式上可以把某一任务的偏置率理解为 \(\text{BiasRate}=\frac{\#\{\hat{y}=y_{bias}\}}{N}\)，其中 \(y_{bias}\) 是对象的常识答案而非反事实图像真值。这个指标很重要，因为它显示模型不是随机不会数，而是大量稳定地回到被预先定义的常识答案。

3. 七类任务谱系：同时覆盖外部常识偏置和图内模式偏置

VLMBias 不只测动物和 Logo 这类互联网常识很强的对象，还加入了国旗、棋盘、棋类棋盘、光学错觉和全新构造的 patterned grids。前六类主要测试外部记忆：模型知道动物通常几条腿、国旗通常多少星/横纹、棋盘标准开局多少棋子、经典错觉通常该怎么答。最后一类图案网格则更微妙，它没有互联网记忆来源，而是让多数格子形成一个全局数量模式，再在一个指定格子制造异常。

这个设计把“偏置”概念从文本语料常识扩展到视觉上下文本身。patterned grids 上，模型常把目标单元的答案推成周围格子的模式，而不是数指定单元里的圆点或 tally marks。换句话说，VLM 不仅会被训练语料里的世界知识带偏，也会被当前图像中的主导视觉规律带偏；它倾向于补全一个“应该如此”的结构，而不是逐项核查局部证据。

4. 偏置来源剖析：背景、文本、推理长度和视觉编码器逐层排查

主实验只能说明模型被偏置影响，但还不能说明偏置在何处触发。论文因此做了多组诊断：去掉背景、在图像中加入对象名称、加 debiased/double-check prompt、统计 thinking token、比较工具使用、测试 pointing VLM，并用 LLaVA-OneVision-S 的视觉编码器和语言层做线性探针。每组实验都对应一个可能解释：是不是背景线索太强？是不是文本名称激活了先验？是不是推理更多就能纠正？是不是视觉编码器本来就没看见？

结果形成了比较一致的证据链。去背景后准确率从 17.05% 提升到 38.14%，偏置率从 75.70% 降到 35.12%，说明背景确实会强烈触发常识答案；图中加入对象名称反而使准确率下降 4.49 点，说明文本线索会进一步激活先验；视觉编码器线性探针在 4/5 条腿动物上达到 95.26%，但完整 VLM 只接近随机且偏置率极高，说明视觉信息可能已经被编码，却在语言生成阶段被记忆先验覆盖。

一个完整示例¶

以 Adidas 鞋标为例，原始图像里鞋标有 3 条白色条纹，VLM 在 sanity check 中能正确识别 Adidas 并答出 3。VLMBias 将鞋标编辑成 4 条白色条纹，同时保留运动鞋、运动场景、品牌风格等背景线索。模型收到的问题不是“这是不是 Adidas 的三条杠”，而是中性的“How many visible white stripes are there in the logo of the left shoe?”。

如果模型真正数图像，应输出 {4}；如果它被品牌先验带偏，则会输出 {3}。论文观察到，大多数模型在这种场景下仍输出 3，甚至在 Q3 “Are the logos on these shoes Adidas logos?” 中回答 Yes。这说明模型不是简单地读不懂问题，而是把“看起来像 Adidas”直接转成“它应当有三条杠”，并压过了局部视觉证据。

类似地，在动物任务里，5 条腿的 puma 仍常被答成 4 条腿；在国旗任务里，多一条横纹的美国国旗仍被答成 13；在棋盘任务里，少一个棋子的标准开局仍被答成 32。不同任务的共同模式是：越熟悉、越有强背景线索的对象，越容易让模型跳到常识答案。

损失函数 / 训练策略¶

本文不提出新的训练损失或模型训练策略，而是一个评测与诊断框架。其“方法目标”是通过数据构造、问题设计和指标拆分来暴露 VLM 的失效模式。核心评价指标包括计数/识别准确率、bias rate、其他错误比例，以及在去背景、图中文字、helpful prompt、工具使用、pointing 能力等干预条件下的变化。

实验中的模型均按各平台默认或论文指定设置调用，例如 Gemini-2.5 Pro、Sonnet-3.7、GPT-4.1、o3、o4-mini 等主实验模型；thinking 模型还分析 reasoning tokens 或工具使用时间。论文没有对这些模型做微调，因此结论更接近“现有 VLM 在零样本客观视觉计数中的真实行为”。

实验关键数据¶

主实验¶

主结果非常直接：所有模型在原始未修改图像上都能达到 100% 的识别/计数 sanity check，但一旦进入反事实图像，平均计数准确率只有 17.05%。最高的 o4-mini 也只有 20.25%，说明 thinking 能力不能根本解决问题。

模型	反事实计数平均准确率	原始图像 sanity check	平均偏置率	主要结论
Gemini-2.5 Pro	16.02%	100.00%	76.79%	识别原图无问题，但反事实计数严重回到先验
Sonnet-3.7	16.59%	100.00%	76.63%	非 thinking 模型同样稳定输出常识答案
GPT-4.1	13.88%	100.00%	76.62%	平均准确率最低，偏置率仍很高
o3	18.50%	100.00%	74.81%	thinking 带来有限提升，仍无法可靠数图像
o4-mini	20.25%	100.00%	73.66%	主实验中最高，但远低于可用水平
平均	17.05%	100.00%	75.70%	失败主要不是不认识对象，而是被先验覆盖

按任务看，动物腿计数只有 2.12%，Logo 只有 6.13%，国旗 9.25%，游戏棋盘行列数 2.26%；相对较高的棋子计数和光学错觉也仍然不理想。光学错觉约 50.87% 更接近随机，而不是稳定视觉理解。

任务	平均准确率	典型偏置答案	论文中的解释
动物加腿	2.12%	鸟 2 条腿、哺乳动物 4 条腿	模型几乎直接调用动物常识
修改 Logo	6.13%	Adidas 3 条杠、Audi 4 个环	品牌和产品背景强烈触发标志性元素记忆
修改国旗	9.25%	常见星数/横纹数	离散星形略好于连续条纹，但整体仍低
修改棋子	26.25%	标准开局 32 个或标准棋子数	thinking 模型略有帮助，但仍大量默认标准布局
修改游戏棋盘	2.26%	棋盘/Sudoku/Go 的常规行列数	结构化网格中的简单行列计数也失败
光学错觉	50.87%	经典错觉的熟知答案	原始与反事实版本混合后接近随机
图案网格	22.44%	周围格子的全局模式	即使没有互联网常识，也会被图内模式带偏

消融实验¶

消融和诊断实验显示，背景与文本线索会显著放大偏置；提示模型“只看图像”或“再检查一遍”只能带来很小收益；工具和 pointing 能力有帮助，但现有模型常常不主动使用。

配置 / 干预	准确率变化	偏置率变化	说明
去除背景	17.05% → 38.14%（+21.09）	75.70% → 35.12%（-40.58）	背景是触发常识答案的重要线索
图中加入对象名称	17.05% → 12.56%（-4.49）	未作为主表平均强调	文本名称进一步激活语言先验
Debiased prompt	+1.87	未根治	明说“只看图像”帮助有限
Double-check prompt	+2.70	未根治	复查提示无法让模型稳定重新观察
o4-mini with tools	20.25% → 25.08%	约 -3.49	工具可用但只在约 29.66% 查询中被使用
Pointing VLM 平均	36.02%	34.50%	显式定位/计数训练比模型规模更有用

线性探针实验也很关键：在 LLaVA-OneVision-S 的动物 4/5 条腿任务上，SigLIP 视觉编码器特征可用线性分类达到 95.26% 准确率，但完整 VLM 只有 49.71%，并且对 5 条腿动物几乎总输出 4。这个结果支持“视觉信息存在，但语言模型生成阶段覆盖视觉证据”的解释。

表征阶段 / 模型	动物 4 vs 5 腿准确率	说明
Vision encoder before projection	95.26%	原始视觉特征足以区分腿数
After projection	91.24%	投影后仍保留大量信息
Last LLM layer	89.08%	表征中仍有可线性解码的视觉信号
LLaVA-OneVision-S 完整输出	49.71%	最终回答接近随机且强烈偏向 4 条腿
完整 VLM bias rate	99.43%	说明生成答案时先验压过视觉证据

关键发现¶

所有主流 VLM 在未修改图像上都能 100% 识别主体，因此反事实失败不能简单解释为“不认识对象”。
反事实计数中的错误高度集中在常识答案上，平均 75.70% 的回答是 bias-aligned，而不是随机错。
去背景后准确率几乎翻倍，说明背景并非无关装饰，而是触发偏置的重要上下文。
thinking tokens 对准确率有非单调影响：一开始更多推理会提升表现，但超过经验上限后会出现 overthinking，准确率反而下降。
工具和 pointing 能力真正被使用时很有帮助，但商业 VLM 常因过度自信而不主动调用工具。
人类在动物腿计数上即使只有 0.2 秒也有 50% 反事实准确率，2 秒可达 93.75%，说明图像本身并非天然不可判定。

亮点与洞察¶

把偏置从社会刻板印象扩展到客观视觉任务：论文讨论的 bias 不是“模型对某群体有偏见”，而是“模型被熟悉对象的统计常识带偏”。这让 VLM 偏置研究更贴近日常视觉问答，因为用户经常问的是计数、识别、判断变化这类客观问题。
反事实构造非常干净：一张图保留主体身份，只改一个关键可数元素，能把“知道对象是什么”和“看见对象现在是什么样”分开。这个思路可复用于检测医学影像、机器人感知、自动驾驶场景中的先验覆盖问题。
bias rate 比单纯 accuracy 更有解释力：低准确率只能说明模型错了，bias rate 能说明它错向哪里。如果错误集中在预定义常识答案上，就说明模型不是普通视觉能力不足，而是在冲突时有系统偏向。
背景移除实验很有启发：去背景带来 +21.09 准确率和 -40.58 偏置率，提示未来 VLM 工具链不只是要“更会推理”，还要更会判断什么时候需要裁剪、放大、局部计数。
视觉编码器与最终答案之间存在断层：线性探针表明低层视觉表征可能已经包含正确腿数，但最终语言输出仍被常识答案覆盖。这比“VLM 看不见小细节”更深一层，问题可能在跨模态融合、注意力到解码、或语言先验校准上。

局限与展望¶

反事实图像的一部分由图像生成/编辑模型产生，虽然作者做了人工筛选并跨模型族验证，但生成图像仍可能包含风格痕迹或局部不自然之处。尤其是动物和 Logo 这类照片式任务，生成质量会影响难度。
VLMBias 主要考察可数元素和少量 Yes/No 识别，尚未覆盖更复杂的空间关系、动作状态、医学异常、遥感变化检测等高风险视觉决策任务。它揭示了机制性风险，但任务谱系仍可扩展。
主实验中的模型调用多依赖黑盒 API，无法完整追踪内部跨模态融合过程。线性探针只在 LLaVA-OneVision-S 上做了代表性分析，未来需要在更多开源架构上验证“视觉已编码但语言覆盖”的普遍性。
工具使用实验显示工具有效但触发率低，后续可以研究显式不确定性估计、自动局部检查策略、强制 locate-then-count 解码，或者让模型在检测到熟悉对象时主动生成“反常细节检查清单”。
论文指出 larger open-source VLM 有更高 bias rate 的迹象，但这类 inverse scaling 结论还需要更系统的模型族、训练数据和任务难度控制，避免把规模效应和训练配方差异混在一起。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用反事实客观计数来测 VLM 先验偏置，问题定义清楚且和已有偏置 benchmark 拉开距离。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 7 类任务、多种商业/开源/pointing/tool VLM，并有背景、文本、prompt、工具、线性探针等诊断实验。
写作质量: ⭐⭐⭐⭐ 论文主线清晰、图表充分，但附录实验很多，读者需要在主文和附录之间来回对照才能完整掌握证据链。
价值: ⭐⭐⭐⭐⭐ 对 VLM 评测、安全部署和多模态工具使用都有直接启发，尤其提醒我们不能把“认识对象”误当成“看清当前图像”。