跳转至

Vision Language Models are Biased

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=DG4S2OlGQA
论文: 项目页
代码: https://vlmsarebiased.github.io
领域: 多模态VLM
关键词: VLM偏置, 反事实图像, 视觉计数, 视觉语言模型评测, VLMBias

一句话总结

这篇论文提出 VLMBias 反事实视觉评测框架,系统修改动物、Logo、国旗、棋盘、棋类棋盘、错觉图和图案网格中的标志性视觉元素,发现主流 VLM 在客观计数任务上平均只有 17.05% 准确率,并且 75.70% 的回答会回到常识先验而不是图像证据。

研究背景与动机

领域现状:VLM 已经被用于大量视觉问答、图像理解和多模态推理任务,很多评测会默认模型既能识别语义对象,也能观察图像里的细节变化。另一方面,LLM/VLM 的偏置研究通常关注社会、文化、性别等关联偏置,或者在视觉语言任务里用带诱导性的 Yes/No 问题测试模型是否会顺着文本提示产生幻觉。

现有痛点:这些已有 benchmark 很难回答一个更基础的问题:当问题本身是中性的、答案是客观可数的,VLM 是否仍会被熟悉对象的常识知识牵着走?例如用户问“这只动物有几条腿”,图像里是一只被加了一条腿的狗;如果模型回答 4,它究竟是看不清,还是知道狗通常有 4 条腿后没有认真数?过去的评测常把偏置写进 prompt 或答案选项里,因此无法干净地区分文本诱导、视觉困难和模型先验。

核心矛盾:VLM 的优势恰恰也是风险来源。模型从互联网语料中学到了“鸡有两条腿”“Adidas 有三条杠”“美国国旗有十三条横纹”等强先验,这些知识在普通识别里有用,但在反事实图像中会与真实视觉证据冲突。论文要验证的是:当局部视觉证据和全局常识/背景语境冲突时,VLM 更相信哪一边。

本文目标:作者把问题拆成三个层次:先验证模型确实认识原始对象;再构造只改动少量关键元素的反事实图像,测试模型能否完成计数和识别;最后分析偏置来自哪里,包括背景视觉线索、图中对象名称、推理 token、工具使用和视觉编码器本身是否已经包含正确信息。

切入角度:论文选择“计数”作为主任务,因为计数问题既常见又相对客观,答案可以直接判对错,而且不需要复杂语义判断。更重要的是,精确计数要求模型定位相关视觉元素并维护数量,而不能只靠“看到某类熟悉对象就输出标准答案”的捷径。

核心 idea:用反事实图像把“常识答案”和“图像答案”拆开,再用中性计数/识别问题衡量 VLM 在冲突条件下到底依赖视觉证据还是记忆先验。

方法详解

整体框架

VLMBias 的整体流程可以理解为一个“先确认有先验、再制造冲突、最后定位偏置来源”的评测框架。输入是一批知名视觉主体及其标准元素数量,输出是跨 7 类任务、多个模型和多种干预条件下的准确率、偏置率与错误模式分析。框架的关键不在于训练模型,而在于用半自动生成和人工审核得到足够自然、可判定的反事实图像,让 VLM 的常识先验和图像证据正面相撞。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["知名视觉主体<br/>与标准答案"] --> B["反事实图像构建<br/>改动标志性元素"]
    B --> C["人工质量审核<br/>保留清晰样本"]
    C --> D["中性问题评测<br/>Q1/Q2 计数 + Q3 识别"]
    D --> E["偏置率度量<br/>区分正确/先验/其他错误"]
    E --> F["偏置来源分析<br/>背景、文本、推理和工具"]

具体来说,作者先从常见动物、品牌 Logo、国旗、棋类棋盘、游戏棋盘、经典光学错觉和自造图案网格中选取可系统改动的对象。每张图像只做最小反事实修改,例如给鸟加一条腿、给 Adidas 鞋标加一条白杠、给美国国旗多加一条横纹、从棋盘初始局面中移走一个棋子,或者让某个网格单元不遵循周围格子的数量模式。然后对模型提出中性的计数问题,例如 “How many legs does this animal have?”,并要求用花括号输出数字,避免答案解析本身引入额外歧义。

为了确认失败确实和偏置有关,论文还加了两类控制。第一类是原始未修改图像的 sanity check:如果模型连正常 Adidas 或正常动物都认不出,就不能说它在反事实图像上“被先验带偏”。结果所有被测模型在原图识别和计数上都达到 100%。第二类是 Q3 的 Yes/No 识别问题,例如“这是 4 条腿的动物吗?”或“这是 Adidas logo 吗?”,用来验证模型是否连“对象已经被改过”这件事都无法承认。

关键设计

1. 反事实图像构建:把常识答案和视觉答案强行拆开

这篇论文最关键的设计是让同一个熟悉主体保留足够强的身份线索,同时只改变一个可数的标志性元素。这样一来,VLM 看到的不是陌生图像,而是一个“几乎像原物、但答案已经变了”的对象:狗还是狗,但多了一条腿;Audi 还是车标语境,但圆环从 4 个变成 5 个;棋盘仍像标准开局,但少了或替换了一个棋子。这个构造让错误具有诊断性:如果模型输出标准数量,就不是一般意义上的不会回答,而是在视觉证据和熟悉先验冲突时选择了先验。

图像生成也按对象类型分层处理。动物和 Logo 使用 Gemini-2.0 Flash、GPT-4o 等图像生成/编辑模型,并通过人工筛掉不清晰或争议样本;国旗、棋盘、棋类棋盘、错觉图和图案网格则用 SVG 或 Python 脚本生成,保证可控性。最终主 benchmark 包含 1,392 张反事实图像,覆盖照片式图像和抽象结构图像两种形态,减少“某一种图像生成方式导致失败”的解释空间。

2. 中性计数与偏置率:不靠诱导 prompt 也能测出先验支配

论文没有采用“这是不是一只正常的狗?”这种容易把答案方向写进问题里的设置,而是用两个中性计数问题 Q1/Q2 和一个验证性 Q3。Q1 通常是“How many ...”,Q2 是“Count ...”,两者都要求模型输出数字;Q3 则问当前图像是否仍满足原始身份或标准数量。这样的设计让模型无法把失败归因于题干里的偏置陈述,因为问题本身只要求观察图像。

为了进一步区分“答错但不是偏置”和“答错且回到先验”,作者定义了 bias rate。若反事实 Adidas 图像真实答案是 4 条杠,而模型答 3,则这个错误被记为 bias-aligned;若模型答 5 或其他数字,则属于 other errors。形式上可以把某一任务的偏置率理解为 \(\text{BiasRate}=\frac{\#\{\hat{y}=y_{bias}\}}{N}\),其中 \(y_{bias}\) 是对象的常识答案而非反事实图像真值。这个指标很重要,因为它显示模型不是随机不会数,而是大量稳定地回到被预先定义的常识答案。

3. 七类任务谱系:同时覆盖外部常识偏置和图内模式偏置

VLMBias 不只测动物和 Logo 这类互联网常识很强的对象,还加入了国旗、棋盘、棋类棋盘、光学错觉和全新构造的 patterned grids。前六类主要测试外部记忆:模型知道动物通常几条腿、国旗通常多少星/横纹、棋盘标准开局多少棋子、经典错觉通常该怎么答。最后一类图案网格则更微妙,它没有互联网记忆来源,而是让多数格子形成一个全局数量模式,再在一个指定格子制造异常。

这个设计把“偏置”概念从文本语料常识扩展到视觉上下文本身。patterned grids 上,模型常把目标单元的答案推成周围格子的模式,而不是数指定单元里的圆点或 tally marks。换句话说,VLM 不仅会被训练语料里的世界知识带偏,也会被当前图像中的主导视觉规律带偏;它倾向于补全一个“应该如此”的结构,而不是逐项核查局部证据。

4. 偏置来源剖析:背景、文本、推理长度和视觉编码器逐层排查

主实验只能说明模型被偏置影响,但还不能说明偏置在何处触发。论文因此做了多组诊断:去掉背景、在图像中加入对象名称、加 debiased/double-check prompt、统计 thinking token、比较工具使用、测试 pointing VLM,并用 LLaVA-OneVision-S 的视觉编码器和语言层做线性探针。每组实验都对应一个可能解释:是不是背景线索太强?是不是文本名称激活了先验?是不是推理更多就能纠正?是不是视觉编码器本来就没看见?

结果形成了比较一致的证据链。去背景后准确率从 17.05% 提升到 38.14%,偏置率从 75.70% 降到 35.12%,说明背景确实会强烈触发常识答案;图中加入对象名称反而使准确率下降 4.49 点,说明文本线索会进一步激活先验;视觉编码器线性探针在 4/5 条腿动物上达到 95.26%,但完整 VLM 只接近随机且偏置率极高,说明视觉信息可能已经被编码,却在语言生成阶段被记忆先验覆盖。

一个完整示例

以 Adidas 鞋标为例,原始图像里鞋标有 3 条白色条纹,VLM 在 sanity check 中能正确识别 Adidas 并答出 3。VLMBias 将鞋标编辑成 4 条白色条纹,同时保留运动鞋、运动场景、品牌风格等背景线索。模型收到的问题不是“这是不是 Adidas 的三条杠”,而是中性的“How many visible white stripes are there in the logo of the left shoe?”。

如果模型真正数图像,应输出 {4};如果它被品牌先验带偏,则会输出 {3}。论文观察到,大多数模型在这种场景下仍输出 3,甚至在 Q3 “Are the logos on these shoes Adidas logos?” 中回答 Yes。这说明模型不是简单地读不懂问题,而是把“看起来像 Adidas”直接转成“它应当有三条杠”,并压过了局部视觉证据。

类似地,在动物任务里,5 条腿的 puma 仍常被答成 4 条腿;在国旗任务里,多一条横纹的美国国旗仍被答成 13;在棋盘任务里,少一个棋子的标准开局仍被答成 32。不同任务的共同模式是:越熟悉、越有强背景线索的对象,越容易让模型跳到常识答案。

损失函数 / 训练策略

本文不提出新的训练损失或模型训练策略,而是一个评测与诊断框架。其“方法目标”是通过数据构造、问题设计和指标拆分来暴露 VLM 的失效模式。核心评价指标包括计数/识别准确率、bias rate、其他错误比例,以及在去背景、图中文字、helpful prompt、工具使用、pointing 能力等干预条件下的变化。

实验中的模型均按各平台默认或论文指定设置调用,例如 Gemini-2.5 Pro、Sonnet-3.7、GPT-4.1、o3、o4-mini 等主实验模型;thinking 模型还分析 reasoning tokens 或工具使用时间。论文没有对这些模型做微调,因此结论更接近“现有 VLM 在零样本客观视觉计数中的真实行为”。

实验关键数据

主实验

主结果非常直接:所有模型在原始未修改图像上都能达到 100% 的识别/计数 sanity check,但一旦进入反事实图像,平均计数准确率只有 17.05%。最高的 o4-mini 也只有 20.25%,说明 thinking 能力不能根本解决问题。

模型 反事实计数平均准确率 原始图像 sanity check 平均偏置率 主要结论
Gemini-2.5 Pro 16.02% 100.00% 76.79% 识别原图无问题,但反事实计数严重回到先验
Sonnet-3.7 16.59% 100.00% 76.63% 非 thinking 模型同样稳定输出常识答案
GPT-4.1 13.88% 100.00% 76.62% 平均准确率最低,偏置率仍很高
o3 18.50% 100.00% 74.81% thinking 带来有限提升,仍无法可靠数图像
o4-mini 20.25% 100.00% 73.66% 主实验中最高,但远低于可用水平
平均 17.05% 100.00% 75.70% 失败主要不是不认识对象,而是被先验覆盖

按任务看,动物腿计数只有 2.12%,Logo 只有 6.13%,国旗 9.25%,游戏棋盘行列数 2.26%;相对较高的棋子计数和光学错觉也仍然不理想。光学错觉约 50.87% 更接近随机,而不是稳定视觉理解。

任务 平均准确率 典型偏置答案 论文中的解释
动物加腿 2.12% 鸟 2 条腿、哺乳动物 4 条腿 模型几乎直接调用动物常识
修改 Logo 6.13% Adidas 3 条杠、Audi 4 个环 品牌和产品背景强烈触发标志性元素记忆
修改国旗 9.25% 常见星数/横纹数 离散星形略好于连续条纹,但整体仍低
修改棋子 26.25% 标准开局 32 个或标准棋子数 thinking 模型略有帮助,但仍大量默认标准布局
修改游戏棋盘 2.26% 棋盘/Sudoku/Go 的常规行列数 结构化网格中的简单行列计数也失败
光学错觉 50.87% 经典错觉的熟知答案 原始与反事实版本混合后接近随机
图案网格 22.44% 周围格子的全局模式 即使没有互联网常识,也会被图内模式带偏

消融实验

消融和诊断实验显示,背景与文本线索会显著放大偏置;提示模型“只看图像”或“再检查一遍”只能带来很小收益;工具和 pointing 能力有帮助,但现有模型常常不主动使用。

配置 / 干预 准确率变化 偏置率变化 说明
去除背景 17.05% → 38.14%(+21.09) 75.70% → 35.12%(-40.58) 背景是触发常识答案的重要线索
图中加入对象名称 17.05% → 12.56%(-4.49) 未作为主表平均强调 文本名称进一步激活语言先验
Debiased prompt +1.87 未根治 明说“只看图像”帮助有限
Double-check prompt +2.70 未根治 复查提示无法让模型稳定重新观察
o4-mini with tools 20.25% → 25.08% 约 -3.49 工具可用但只在约 29.66% 查询中被使用
Pointing VLM 平均 36.02% 34.50% 显式定位/计数训练比模型规模更有用

线性探针实验也很关键:在 LLaVA-OneVision-S 的动物 4/5 条腿任务上,SigLIP 视觉编码器特征可用线性分类达到 95.26% 准确率,但完整 VLM 只有 49.71%,并且对 5 条腿动物几乎总输出 4。这个结果支持“视觉信息存在,但语言模型生成阶段覆盖视觉证据”的解释。

表征阶段 / 模型 动物 4 vs 5 腿准确率 说明
Vision encoder before projection 95.26% 原始视觉特征足以区分腿数
After projection 91.24% 投影后仍保留大量信息
Last LLM layer 89.08% 表征中仍有可线性解码的视觉信号
LLaVA-OneVision-S 完整输出 49.71% 最终回答接近随机且强烈偏向 4 条腿
完整 VLM bias rate 99.43% 说明生成答案时先验压过视觉证据

关键发现

  • 所有主流 VLM 在未修改图像上都能 100% 识别主体,因此反事实失败不能简单解释为“不认识对象”。
  • 反事实计数中的错误高度集中在常识答案上,平均 75.70% 的回答是 bias-aligned,而不是随机错。
  • 去背景后准确率几乎翻倍,说明背景并非无关装饰,而是触发偏置的重要上下文。
  • thinking tokens 对准确率有非单调影响:一开始更多推理会提升表现,但超过经验上限后会出现 overthinking,准确率反而下降。
  • 工具和 pointing 能力真正被使用时很有帮助,但商业 VLM 常因过度自信而不主动调用工具。
  • 人类在动物腿计数上即使只有 0.2 秒也有 50% 反事实准确率,2 秒可达 93.75%,说明图像本身并非天然不可判定。

亮点与洞察

  • 把偏置从社会刻板印象扩展到客观视觉任务:论文讨论的 bias 不是“模型对某群体有偏见”,而是“模型被熟悉对象的统计常识带偏”。这让 VLM 偏置研究更贴近日常视觉问答,因为用户经常问的是计数、识别、判断变化这类客观问题。

  • 反事实构造非常干净:一张图保留主体身份,只改一个关键可数元素,能把“知道对象是什么”和“看见对象现在是什么样”分开。这个思路可复用于检测医学影像、机器人感知、自动驾驶场景中的先验覆盖问题。

  • bias rate 比单纯 accuracy 更有解释力:低准确率只能说明模型错了,bias rate 能说明它错向哪里。如果错误集中在预定义常识答案上,就说明模型不是普通视觉能力不足,而是在冲突时有系统偏向。

  • 背景移除实验很有启发:去背景带来 +21.09 准确率和 -40.58 偏置率,提示未来 VLM 工具链不只是要“更会推理”,还要更会判断什么时候需要裁剪、放大、局部计数。

  • 视觉编码器与最终答案之间存在断层:线性探针表明低层视觉表征可能已经包含正确腿数,但最终语言输出仍被常识答案覆盖。这比“VLM 看不见小细节”更深一层,问题可能在跨模态融合、注意力到解码、或语言先验校准上。

局限与展望

  • 反事实图像的一部分由图像生成/编辑模型产生,虽然作者做了人工筛选并跨模型族验证,但生成图像仍可能包含风格痕迹或局部不自然之处。尤其是动物和 Logo 这类照片式任务,生成质量会影响难度。

  • VLMBias 主要考察可数元素和少量 Yes/No 识别,尚未覆盖更复杂的空间关系、动作状态、医学异常、遥感变化检测等高风险视觉决策任务。它揭示了机制性风险,但任务谱系仍可扩展。

  • 主实验中的模型调用多依赖黑盒 API,无法完整追踪内部跨模态融合过程。线性探针只在 LLaVA-OneVision-S 上做了代表性分析,未来需要在更多开源架构上验证“视觉已编码但语言覆盖”的普遍性。

  • 工具使用实验显示工具有效但触发率低,后续可以研究显式不确定性估计、自动局部检查策略、强制 locate-then-count 解码,或者让模型在检测到熟悉对象时主动生成“反常细节检查清单”。

  • 论文指出 larger open-source VLM 有更高 bias rate 的迹象,但这类 inverse scaling 结论还需要更系统的模型族、训练数据和任务难度控制,避免把规模效应和训练配方差异混在一起。

相关工作与启发

  • vs HallusionBench / PhD-ccs / VLind-Bench: 这些 benchmark 多用 Yes/No 或带偏置陈述的问题来诱发 VLM 幻觉;VLMBias 则把偏置主要放在图像中,用中性计数问题测试模型是否主动观察细节。优势是诊断更干净,劣势是任务类型更集中在可数元素上。

  • vs ViLP: ViLP 也关注视觉语言先验,但包含更多识别类和带实体名的提问,计数问题占比较小。VLMBias 的贡献是把计数作为主任务,并系统采样 7 类主体,使 bias-aligned error 可以横向比较。

  • vs BlindTest / VLM counting benchmarks: 传统计数 benchmark 关注模型能不能数清对象,VLMBias 进一步把“对象数量”放在熟悉常识的反事实冲突里。它说明计数失败不仅来自定位困难,也来自语言先验压过视觉证据。

  • vs Visual hallucination / counter-commonsense image work: 以往 counter-commonsense 图像常用开放问答或异常图像判断,容易混入语义解释空间;本文用精确数字答案和预定义 bias answer,使错误类型更容易量化。

  • 对后续研究的启发:如果要提升 VLM 的可靠视觉感知,不能只靠更大模型或更长 chain-of-thought。更可行的方向可能是把“熟悉对象触发的先验”当作风险信号,主动调用局部放大、分割、指点、计数工具,并在最终回答前校验视觉证据是否真的支持常识答案。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 用反事实客观计数来测 VLM 先验偏置,问题定义清楚且和已有偏置 benchmark 拉开距离。
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 7 类任务、多种商业/开源/pointing/tool VLM,并有背景、文本、prompt、工具、线性探针等诊断实验。
  • 写作质量: ⭐⭐⭐⭐ 论文主线清晰、图表充分,但附录实验很多,读者需要在主文和附录之间来回对照才能完整掌握证据链。
  • 价值: ⭐⭐⭐⭐⭐ 对 VLM 评测、安全部署和多模态工具使用都有直接启发,尤其提醒我们不能把“认识对象”误当成“看清当前图像”。