跳转至

Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional

会议: ICLR 2026
arXiv: 2509.23499
代码: GitHub
领域: 信号通信
关键词: 多模态基准评估, 模态依赖性, VQA, 数据集偏差, MLLM评估

一句话总结

通过大规模实证研究量化23个VQA基准中的模态内依赖和模态间依赖,揭示多数基准存在严重的单模态捷径,且消除文本偏差往往引入图像偏差,为多模态基准设计提供定量评估框架。

研究背景与动机

  1. 领域现状: 多模态大语言模型(MLLM)的快速发展伴随着评估基准的激增——超过200个多模态基准被提出,但缺乏对这些数据集实际测量内容的系统研究。

  2. 现有痛点: 基准之间的关系、冗余性和独特贡献不明确。不同评估周期中基准的增删缺乏理由(如Gemini 2.5省略了Gemini 1.5使用的多个基准),无法判断性能提升是真正的能力进步还是适应了不同的偏差。

  3. 核心矛盾: 基准设计陷入"猫鼠游戏"——新数据集被创建以消除文本偏差,却意外引入图像偏差;模型通过单模态捷径获得高分,但这并不反映真正的多模态理解能力。

  4. 本文目标: 系统量化现有多模态基准中模态内依赖(单模态即可解答)和模态间依赖(需要两种模态交互)的强度。

  5. 切入角度: 通过模态置换(shuffling)方法,在保持各模态边缘分布不变的前提下打破模态间关联,测量性能下降来量化各模态的贡献。

  6. 核心 idea: 多模态数据集是多维的——每个基准在视觉依赖、文本依赖和模态交互依赖上的强度各不相同,需要多维刻画而非单一聚合分数。

方法详解

整体框架

提出四种评估条件:(1) 正常配对输入 \(\mathcal{M}(f_\theta(\mathbf{x_1}, \mathbf{x_2}), \mathbf{y})\);(2) 仅图像(文本随机替换);(3) 仅文本(图像随机替换);(4) 全随机(两种模态都替换)。通过比较四种条件下的性能差异,量化模态内和模态间依赖。使用多模型多数投票集成减少单一模型偏差的影响。

关键设计

1. 模态置换评估方法

  • 功能: 量化数据集中各模态的独立贡献和交互贡献
  • 核心思路: 将一种模态的样本在数据集内随机打乱,保持另一种模态和标签的对齐。性能下降程度反映该模态的贡献。相比零化(使用空白图像)或扰动方法,置换保持了各模态的边缘分布,避免产生分布外输入
  • 设计动机: 需要一种既简单又不引入OOD混淆因素的方法来分离模态贡献

2. 多粒度分析框架

  • 功能: 避免聚合指标掩盖子类别中存在的单模态依赖
  • 核心思路: 不仅在数据集层面分析,还按子类别(如问题类型、知识领域)进行细粒度分析,发现全局看似平衡的数据集在子群体中存在强烈的单模态偏差
  • 设计动机: 如COCO整体看是模态交互数据集,但"相对位置"子类别存在明显的文本依赖

3. 跨规模跨类型的鲁棒性验证

  • 功能: 验证观察到的模态依赖是数据集固有属性而非特定模型偏差
  • 核心思路: 使用Cambrian-1的8B/13B/34B模型及集成,加上LLaVA-Next、Qwen2.5-VL、Qwen3-VL等不同架构模型验证结论一致性
  • 设计动机: 多模态依赖是数据与模型的函数,需要边际化模型影响以获取数据的固有特性

损失函数 / 训练策略

本文为分析性工作,无训练过程。评估使用标准准确率指标,在四种输入条件下比较。

实验关键数据

主实验

23个基准按模态依赖类型分类:

类别 数据集 典型表现
仅模态交互 MME, POPE, COCO, V*Bench 仅4个数据集,打乱模态后退化到随机水平
文本依赖 GQA(+26%), ScienceQA(+17.5%), MMMU(+11.35%) 仅用正确问题就远超随机
图像依赖 MMBench(+41%), SEED, TextVQA, ChartQA 仅用图像即可远超随机
双重依赖 MMMU-Pro, MathVista 两种模态单独都有贡献

消融实验

模型规模对模态依赖的影响:

数据集 8B→34B趋势 说明
MMMU 图像和文本依赖都增加 更大模型更擅长利用单模态捷径
MMBench 图像依赖增加 规模未缓解偏差反而加剧
POPE 无变化 纯交互数据集不受规模影响
AI2D 文本依赖增加 更大模型更依赖文本先验

关键发现

  • 真正的多模态基准极其稀少: 23个基准中仅4个展现纯粹的模态交互依赖
  • 消除文本偏差≠实现多模态: 很多努力只是将文本依赖替换为图像依赖
  • 模型规模加剧偏差: 更大的模型不会自动学习更好的多模态推理,反而更擅长利用单模态捷径
  • 聚合指标具有欺骗性: 全局平衡的数据集在子类别中可能存在严重的单模态依赖

亮点与洞察

  • 揭示了多模态评估的根本问题: 大多数基准并不真正测试多模态能力
  • 定量框架可直接应用: 为未来基准设计提供了可操作的工具
  • 对领域发展方向的反思: 追逐排行榜分数可能不反映多模态能力的真正进步
  • 建议报告模态特定基线: 除总分外应报告image-only、text-only和random性能

局限与展望

  • 分析局限于MCVQA格式,未覆盖开放式回答
  • 选择题格式本身可能降低了对多模态交互的需求
  • 未探讨如何自动修复已有数据集中的单模态偏差
  • 可扩展到视频、音频等更多模态的评估

相关工作与启发

  • Perceptual Score (Gat et al., 2021) 提供了模态贡献量化的方法论基础
  • VQA-CP等数据集纠偏工作展现了设计无偏基准的困难
  • 启发: 评估方法论的进步可能比评估基准的增加更有价值

评分

  • 新颖性: ⭐⭐⭐⭐ 首次大规模系统量化多模态基准的模态依赖
  • 实验充分度: ⭐⭐⭐⭐⭐ 23个基准、多模型、多规模、子类别分析
  • 写作质量: ⭐⭐⭐⭐⭐ 分析清晰,可视化优秀
  • 价值: ⭐⭐⭐⭐⭐ 对多模态评估方法论有深远影响

Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional

会议: ICLR 2026
arXiv: 2509.23499
代码: GitHub
领域: signal_comm
关键词: 多模态学习, 基准评测, 模态依赖, VQA, MLLM

一句话总结

通过大规模实证研究量化了23个VQA基准中的模态内依赖和模态间依赖,揭示许多旨在消除文本偏置的基准反而引入了图像偏置,提出了多模态数据集的多维度刻画框架。

研究背景与动机

  1. 领域现状: 多模态大语言模型(MLLMs)快速发展,伴随超过200个评测基准的涌现,但对这些基准实际测量什么缺乏系统性理解。

  2. 现有痛点: 基准选择缺乏科学依据——Gemini 1.5和2.5评测使用的数据集集合不同且缺乏为何更换的说明。模型性能提升是真正的多模态能力进步还是对单模态捷径的利用,难以判断。

  3. 核心矛盾: 基准开发陷入"猫鼠游戏"循环——新数据集被设计来消除特定的单模态偏置,但随后被发现引入了新的偏置(如VQA→VQAv2→VQA-CP→MMMU→MMMU-Pro)。

  4. 本文目标: 对现有多模态基准进行系统化的模态依赖分析,提供定量刻画框架。

  5. 切入角度: 通过模态置换(shuffling)方法,在保持单模态边际分布不变的前提下,破坏模态间依赖,测量模型在四种输入条件下的性能变化。

  6. 核心 idea: 多模态数据集本质上是多维度的,其中模态内依赖(单模态即可回答)和模态间依赖(需联合推理)的强度在基准内部和基准之间都有显著差异。

方法详解

整体框架

提出四种评估条件的诊断框架:(1) 配对模态(正常): 原始配对数据的标准性能;(2) 仅图像: 文本被替换为随机样本的文本,隔离图像贡献;(3) 仅文本: 图像被替换为随机样本的图像,隔离文本贡献;(4) 随机: 两个模态都被随机替换,建立基线。使用多模型集成(majority vote)消除单个模型偏差。

关键设计

1. 模态置换而非置零

  • 功能: 在破坏模态间依赖的同时保持各模态的边际分布
  • 核心思路: 将一个模态的输入替换为同数据集其他样本的对应模态输入,而非使用空白图像或空字符串。模型仍接收有效输入,但模态间的对齐关系被打破
  • 设计动机: 置零或添加扰动会创造不自然的分布外输入,引发不可预测的模型行为,混淆模态依赖的测量

2. 子类别粒度分析

  • 功能: 揭示聚合指标可能掩盖的子群体内偏置
  • 核心思路: 对数据集按问题类型、对象类别等特征进行子集划分,在每个子集上独立执行模态置换诊断
  • 设计动机: 全局看似平衡的数据集在特定子类别中可能存在强烈的单模态依赖

3. 跨模型规模和类型的验证

  • 功能: 确保发现的是数据固有特性而非模型特定偏置
  • 核心思路: 使用Cambrian-1的8B/13B/34B三个规模模型的多数投票集成,并额外验证LLaVA-Next、Qwen2.5-VL、Qwen3-VL等不同架构
  • 设计动机: 模态依赖是数据和模型的联合函数,需要边际化单模型影响以获得数据本身依赖特性的鲁棒估计

损失函数 / 训练策略

本文是分析性工作,不涉及模型训练。评测使用准确率作为核心指标,通过四种条件下准确率的差异来量化模态依赖强度。

实验关键数据

主实验

23个基准的模态依赖分类:

依赖类型 代表数据集 特征
仅模态间依赖 MME, POPE, COCO, V*Bench 极少,仅4/23个数据集
含文本内依赖 GQA(+26%), ScienceQA(+17.5%), MMMU(+11.35%), AI2D(+34.94%) 仅靠文本即可大幅超越随机
含图像内依赖 MMBench(+41%), SEED, TextVQA, MMMU-Pro, MMVP 消除文本偏置反而引入了图像偏置

消融实验

配置 关键发现 说明
模型规模增大(8B→34B) 单模态偏置不减反增 MMMU上更大模型增加了图像和文本依赖
不同模型类型 偏置模式跨模型一致 Cambrian、LLaVA-Next、Qwen模型表现类似
子类别分析 聚合指标掩盖子群偏置 ScienceQA高年级问题几乎全靠文本

关键发现

  • 仅4/23基准 表现出纯粹的模态间依赖,远少于预期
  • 旨在消除文本偏置的新基准(如MMBench、SEED等)反而引入了图像偏置——用一种单模态捷径替换了另一种
  • 模型规模增大不能缓解单模态偏置,反而可能加剧
  • 子类别分析显示,即使全局平衡的数据集在特定子集上仍有强烈偏置

亮点与洞察

  • 揭示了多模态评测的根本问题: 用单一聚合分数评价模型是不够的,需要同时报告单模态基线性能
  • 为"模型进步是否真实"提供了判断工具: 性能提升可能只是模型更善于利用单模态依赖
  • 设计新基准的实用指南: 核心目标应是需要两个模态共同回答,而非仅消除某一模态的依赖
  • "猫鼠游戏"的深刻洞察: 只有系统化量化模态依赖才能打破这一循环

局限与展望

  • 分析限于多选VQA格式,未涵盖开放式生成任务
  • 模态置换方法在选项本身包含模态信息时可能有局限
  • 需要扩展到模型主动弃权(abstention)能力的评估
  • 未来应推进开放式答案生成和评估的基准设计

相关工作与启发

  • Perceptual Score (Gat et al., 2021) 提供了基础方法论,本文将其扩展到23个基准的大规模分析
  • 与NAS中"搜索空间设计比搜索算法重要"的类似洞察——基准设计比模型改进更根本
  • 启发:评价多模态模型时应同时报告模态特定基线,形成社区规范

评分

  • 新颖性: ⭐⭐⭐⭐ 系统性分析揭示了被忽视的重要问题
  • 实验充分度: ⭐⭐⭐⭐⭐ 23个基准、多个模型规模和类型、子类别分析
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,可视化出色
  • 价值: ⭐⭐⭐⭐ 对多模态评测社区具有重要的方法论指导意义