Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional¶

会议: ICLR 2026
arXiv: 2509.23499
代码: GitHub
领域: 信号通信
关键词: 多模态基准评估, 模态依赖性, VQA, 数据集偏差, MLLM评估

一句话总结¶

通过大规模实证研究量化23个VQA基准中的模态内依赖和模态间依赖，揭示多数基准存在严重的单模态捷径，且消除文本偏差往往引入图像偏差，为多模态基准设计提供定量评估框架。

研究背景与动机¶

领域现状: 多模态大语言模型（MLLM）的快速发展伴随着评估基准的激增——超过200个多模态基准被提出，但缺乏对这些数据集实际测量内容的系统研究。
现有痛点: 基准之间的关系、冗余性和独特贡献不明确。不同评估周期中基准的增删缺乏理由（如Gemini 2.5省略了Gemini 1.5使用的多个基准），无法判断性能提升是真正的能力进步还是适应了不同的偏差。
核心矛盾: 基准设计陷入"猫鼠游戏"——新数据集被创建以消除文本偏差，却意外引入图像偏差；模型通过单模态捷径获得高分，但这并不反映真正的多模态理解能力。
本文目标: 系统量化现有多模态基准中模态内依赖（单模态即可解答）和模态间依赖（需要两种模态交互）的强度。
切入角度: 通过模态置换（shuffling）方法，在保持各模态边缘分布不变的前提下打破模态间关联，测量性能下降来量化各模态的贡献。
核心 idea: 多模态数据集是多维的——每个基准在视觉依赖、文本依赖和模态交互依赖上的强度各不相同，需要多维刻画而非单一聚合分数。

方法详解¶

整体框架¶

提出四种评估条件：(1) 正常配对输入 \(\mathcal{M}(f_\theta(\mathbf{x_1}, \mathbf{x_2}), \mathbf{y})\)；(2) 仅图像（文本随机替换）；(3) 仅文本（图像随机替换）；(4) 全随机（两种模态都替换）。通过比较四种条件下的性能差异,量化模态内和模态间依赖。使用多模型多数投票集成减少单一模型偏差的影响。

关键设计¶

1. 模态置换评估方法

功能: 量化数据集中各模态的独立贡献和交互贡献
核心思路: 将一种模态的样本在数据集内随机打乱，保持另一种模态和标签的对齐。性能下降程度反映该模态的贡献。相比零化（使用空白图像）或扰动方法，置换保持了各模态的边缘分布，避免产生分布外输入
设计动机: 需要一种既简单又不引入OOD混淆因素的方法来分离模态贡献

2. 多粒度分析框架

功能: 避免聚合指标掩盖子类别中存在的单模态依赖
核心思路: 不仅在数据集层面分析，还按子类别（如问题类型、知识领域）进行细粒度分析，发现全局看似平衡的数据集在子群体中存在强烈的单模态偏差
设计动机: 如COCO整体看是模态交互数据集，但"相对位置"子类别存在明显的文本依赖

3. 跨规模跨类型的鲁棒性验证

功能: 验证观察到的模态依赖是数据集固有属性而非特定模型偏差
核心思路: 使用Cambrian-1的8B/13B/34B模型及集成，加上LLaVA-Next、Qwen2.5-VL、Qwen3-VL等不同架构模型验证结论一致性
设计动机: 多模态依赖是数据与模型的函数，需要边际化模型影响以获取数据的固有特性

损失函数 / 训练策略¶

本文为分析性工作，无训练过程。评估使用标准准确率指标，在四种输入条件下比较。

实验关键数据¶

主实验¶

23个基准按模态依赖类型分类：

类别	数据集	典型表现
仅模态交互	MME, POPE, COCO, V*Bench	仅4个数据集，打乱模态后退化到随机水平
文本依赖	GQA(+26%), ScienceQA(+17.5%), MMMU(+11.35%)	仅用正确问题就远超随机
图像依赖	MMBench(+41%), SEED, TextVQA, ChartQA	仅用图像即可远超随机
双重依赖	MMMU-Pro, MathVista	两种模态单独都有贡献

消融实验¶

模型规模对模态依赖的影响：

数据集	8B→34B趋势	说明
MMMU	图像和文本依赖都增加	更大模型更擅长利用单模态捷径
MMBench	图像依赖增加	规模未缓解偏差反而加剧
POPE	无变化	纯交互数据集不受规模影响
AI2D	文本依赖增加	更大模型更依赖文本先验

关键发现¶

真正的多模态基准极其稀少: 23个基准中仅4个展现纯粹的模态交互依赖
消除文本偏差≠实现多模态: 很多努力只是将文本依赖替换为图像依赖
模型规模加剧偏差: 更大的模型不会自动学习更好的多模态推理，反而更擅长利用单模态捷径
聚合指标具有欺骗性: 全局平衡的数据集在子类别中可能存在严重的单模态依赖

亮点与洞察¶

揭示了多模态评估的根本问题: 大多数基准并不真正测试多模态能力
定量框架可直接应用: 为未来基准设计提供了可操作的工具
对领域发展方向的反思: 追逐排行榜分数可能不反映多模态能力的真正进步
建议报告模态特定基线: 除总分外应报告image-only、text-only和random性能

局限与展望¶

分析局限于MCVQA格式，未覆盖开放式回答
选择题格式本身可能降低了对多模态交互的需求
未探讨如何自动修复已有数据集中的单模态偏差
可扩展到视频、音频等更多模态的评估

评分¶

新颖性: ⭐⭐⭐⭐ 首次大规模系统量化多模态基准的模态依赖
实验充分度: ⭐⭐⭐⭐⭐ 23个基准、多模型、多规模、子类别分析
写作质量: ⭐⭐⭐⭐⭐ 分析清晰，可视化优秀
价值: ⭐⭐⭐⭐⭐ 对多模态评估方法论有深远影响

会议: ICLR 2026
arXiv: 2509.23499
代码: GitHub
领域: signal_comm
关键词: 多模态学习, 基准评测, 模态依赖, VQA, MLLM

一句话总结¶

通过大规模实证研究量化了23个VQA基准中的模态内依赖和模态间依赖，揭示许多旨在消除文本偏置的基准反而引入了图像偏置，提出了多模态数据集的多维度刻画框架。

研究背景与动机¶

领域现状: 多模态大语言模型（MLLMs）快速发展，伴随超过200个评测基准的涌现，但对这些基准实际测量什么缺乏系统性理解。
现有痛点: 基准选择缺乏科学依据——Gemini 1.5和2.5评测使用的数据集集合不同且缺乏为何更换的说明。模型性能提升是真正的多模态能力进步还是对单模态捷径的利用，难以判断。
核心矛盾: 基准开发陷入"猫鼠游戏"循环——新数据集被设计来消除特定的单模态偏置，但随后被发现引入了新的偏置（如VQA→VQAv2→VQA-CP→MMMU→MMMU-Pro）。
本文目标: 对现有多模态基准进行系统化的模态依赖分析，提供定量刻画框架。
切入角度: 通过模态置换（shuffling）方法，在保持单模态边际分布不变的前提下，破坏模态间依赖，测量模型在四种输入条件下的性能变化。
核心 idea: 多模态数据集本质上是多维度的，其中模态内依赖（单模态即可回答）和模态间依赖（需联合推理）的强度在基准内部和基准之间都有显著差异。

方法详解¶

整体框架¶

提出四种评估条件的诊断框架：(1) 配对模态（正常）: 原始配对数据的标准性能；(2) 仅图像: 文本被替换为随机样本的文本，隔离图像贡献；(3) 仅文本: 图像被替换为随机样本的图像，隔离文本贡献；(4) 随机: 两个模态都被随机替换，建立基线。使用多模型集成（majority vote）消除单个模型偏差。

关键设计¶

1. 模态置换而非置零

功能: 在破坏模态间依赖的同时保持各模态的边际分布
核心思路: 将一个模态的输入替换为同数据集其他样本的对应模态输入，而非使用空白图像或空字符串。模型仍接收有效输入，但模态间的对齐关系被打破
设计动机: 置零或添加扰动会创造不自然的分布外输入，引发不可预测的模型行为，混淆模态依赖的测量

2. 子类别粒度分析

功能: 揭示聚合指标可能掩盖的子群体内偏置
核心思路: 对数据集按问题类型、对象类别等特征进行子集划分，在每个子集上独立执行模态置换诊断
设计动机: 全局看似平衡的数据集在特定子类别中可能存在强烈的单模态依赖

3. 跨模型规模和类型的验证

功能: 确保发现的是数据固有特性而非模型特定偏置
核心思路: 使用Cambrian-1的8B/13B/34B三个规模模型的多数投票集成，并额外验证LLaVA-Next、Qwen2.5-VL、Qwen3-VL等不同架构
设计动机: 模态依赖是数据和模型的联合函数，需要边际化单模型影响以获得数据本身依赖特性的鲁棒估计

损失函数 / 训练策略¶

本文是分析性工作，不涉及模型训练。评测使用准确率作为核心指标，通过四种条件下准确率的差异来量化模态依赖强度。

实验关键数据¶

主实验¶

23个基准的模态依赖分类：

依赖类型	代表数据集	特征
仅模态间依赖	MME, POPE, COCO, V*Bench	极少，仅4/23个数据集
含文本内依赖	GQA(+26%), ScienceQA(+17.5%), MMMU(+11.35%), AI2D(+34.94%)	仅靠文本即可大幅超越随机
含图像内依赖	MMBench(+41%), SEED, TextVQA, MMMU-Pro, MMVP	消除文本偏置反而引入了图像偏置

消融实验¶

配置	关键发现	说明
模型规模增大(8B→34B)	单模态偏置不减反增	MMMU上更大模型增加了图像和文本依赖
不同模型类型	偏置模式跨模型一致	Cambrian、LLaVA-Next、Qwen模型表现类似
子类别分析	聚合指标掩盖子群偏置	ScienceQA高年级问题几乎全靠文本

关键发现¶

仅4/23基准 表现出纯粹的模态间依赖，远少于预期
旨在消除文本偏置的新基准（如MMBench、SEED等）反而引入了图像偏置——用一种单模态捷径替换了另一种
模型规模增大不能缓解单模态偏置，反而可能加剧
子类别分析显示，即使全局平衡的数据集在特定子集上仍有强烈偏置

亮点与洞察¶

揭示了多模态评测的根本问题: 用单一聚合分数评价模型是不够的，需要同时报告单模态基线性能
为"模型进步是否真实"提供了判断工具: 性能提升可能只是模型更善于利用单模态依赖
设计新基准的实用指南: 核心目标应是需要两个模态共同回答，而非仅消除某一模态的依赖
"猫鼠游戏"的深刻洞察: 只有系统化量化模态依赖才能打破这一循环

局限与展望¶

分析限于多选VQA格式，未涵盖开放式生成任务
模态置换方法在选项本身包含模态信息时可能有局限
需要扩展到模型主动弃权（abstention）能力的评估
未来应推进开放式答案生成和评估的基准设计

评分¶

新颖性: ⭐⭐⭐⭐ 系统性分析揭示了被忽视的重要问题
实验充分度: ⭐⭐⭐⭐⭐ 23个基准、多个模型规模和类型、子类别分析
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，可视化出色
价值: ⭐⭐⭐⭐ 对多模态评测社区具有重要的方法论指导意义

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶