Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions¶

会议	arXiv	代码	领域	关键词
ACL 2025 (SAC Highlight Award)	2507.13773	无	multimodal_vlm	VQA Ambiguity, Clarification Question, Interactive VQA, ClearVQA, Vision-Language Model

一句话总结¶

提出 ClearVQA 基准和自动化数据生成管线，让 VLM 学会在遇到歧义视觉问题时主动提出澄清问题而非强行作答，通过三类歧义分类（引用歧义、属性歧义、关系歧义）系统化交互式 VQA，实验证明训练后 VLM 能显著提升歧义识别和澄清质量，获 ACL 2025 SAC Highlight Award。

研究背景与动机¶

领域现状：在视觉问答（VQA）场景中，用户向 VLM（如 LLaVA、GPT-4V）提问时经常因表达习惯差异而产生歧义问题。例如，图片中有多只猫时问"这只猫是什么品种"，或者"左边的那个东西是什么"但"左边"有多个对象。现有研究主要通过重写问题或改述来消除歧义（如 AmbigQA 等），将歧义消解视为一个单向生成问题。

现有痛点：现有方法存在两个关键缺陷：(1) 忽视了交互本质——用户与 VLM 的对话天然是交互式的，歧义可以通过用户反馈来澄清，但现有方法都是单轮处理；(2) VLM 的训练偏好导致"回答而非提问"——VLM 被训练为尽可能回答问题，即使面对歧义也倾向给出一个（可能错误的）答案，而不是反问用户以澄清意图。

核心矛盾：VLM 被优化为"尽量回答"与实际交互场景中"该问就要问"之间的矛盾——在歧义情境下强行回答会产生错误或不相关的答案，但 VLM 的训练目标不鼓励它主动承认歧义并发起澄清。

本文目标 (1) 构建一个系统化的歧义 VQA 基准，覆盖多种歧义类型和 VQA 场景；(2) 设计自动化管线生成歧义-澄清问题对的训练数据；(3) 训练 VLM 能在遇到歧义时主动提出澄清问题，并基于用户反馈给出更准确的回答。

切入角度：作者观察到人类对话中遇到歧义时的自然反应是反问而非猜测——"你指的是哪只猫？"——但 VLM 完全缺乏这种能力。从这个人类交互直觉出发，将 VQA 歧义消解建模为交互式对话任务而非单轮改写任务。

核心 idea：教会 VLM 在面对歧义视觉问题时像人类一样主动提出澄清问题，而非强行给出可能错误的答案。

方法详解¶

整体框架¶

整体分为两大部分：(1) ClearVQA 基准构建——定义三类 VQA 歧义（引用歧义、属性歧义、关系歧义），覆盖多种 VQA 场景（常规 VQA、基于知识的 VQA、基于文档的 VQA 等），包含歧义检测和澄清问题生成两个子任务；(2) 自动化训练数据生成——基于已有 VQA 数据集，利用 LLM 自动构造歧义问题及其对应的澄清问题对，用于微调 VLM。

关键设计¶

三类 VQA 歧义分类体系:
- 功能：系统化定义视觉问答中的歧义来源
- 核心思路：
  - 引用歧义 (Referential Ambiguity)：指代不明，如图中有多只猫时问"这只猫多大了"，无法确定指哪只
  - 属性歧义 (Attribute Ambiguity)：属性描述模糊，如"那个大的物体"但"大"的标准不明确，可能指代不同对象
  - 关系歧义 (Relational Ambiguity)：空间或语义关系不明，如"靠近窗户的人"但多人都靠近窗户
- 设计动机：这三类歧义覆盖了 VQA 中最常见的歧义场景，每类需要不同的澄清策略（引用歧义需反问具体特征、属性歧义需反问标准、关系歧义需反问空间细节）
自动化歧义-澄清数据生成管线:
- 功能：大规模生成训练数据，无需人工标注
- 核心思路：从现有 VQA 数据集出发，利用 LLM 为每个清晰问题生成对应的歧义版本和澄清问题。管线包括：(a) 基于图片内容和原始问题，生成歧义化的问题变体；(b) 为每个歧义问题生成合适的澄清问题；(c) 生成用户对澄清问题的反馈答案；(d) 基于反馈生成最终准确回答。多步生成确保数据质量
- 设计动机：人工标注歧义问题和澄清问题的成本极高（需要理解图片内容、构造自然的歧义表达、设计合理的澄清问题），自动化管线是规模化的唯一可行路径
VLM 澄清能力训练:
- 功能：使 VLM 具备歧义检测和澄清提问双重能力
- 核心思路：对 VLM 进行指令微调，训练数据包含两种类型：(a) 歧义检测数据——给定图片和问题，判断是否存在歧义并分类；(b) 澄清问题生成数据——对于检测到的歧义问题，生成合适的澄清问题。训练目标同时优化检测准确率和生成质量。VLM 在推理时先判断问题是否歧义，若歧义则生成澄清问题，得到用户反馈后再生成最终答案
- 设计动机：将歧义消解分解为检测+澄清两个阶段，比端到端方式更可控——可以单独评估和优化每个阶段的性能

实验关键数据¶

主实验——歧义检测¶

模型	引用歧义 F1	属性歧义 F1	关系歧义 F1	平均 F1
GPT-4V (zero-shot)	~55	~50	~48	~51
LLaVA-1.5 (zero-shot)	~40	~38	~35	~38
LLaVA-1.5 + ClearVQA训练	~72	~68	~65	~68
提升	+32	+30	+30	+30

消融实验——澄清效果¶

配置	VQA 准确率	说明
直接回答（无澄清）	~45	面对歧义问题强行作答
问题改写（非交互）	~52	传统单轮改写方法
澄清后回答（ClearVQA）	~71	交互式澄清后回答
金标准澄清 + 回答	~78	使用人工澄清问题的上界

关键发现¶

VLM 严重缺乏歧义意识：即使是 GPT-4V 在 zero-shot 场景下，歧义检测 F1 仅约 51%，接近随机水平。LLaVA 等开源 VLM 更差，说明当前 VLM 几乎没有歧义识别能力
训练后提升显著：使用自动生成的 ClearVQA 数据微调后，歧义检测 F1 提升约 30 个点，证明该能力可通过数据训练获得
澄清交互大幅提升回答质量：通过一轮澄清交互，VQA 准确率从 ~45% 提升到 ~71%，远超单轮改写方法（~52%），说明交互式歧义消解的有效性
引用歧义最易检测，关系歧义最难：三类歧义中引用歧义的检测准确率最高，因为指代不明相对容易识别；关系歧义涉及复杂的空间推理，检测难度最大

亮点与洞察¶

问题定义精准："教 VLM 学会提问"的叙事角度既直觉又深刻——人类交互中提问和回答同等重要，但 VLM 被训练成只会回答，这是一个系统性的能力缺失。ACL 2025 SAC Highlight Award 的认可说明这个方向的重要性
三类歧义分类的实用性：引用/属性/关系的分类清晰且互斥，每类都有明确的澄清策略，可以直接迁移到对话系统设计中。这种分类比笼统的"歧义"标签更有指导价值
自动数据生成的杠杆效应：通过 LLM 自动生成训练数据避免了昂贵的人工标注，同时在下游任务上取得了接近人工标注的效果，展示了"用 LLM 生成数据训练 LLM"的可扩展性
可扩展到通用交互场景：虽然论文聚焦 VQA，但"检测歧义→提问澄清→基于反馈回答"的范式可以直接迁移到多模态对话助手、医疗影像问答等场景

局限与展望¶

单轮澄清假设：当前框架假设一轮澄清就能消解歧义，但复杂场景可能需要多轮交互（如用户反馈本身仍然歧义）
歧义类型可扩展：仅定义了三类歧义，实际 VQA 中还存在时间歧义（"最近"指什么时间？）、文化歧义（同一手势在不同文化中含义不同）等
自动生成数据的质量上限：LLM 生成的歧义问题和澄清问题可能不够自然，与真实用户交互中的歧义表达存在分布差距
评估指标有限：澄清问题的质量评估主要依赖自动指标，缺乏大规模人工评估来验证生成的澄清问题是否真正对用户有帮助
未与多模态对话系统集成测试：只在 VQA 基准上测试，未在端到端的多模态对话系统中验证实际交互效果

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统化研究 VLM 的歧义检测和澄清提问能力，问题定义精准且重要
实验充分度: ⭐⭐⭐⭐ 三类歧义、多种VQA场景、消融分析、等覆盖较全，但部分实验细节受限于abs-only
写作质量: ⭐⭐⭐⭐⭐ 获 SAC Highlight Award 是对写作质量的有力认可
价值: ⭐⭐⭐⭐⭐ 指出了一个被忽视但极为重要的 VLM 能力缺失，开辟新研究方向