跳转至

Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions

会议 arXiv 代码 领域 关键词
ACL 2025 (SAC Highlight Award) 2507.13773 multimodal_vlm VQA Ambiguity, Clarification Question, Interactive VQA, ClearVQA, Vision-Language Model

一句话总结

提出 ClearVQA 基准和自动化数据生成管线,让 VLM 学会在遇到歧义视觉问题时主动提出澄清问题而非强行作答,通过三类歧义分类(引用歧义、属性歧义、关系歧义)系统化交互式 VQA,实验证明训练后 VLM 能显著提升歧义识别和澄清质量,获 ACL 2025 SAC Highlight Award。

研究背景与动机

领域现状:在视觉问答(VQA)场景中,用户向 VLM(如 LLaVA、GPT-4V)提问时经常因表达习惯差异而产生歧义问题。例如,图片中有多只猫时问"这只猫是什么品种",或者"左边的那个东西是什么"但"左边"有多个对象。现有研究主要通过重写问题或改述来消除歧义(如 AmbigQA 等),将歧义消解视为一个单向生成问题。

现有痛点:现有方法存在两个关键缺陷:(1) 忽视了交互本质——用户与 VLM 的对话天然是交互式的,歧义可以通过用户反馈来澄清,但现有方法都是单轮处理;(2) VLM 的训练偏好导致"回答而非提问"——VLM 被训练为尽可能回答问题,即使面对歧义也倾向给出一个(可能错误的)答案,而不是反问用户以澄清意图。

核心矛盾:VLM 被优化为"尽量回答"与实际交互场景中"该问就要问"之间的矛盾——在歧义情境下强行回答会产生错误或不相关的答案,但 VLM 的训练目标不鼓励它主动承认歧义并发起澄清。

本文目标 (1) 构建一个系统化的歧义 VQA 基准,覆盖多种歧义类型和 VQA 场景;(2) 设计自动化管线生成歧义-澄清问题对的训练数据;(3) 训练 VLM 能在遇到歧义时主动提出澄清问题,并基于用户反馈给出更准确的回答。

切入角度:作者观察到人类对话中遇到歧义时的自然反应是反问而非猜测——"你指的是哪只猫?"——但 VLM 完全缺乏这种能力。从这个人类交互直觉出发,将 VQA 歧义消解建模为交互式对话任务而非单轮改写任务。

核心 idea:教会 VLM 在面对歧义视觉问题时像人类一样主动提出澄清问题,而非强行给出可能错误的答案。

方法详解

整体框架

整体分为两大部分:(1) ClearVQA 基准构建——定义三类 VQA 歧义(引用歧义、属性歧义、关系歧义),覆盖多种 VQA 场景(常规 VQA、基于知识的 VQA、基于文档的 VQA 等),包含歧义检测和澄清问题生成两个子任务;(2) 自动化训练数据生成——基于已有 VQA 数据集,利用 LLM 自动构造歧义问题及其对应的澄清问题对,用于微调 VLM。

关键设计

  1. 三类 VQA 歧义分类体系:

    • 功能:系统化定义视觉问答中的歧义来源
    • 核心思路:
      • 引用歧义 (Referential Ambiguity):指代不明,如图中有多只猫时问"这只猫多大了",无法确定指哪只
      • 属性歧义 (Attribute Ambiguity):属性描述模糊,如"那个大的物体"但"大"的标准不明确,可能指代不同对象
      • 关系歧义 (Relational Ambiguity):空间或语义关系不明,如"靠近窗户的人"但多人都靠近窗户
    • 设计动机:这三类歧义覆盖了 VQA 中最常见的歧义场景,每类需要不同的澄清策略(引用歧义需反问具体特征、属性歧义需反问标准、关系歧义需反问空间细节)
  2. 自动化歧义-澄清数据生成管线:

    • 功能:大规模生成训练数据,无需人工标注
    • 核心思路:从现有 VQA 数据集出发,利用 LLM 为每个清晰问题生成对应的歧义版本和澄清问题。管线包括:(a) 基于图片内容和原始问题,生成歧义化的问题变体;(b) 为每个歧义问题生成合适的澄清问题;(c) 生成用户对澄清问题的反馈答案;(d) 基于反馈生成最终准确回答。多步生成确保数据质量
    • 设计动机:人工标注歧义问题和澄清问题的成本极高(需要理解图片内容、构造自然的歧义表达、设计合理的澄清问题),自动化管线是规模化的唯一可行路径
  3. VLM 澄清能力训练:

    • 功能:使 VLM 具备歧义检测和澄清提问双重能力
    • 核心思路:对 VLM 进行指令微调,训练数据包含两种类型:(a) 歧义检测数据——给定图片和问题,判断是否存在歧义并分类;(b) 澄清问题生成数据——对于检测到的歧义问题,生成合适的澄清问题。训练目标同时优化检测准确率和生成质量。VLM 在推理时先判断问题是否歧义,若歧义则生成澄清问题,得到用户反馈后再生成最终答案
    • 设计动机:将歧义消解分解为检测+澄清两个阶段,比端到端方式更可控——可以单独评估和优化每个阶段的性能

实验关键数据

主实验——歧义检测

模型 引用歧义 F1 属性歧义 F1 关系歧义 F1 平均 F1
GPT-4V (zero-shot) ~55 ~50 ~48 ~51
LLaVA-1.5 (zero-shot) ~40 ~38 ~35 ~38
LLaVA-1.5 + ClearVQA训练 ~72 ~68 ~65 ~68
提升 +32 +30 +30 +30

消融实验——澄清效果

配置 VQA 准确率 说明
直接回答(无澄清) ~45 面对歧义问题强行作答
问题改写(非交互) ~52 传统单轮改写方法
澄清后回答(ClearVQA) ~71 交互式澄清后回答
金标准澄清 + 回答 ~78 使用人工澄清问题的上界

关键发现

  • VLM 严重缺乏歧义意识:即使是 GPT-4V 在 zero-shot 场景下,歧义检测 F1 仅约 51%,接近随机水平。LLaVA 等开源 VLM 更差,说明当前 VLM 几乎没有歧义识别能力
  • 训练后提升显著:使用自动生成的 ClearVQA 数据微调后,歧义检测 F1 提升约 30 个点,证明该能力可通过数据训练获得
  • 澄清交互大幅提升回答质量:通过一轮澄清交互,VQA 准确率从 ~45% 提升到 ~71%,远超单轮改写方法(~52%),说明交互式歧义消解的有效性
  • 引用歧义最易检测,关系歧义最难:三类歧义中引用歧义的检测准确率最高,因为指代不明相对容易识别;关系歧义涉及复杂的空间推理,检测难度最大

亮点与洞察

  • 问题定义精准:"教 VLM 学会提问"的叙事角度既直觉又深刻——人类交互中提问和回答同等重要,但 VLM 被训练成只会回答,这是一个系统性的能力缺失。ACL 2025 SAC Highlight Award 的认可说明这个方向的重要性
  • 三类歧义分类的实用性:引用/属性/关系的分类清晰且互斥,每类都有明确的澄清策略,可以直接迁移到对话系统设计中。这种分类比笼统的"歧义"标签更有指导价值
  • 自动数据生成的杠杆效应:通过 LLM 自动生成训练数据避免了昂贵的人工标注,同时在下游任务上取得了接近人工标注的效果,展示了"用 LLM 生成数据训练 LLM"的可扩展性
  • 可扩展到通用交互场景:虽然论文聚焦 VQA,但"检测歧义→提问澄清→基于反馈回答"的范式可以直接迁移到多模态对话助手、医疗影像问答等场景

局限与展望

  • 单轮澄清假设:当前框架假设一轮澄清就能消解歧义,但复杂场景可能需要多轮交互(如用户反馈本身仍然歧义)
  • 歧义类型可扩展:仅定义了三类歧义,实际 VQA 中还存在时间歧义("最近"指什么时间?)、文化歧义(同一手势在不同文化中含义不同)等
  • 自动生成数据的质量上限:LLM 生成的歧义问题和澄清问题可能不够自然,与真实用户交互中的歧义表达存在分布差距
  • 评估指标有限:澄清问题的质量评估主要依赖自动指标,缺乏大规模人工评估来验证生成的澄清问题是否真正对用户有帮助
  • 未与多模态对话系统集成测试:只在 VQA 基准上测试,未在端到端的多模态对话系统中验证实际交互效果

相关工作与启发

  • vs AmbigQA (Min et al. 2020): 他们在纯文本 QA 中处理歧义问题,但通过列举所有可能答案而非交互式澄清。本文将歧义消解建模为交互过程,更符合实际使用场景
  • vs VisDial (Das et al. 2017): 视觉对话任务天然支持多轮交互,但未专门研究歧义检测和澄清。本文聚焦歧义这一特定交互需求,提供了更精准的能力评估
  • vs Clarification Questions in NLP (Rao & Daumé 2018): NLP 中的澄清问题研究主要在纯文本领域,本文首次系统地将其扩展到多模态 VQA 场景
  • 对多模态 Agent 开发的启示:Agent 在执行视觉相关指令前应先检测歧义并请求澄清,而非盲目执行可能错误的理解

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统化研究 VLM 的歧义检测和澄清提问能力,问题定义精准且重要
  • 实验充分度: ⭐⭐⭐⭐ 三类歧义、多种VQA场景、消融分析、等覆盖较全,但部分实验细节受限于abs-only
  • 写作质量: ⭐⭐⭐⭐⭐ 获 SAC Highlight Award 是对写作质量的有力认可
  • 价值: ⭐⭐⭐⭐⭐ 指出了一个被忽视但极为重要的 VLM 能力缺失,开辟新研究方向