Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Language Models¶
会议: ACL 2025
arXiv: 2506.21294
代码: GitHub
领域: LLM/NLP
关键词: mention detection, referring expressions, visually grounded dialogue, 自回归语言模型, 参数高效微调
一句话总结¶
本文将视觉对话中的指称表达检测建模为自回归 token 预测任务,通过对 Llama 3.1-8B 进行参数高效微调 (QLoRA),证明仅使用文本上下文即可有效检测视觉对话中的 mention span,在 AGOS 和 PhotoBook 数据集上 F1 达 0.90 和 0.94。
研究背景与动机¶
- 核心问题: 在视觉情境对话中,说话者经常用词语或短语引用视觉场景中的物体(即指称表达 / referring expressions)。有效检测这些 mention 是后续指代消解和视觉定位的前提。
- 传统方法局限: 早期基于规则 + 依存分析的方法需要大量特征工程;BERT 类编码器模型虽有效但框架为序列标注,不够灵活。目前基于自回归 LLM 的生成式信息抽取尚未应用于视觉情境对话中的 mention 检测。
- 关键研究兴趣: 纯文本上下文能在多大程度上支撑本质上是多模态的任务?对话历史对 mention 检测性能的影响如何?
方法详解¶
整体框架¶
将 mention 检测建模为生成式复述任务:给定当前话语和对话历史,模型自回归地生成当前话语的副本,但在 mention span 的起止位置插入边界标记 >> 和 <<。例如输入 "I have a dog" → 输出 "I have >>a dog<<"。
关键设计¶
-
对话历史条件化生成: 生成目标 \(u_i' = f(u_i, H)\),其中 \(H = (u_{i-h}, ..., u_{i-1})\) 是可配置长度的历史消息。通过实验比较不同上下文窗口大小 (0, 3, 7, 19 条历史消息) 的影响。
-
参数高效微调: 使用 Llama 3.1-8B 的 QLoRA (4-bit 量化 + LoRA) 微调,在 AGOS(15 段对话,1486 个 mention)和 PhotoBook(50 段对话,2111 个 mention)两个小规模数据集上训练。
-
span 边界标记设计: 在 tokenizer 词表中添加特殊的 mention 起止标记,使模型在生成过程中自然地分割 mention span,无需额外的 CRF 或序列标注层。
评估方案¶
交叉验证评估数据集内性能 + 跨数据集迁移测试(AGOS 训练、PB 测试,反之亦然)+ 与 NP 提取基线和 BERT 序列标注基线对比。
实验¶
主实验结果 (数据集内交叉验证)¶
| 模型 | 上下文窗口 | AGOS F1 | PB-GOLD F1 |
|---|---|---|---|
| Llama 3.1-8B | 0 | .863 | .930 |
| Llama 3.1-8B | 3 | .892 | .930 |
| Llama 3.1-8B | 7 | .900 | .937 |
| Llama 3.1-8B | 19 | .902 | .940 |
| NP 基线 | - | 较低 | 较低 |
跨数据集迁移¶
| 训练集 → 测试集 | F1 |
|---|---|
| AGOS → PB | 性能下降但仍合理 |
| PB → AGOS | 迁移效果有限 |
跨数据集迁移存在挑战,因为两个数据集的 mention 分布特征不同(AGOS 中 17.94% 消息含 >1 个 mention,PB 仅 1.95%)。
消融:对话历史的影响¶
| 历史窗口 | AGOS F1 变化 | PB F1 变化 |
|---|---|---|
| 0 → 3 | +0.029 | +0.000 |
| 3 → 7 | +0.008 | +0.007 |
| 7 → 19 | +0.002 | +0.003 |
关键发现¶
- 仅使用文本上下文即可达到较高的 mention 检测性能 (F1 > 0.90),凸显了语言上下文的信息量
- 对话历史一致性地提升 AGOS 性能,但对 PB 帮助较小——因 PB 的 mention 更多是独立描述性表达
- 小数据集 + 参数高效微调 + 中等规模 LLM 的组合已经足够有效
- 跨数据集迁移存在gap,说明任务导向对话的指称语言具有领域特异性
- 作为纯文本方法,在需要视觉信息才能判断指称性的边界案例上存在根本局限
亮点¶
- 将 mention 检测优雅地转化为"带标注的复述"生成任务,无需序列标注架构
- 首次将自回归 LLM + 生成式信息抽取应用于视觉情境对话的 mention 检测
- 清晰地分析了文本 vs 多模态方法的能力边界,讨论坦诚
局限性¶
- 纯文本方法无法处理需要视觉信息的歧义 mention(如"那个"是否指代图片中的物体)
- 数据集规模小(15 和 50 段对话),结论的泛化性需更多验证
- 仅测试 Llama 3.1-8B,未与其他规模/架构的 LLM 对比
- 仅检测 mention span,不涉及指代消解或视觉定位
- 任务为粗粒度 mention 检测,未区分 mention 类型
相关工作¶
- Mention Detection: Lee et al. (2013); Devlin et al. (2019) — 从规则到 BERT 的演进
- 生成式信息抽取: Cao et al. (2021); Zhang et al. (2025) — 将结构化预测建模为自回归生成
- 视觉情境对话: PhotoBook (Haber et al., 2019); AGOS (Willemsen et al., 2022) — 引导参与者对图像进行指称的对话任务
- 参数高效微调: LoRA (Hu et al., 2022); QLoRA (Dettmers et al., 2023) — 低资源下微调大模型
评分¶
| 维度 | 分数 |
|---|---|
| 创新性 | ★★★☆☆ |
| 实用性 | ★★★☆☆ |
| 实验充分度 | ★★★★☆ |
| 写作质量 | ★★★★☆ |
| 总评 | ★★★☆☆ |