Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Language Models¶

会议: ACL 2025
arXiv: 2506.21294
代码: GitHub
领域: LLM/NLP
关键词: mention detection, referring expressions, visually grounded dialogue, 自回归语言模型, 参数高效微调

一句话总结¶

本文将视觉对话中的指称表达检测建模为自回归 token 预测任务，通过对 Llama 3.1-8B 进行参数高效微调 (QLoRA)，证明仅使用文本上下文即可有效检测视觉对话中的 mention span，在 AGOS 和 PhotoBook 数据集上 F1 达 0.90 和 0.94。

研究背景与动机¶

核心问题: 在视觉情境对话中，说话者经常用词语或短语引用视觉场景中的物体（即指称表达 / referring expressions）。有效检测这些 mention 是后续指代消解和视觉定位的前提。
传统方法局限: 早期基于规则 + 依存分析的方法需要大量特征工程；BERT 类编码器模型虽有效但框架为序列标注，不够灵活。目前基于自回归 LLM 的生成式信息抽取尚未应用于视觉情境对话中的 mention 检测。
关键研究兴趣: 纯文本上下文能在多大程度上支撑本质上是多模态的任务？对话历史对 mention 检测性能的影响如何？

方法详解¶

整体框架¶

将 mention 检测建模为生成式复述任务：给定当前话语和对话历史，模型自回归地生成当前话语的副本，但在 mention span 的起止位置插入边界标记 >> 和 <<。例如输入 "I have a dog" → 输出 "I have >>a dog<<"。

关键设计¶

对话历史条件化生成: 生成目标 \(u_i' = f(u_i, H)\)，其中 \(H = (u_{i-h}, ..., u_{i-1})\) 是可配置长度的历史消息。通过实验比较不同上下文窗口大小 (0, 3, 7, 19 条历史消息) 的影响。
参数高效微调: 使用 Llama 3.1-8B 的 QLoRA (4-bit 量化 + LoRA) 微调，在 AGOS（15 段对话，1486 个 mention）和 PhotoBook（50 段对话，2111 个 mention）两个小规模数据集上训练。
span 边界标记设计: 在 tokenizer 词表中添加特殊的 mention 起止标记，使模型在生成过程中自然地分割 mention span，无需额外的 CRF 或序列标注层。

评估方案¶

交叉验证评估数据集内性能 + 跨数据集迁移测试（AGOS 训练、PB 测试，反之亦然）+ 与 NP 提取基线和 BERT 序列标注基线对比。

实验¶

主实验结果 (数据集内交叉验证)¶

模型	上下文窗口	AGOS F1	PB-GOLD F1
Llama 3.1-8B	0	.863	.930
Llama 3.1-8B	3	.892	.930
Llama 3.1-8B	7	.900	.937
Llama 3.1-8B	19	.902	.940
NP 基线	-	较低	较低

跨数据集迁移¶

训练集 → 测试集	F1
AGOS → PB	性能下降但仍合理
PB → AGOS	迁移效果有限

跨数据集迁移存在挑战，因为两个数据集的 mention 分布特征不同（AGOS 中 17.94% 消息含 >1 个 mention，PB 仅 1.95%）。

消融：对话历史的影响¶

历史窗口	AGOS F1 变化	PB F1 变化
0 → 3	+0.029	+0.000
3 → 7	+0.008	+0.007
7 → 19	+0.002	+0.003

关键发现¶

仅使用文本上下文即可达到较高的 mention 检测性能 (F1 > 0.90)，凸显了语言上下文的信息量
对话历史一致性地提升 AGOS 性能，但对 PB 帮助较小——因 PB 的 mention 更多是独立描述性表达
小数据集 + 参数高效微调 + 中等规模 LLM 的组合已经足够有效
跨数据集迁移存在gap，说明任务导向对话的指称语言具有领域特异性
作为纯文本方法，在需要视觉信息才能判断指称性的边界案例上存在根本局限

亮点¶

将 mention 检测优雅地转化为"带标注的复述"生成任务，无需序列标注架构
首次将自回归 LLM + 生成式信息抽取应用于视觉情境对话的 mention 检测
清晰地分析了文本 vs 多模态方法的能力边界，讨论坦诚

局限性¶

纯文本方法无法处理需要视觉信息的歧义 mention（如"那个"是否指代图片中的物体）
数据集规模小（15 和 50 段对话），结论的泛化性需更多验证
仅测试 Llama 3.1-8B，未与其他规模/架构的 LLM 对比
仅检测 mention span，不涉及指代消解或视觉定位
任务为粗粒度 mention 检测，未区分 mention 类型

评分¶

维度	分数
创新性	★★★☆☆
实用性	★★★☆☆
实验充分度	★★★★☆
写作质量	★★★★☆
总评	★★★☆☆