跳转至

Agree, Disagree, Explain: Decomposing Human Label Variation in NLI through the Lens of Explanations

会议: ACL 2026
arXiv: 2510.16458
代码: 无
领域: NLI / Annotation Analysis
关键词: 标注分歧, 自然语言推理, LiTEx分类法, 推理策略, 人类标注变异

一句话总结

将LiTEx推理分类法从"标签一致下的解释变异"扩展到"标签不一致"场景,发现标注者可能标签不同但推理类似,推理类别的一致性比标签一致性更好地反映解释的语义相似度。

研究背景与动机

领域现状:NLI数据集中普遍存在标注者分歧,理解这些分歧对构建可靠的NLU系统至关重要。基于解释的方法通过分析标注者决策背后的推理来揭示分歧的本质。

现有痛点:LiTEx分类法将自由文本解释归类为8种推理策略,但此前仅用于分析"标签一致、解释不同"的within-label变异,忽略了标签本身的不一致。

核心矛盾:标签不一致可能掩盖推理一致(同样的推理导致不同标签),而标签一致也可能掩盖推理分歧(不同推理碰巧得到同一标签)。仅看标签无法揭示真实的认知分歧。

本文目标:将LiTEx扩展到标签变异场景,从标签、解释类别和解释文本相似度三个维度分析NLI标注变异。

切入角度:在LiveNLI和VariErr两个带解释的NLI数据集上标注LiTEx类别,追踪个体标注者的标签偏好和推理策略偏好。

核心 idea:推理类别的一致性比标签一致性本身更能反映解释之间的语义相似度,说明应更关注推理过程而非最终标签。

方法详解

整体框架

在三个数据集(e-SNLI, LiveNLI, VariErr)上应用LiTEx分类法标注解释,然后从三个维度分析变异:(1) NLI标签一致性;(2) 推理类别一致性(LiTEx);(3) 解释文本的语义相似度。通过追踪个体标注者揭示行为模式。

关键设计

  1. LiTEx分类法的跨数据集扩展:

    • 功能:将原本仅在e-SNLI上开发的推理分类法应用到LiveNLI和VariErr
    • 核心思路:8种推理类别分为文本型(共指、句法、语义、语用、信息缺失、逻辑冲突)和世界知识型(事实知识、推理知识)。经过训练的标注者对所有解释进行分类
    • 设计动机:验证LiTEx的跨数据集泛化性,同时扩展其适用范围到标签变异场景
  2. 多维度一致性分析:

    • 功能:揭示标签一致性与推理一致性之间的非对称关系
    • 核心思路:对比同一NLI实例的标注者在三个维度的一致性——可能出现"标签不同但推理类别相同"或"标签相同但推理类别不同"的情况
    • 设计动机:单一维度的一致性度量不足以揭示标注分歧的真实性质
  3. 个体标注者追踪:

    • 功能:发现标注者的系统性偏好
    • 核心思路:追踪LiveNLI中4位标注者和VariErr中4位标注者的标签分布和推理类别偏好,揭示个体一致性模式
    • 设计动机:标注分歧可能不仅源于文本歧义,还与标注者的个人推理风格有关

损失函数 / 训练策略

本文为实证分析研究,不涉及模型训练。标注者间一致度用Cohen's Kappa衡量(LiveNLI κ=0.828,VariErr κ=0.792)。

实验关键数据

主实验

数据集 标注数量 κ值 主要发现
e-SNLI 原有标注 - 推理知识和信息缺失是主要类别
LiveNLI 1404对 0.828 信息缺失偏向neutral标签
VariErr 1933对 0.792 信息缺失是最频繁类别

关键发现

发现 说明
标签不一致但推理一致 标注者用相同推理策略但得出不同标签,说明分歧在判断而非理解
推理类别-标签共现稳定 尽管数据集间绝对分布不同,推理类别对应的标签分布高度一致
个体标签偏好显著 如VariErr标注者2有近60%的neutral偏好,w7有52%的neutral偏好
推理相似度 > 标签相似度 推理类别一致性更好地预测解释的语义相似度

关键发现

  • LiTEx分类法跨数据集泛化良好,类别-标签共现模式在三个数据集上高度一致
  • "标签不一致但解释相似"的情况频繁出现,表面分歧可能掩盖深层理解的一致
  • 信息缺失(Absence of Mention)类别与neutral标签的强关联在所有数据集中一致
  • 个体标注者展现出稳定的标签偏好和推理策略偏好

亮点与洞察

  • "标签不代表理解"的核心发现挑战了将标签视为ground truth的传统做法
  • 解释不仅是可解释性的工具,更是理解标注分歧的窗口
  • 个体标注者追踪揭示了系统性的个人偏好,这对标注流程设计有直接启示

局限与展望

  • 仅覆盖英语NLI数据集,跨语言泛化性未验证
  • LiTEx的8个类别可能无法覆盖所有推理类型
  • 标注者数量有限(每个数据集仅追踪4位),统计效力受限
  • 未来可将方法扩展到其他NLU任务的标注分歧分析

相关工作与启发

  • vs 传统标注一致性研究: 不仅看标签,还看推理过程,提供更细粒度的分析
  • vs ChaosNLI/AmbiEnt: 这些数据集关注分歧的量化,本文关注分歧的认知来源
  • vs LiTEx原始工作: 将分析范围从within-label扩展到label variation

评分

  • 新颖性: ⭐⭐⭐⭐ 将推理分析扩展到标签变异场景的视角新颖
  • 实验充分度: ⭐⭐⭐ 分析深入但规模较小
  • 写作质量: ⭐⭐⭐⭐ 案例说明清晰,分析层次分明
  • 价值: ⭐⭐⭐⭐ 对标注流程和数据质量研究有重要启示