Interpretable Coreference Resolution Evaluation Using Explicit Semantics¶
会议: ACL 2026
arXiv: 2605.10627
代码: https://github.com/SapienzaNLP/cner-coref (有)
领域: 可解释性 / 共指消解 / 评测 / 数据增强
关键词: 共指消解、CNER、语义评测、Typed F1、定向数据增强
一句话总结¶
本文用 Concept and Named Entity Recognition (CNER) 把 29 类细粒度语义标签按"提及 + 簇级多数投票"覆盖到共指消解的输出上,得到按语义类别分层的 Mention F1 和 Link F1 诊断指标,从而看清"模型在哪个类别上系统性失败",再用这些诊断指导仅 3 篇合成文档的定向数据增强,把 LitBank 训练的模型在 OntoNotes/PreCo 上 CoNLL-F1 提了 +2.5/+2.8,Mention F1 提了约 +9.5。
研究背景与动机¶
领域现状:共指消解的主流评测从 90 年代起就是 MUC、\(B^3\)、CEAF\(_{\phi 4}\) 三件套及它们的平均 CoNLL-F1,要求 mention 边界严格相同、链接逐对匹配。模型这边 Maverick 等编解码联合模型已在 OntoNotes 上做到 SOTA。
现有痛点:(i) 单一聚合分数掩盖类别层面的失败模式——一个模型可能擅长人物链但完全搞不定事件和物体链,CoNLL-F1 看不出来;(ii) 跨领域评估时分数下降,但分不清是边界差异、标注规范差异,还是真正的语言能力缺陷;(iii) 仅有的语义化评测 (Agarwal et al. 2019) 用标准 NER 4 类标签 (PER/ORG/LOC/MISC),覆盖率只有 50% 左右,且分类过粗。
核心矛盾:共指消解的 mention 中相当一部分是 nominal concept(普通名词如 president、city、whale),传统 NER 根本无法标注这些,只在命名实体上能给标签——这导致 "用语义视角评测共指" 在覆盖率和粒度上都不够,无法定位真正问题。
本文目标:(1) 给共指 cluster 打上密集、细粒度的语义标签;(2) 用这种标签算出按语义类分层的 typed F1 指标;(3) 用诊断结果指导小成本数据增强以验证可行性。
切入角度:用 Martinelli et al. 2024 的 CNER(同时标 named entity 和 nominal concept,统一 29 类),覆盖率从 NER 的 22-52% 直接拉到 ~90%,再加一个"簇级多数投票"机制把代词等无法直接标的 mention 通过其所在 cluster 反向获得标签。
核心 idea:在共指模型不动的前提下,把 CNER 语义层 overlay 到共指输出,按 token 级 Jaccard 重叠对齐 mention 与 CNER span,再以 cluster 为单位做多数投票传播标签,把共指评测变成"按语义类别分层的诊断界面"。
方法详解¶
整体框架¶
输入:文档 \(D\) 中共指模型预测的 mention 集合 \(\mathcal{M} = \{m_1, ..., m_n\}\) 与 cluster 集合 \(\mathcal{G}\),以及 CNER 预测的标注 span \(\mathcal{C} = \{c_1, ..., c_k\}\),每个 \(c_j\) 有标签 \(L(c_j) \in \mathcal{T}\)(\(\mathcal{T}\) 含 29 类如 PERSON / LOCATION / EVENT / RELATION / SUPERNATURAL / PLANT / DISEASE 等)。中间两步:(1) Mention Assignment 用 Jaccard 重叠把 mention \(m_i\) 对到最大重叠的 CNER span \(\hat{c}_j\),重叠 > τ=0.5 时赋标签;(2) Category Propagation 在每个 cluster \(G\) 内用多数投票决定 \(S(G) = \arg\max_{t \in \mathcal{T}} |\{m_G \in G : L(m_G) = t\}|\),再把 \(S(G)\) 传播给所有未标 mention(含代词)。输出:每个 mention 都带 CNER 标签,可按类别分层计算 typed Mention F1 / Link F1。
关键设计¶
-
两步标注 + 簇级多数投票:
- 功能:把语义标签从"只能标 nominal/named span"升级到"整个 cluster 都有一致标签",把代词等无法直标的 mention 也纳入诊断。
- 核心思路:重叠函数 \(\Omega(m_i, c_j) = |\text{span}(m_i) \cap \text{span}(c_j)| / |\text{span}(m_i) \cup \text{span}(c_j)|\),对每个 mention 选 \(\hat{c}_j = \arg\max \Omega\);如果重叠 < 0.5 留空,等 cluster 级多数投票后再传播;多数投票打平时用平均 \(\Omega\) 最高的标签破纪录。Mention 直标覆盖 37.5-71.4%,传播后升到 ~90%,剩下的几乎是纯代词 cluster。
- 设计动机:传统 NER-based 评估在 PreCo 上只能标 22.8% mention,没法做 per-class 分析;簇级传播利用了"同一 cluster 内的 mention 必然语义同类"这一硬约束,能用低算力把"密度问题"几乎彻底解决。
-
Typed Mention F1 + Link F1 解耦评测:
- 功能:把共指评测分解成"识别得对不对"和"链接得对不对"两个互相独立的诊断维度。
- 核心思路:Mention F1 计算特定类 \(t\) 的 mention 抽取精度和召回,独立于聚类;Link F1 在 gold mention 输入下评估同一 cluster 内 mention 对 \((m_1^G, m_2^G)\) 是否正确,专门刻画聚类结构质量,与 mention 检测解耦。两类指标都按语义类别分层报告,能定位"模型在 PER 上链接好但在 EVENT 上 mention 检测就崩了"这种细节。
- 设计动机:CoNLL-F1 混合了边界、链接、聚类三种误差源,看到分数掉了 10 个点也不知道该改什么;解耦成 mention/link + per-class 让"失败 → 改进"的因果链可被追踪。
-
诊断驱动的定向数据增强:
- 功能:把诊断结果("LitBank 模型对 PLANT/EVENT/MEDIA 等类崩溃")转成可执行的 augmentation 配方。
- 核心思路:用 GPT-5.1 生成 3 篇 ~2000 字的 LitBank 风格虚构叙事,每篇含被诊断为弱势的 CNER 类提及;按两种规范人工标注——Restricted (仅 LitBank 6 类) 和 Unrestricted (覆盖所有 nominal/代词 mention);分别加进 LitBank 训练集训练 augmented vs augmented-NR 模型,对比对 OntoNotes/PreCo 的提升。这个流程几乎零成本却能直接验证"诊断 → 改动 → 效果"闭环。
- 设计动机:传统评测发现问题但给不出干预手段;本文用最小可证伪规模(3 篇文档)证明 typed F1 诊断真的能指导数据策略——这是把"可解释评测"做成"可操作评测"的最有力证据。
损失函数 / 训练策略¶
本文不改动共指模型,全部用 Maverick (mes 多专家版) 的三个官方 checkpoint(在 OntoNotes / LitBank / PreCo 上分别训练)。CNER 语义层用官方 CNER checkpoint 直接推理。数据增强部分对 LitBank-augmented 模型按原 Maverick 训练流程在原 LitBank 训练集 + 3 篇合成文档上微调。Mention/Link F1 都按标准 P/R 调和平均算。
实验关键数据¶
主实验(Maverick 三个变体在 3 数据集上 macro Mention/Link F1)¶
| Model | OntoNotes M-F1 | LitBank M-F1 | PreCo M-F1 | OntoNotes L-F1 | LitBank L-F1 | PreCo L-F1 |
|---|---|---|---|---|---|---|
| maverick-mes-ontonotes | 0.85 | 0.48 | 0.40 | 0.77 | 0.53 | 0.57 |
| maverick-mes-litbank | 0.40 | 0.78 | 0.31 | 0.43 | 0.53 | 0.47 |
| maverick-mes-preco | 0.53 | 0.35 | 0.93 | 0.47 | 0.46 | 0.82 |
In-domain 全部模型都很强,但 LitBank 训练的模型在跨域上 macro Mention F1 比 OntoNotes / PreCo 训练的模型低很多,per-class Mention F1 (Figure 5) 显示 LitBank 模型在 PreCo/OntoNotes 上几乎所有非 PER 类都垫底;用 gold mention 算 Link F1 仍然 LitBank 训练最差,证实问题是聚类逻辑也带 person-centric 偏置而非仅边界差异。
CNER 覆盖率对比 NER(标注后 + 传播后):OntoNotes 90% vs 52.8%,LitBank 90% vs 29.6%,PreCo 90% vs 22.8%,CNER 把"密度"问题彻底解决。手工验证(LitBank 测试集 30%):CNER cluster-level 标签精度 90% / 召回 87% / F1 88%,证明传播链可靠。
消融 / 定向数据增强表(LitBank 训练 + 3 篇合成文档,跨域)¶
| Model | PreCo CoNLL-F1 | OntoNotes CoNLL-F1 | Avg CoNLL-F1 | Avg Link F1 | Avg Mention F1 |
|---|---|---|---|---|---|
| maverick-mes-litbank | 45.5 | 51.7 | 48.6 | 29.89 | 30.58 |
| augmented (Restricted) | 44.7 | 51.9 | 48.3 | 30.67 | 28.01 |
| augmented-NR (Unrestricted) | 49.7 | 52.5 | 51.1 | 32.02 | 37.49 |
| Δ NR vs Restricted | +5.0 | +0.6 | +2.8 | +1.35 | +9.49 |
关键发现¶
- LitBank 的人物中心标注规范 (83.1% PER) 真把模型训得过拟合:跨域上模型对所有非 PER 类系统性崩溃,而这一点在 CoNLL-F1 上是看不出来的。
- NER vs CNER 的差距是结构性的——NER 只标 22-53%,且大量类被压成 MISC 这种黑盒;切开 MISC 到 CNER 子类后能看到 GROUP / MEDIA / SUPER 等独立失败模式,证明粗粒度评测真的会掩盖大量类别盲点。
- 增强实验是论文最有力的存在证明:用 3 篇合成文档 + Unrestricted 标注就让 CoNLL-F1 平均涨 +2.5,Mention F1 涨 +9.5;而 Restricted 标注(仅保留 LitBank 6 类)反而比基线还差 -2.6 Mention F1——证明问题不在"数据少",而在"标注规范限定类范围"。
- LitBank 模型在跨域使用 gold mention 算 Link F1 仍然最差,说明"语义偏置"会同时污染 mention 抽取和聚类链接两个能力,这两个机制是耦合损坏的。
- 诊断的因果可操作性:作者从 typed F1 看到 PLANT/EVENT/MEDIA/PSYCH 等被忽视类,再生成合成数据就能定向补——这是把"评测"从"打分"升级成"工程指南"。
亮点与洞察¶
- "Concept + NER" 把 nominal concepts 纳入语义层是简单到不能再简单的改进,但把共指评测从覆盖率 22% 拉到 90%、把可分类从 4 类拉到 29 类,是典型的"换工具就破局"的好案例,提醒我们评测瓶颈常常是工具瓶颈而非方法瓶颈。
- 簇级多数投票传播是非常迁移得动的 trick——任何"实体/事件/概念聚类 + 部分 mention 可独立打标签"的任务(如 entity linking、event coreference、对话角色追踪)都可以用同样的两步法把代词 / 模糊 mention 反向赋类。
- "诊断 → 3 篇合成数据 → +9.5 Mention F1" 的闭环把可解释评测的实用价值钉死了:评测不只是"评分",它能直接告诉你"应该补什么数据",这种"评测可执行性"应该成为未来 NLP 评测论文的默认要求。
- Restricted vs Unrestricted 的对照异常有教学价值——告诉社区"数据规模不是关键,标注规范才是",反驳了 "augment 就有用" 的天真假设。
局限与展望¶
- CNER cluster-level 标签精度 90% / F1 88%,仍有 10-12% 标签噪声会传到 typed F1,论文没量化"标签错误对评测结论的扭曲"。
- ~10% mention 仍未标,主要是纯代词 cluster;作者建议未来用弱监督训轻量分类器补齐。
- 框架只在英语上验证,扩展到其他语言依赖多语种 CNER 模型,论文暂未提供。
- 数据增强只验证了 3 篇文档的小规模 PoC,工业级 augmentation 策略和质量控制流程未建立。
- 没引入 LLM 共指模型(如 GPT-4 zero-shot coreference)作为对比,框架本身可扩展,但实证缺位。
相关工作与启发¶
- vs Agarwal et al. 2019 (NER-based coref evaluation):他们也用语义类做分层评测,但限于 NER 4 大类、覆盖率 < 53%,本文用 CNER 把覆盖拉到 90%、类数到 29,per-class 诊断粒度数量级提升。
- vs Kummerfeld & Klein 2013 (error analysis toolkit):他们用错误类型聚类做诊断,本文用语义类型做诊断,两者互补——前者关注"错在哪种错误模式",后者关注"错在哪种语义类"。
- vs Porada et al. 2024 (annotation guideline analysis):他们论证跨域差距常是标注规范差异,本文用 typed F1 + 增强实验给出可操作的解决方法(用 Unrestricted 标注做小规模 augmentation)。
- vs LEA / MINA:他们改聚合分数权重和边界判定,本文不改算法、改诊断维度;这两种方向应组合使用。
评分¶
- 新颖性: ⭐⭐⭐⭐ CNER 用于共指评测是首次,"两步标注 + 簇传播"简单优雅,但单看"语义评测"思路已有前作。
- 实验充分度: ⭐⭐⭐⭐ 3 数据集 × 3 模型 × per-class M-F1/L-F1 + 手工验证 + 增强对照 + Restricted vs Unrestricted 反事实,证据链很完整。
- 写作质量: ⭐⭐⭐⭐⭐ 论证非常清晰、3 张 Figure 1 + 4 张表覆盖所有关键 claim,Limitation 也写得诚恳。
- 价值: ⭐⭐⭐⭐⭐ "评测→数据→模型"的闭环对所有 NLP 评测任务都有方法论启发,对共指消解社区来说是直接可用的 release。