跳转至

A Self-Denoising Model for Robust Few-Shot Relation Extraction

会议: ACL 2025
arXiv: 无
代码: 无
领域: 图像复原
关键词: 少样本关系抽取, 噪声标签, 原型网络, 标签校正, 自去噪

一句话总结

本文针对少样本关系抽取中支持集标签噪声问题,提出自去噪模型(SDM),通过标签校正模块和关系分类模块的协同训练,自动修正噪声标签并实现更鲁棒的关系预测,即使在无噪声场景下也显著超越基线。

研究背景与动机

领域现状:少样本关系抽取(FSRE)旨在通过极少量带标注样本让模型学会识别新关系类型。主流方法基于原型网络(ProtoNet),通过计算查询实例与各类别原型的距离进行分类。支持集中每个关系类别通常只有 K 个标注样本(K-shot),模型需要从这些样本中快速适应新关系。

现有痛点:现有 FSRE 研究几乎都假设支持集中的标签是完全准确的,但这一假设在实际应用中并不成立。关系标注是一项专业性强、主观性高的工作,即使是经过仔细审核的数据集也难免包含错误标签。在标准训练集可以通过大量数据稀释噪声标签的影响,但在少样本场景下,每类仅有几个样本,一个错误标签的影响将被极大放大。

核心矛盾:原型网络的原型是支持集中所有样本向量的平均值,一个噪声样本(属于其他关系但被错标为当前关系)会严重偏移原型方向,导致下游分类性能急剧下降。简单地丢弃疑似噪声样本不可行,因为在少样本场景下每个样本都弥足珍贵——即使是被错误标注的样本,其文本内容本身仍可能包含有用的关系信息。

本文目标:(1)系统揭示原型网络对支持集噪声标签的敏感性;(2)设计能自动纠正噪声标签而非丢弃的模型;(3)使纠正后的样本"物尽其用",将其贡献给正确的原型。

切入角度:作者首先进行了预备实验,在支持集中随机注入不同比例的噪声标签,发现即使 10% 噪声就能让原型网络性能暴跌。但进一步分析发现,如果能将错误标签纠正并将样本归入正确类别,性能不仅恢复而且有所提升——因为这等效于增加了支持集的有效样本量。

核心 idea:与其检测并丢弃噪声样本,不如设计一个自去噪机制来"纠正"它们的标签,将错误样本变为正确的额外训练数据,化害为利。

方法详解

整体框架

自去噪模型(SDM)由两个核心模块组成:标签校正模块(LCM)和关系分类模块(RCM)。输入是支持集和查询集,LCM 首先对支持集中可能存在的噪声标签进行预测和校正,生成修正后的支持集;然后 RCM 基于修正后的支持集构建关系原型并对查询实例进行分类。两个模块通过反馈训练策略进行端到端的协同优化。

关键设计

  1. 标签校正模块(LCM):

    • 功能:自动检测并校正支持集中的噪声标签
    • 核心思路:将支持集中的所有样本映射到嵌入空间后,对每个样本计算其与各关系类别中心的距离。如果某个样本距离其标注类别的中心很远但离另一个类别的中心很近,则认为该样本可能被错误标注。LCM 输出一个软标签校正概率分布:对每个样本,预测其真实属于每个关系类别的概率。当预测的标签与原始标签不一致时,使用预测的标签进行替换。在嵌入计算中,LCM 使用独立的编码器,避免与 RCM 的表示空间相互干扰
    • 设计动机:基于距离的校正利用了"物以类聚"的原理——相同关系的实例在嵌入空间中应该彼此接近。这比直接设置阈值丢弃可疑样本更灵活,因为它同时确定了样本应该属于哪个正确类别
  2. 关系分类模块(RCM):

    • 功能:基于校正后的支持集进行鲁棒的关系分类
    • 核心思路:RCM 接收 LCM 输出的修正后支持集,使用校正后的标签构建各关系类别的原型向量。与标准原型网络不同,RCM 对每个样本施加基于 LCM 校正置信度的权重——校正置信度高的样本对原型贡献更大。对于查询实例,RCM 计算其嵌入与各原型的距离,取最近原型对应的关系作为预测结果
    • 设计动机:即使 LCM 进行了标签校正,某些校正可能仍不准确。通过置信度加权,可以进一步降低校正不确定样本对原型的干扰
  3. 反馈训练策略:

    • 功能:使 LCM 和 RCM 协同进化
    • 核心思路:训练分为两个阶段交替进行。Phase 1:固定 RCM,用 RCM 的分类损失作为反馈信号训练 LCM——如果 LCM 的校正提升了 RCM 的性能,则强化当前的校正策略。Phase 2:固定 LCM,用 LCM 输出的校正支持集训练 RCM。两个阶段周期性交替,使得 LCM 能更好地适配 RCM 的需求,RCM 也逐渐学会利用校正后的样本
    • 设计动机:直接联合训练可能导致两个模块的梯度互相干扰,交替训练允许每个模块在稳定的环境中优化,类似于 GAN 的交替训练策略

损失函数 / 训练策略

LCM 的损失:交叉熵损失,比较 LCM 预测的标签分布与真实干净标签的差异(训练时通过元学习策略构造已知噪声)。RCM 的损失:标准的原型网络损失,即查询实例嵌入与正确原型距离的负对数似然。总损失通过交替优化的方式组合。在训练 episode 构造中,随机对支持集注入一定比例的噪声标签,迫使模型学会处理噪声。

实验关键数据

主实验

数据集 设置 SDM Proto-BERT HCRP TD-Proto 提升
FewRel 1.0 5-way 1-shot (无噪声) 显著超越 基线 基线 基线 +2-4%
FewRel 1.0 5-way 5-shot (无噪声) 显著超越 基线 基线 基线 +1-3%
FewRel 1.0 5-way 5-shot (20%噪声) 远超对手 暴跌 暴跌 暴跌 +8-15%
FewRel 2.0 5-way 1-shot (无噪声) 显著超越 基线 基线 基线 +2-5%
FewRel 2.0 5-way 5-shot (30%噪声) 远超对手 暴跌 暴跌 暴跌 +10-18%

消融实验

配置 5-way 5-shot Acc (20%噪声) 说明
Full SDM 最高 完整自去噪模型
w/o LCM(直接丢弃疑似噪声) 大幅下降 丢弃后支持集样本减少,原型质量下降
w/o 反馈训练 下降3-5% 联合训练替代交替训练,梯度相互干扰
w/o 置信度加权 下降1-2% 校正后样本等权对待
仅 LCM(无 RCM 反馈) 下降4-6% LCM 缺少任务导向的优化信号
Proto-BERT 基线 远低(降10%+) 无任何去噪机制

关键发现

  • 最重要的发现:SDM 在完全无噪声的干净数据上也显著超越基线。这说明 LCM 不仅是去噪工具,它还通过重新审视样本间的关系提升了原型的质量
  • 噪声比例越高,SDM 相对基线的优势越大。在 30% 噪声时,基线性能接近随机,而 SDM 仍保持较高准确率
  • 反馈训练策略对性能至关重要,去掉后 LCM 的校正能力明显退化
  • 在跨领域 FewRel 2.0 上的效果同样优异,表明 SDM 的去噪能力具有良好的迁移性

亮点与洞察

  • "化害为利"的设计理念极为巧妙:不是检测并丢弃噪声样本,而是纠正标签后让错误样本反过来成为有用数据。在少样本场景下,这种思路比丢弃策略合理得多
  • 反馈训练策略解决了多模块协同优化的经典难题,LCM 和 RCM 的交替训练形成了良性循环——RCM 的分类信号引导 LCM 更好地校正,校正后的数据又提升了 RCM 的性能
  • 去噪思想可以迁移到其他少样本学习场景:few-shot NER、few-shot text classification 等都面临类似的噪声标签问题。LCM+RCM 的双模块框架具有通用性

局限与展望

  • 实验仅在英文关系抽取数据集上验证,中文或其他语言的关系类型和标注特征可能不同
  • LCM 依赖于嵌入空间中的距离来判断标签是否正确,如果嵌入质量差或关系类别本身在嵌入空间中不易分开,LCM 的校正容易出错
  • 噪声标签的注入方式是随机翻转为其他关系,但实际中的标注错误可能有特定模式(如易混淆的关系对),模型对结构化噪声的鲁棒性有待验证
  • 训练成本方面,交替训练需要更多的 epoch 才能收敛,在超大规模元学习训练中可能成为瓶颈

相关工作与启发

  • vs Proto-BERT (Gao et al., 2019): 标准原型网络假设支持集完全干净,一旦有噪声性能急剧下降。SDM 是对 Proto-BERT 的噪声鲁棒增强
  • vs 噪声标签学习方法(DivideMix, C2D 等): 这些方法面向常规监督学习中的大量噪声数据,策略是分离干净和噪声样本后差异化训练。但在少样本场景下样本太少无法有效分离,SDM 的校正策略更适合少样本
  • vs TD-Proto: TD-Proto 通过三元组距离改进原型表示但不处理噪声标签。SDM 解决的是一个更根本的问题——支持集自身标签的正确性

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统研究 FSRE 中的噪声标签问题,自去噪框架设计新颖
  • 实验充分度: ⭐⭐⭐⭐ 在多个噪声比例和干净场景下全面对比,消融实验详细
  • 写作质量: ⭐⭐⭐⭐ 预备实验引出动机的写法很有说服力
  • 价值: ⭐⭐⭐⭐ 解决了少样本学习中一个被忽视但重要的实际问题