跳转至

RV-HATE: Reinforced Multi-Module Voting for Implicit Hate Speech Detection

会议: ACL2026
arXiv: 2510.10971
代码: https://github.com/leeyejin1231/RV-HATE
领域: 强化学习 / 内容安全 / 隐式仇恨言论检测
关键词: 隐式仇恨言论检测, 多模块集成, PPO, 软投票, 对比学习

一句话总结

RV-HATE 把隐式仇恨言论检测拆成四个面向不同数据特性的 BERT 对比学习模块,再用 PPO 学习数据集特定的软投票权重,在五个 benchmark 上把平均 macro-F1 提升到 84.47%,比 SharedCon 平均高 1.8 个百分点。

研究背景与动机

领域现状:隐式仇恨言论检测比显式攻击更难,因为它往往依赖语境、目标指称、文化背景和隐含立场。已有方法包括交叉熵分类、监督对比学习、SharedCon 的聚类锚点对比学习,以及利用 hard negative 的 LAHN。

现有痛点:不同仇恨言论数据集来自不同平台和标注规范,语言风格、隐式程度、目标边界、噪声和错标比例都不同。许多方法采用固定训练策略,默认同一个模型能处理所有数据集特性,导致在某些数据集上收益有限。

核心矛盾:检测隐式仇恨需要同时关注上下文语义、目标实体、数据噪声和边界样本,但任何单一模块都可能偏向某类特征。把所有模块硬合成一个模型又会损失专业化。

本文目标:作者希望保留多个专门模块的互补性,并让系统根据具体数据集自动决定每个模块在最终预测中的权重。

切入角度:RV-HATE 将模块组合视为一个策略优化问题。四个分类器分别学习不同数据特性,PPO policy 生成满足非负且和为 1 的模块权重,验证集 macro-F1 作为 reward。

核心 idea:与其设计一个固定检测器,不如训练多个偏好的检测器,再让强化学习在数据集级别学习如何加权它们。

方法详解

RV-HATE 的基本单位是四个 BERT-base 分类器。每个模块都基于对比学习,但强调的数据特性不同。最终预测不直接平均,而是先让每个模块输出二分类 logits,再按强化学习得到的权重做软投票。

整体框架

流程分为三个阶段。第一阶段,对每个数据集分别训练四个模块 \(M_0\)\(M_3\)。第二阶段,在验证集上训练一个轻量 PPO policy,使其产生模块权重 \(w=[w_0,w_1,w_2,w_3]\)。第三阶段,推理时四个模块分别输出 logits,系统计算加权平均 logits,并取最大类作为最终标签。

论文只从检测和数据集分析角度讨论仇恨言论识别,不提供生成、规避或放大有害内容的操作指导。

关键设计

  1. 四个数据特性模块:

    • 功能:分别捕捉隐式仇恨检测中的语义聚类、目标指称、数据异常和困难负样本。
    • 核心思路:\(M_0\) 基于 SharedCon,但用 cosine similarity 选择聚类锚点;\(M_1\) 在训练数据中标注群体、组织、地区等目标实体,帮助区分“有攻击性”与“针对群体的仇恨”;\(M_2\) 用 IQR 移除聚类中远离中心的异常样本;\(M_3\) 使用 hard negative queue 强化决策边界。
    • 设计动机:隐式仇恨数据集并不共享同一种错误来源。IHC 可能更依赖目标指称,Hateval 可能更受噪声影响,Toxigen 可能更依赖边界样本,因此需要模块化而非单一路线。
  2. 强化学习引导的软投票:

    • 功能:为不同数据集自动分配模块权重,避免固定平均或手工调参。
    • 核心思路:每个模块输出二分类 logits \(z_{k,i}\),最终 logit 为 \(Z_i^{(h)}=\sum_{k=0}^{3}w_k z_{k,i}^{(h)}\)。PPO policy 以当前状态生成权重向量,soft voting 后在验证集上计算 macro-F1 reward,用 clipped objective 稳定更新。
    • 设计动机:各模块单独看不一定都强,但它们的错误模式不同。强化学习权重能在保留专业化的同时组合互补视角。
  3. 可解释的数据集特性分析:

    • 功能:不只追求 F1,还通过权重和消融解释不同数据集更依赖哪些特征。
    • 核心思路:论文比较单模块、去掉某模块、等权投票、欧氏距离版本和 PPO 权重版本,并分析各数据集中实体标注比例、outlier 移除比例和错误类型分布。
    • 设计动机:内容安全场景中,模型为什么在某个数据集上有效同样重要。模块权重提供了一种粗粒度但可读的诊断信号。

损失函数 / 训练策略

四个检测模块使用 BERT-base-uncased,SimCSE-BERT 作为文本 embedding 模型,训练 6 个 epoch。学习率从 \(2e^{-5}\)\(3e^{-5}\) 中选择,温度为 0.3,聚类数从 20、75、125 中选择。强化学习阶段运行 10,000 steps,初始权重为 [0.25, 0.25, 0.25, 0.25],约束权重为正且和为 1。所有实验用 3 个随机种子,报告 macro-F1,因为数据集类别不平衡。

实验关键数据

主实验

论文在 IHC、SBIC、DYNA、Hateval、Toxigen 五个数据集上对比 CE、SCL、SharedCon、LAHN 和 RV-HATE。

方法 IHC SBIC DYNA Hateval Toxigen 平均 macro-F1
CE 77.70 83.80 78.80 81.11 90.06 82.29
SCL 77.81 82.92 80.39 81.28 90.75 82.63
SharedCon 78.50 84.30 79.10 80.24 91.21 82.67
LAHN 78.40 83.98 79.64 80.42 90.42 82.57
RV-HATE 79.07 84.62 81.82 83.44 93.41 84.47

相较 SharedCon,RV-HATE 平均提升 1.8 个百分点;在 Hateval 上比 CE 高 2.33 个百分点,在 Toxigen 上比 SharedCon 高 2.2 个百分点。考虑到该任务常在 80% 左右进入平台期,这个幅度有实际意义。

消融实验

配置 IHC SBIC DYNA Hateval Toxigen 平均 说明
combined modules 77.32 81.31 76.50 81.26 92.02 81.64 单模型融合所有模块,专业化丢失
equal weights 78.58 84.06 81.07 82.52 92.69 83.78 固定 0.25 权重
欧氏距离版本 78.90 82.95 81.64 83.19 93.36 84.01 用 L2 替代 cosine
RV-HATE 79.07 84.62 81.82 83.44 93.41 84.47 PPO 权重 + cosine
模块设置 平均 macro-F1 关键信息
\(M_0\) 单独 82.68 cosine 聚类对比学习基础模块
\(M_1\) 单独 82.43 目标实体标注不是所有数据集都收益
\(M_2\) 单独 82.89 outlier 处理对噪声数据有帮助
\(M_3\) 单独 83.00 hard negative 边界建模最强单模块
RV-HATE 全模块 84.47 模块互补后最佳
去掉 \(M_3\) 83.99 平均下降最大,说明困难负样本最关键

关键发现

  • 把四个模块训练成一个 combined model 反而平均降到 81.64,说明“模块专业化 + 投票组合”比“硬塞进一个模型”更适合该任务。
  • PPO 权重相比等权投票平均提升 0.68 个百分点,说明不同数据集确实需要不同模块组合。
  • cosine similarity 比 Euclidean distance 平均高 0.46 个百分点,符合高维语义 embedding 更看重方向的直觉。
  • 计算开销主要来自四个 BERT forward,PPO policy 只有约 4.8K 参数,训练额外耗时约 5-10 分钟;推理延迟约为单模型的线性倍数。

亮点与洞察

  • 论文没有把“泛化到所有数据集”当作唯一目标,而是承认数据集差异本身很重要。这个观点对内容安全很现实,因为标注标准和平台语境经常决定模型行为。
  • 强化学习在这里不是用来生成文本,而是用来学习 ensemble 权重,风险低且目标明确。PPO 的 action space 很小,reward 也直接对应验证集 macro-F1。
  • 模块消融给出了可解释性:某个数据集如果更依赖目标实体或 outlier 清理,权重和去模块实验能暴露这种依赖。
  • 对实际系统的启发是,内容安全分类器可以设计成“多专家 + 数据集/域自适应权重”,而不是在所有平台上部署同一个静态分类器。

局限与展望

  • \(M_1\) 目标标注模块在机器生成样本上并不稳定,说明实体标注策略对风格和数据分布敏感。
  • 推理时需要四个 BERT-base 前向,虽然可以并行,但对低延迟内容审核系统仍是额外成本。
  • 权重是数据集级优化,不是逐样本动态路由。对于同一数据集中不同子社区或话题,可能还需要 finer-grained routing。
  • 数据集本身包含标注歧义和错标,macro-F1 提升不能完全解决“标签是否合理”的问题。未来可以把不确定性、人类分歧和跨文化标注差异纳入训练目标。

相关工作与启发

  • vs SharedCon: SharedCon 通过聚类锚点学习共享语义模式,RV-HATE 继承这个方向但改用 cosine similarity,并增加目标、outlier、hard negative 等专门模块。
  • vs LAHN: LAHN 强调 hard negative,RV-HATE 把 hard negative 作为一个专家模块,再用投票和其他模块互补。
  • vs 单模型多功能训练: combined modules 结果较差,说明隐式仇恨检测中模块专业化很重要,统一训练会让特征偏好相互冲突。
  • vs 常规 ensemble: 等权投票已经有效,但 PPO 权重进一步捕捉数据集差异,使 ensemble 更可解释也更强。

评分

  • 新颖性: ⭐⭐⭐⭐☆ 把 PPO 用在模块权重学习上不复杂,但与数据集特性分析结合得很贴合。
  • 实验充分度: ⭐⭐⭐⭐☆ 五个数据集、多个 baseline、变体和模块消融较完整,但跨语言和跨文化外推还需更多验证。
  • 写作质量: ⭐⭐⭐⭐☆ 方法拆解清晰,模块贡献解释充分;个别附录错误样例不适合在高层应用场景中过度展开。
  • 价值: ⭐⭐⭐⭐☆ 对内容安全检测系统的模块化和域自适应设计有实际参考价值,尤其适合隐式、边界模糊的分类任务。