Explain the Flag: Contextualizing Hate Speech Beyond Censorship¶
会议: ACL 2026 Findings
arXiv: 2604.14970
代码: GitHub
领域: 社会计算 / 仇恨言论
关键词: 仇恨言论检测, 可解释性, 多语言词汇表, 上下文化解释, 混合系统
一句话总结¶
本文提出一种混合方法,结合 LLM 和三种语言(英/法/希腊语)的人工策展词汇表来检测和解释仇恨言论——术语管道通过词汇匹配+LLM 语义消歧检测固有贬损用语,无术语管道用 LLM 检测群体针对性内容,两者融合生成有据可查的解释。
研究背景与动机¶
领域现状:自动化仇恨言论检测系统广泛用于在线平台审核,但大多聚焦于审查或删除,缺乏透明度和解释性——用户被标记但不知为何被标记。
现有痛点:(1)纯删除方式缺乏透明度,限制了用户理解为什么其语言有害;(2)审核决策可能显得武断或有偏见;(3)仇恨言论有两种形态——固有贬损用语(如侮辱性称呼)和群体针对性内容(即使无侮辱词也可能有害)——需要不同的检测策略;(4)低资源语言(如希腊语)缺乏相关资源。
核心矛盾:审核需要在"阻止有害内容"和"解释为何有害"之间取得平衡——纯 LLM 方法缺乏稳定的术语知识,纯词汇方法缺乏上下文理解。
本文目标:构建一个能检测和解释仇恨言论的混合系统,覆盖英/法/希腊语。
切入角度:双管道设计——术语管道利用策展词汇表做精确匹配+LLM 消歧,无术语管道用 LLM 做上下文感知的群体针对检测。
核心 idea:策展词汇表(含义解释+身份特征标注)+ LLM 上下文推理 → 有据可查的解释。
方法详解¶
整体框架¶
这套系统想做的不是"标记后删除",而是"标记并讲清为什么有害",覆盖英、法、希腊三种语言。它把仇恨言论拆成两种形态分开处理:固有贬损用语走术语管道(先用词汇表匹配出可疑术语,再让 LLM 在上下文里判断这次到底是不是贬义用法),无侮辱词但攻击群体的内容走无术语管道(直接交给 LLM 做身份特征攻击的判断)。两条管道各自给出结论和解释,最后融合:任一条判为有害即标记,两条都判有害时再让 LLM 把两份解释合成一份连贯的说明。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
IN["输入文本(英 / 法 / 希腊语)"]
LEX["多语言策展词汇表<br/>Wiktionary 抽取 → 过滤群体贬损 → 标注身份特征 → LLM 生成用法描述 → 人工验证"]
IN --> MATCH["词汇表匹配<br/>命中可疑贬损术语"]
LEX --> MATCH
MATCH --> DISAMB["LLM 语义消歧<br/>结合上下文判断是否真贬义"]
IN --> NOTERM["无术语管道<br/>LLM 检测群体针对性攻击"]
DISAMB --> FUSE["双管道融合<br/>并集判定:任一检出即标记"]
NOTERM --> FUSE
FUSE -->|两条都检出| MERGE["LLM 合成解释<br/>去冗余、输出连贯说明"]
FUSE -->|仅一条检出| SINGLE["采用该管道解释"]
MERGE --> OUT["输出:标记 + 可追溯理由"]
SINGLE --> OUT
关键设计¶
1. 多语言策展词汇表:给 LLM 补上罕见、文化特定贬损用语的知识盲区
LLM 对常见侮辱词很熟,但对罕见或地域文化特定的贬损用语(尤其低资源的希腊语)经常一无所知,纯靠模型判断会漏检。本文因此构建了一套三语言词汇表作为外部知识基础,从 Wiktionary 提取带 "derogatory/offensive/vulgarities" 标签的术语,经五步流程精炼:初始收集(11,310 英 / 3,749 法 / 965 希腊)→ 过滤出真正针对群体的固有贬损用语 → 分类并标注其攻击的身份特征 → 用 LLM 为每条术语生成一段同时涵盖争议用法与非争议用法的连续描述 → 人工验证,最终保留 3,904 英 / 1,644 法 / 288 希腊条目。关键不只在词条本身,而在每条都带"含义解释 + 身份特征标注",这正是后续消歧和解释生成的依据。
2. LLM 语义消歧:用上下文把"匹配中了"和"真的是骂人"分开
许多贬损术语本身是多义的,简单字符串匹配会把大量正常用法误报为仇恨言论。术语管道因此不止步于匹配:命中某个术语后,把源文本连同该术语在词汇表里的含义描述(含争议与非争议两种用法)一起交给 LLM,由它判断这次到底是不是贬义使用并给出解释。这样就能处理多义词(如 "bitch" 可指母狗也可骂人)和回收用语(被目标群体自己回收使用、不构成攻击的情况),把"词在不在表里"升级为"这次用法到底有没有恶意"。
3. 双管道融合与解释生成:两条互补的检测路径合成一份有据可查的说明
两条管道各有盲区——术语管道擅长抓固有贬损用语却会漏掉无侮辱词的群体攻击,无术语管道擅长抓上下文攻击却会漏掉罕见术语,所以最终判定取并集:只有当两条管道都认为无仇恨言论时才判为安全。若只有一条检出,就直接采用该管道的解释;若两条都检出,则再由 LLM 把两份解释融合、去除冗余,输出一份连贯统一的说明。这一步让系统的输出始终是"标记 + 可追溯的理由",而非一个孤立的有害标签。
损失函数 / 训练策略¶
混合系统不涉及训练。使用 Claude Sonnet 3.7 作为大模型,Llama 系列作为轻量开源替代。
实验关键数据¶
主实验¶
| 语言 | 模型 | Precision | Recall | F1 (Safe) |
|---|---|---|---|---|
| 英语 | Claude (混合) | 0.92 | 0.89 | 0.90 |
| 英语 | Llama (混合) | 0.82 | 0.82 | 0.82 |
| 法语 | Claude (混合) | 0.96 | 0.91 | 0.93 |
| 希腊语 | Claude (混合) | - | - | 高于基线 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 仅无术语管道 (LLM-only) | 较低 | 遗漏罕见/文化特定术语 |
| 仅术语管道 | 较低 | 遗漏无侮辱词的群体攻击 |
| 混合系统 | 最优 | 两管道互补 |
关键发现¶
- 混合系统一致优于纯 LLM 基线,证明策展词汇表对 LLM 有增强作用
- 人工评估显示解释质量高——用户能理解为什么内容被标记
- Claude 显著优于 Llama 系列,但 Llama 在低资源部署(单 GPU)中有实用价值
- 词汇表在希腊语(低资源语言)上的增益尤其显著
亮点与洞察¶
- 从审查到解释的理念转变有重要的社会价值——解释为什么有害比简单删除更能促进用户理解和行为改变
- 策展词汇表+LLM 的混合模式是一个可推广的范式——在任何需要"精确领域知识+上下文理解"的任务中都适用
- 多语言词汇表的构建方法论(Wiktionary + LLM 过滤 + 人工验证)是可复用的资源构建流程
局限与展望¶
- 词汇表需要持续维护以覆盖新出现的贬损用语
- 仅在推文(短文本)上评估,长文本场景可能不同
- 回收用语(如 LGBTQ 社区回收的术语)的处理仍有挑战——缺少用户身份信息时难以判断
- 解释的自动评估指标有限,主要依赖人工评估
相关工作与启发¶
- vs 纯 LLM 检测: 缺乏稳定的术语知识,可能漏检罕见侮辱
- vs 纯词汇方法: 缺乏上下文理解,误报率高
- vs Menis Mastromichalakis et al. (2025): 他们做可解释仇恨言论但不涉及多语言词汇表
评分¶
- 新颖性: ⭐⭐⭐ 双管道混合方法不算全新,但多语言词汇表是有价值的资源贡献
- 实验充分度: ⭐⭐⭐⭐ 三语言覆盖、人工评估检测和解释质量、多模型对比
- 写作质量: ⭐⭐⭐⭐ 结构清晰,社会动机充分