K/DA: Automated Data Generation Pipeline for Detoxifying Implicitly Offensive Language in Korean¶

会议: ACL 2025
arXiv: 2506.13513
代码: 无（数据集在 CC BY-NC 4.0 下发布）
领域: 社会计算
关键词: 语言去毒化、隐性冒犯语言、韩语文本、RAG数据生成、配对数据集

一句话总结¶

本文提出 K/DA，一个自动化的韩语攻击性语言配对数据生成管线，通过 RAG 从在线社区检索时下流行的俚语来增强中性句子生成毒性版本，配合两阶段过滤（配对一致性 + 隐性攻击性），生成了 7.5K 高质量中性-毒性配对数据集，训练的去毒化模型优于基于人工标注和翻译数据集训练的模型。

研究背景与动机¶

领域现状：语言去毒化（language detoxification）旨在将攻击性语言转换为保留原意但无毒性的版本。训练去毒化模型最直接的方式是使用中性-毒性配对数据集。现有的韩语攻击性语言数据集主要通过三种方式构建：人工爬取标注、LLM 生成、从英语翻译。

现有痛点：三种方法各有严重缺陷。(1) 人工爬取：交互内容碎片化，标注一致性差，且构建配对数据的成本极高。(2) LLM 生成：LLM 生成的攻击性内容与上下文不相关，且倾向于生成显性攻击（如直接脏话），难以产出隐性攻击。(3) 翻译：英韩文化差异巨大，翻译后冒犯性nuance丢失严重。更根本的问题是攻击性语言快速演化——社区不断创造新的隐晦骂人方式来规避检测，静态数据集很快过时。

核心矛盾：隐性攻击性语言（没有脏话但带有嘲讽、偏见含义的表达）在真实在线评论中占比约 64%，是去毒化的主要挑战，但现有方法难以自动生成这类数据。LLM 自身也倾向于生成显性攻击而非隐性攻击。

本文目标：设计一个自动化管线，能生成包含隐性攻击性和紧跟潮流俚语的高质量配对数据集。

切入角度：作者提出 "trend-aligned slang" 概念，将隐性攻击细分为：(1) 轻蔑和嘲讽、(2) 社区特定俚语、(3) 脏话的变体（谐音、视觉相似字符等规避检测方式）。通过 RAG 从韩语在线社区检索这些时下俚语来增强 LLM 的生成能力。

核心 idea：两阶段管线——第一阶段用 RAG（从 9.3 万条在线评论构建向量数据库）检索相关俚语增强中性句子生成毒性版本；第二阶段用 LLM 自身作为过滤器，依次检查配对一致性和隐性攻击性，剔除低质量生成。

方法详解¶

整体框架¶

K/DA 管线的输入是一组中性句子，输出是中性-毒性配对数据集。Pipeline 分两个阶段：(1) Slang Retrieval——对每条中性句子，用不同的检索数量 \(n \in \{0, 3, 5, 7, 9\}\) 从俚语向量数据库中检索相关内容，增强 prompt 让 LLM 生成含俚语的毒性版本（每条生成 5 个候选）；(2) Generation Filtering——对所有候选依次通过配对一致性过滤和隐性攻击性过滤，只保留通过两道过滤的高质量输出。

关键设计¶

多 RAG 多样性策略（Multiple RAGs for Maximized Diversity）:
- 功能：在检索质量和生成多样性之间取得平衡
- 核心思路：传统 RAG 固定检索数量 \(n\)，\(n\) 太小可能遗漏有用信息，\(n\) 太大可能引入噪声。K/DA 用 \(n \in \{0, 3, 5, 7, 9\}\) 五种配置分别检索和生成，将所有结果交给过滤阶段筛选。\(n=0\)（零检索，纯 prompt 生成）也很重要，因为有些中性句子的主题在向量库中缺乏相关俚语。实验表明不同的 \(n\) 值对最优生成的贡献分布较均匀。
- 设计动机：避免了需要额外训练一个模型来动态决定 \(n\) 的开销（如 Self-RAG），利用过滤阶段的鲁棒性来处理噪声检索。
配对一致性过滤（Pair Consistency Filtering）:
- 功能：确保毒性版本与原始中性句子表达相同含义
- 核心思路：让 LLM 判断生成的毒性句与中性句的关系类型——"context maintained"（一致）或 "context shifted"（不一致，如答复性回复、无关内容）。通过一轮 prompt 提供不一致类型的定义和 one-shot 示例，LLM 的过滤判断与人类标注者的一致率达 86%。
- 设计动机：三种常见的不一致生成：(1) LLM 把中性句当问题回答；(2) LLM 引入不相关的俚语导致语义偏移；(3) 简单改写而非增加毒性。Context Shift 过滤 prompt 表现最好，保留 47.89% 的生成。
隐性攻击性过滤（Implicit Offensiveness Filtering）:
- 功能：确保保留的数据具有足够的隐性攻击性
- 核心思路：使用 Derogatory Detection prompt，让 LLM 判断生成是否符合隐性攻击的扩展定义（含基于性别/地域/政治的贬低、社区俚语、脏话谐音变体）。将不攻击的和显性脏话的都过滤掉，只保留隐性攻击的内容。保留率 63.24%。
- 设计动机：更精细的多类分类 prompt（如 Multi-meaning Relationship）虽然隐性攻击性评分最高，但保留率极低（3.2%），不实用。Derogatory Detection 在保留率和质量之间取得了最佳平衡。

损失函数 / 训练策略¶

去毒化模型训练使用简单的指令微调（instruction fine-tuning）。以 Ko-LLaMA3-Luxia-8B 为基础模型，使用 K/DA 数据集中的（毒性→中性）对作为训练数据，学习率 2e-4、batch size 4，在双 A100 上训练。

实验关键数据¶

主实验（数据集质量对比 G-Eval）¶

数据集	Overall O. ↑	Implicit O. ↑	Consistency ↑
K-OMG (LLM生成)	3.770	2.399	1.393
BEEP (人工爬取)	2.300	2.206	-
KODOLI (人工标注)	3.293	2.554	-
Translated CADD	2.963	1.861	1.458
K/DA (Ours)	2.719	2.622	4.060

K/DA 的总攻击性最低但隐性攻击性最高，说明数据集正确地偏向隐性攻击；配对一致性远超其他数据集。

消融实验（去毒化模型性能 Tested on Ours）¶

训练数据	Overall O. ↓	Implicit O. ↓	Consistency ↑	Fluency ↑
Vanilla LM (无训练)	1.677	1.603	3.263	2.916
K/DA (Ours)	1.145	1.156	3.553	3.027
K-OMG	1.657	1.608	3.227	2.995
Translated CADD	1.802	1.686	3.463	2.985

关键发现¶

K-OMG 和 CADD 训练的模型在去毒化效果上与未训练的 Vanilla LM 无统计显著差异，说明配对数据的一致性对训练去毒化模型至关重要——不一致的配对反而干扰学习。
K/DA 训练的模型在自身测试集和 KOLD 数据集上都有改善，但在 BEEP（最困难的迁移设置）上改善消失。作者认为这是中性句子覆盖范围有限导致的，可通过扩充中性句子多样性来改善。
K/DA 管线跨语言有效（英语 539 对）且跨模型有效（Trillion-7B 和 Gemma2-9B 都能产出有竞争力的数据集）。
LLM 过滤与人类判断的一致率高（配对一致性 86%，隐性攻击性 90%），多数投票下一致率更高（97% 和 94%）。

亮点与洞察¶

"让 LLM 生成+过滤"而非"让 LLM 直接生成高质量数据"：对 LLM 的使用分工很巧妙——生成阶段追求多样性（多 RAG 配置），过滤阶段追求质量（LLM-as-judge）。这种 generate-then-filter 范式在很大程度上将 LLM 的生成不可控性转化为过滤阶段可以处理的问题。
Trend-aligned slang 概念的提出：将隐性攻击细分为嘲讽、社区俚语、脏话变体三类，并指出后两类占 64% 但被现有研究忽视。这个概念框架对理解网络攻击性语言的演化很有价值。
RAG 从在线社区检索俚语：用 9.3 万条爬取评论构建向量库，使生成的数据能跟上潮流变化，解决了静态数据集过时的问题。

局限与展望¶

对大模型的依赖：开源 LLM 生成质量不如 GPT-4 Turbo，尤其在配对一致性上。未来可以微调开源模型专门做生成和过滤。
仅限韩语数据集：虽然管线设计语言无关，实际数据集主要是韩语。英语的 539 对规模太小。
中性句子来源有限：去毒化在 BEEP 上的迁移效果差，说明需要扩充中性句子的来源和多样性。
安全伦理考量：数据集包含真实的攻击性内容，仅限学术研究使用（CC BY-NC 4.0）。

评分¶

新颖性: ⭐⭐⭐⭐ RAG+双重过滤的自动配对数据生成管线设计巧妙，trend-aligned slang 概念新颖
实验充分度: ⭐⭐⭐⭐⭐ G-Eval、人工评估、跨语言/跨模型实验、去毒化下游任务评估一应俱全
写作质量: ⭐⭐⭐⭐ 逻辑清晰，每个设计选择都有消融支持，prompt 设计透明公开
价值: ⭐⭐⭐⭐ 对韩语NLP社区的实用价值高，管线设计可迁移到其他语言