MultiSocial: Multilingual Benchmark of Machine-Generated Text Detection of Social-Media Texts¶
会议: ACL 2025
arXiv: 2406.12549
代码: https://github.com/kinit-sk/multisocial
领域: AIGC检测
关键词: machine-generated text detection, multilingual, social media, benchmark dataset, cross-platform
一句话总结¶
构建了首个覆盖 22 种语言、5 个社交媒体平台、7 个 LLM 生成器的大规模机器生成文本检测基准 MultiSocial(47.2 万文本),实验表明 fine-tuned 检测器(Llama-3-8B/Mistral-7B, AUC ROC 0.977)在社交媒体文本上表现优异,且训练平台选择对跨平台泛化影响显著。
研究背景与动机¶
领域现状:LLM 能生成高质量多语言文本,在社交媒体上被滥用于虚假信息传播、社会工程攻击等。机器生成文本检测(MGTD)是对抗 LLM 滥用的关键防线。
现有痛点:现有 MGTD 研究几乎只关注英语和长文本(新闻、论文、学生作文),严重忽视社交媒体文本的特殊性——极短长度、非正式语言、表情符号/话题标签、语法错误频繁。现有多语言数据集要么不覆盖社交媒体(MULTITuDE 仅新闻、M4GT-Bench 仅英语 Reddit),要么仅限英语单平台(TweepFake 仅英语推文)。
核心矛盾:社交媒体文本的非正式特征使得基于规范文本训练的检测器可能失效——生成的社交媒体文本可能比人写的"更规范"(语法更正确、用词更标准),反而让检测器产生偏差。同时,不同平台(Discord/Telegram/Twitter 等)和不同语言的文本特征差异巨大,缺乏跨平台、跨语言的系统性评估。
本文目标 (1) 构建覆盖多语言、多平台、多生成器的社交媒体 MGTD 基准数据集;(2) 系统评估统计/预训练/fine-tuned 三类检测方法在社交媒体场景下的效果;(3) 研究跨语言和跨平台的检测泛化能力。
切入角度:以社交媒体为靶向场景,用 paraphrase 而非直接生成的方式产生机器文本(每条人写文本用 7 个 LLM 各做 3 轮 paraphrase),确保生成文本与原文在风格和话题上高度对齐,避免检测偏差。
核心 idea:首个 22 语言 × 5 平台 × 7 生成器的社交媒体 MGTD 基准,系统证明 fine-tuned 检测器在社交媒体文本上有效且平台选择影响跨平台泛化。
方法详解¶
整体框架¶
数据构建 pipeline:收集 5 个平台(Telegram/Twitter/Gab/Discord/WhatsApp)的人写文本 → 用 7 个 LLM(Aya-101, Gemini, GPT-3.5-Turbo, Mistral-7B, OPT-IML-Max-30B, v5-Eagle-7B, Vicuna-13B)各做 3 轮 paraphrase 生成机器文本 → 质量评估+噪声标记 → 划分训练/测试集 → 在 17 种检测方法上评测。
关键设计¶
-
多语言多平台数据收集(Multilingual Multi-platform Collection):
- 功能:覆盖 22 种语言和 5 个社交平台的真实社交媒体文本
- 核心思路:从现有多语言社交媒体数据集中收集 58K 人写文本,覆盖 Indo-European(18种)、Uralic(2种)、Semitic(阿拉伯语)、Sino-Tibetan(中文)4 个语系,5 种书写系统(拉丁/西里尔/阿拉伯/汉字/希腊)。训练集覆盖 18 种语言,测试集扩展到 22 种(含 Irish/Scottish Gaelic 等仅测试语言)
- 设计动机:确保训练/测试语言不完全重叠以评估跨语言泛化;同一语言在不同平台上的可用性不均(如中文仅 Telegram),通过子集组合可研究不同维度
-
Paraphrase-based 文本生成策略:
- 功能:生成与人写文本风格/话题高度对齐的机器文本,避免话题偏差
- 核心思路:对每条人写文本用 7 个 LLM 各做 3 轮迭代 paraphrase(而非从头生成)。通过 METEOR、BERTScore、n-gram overlap、Levenshtein Distance、MAUVE、LangCheck 6 个指标评估生成质量和相似度。保留约 1% 的噪声样本(如"As an AI model...")作标记供进一步分析
- 设计动机:直接生成与从头补全会引入话题和长度偏差,paraphrase 保持了与原文的话题和长度对齐,使检测任务聚焦在文本风格而非话题差异
-
三类检测方法系统评测:
- 功能:全面对比统计零样本、预训练、fine-tuned 三大类检测方法
- 核心思路:统计零样本(5种):Binoculars、Fast-DetectGPT、LLM-Deviation、DetectLLM-LRR、S5,基于概率/统计差异无需训练;预训练(5种):ChatGPT-Detector-RoBERTa 等在其他数据上训练的检测器,直接迁移测试;Fine-tuned(7种):mDeBERTa、XLM-RoBERTa、Mistral-7B、Llama-3-8B、Aya-101、BLOOMZ-3B、Falcon-1B 在 MultiSocial 训练集上 fine-tune
- 设计动机:统计方法能否在短文本上生效?预训练检测器的跨域迁移能力如何?fine-tune 在社交媒体上效果的上限是什么?三类对比回答这些关键问题
实验关键数据¶
主实验(全测试集 Overall 性能)¶
| 类别 | 检测器 | AUC ROC | Macro F1@5%FPR |
|---|---|---|---|
| Fine-tuned | Llama-3-8B-MultiSocial | 0.9769 | 0.8696 |
| Fine-tuned | Mistral-7B-MultiSocial | 0.9768 | 0.8692 |
| Fine-tuned | Aya-101-MultiSocial | 0.9731 | 0.8462 |
| Fine-tuned | XLM-RoBERTa-large | 0.9553 | 0.7840 |
| Fine-tuned | mDeBERTa-v3-base | 0.9544 | 0.7652 |
| 预训练 | BLOOMZ-3B-mixed-Detector | 0.7553 | 0.3024 |
| 统计零样本 | Fast-DetectGPT | 0.7418 | 0.3605 |
| 统计零样本 | Binoculars | 0.7248 | 0.2815 |
| 预训练 | RoBERTa-large-OpenAI | 0.3450 | 0.1376 |
跨语言分析(Fine-tuned Llama-3-8B, AUC ROC by language)¶
| 语言 | AUC ROC | 语言 | AUC ROC |
|---|---|---|---|
| 英语 (en) | 0.985 | 阿拉伯语 (ar) | 0.978 |
| 西班牙语 (es) | 0.983 | 中文 (zh) | 0.976 |
| 德语 (de) | 0.982 | 苏格兰盖尔语 (gd) | 0.935* |
| 保加利亚语 (bg) | 0.980 | 爱尔兰语 (ga) | 0.952* |
*仅测试集语言(训练集中无该语言数据)
关键发现¶
- Fine-tuned 检测器在社交媒体短文本上效果依然极好(AUC ROC 0.977),证明社交媒体的非正式文本不会根本性破坏检测器
- 统计零样本方法(Binoculars, Fast-DetectGPT)在社交媒体上仍能达到 ~0.72-0.74 AUC ROC,但远低于 fine-tuned
- 预训练检测器表现参差不齐——RoBERTa-OpenAI 甚至低于随机(0.345),说明在长文本/英语上训练的检测器完全不能跨域迁移
- Telegram 平台训练的检测器跨语言泛化能力最好,可能因其内容类型和长度在各语言间最一致
- 仅在测试集出现的低资源语言(爱尔兰语、苏格兰盖尔语)上也保持了 >0.93 的检测性能,展示了 fine-tuned 模型的跨语言泛化
亮点与洞察¶
- 47.2 万文本、22 语言、5 平台、7 生成器的数据规模是 MGTD 领域之最,且数据公开+代码开源,对后续研究有极高价值
- Paraphrase-based 生成策略(而非从头生成)是个精巧的设计——保持了话题/长度对齐,消除了 artifact bias,使检测聚焦于真正的文本风格差异
- 保留 1% 噪声样本(生成失败的"As an AI"文本)并做标记是负责任的数据集设计实践,避免了过于"干净"的数据导致不真实的检测性能
局限与展望¶
- 7 个生成器中仅 GPT-3.5-Turbo 为闭源模型,未测试 GPT-4、Claude 等最新最强生成器
- 训练/测试中不同语言和平台的样本量不均衡(中文仅 ~8K 训练 vs 英语 ~39K)
- Paraphrase 策略可能低估了直接从头生成更"创造性"内容的检测难度
- 未研究对抗攻击(如后处理 paraphrase、风格迁移)下的检测器鲁棒性
相关工作与启发¶
- vs M4GT-Bench: M4GT-Bench 覆盖 9 语言但社交媒体仅英语 Reddit,且语言-领域覆盖极不均衡;MultiSocial 22 语言 × 5 平台均聚焦社交媒体
- vs MULTITuDE: MULTITuDE 11 语言但仅新闻领域、长正式文本;MultiSocial 填补了短文本社交媒体的空白
- vs TweepFake: 最早的社交媒体 MGTD 数据集(英语推文),但仅 24K 样本、6 个旧生成器,无法评估现代 LLM
- 启发:最佳检测器在未见语言上也有 >0.93 的性能,暗示 LLM 生成文本的统计指纹可能是跨语言通用的
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个聚焦社交媒体的大规模多语言多平台 MGTD 基准,填补重要空白
- 实验充分度: ⭐⭐⭐⭐⭐ 17 种检测方法、跨语言/跨平台/跨生成器维度全面评测
- 写作质量: ⭐⭐⭐⭐ 数据构建流程清晰,实验组织系统化
- 价值: ⭐⭐⭐⭐⭐ 数据集和基准对 MGTD 社区有高度实用价值,已公开下载