JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks¶

会议: ICLR 2026
arXiv: 2603.01291
代码: https://github.com/kanekomasahiro/jail_news_bench
领域: 对齐RLHF
关键词: 假新闻生成, 越狱攻击, 多语言安全, LLM安全评估, 区域安全不平衡

一句话总结¶

提出首个评估 LLM 在越狱攻击下生成假新闻鲁棒性的多语言多区域基准 JailNewsBench，覆盖 34 个地区和 22 种语言、约 30 万实例，揭示最高 86.3% 的攻击成功率以及英语/美国话题防御显著弱于其他地区的安全不平衡现象。

研究背景与动机¶

假新闻对社会信任和决策构成严重威胁，波及政治、经济、健康和国际关系等方方面面。由于假新闻本质上反映了特定地区的政治、社会和文化背景，并以特定语言表达，因此评估 LLM 的安全风险必须采用多语言和多区域的视角。

恶意用户可以通过越狱攻击绕过安全防护，诱导 LLM 生成假新闻。然而，当前没有任何基准能够系统性地评估不同语言和地区下 LLM 的攻击鲁棒性。现有安全数据集（如 HarmBench、TrustLLM）主要关注毒性和社会偏见，对假新闻的覆盖非常有限。

核心矛盾：LLM 的安全对齐主要针对英语和通用有害内容进行训练，但假新闻是高度地区化和语言相关的，这导致非英语地区/语言的安全防护可能存在系统性盲区。

切入角度：构建首个跨语言跨区域的假新闻越狱基准，系统暴露 LLM 安全防护中的语言/地区不平衡。

方法详解¶

整体框架¶

JailNewsBench 是一个Benchmark而非方法创新。整个框架包括：(1) 多区域多语言的假新闻话题构建→(2) 多种越狱攻击策略实施→(3) LLM-as-Judge 多维度评估→(4) 跨语言跨区域的安全性分析。

关键设计¶

多区域多语言覆盖: 覆盖 34 个地区和 22 种语言，假新闻话题针对各地区的政治、社会、文化背景定制。例如美国的选举操纵、日本的核污水争议等。每个话题都有地区特异性，不是简单翻译。设计动机是假新闻的危害高度依赖于地缘政治和文化语境。
五种越狱攻击策略: 包括角色扮演（role play）、系统覆盖（system override）、研究前沿（research front）、负面提示（negative prompting）、上下文过载（context overload）和显式请求（explicit）。涵盖了从简单到复杂的多种攻击范式，确保评估的全面性。
LLM-as-Judge 八维评估: 采用 8 个子指标评估生成假新闻的有害程度：真实性（faithfulness）、可验证性（verifiability）、遵从性（adherence）、范围（scope）、规模（scale）、正式性（formality）、主观性（subjectivity）、煽动性（agitativeness）。每个维度 0-4 分，由 GPT-4o 作为裁判。
大规模实例集: 约 30 万实例（34 地区 × 22 语言 × 5 攻击 × 9 模型），规模远超以前的安全评测。

损失函数 / 训练策略¶

作为评测基准，不涉及训练。评估指标包括：攻击成功率（ASR）、不流畅率（IFL）和平均有害程度分数（avg_score）。评估流程：(1) 根据话题和攻击策略生成prompt→(2) 让目标LLM生成回复→(3) GPT-4o作为裁判在8个维度上评分。评测脚本已开源，支持 OpenAI、Anthropic、Gemini API 和 vLLM 本地模型，一行命令即可对任意模型进行全面评估。特别值得注意的是，该基准的结果在不同分割（train/val/test）上可能略有差异，计算平均分时需注意与论文报告数据的对应关系。

实验关键数据¶

主实验¶

模型	指标(ASR)	最大ASR	最大有害分数	英语ASR vs 其他
9个LLM	ASR	86.3%	3.5/5	英语/美国防御显著更弱
GPT系列	ASR	高	中高	英语区域偏弱
Claude系列	ASR	中等	中等	相对均衡
Llama系列	ASR	高	中高	非英语更强防御

消融实验¶

配置	关键指标	说明
不同攻击策略	ASR变化大	角色扮演和上下文过载最有效
不同语言	ASR差异显著	低资源语言防御更好(训练数据少→安全规则更保守)
不同地区	有害分数差异	英美话题最容易被利用
假新闻vs毒性	防御对比	假新闻类别的防御显著弱于毒性类别

关键发现¶

最大攻击成功率达 86.3%，最大有害程度 3.5/5——LLM在假新闻防御上远未安全
英语和美国相关话题的防御性能显著弱于其他地区——"过度对齐"训练数据的美国视角可能反而暴露了弱点
假新闻在现有安全数据集中覆盖不足，防御效果远弱于毒性和社会偏见等主要类别
典型多语言LLM在非英语语言上的安全防护反而更强，这可能是因为safety训练数据分布不均导致模型对不常见语言更为保守

亮点与洞察¶

填补了假新闻生成安全评测的空白，是首个跨语言跨区域的系统性工作
揭示了一个反直觉的现象：英语/美国的防御反而最弱，挑战了"训练数据多=安全性好"的假设
8维评估框架为假新闻有害程度提供了细粒度的量化工具
30万实例规模确保了统计可靠性
数据集和评测脚本已开源（HuggingFace: MasahiroKaneko/JailNewsBench），支持一行命令评估任意模型
支持 5 种不同的越狱攻击策略（角色扮演、系统覆盖等），全面覆盖攻击面
分析表明假新闻类别在现有安全数据集中被严重忽视，这对安全训练数据的构建有重要启示
不同模型在不同语言上的安全性表现差异极大，暗示当前safety RLHF的多语言泛化能力不足

局限与展望¶

LLM-as-Judge评估可能存在偏差，特别是对非英语语言的评判质量和一致性
仅评估了单轮攻击，多轮渐进式诱导可能更危险（可结合SEMA等多轮攻击方法）
假新闻话题的选取可能无法完全覆盖各地区的敏感议题，需持续更新
攻击策略相对固定，自适应攻击（如基于模型反馈的动态调整）未被纳入
仅考虑文本假新闻，多模态假新闻（图文/视频配合）的评估是重要的未来方向
基准的时效性——假新闻话题会随时事变化，定期更新数据集很重要

评分¶

新颖性: ⭐⭐⭐⭐ 首个多语言多区域假新闻越狱基准，填补重要空白
实验充分度: ⭐⭐⭐⭐⭐ 34地区×22语言×5攻击×9模型，规模宏大
写作质量: ⭐⭐⭐⭐ 动机清晰，发现有冲击力
价值: ⭐⭐⭐⭐ 对LLM安全研究和政策制定有直接参考价值