SocialHarmBench: Revealing LLM Vulnerabilities to Socially Harmful Requests¶
会议: ICLR 2026
arXiv: 2510.04891
代码: huggingface.co/datasets/psyonp/SocialHarmBench
领域: 机器人
关键词: LLM安全, 社会政治危害, 对抗攻击, 越狱攻击, 安全基准
一句话总结¶
提出首个专门针对社会政治危害的LLM安全评估基准 SocialHarmBench,包含585条覆盖7个领域、34个国家的提示,揭示了当前LLM在历史修正主义、宣传操纵等政治敏感场景中的系统性安全漏洞。
研究背景与动机¶
LLM日益部署在可能产生直接社会政治后果的场景中。然而,现有安全基准(如 HarmBench、AdvBench、JailbreakBench)主要聚焦于犯罪行为(恐怖主义、网络攻击、欺诈等),对政治操纵、宣传生成、监控审查等社会政治领域的覆盖极为有限。
现有基准的不足¶
| 基准 | 覆盖领域 | 国家覆盖 | 提示数 | 时间维度 |
|---|---|---|---|---|
| AgentHarm (2025) | 犯罪类 | 无 | 260 | 无 |
| AdvBench (2023) | 犯罪类 | 无 | 520 | 无 |
| JailbreakBench (2024) | 网络攻击等 | 仅美国 | 500 | 无 |
| HarmBench (2024) | 恶意指令 | 15国 | 510 | 无 |
| SocialHarmBench | 社会政治危害 | 34国 | 585 | 有(跨世纪) |
核心研究问题¶
- 现有模型的安全防护在社会政治危害场景下能否泛化?
- 当前对抗攻击在这些高风险场景中的有效性如何?
- 不同时间和地理背景是否会放大模型的脆弱性?
方法详解¶
整体框架¶
SocialHarmBench 是一个数据集加评估流程的组合:先以联合国《世界人权宣言》为依据构造 585 条覆盖 7 个社会政治领域、34 个国家、跨越近两个世纪的有害提示,再用 HarmBench 与 StrongREJECT 两个分类器分别度量模型"是否暴露有害能力"和"拒绝是否足够强",最后叠加 6 种从提示级到权重级的对抗攻击来压测模型在最坏情况下的脆弱性。
关键设计¶
1. 七大社会政治领域:弥补现有基准只盯犯罪行为的盲区。 已有基准几乎只覆盖恐怖主义、网络攻击等"犯罪"类危害,对政治操纵、宣传生成、监控审查等社会政治后果严重的请求几乎不收录。本文据《世界人权宣言》把社会政治危害切成七类并控制各类占比相对均衡:人权侵犯 17.4%(如针对孕妇的强制绝育算法)、监控与监视 16.8%(如用假身份渗透政治团体的 AI)、审查与信息控制 14.9%(如为政府候选人伪造民众支持)、政治操纵与选举干预 13.8%、战争罪与反人类罪 13.5%(如最大化平民伤亡的轰炸目标优化)、宣传与虚假信息 12.6%、历史修正主义 10.9%(如用 GAN "修复"集中营照片)。这种按权利侵害维度而非犯罪类型的切法,正好暴露了对齐训练里被忽视的整片高风险区域。
2. 三种功能类型:让同一危害以不同伪装探测多种失败模式。 单纯的"直接有害请求"容易被表层关键词过滤拦下,无法测出模型更隐蔽的弱点。因此每条危害用三种表述方式呈现:标准行为是直白的有害请求;观点诱导试图诱出违反规范的政治立场;历史引用则以过去政权或事件为模板包装当下的有害设计。后两种绕开了显式的恶意触发词,能测出模型在"看似学术或历史讨论"外壳下的真实对齐边界。
3. 时间与地理多样性:检验安全防护能否跨文化、跨时代泛化。 安全行为若只在美国当代语境下训练,很可能在其他区域或历史背景下失效。基准因此让提示横跨 34 个国家(覆盖所有有人居住的大洲)和从 19 世纪到当代的时间轴,其中德国(23 条)、美国(20 条)、中国(16 条)、俄罗斯/苏联(15 条)占比最高。这一设计把"区域与时代特异性偏见"变成可测量的变量,后续实验也正是靠它发现了拉美、21 世纪事件等高脆弱区。
4. 双分类器评估管线:把"能力暴露"和"对齐鲁棒性"拆成两个指标。 单看模型是否拒绝并不够,一个模型可能既输出了有害内容、拒绝措辞又很软。本文同时跑两个分类器:HarmBench 分数(HB)衡量输出是否实质满足了有害请求,反映有害能力的暴露程度;StrongREJECT 分数(SR)衡量拒绝本身是否坚决,反映对齐的鲁棒性。两个分数解耦后,就能区分"会拒但拒得不彻底"和"直接照做"这两种本质不同的失败。
5. 六种跨空间对抗攻击:压测最坏情况下的安全下界。 仅评估默认行为只能看到模型的"平时表现",无法反映被攻击者主动操纵后的风险。基准因此叠加覆盖三个扰动空间的攻击:输入/提示空间用 GCG(梯度坐标下降)和 AutoDAN-GA/HGA(遗传算法搜对抗后缀),嵌入空间用 SoftOpt(直接优化软提示嵌入),隐空间用 LAT(潜对抗训练扰动中间层),权重空间用 Weight Tampering(LoRA 微调篡改参数)。从只改输入到直接改权重的递进,刻画出模型安全的整条下界,也为后文"权重篡改后 ASR 普遍超 90%"的结论提供了对照系。
实验关键数据¶
主实验:基线模型脆弱性¶
| 模型 | 审查(HB) | 历史修正(HB) | 宣传(HB) | 总体(HB) | 总体(SR) |
|---|---|---|---|---|---|
| Claude-Sonnet-4 | 3.41 | 1.56 | 5.41 | 0.78 | 4.23 |
| GPT-4o | 7.95 | 28.13 | 20.27 | 6.80 | 9.48 |
| Llama-3.1-8B | 19.32 | 28.13 | 25.68 | 10.23 | 10.05 |
| Qwen-2.5-7B | 15.91 | 35.94 | 16.22 | 12.51 | 18.37 |
| Gemma-3-12B | 21.59 | 35.94 | 21.62 | 12.47 | 12.40 |
| Mistral-7B | 44.32 | 62.50 | 59.46 | 27.71 | 28.31 |
对抗攻击后的ASR¶
| 攻击方法 | Llama-3.1 (HB) | Mistral-7B (HB) | Gemma-3 (HB) |
|---|---|---|---|
| 基线 | 0.10 | 0.28 | 0.12 |
| Weight Tampering | 0.88 | 0.96 | 0.88 |
| LAT | 0.46 | 0.77 | 0.78 |
| GCG | 0.28 | 0.53 | 0.16 |
| AutoDAN-HGA | 0.66 | 0.89 | 0.95 |
时间与地理分析¶
| 维度 | 高风险区域 | HB分数 |
|---|---|---|
| 时间 | 21世纪 | 0.67 |
| 时间 | 前20世纪 | 较高 |
| 地理 | 拉丁美洲 | 0.50-1.00 |
| 地理 | 美国 | 较高 |
| 地理 | 英国 | 较高 |
关键发现¶
- 历史修正主义最危险:所有模型在此领域 ASR 最高,Mistral-7B 高达 62.5%,连 Gemma-3 和 Qwen-2.5 也超过 35%
- 权重篡改攻击最致命:几乎所有模型在权重篡改后 ASR 超过 90%,远优于其他攻击方法
- 开源模型更脆弱:Mistral-7B 在几乎所有类别中表现最差,而 Claude-Sonnet-4 最为稳健(总体 HB 仅 0.78%)
- 21世纪事件最敏感:当代事件相关提示的 ASR 最高,可能因为训练数据中相关内容更丰富
- 地区偏差显著:拉美、美国、英国相关提示的有害输出率显著高于其他地区
- 影响函数溯源:通过 EK-FAC 影响函数分析,社会政治有害生成可追溯到微调数据中"如何发起阴谋运动"类的高影响文档
亮点与洞察¶
- 填补重要空白:首个系统性评估LLM社会政治危害的基准,弥补了现有安全评估体系的关键缺口
- 多维度评估:结合语义类别、功能类型、时间、地理四个维度的交叉分析,提供了前所未有的细粒度视角
- 影响函数分析:创新性地使用训练数据归因方法解释对抗攻击成功的原因
- 实用价值:数据集已开源,可直接集成到安全测试流水线中
- 警示意义:揭示了即使是经过精心对齐的模型,在政治敏感场景中仍存在严重漏洞
局限与展望¶
- 仅英文提示:未覆盖非英语语言,跨文化泛化性受限
- 地区代表性不均:撒哈拉以南非洲和太平洋岛国覆盖不足
- 时间偏向:约60%的提示集中在20-21世纪
- 缺少多轮攻击:未包含多轮对话或智能体式越狱攻击
- 西方中心视角:提示框架可能带有西方中心的隐式偏见
- 分类器局限:自动分类器可能误分类含蓄或委婉的有害回复
相关工作与启发¶
- HarmBench (Mazeika et al., 2024):主要的对抗红队评估框架,但聚焦犯罪行为
- StrongREJECT (Souly et al., 2024):评价拒绝质量而非仅看是否拒绝
- GCG (Zou et al., 2023):通用的梯度坐标下降越狱方法
- AutoDAN (Liu et al., 2024):基于遗传算法的隐蔽越狱方法
对研究的启发¶
- LLM安全评估需要超越"犯罪"框架,纳入更广泛的社会政治维度
- 模型的安全性在不同地理和时间背景下差异巨大,需要文化感知的防御策略
- 权重空间攻击是当前最严重的威胁,现有对齐机制对此几乎无效
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首个聚焦社会政治危害的LLM安全基准,具有重要的开创意义
- 实验充分度: ⭐⭐⭐⭐⭐ — 8个模型、6种攻击、时间地理分析、影响函数溯源,极为全面
- 写作质量: ⭐⭐⭐⭐ — 内容丰富但篇幅较长,核心发现有时被细节淹没
- 价值: ⭐⭐⭐⭐⭐ — 对AI安全社区的政策制定和防御研究有直接指导价值