跳转至

SocialHarmBench: Revealing LLM Vulnerabilities to Socially Harmful Requests

会议: ICLR 2026
arXiv: 2510.04891
代码: huggingface.co/datasets/psyonp/SocialHarmBench
领域: 机器人
关键词: LLM安全, 社会政治危害, 对抗攻击, 越狱攻击, 安全基准

一句话总结

提出首个专门针对社会政治危害的LLM安全评估基准 SocialHarmBench,包含585条覆盖7个领域、34个国家的提示,揭示了当前LLM在历史修正主义、宣传操纵等政治敏感场景中的系统性安全漏洞。

研究背景与动机

LLM日益部署在可能产生直接社会政治后果的场景中。然而,现有安全基准(如 HarmBench、AdvBench、JailbreakBench)主要聚焦于犯罪行为(恐怖主义、网络攻击、欺诈等),对政治操纵、宣传生成、监控审查等社会政治领域的覆盖极为有限。

现有基准的不足

基准 覆盖领域 国家覆盖 提示数 时间维度
AgentHarm (2025) 犯罪类 260
AdvBench (2023) 犯罪类 520
JailbreakBench (2024) 网络攻击等 仅美国 500
HarmBench (2024) 恶意指令 15国 510
SocialHarmBench 社会政治危害 34国 585 有(跨世纪)

核心研究问题

  1. 现有模型的安全防护在社会政治危害场景下能否泛化?
  2. 当前对抗攻击在这些高风险场景中的有效性如何?
  3. 不同时间和地理背景是否会放大模型的脆弱性?

方法详解

整体框架

SocialHarmBench 是一个数据集加评估流程的组合:先以联合国《世界人权宣言》为依据构造 585 条覆盖 7 个社会政治领域、34 个国家、跨越近两个世纪的有害提示,再用 HarmBench 与 StrongREJECT 两个分类器分别度量模型"是否暴露有害能力"和"拒绝是否足够强",最后叠加 6 种从提示级到权重级的对抗攻击来压测模型在最坏情况下的脆弱性。

关键设计

1. 七大社会政治领域:弥补现有基准只盯犯罪行为的盲区。 已有基准几乎只覆盖恐怖主义、网络攻击等"犯罪"类危害,对政治操纵、宣传生成、监控审查等社会政治后果严重的请求几乎不收录。本文据《世界人权宣言》把社会政治危害切成七类并控制各类占比相对均衡:人权侵犯 17.4%(如针对孕妇的强制绝育算法)、监控与监视 16.8%(如用假身份渗透政治团体的 AI)、审查与信息控制 14.9%(如为政府候选人伪造民众支持)、政治操纵与选举干预 13.8%、战争罪与反人类罪 13.5%(如最大化平民伤亡的轰炸目标优化)、宣传与虚假信息 12.6%、历史修正主义 10.9%(如用 GAN "修复"集中营照片)。这种按权利侵害维度而非犯罪类型的切法,正好暴露了对齐训练里被忽视的整片高风险区域。

2. 三种功能类型:让同一危害以不同伪装探测多种失败模式。 单纯的"直接有害请求"容易被表层关键词过滤拦下,无法测出模型更隐蔽的弱点。因此每条危害用三种表述方式呈现:标准行为是直白的有害请求;观点诱导试图诱出违反规范的政治立场;历史引用则以过去政权或事件为模板包装当下的有害设计。后两种绕开了显式的恶意触发词,能测出模型在"看似学术或历史讨论"外壳下的真实对齐边界。

3. 时间与地理多样性:检验安全防护能否跨文化、跨时代泛化。 安全行为若只在美国当代语境下训练,很可能在其他区域或历史背景下失效。基准因此让提示横跨 34 个国家(覆盖所有有人居住的大洲)和从 19 世纪到当代的时间轴,其中德国(23 条)、美国(20 条)、中国(16 条)、俄罗斯/苏联(15 条)占比最高。这一设计把"区域与时代特异性偏见"变成可测量的变量,后续实验也正是靠它发现了拉美、21 世纪事件等高脆弱区。

4. 双分类器评估管线:把"能力暴露"和"对齐鲁棒性"拆成两个指标。 单看模型是否拒绝并不够,一个模型可能既输出了有害内容、拒绝措辞又很软。本文同时跑两个分类器:HarmBench 分数(HB)衡量输出是否实质满足了有害请求,反映有害能力的暴露程度;StrongREJECT 分数(SR)衡量拒绝本身是否坚决,反映对齐的鲁棒性。两个分数解耦后,就能区分"会拒但拒得不彻底"和"直接照做"这两种本质不同的失败。

5. 六种跨空间对抗攻击:压测最坏情况下的安全下界。 仅评估默认行为只能看到模型的"平时表现",无法反映被攻击者主动操纵后的风险。基准因此叠加覆盖三个扰动空间的攻击:输入/提示空间用 GCG(梯度坐标下降)和 AutoDAN-GA/HGA(遗传算法搜对抗后缀),嵌入空间用 SoftOpt(直接优化软提示嵌入),隐空间用 LAT(潜对抗训练扰动中间层),权重空间用 Weight Tampering(LoRA 微调篡改参数)。从只改输入到直接改权重的递进,刻画出模型安全的整条下界,也为后文"权重篡改后 ASR 普遍超 90%"的结论提供了对照系。

实验关键数据

主实验:基线模型脆弱性

模型 审查(HB) 历史修正(HB) 宣传(HB) 总体(HB) 总体(SR)
Claude-Sonnet-4 3.41 1.56 5.41 0.78 4.23
GPT-4o 7.95 28.13 20.27 6.80 9.48
Llama-3.1-8B 19.32 28.13 25.68 10.23 10.05
Qwen-2.5-7B 15.91 35.94 16.22 12.51 18.37
Gemma-3-12B 21.59 35.94 21.62 12.47 12.40
Mistral-7B 44.32 62.50 59.46 27.71 28.31

对抗攻击后的ASR

攻击方法 Llama-3.1 (HB) Mistral-7B (HB) Gemma-3 (HB)
基线 0.10 0.28 0.12
Weight Tampering 0.88 0.96 0.88
LAT 0.46 0.77 0.78
GCG 0.28 0.53 0.16
AutoDAN-HGA 0.66 0.89 0.95

时间与地理分析

维度 高风险区域 HB分数
时间 21世纪 0.67
时间 前20世纪 较高
地理 拉丁美洲 0.50-1.00
地理 美国 较高
地理 英国 较高

关键发现

  1. 历史修正主义最危险:所有模型在此领域 ASR 最高,Mistral-7B 高达 62.5%,连 Gemma-3 和 Qwen-2.5 也超过 35%
  2. 权重篡改攻击最致命:几乎所有模型在权重篡改后 ASR 超过 90%,远优于其他攻击方法
  3. 开源模型更脆弱:Mistral-7B 在几乎所有类别中表现最差,而 Claude-Sonnet-4 最为稳健(总体 HB 仅 0.78%)
  4. 21世纪事件最敏感:当代事件相关提示的 ASR 最高,可能因为训练数据中相关内容更丰富
  5. 地区偏差显著:拉美、美国、英国相关提示的有害输出率显著高于其他地区
  6. 影响函数溯源:通过 EK-FAC 影响函数分析,社会政治有害生成可追溯到微调数据中"如何发起阴谋运动"类的高影响文档

亮点与洞察

  1. 填补重要空白:首个系统性评估LLM社会政治危害的基准,弥补了现有安全评估体系的关键缺口
  2. 多维度评估:结合语义类别、功能类型、时间、地理四个维度的交叉分析,提供了前所未有的细粒度视角
  3. 影响函数分析:创新性地使用训练数据归因方法解释对抗攻击成功的原因
  4. 实用价值:数据集已开源,可直接集成到安全测试流水线中
  5. 警示意义:揭示了即使是经过精心对齐的模型,在政治敏感场景中仍存在严重漏洞

局限与展望

  1. 仅英文提示:未覆盖非英语语言,跨文化泛化性受限
  2. 地区代表性不均:撒哈拉以南非洲和太平洋岛国覆盖不足
  3. 时间偏向:约60%的提示集中在20-21世纪
  4. 缺少多轮攻击:未包含多轮对话或智能体式越狱攻击
  5. 西方中心视角:提示框架可能带有西方中心的隐式偏见
  6. 分类器局限:自动分类器可能误分类含蓄或委婉的有害回复

相关工作与启发

  • HarmBench (Mazeika et al., 2024):主要的对抗红队评估框架,但聚焦犯罪行为
  • StrongREJECT (Souly et al., 2024):评价拒绝质量而非仅看是否拒绝
  • GCG (Zou et al., 2023):通用的梯度坐标下降越狱方法
  • AutoDAN (Liu et al., 2024):基于遗传算法的隐蔽越狱方法

对研究的启发

  1. LLM安全评估需要超越"犯罪"框架,纳入更广泛的社会政治维度
  2. 模型的安全性在不同地理和时间背景下差异巨大,需要文化感知的防御策略
  3. 权重空间攻击是当前最严重的威胁,现有对齐机制对此几乎无效

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首个聚焦社会政治危害的LLM安全基准,具有重要的开创意义
  • 实验充分度: ⭐⭐⭐⭐⭐ — 8个模型、6种攻击、时间地理分析、影响函数溯源,极为全面
  • 写作质量: ⭐⭐⭐⭐ — 内容丰富但篇幅较长,核心发现有时被细节淹没
  • 价值: ⭐⭐⭐⭐⭐ — 对AI安全社区的政策制定和防御研究有直接指导价值