跳转至

GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs

会议: NeurIPS 2025
arXiv: 2411.14133
代码: https://github.com/TrustMLRG/GASP
领域: LLM对齐 / AI安全
关键词: 对抗后缀, 越狱攻击, 贝叶斯优化, 黑盒攻击, 红队测试

一句话总结

提出GASP框架,通过训练专用的SuffixLLM生成可读的对抗后缀,利用潜在贝叶斯优化(LBO)在连续嵌入空间中高效搜索并用ORPO迭代微调生成器,在完全黑盒设置下实现高攻击成功率且生成的后缀保持人类可读性。

研究背景与动机

领域现状:LLM越狱攻击方法分为三类——手动启发式(灵活但不可扩展)、优化类(如GCG在离散token空间搜索,但生成的后缀不可读)、混合类(如AutoDAN/PAIR,计算开销大且泛化性有限)。

现有痛点: - GCG等优化类方法生成的后缀是乱码般的token序列,容易被困惑度过滤器检测 - 现有方法大多需要白盒访问(梯度/logits),在API-only场景下不适用 - AdvPrompter虽能学习后缀生成器,但不能针对特定TargetLLM适配,且仍在离散空间搜索

核心矛盾:需要同时满足三个目标——(a) 高攻击成功率 (b) 生成人类可读的自然语言后缀 (c) 完全黑盒、高效率。

切入角度:把离散token优化转化为连续潜在空间的贝叶斯优化。训练一个SuffixLLM把后缀编码到连续空间,用高斯过程建模后缀的"攻击效果",用acquisition function引导搜索,再用ORPO偏好优化微调SuffixLLM。

核心 idea:在SuffixLLM的嵌入空间中做贝叶斯优化搜索对抗后缀,比离散token搜索高效得多且自然保持可读性。

方法详解

整体框架

GASP包含四个模块:(A) 在AdvSuffixes数据集上预训练SuffixLLM;(B) 用LBO在潜在空间中高效搜索高质量后缀,由GASPEval评分反馈驱动;(C) 用ORPO偏好优化迭代微调SuffixLLM;(D) 最终的SuffixLLM可快速推理生成针对特定TargetLLM的对抗后缀。

关键设计

  1. 潜在贝叶斯优化(LBO)搜索

    • 功能:在SuffixLLM的嵌入空间(而非离散token空间)中搜索有效的对抗后缀
    • 核心流程:SuffixLLM生成候选后缀集 → 编码为潜在向量 → 高斯过程拟合(向量, 攻击分数)对 → acquisition function选择下一个最有前景的向量 → 解码为最近邻后缀 → 评估 → 更新GP
    • 设计动机:连续空间比离散token空间平滑得多,GP可以有效建模攻击效果的landscape,acquisition function自动平衡探索与利用。相比GCG的梯度离散搜索,搜索效率大幅提升
    • 解码用最近邻搜索保证输出是已有候选中的真实后缀,天然满足可读性约束
  2. GASPEval评估器

    • 功能:用21个二值标准评估TargetLLM回复的有害程度(涵盖仇恨言论、非法指令、虚假信息、威胁等)
    • 核心思路:由辅助LLM打分,每个标准0-2分,总分反映后缀的对抗质量
    • 设计动机:比简单的关键词匹配("Sorry, I can't...")更精细,比StrongREJECT更全面
    • 采用懒评估(lazy evaluation):只评估LBO选中的后缀,避免浪费
  3. ORPO迭代微调

    • 功能:根据LBO发现的后缀质量排序,用偏好优化微调SuffixLLM
    • 核心公式:\(L_{\text{ORPO}} = \ell_{\text{SFT}}(\phi; x, y_+) + \lambda \cdot \ell_{\text{OR}}(\phi; x, y_+, y_-)\)
    • 将GASPEval分数最高的后缀作为 \(y_+\),较差的作为 \(y_-\)
    • 设计动机:SFT部分学习模仿好后缀,OR部分学习区分好坏后缀,双重信号加速收敛。比纯SFT更高效,比DPO更轻量(不需要参考策略)

训练策略

  • SuffixLLM基础:Mistral-7B
  • AdvSuffixes数据集:519条有害指令,每条配多个可读对抗后缀(由无审查LLM两样本提示生成)
  • 75%预训练 / 25%微调,测试集100条OOD有害提示

实验关键数据

主实验(ASR@10 / ASR@1,GASPEval评估)

方法 Mistral-7B Falcon-7B LLaMA-3.1-8B LLaMA-3-8B LLaMA-2-7B
GCG -/37 -/52 -/6 -/2 -/5
AutoDAN -/69 -/42 -/1 -/62 -/0
AdvPrompter 77/55 93/52 17/4 5/0 7/1
PAIR -/64 -/91 -/18 -/9 -/7
TAP -/61 -/98 -/25 -/8 -/8
ICA -/62 -/91 -/59 -/54 -/0
GASP 82/64 100/86 68/11 71/6 64/9

消融实验要点

组件 效果
去掉LBO(只用预训练SuffixLLM) ASR大幅下降,说明LBO搜索关键
去掉ORPO(只用LBO不微调) ASR下降但仍有效,LBO本身贡献大
去掉预训练(从头训练) 收敛慢且性能差,预训练初始化重要

关键发现

  • GASP在ASR@10指标上全面领先:Falcon-7B上达到100%,Mistral上82%
  • 对强对齐模型(LLaMA-3/3.1)ASR@1较低但ASR@10显著高于基线,说明多次尝试策略有效
  • GASP推理速度远快于GCG/AutoDAN(生成式而非搜索式,单次前向传播即可)
  • 生成的后缀可读性高,困惑度远低于GCG的乱码后缀
  • 也在闭源模型上测试:GPT-4o-mini 74% ASR@10,Claude-3-Haiku 61%

亮点与洞察

  • 将离散优化转为连续优化的思路非常精妙:SuffixLLM的嵌入空间提供了語义结构化的连续搜索空间,GP可以有效建模,避免了离散token搜索的组合爆炸
  • LBO + ORPO的交替优化闭环:LBO发现好后缀 → ORPO微调SuffixLLM → 新的SuffixLLM提供更好的嵌入空间和候选后缀 → LBO更高效搜索。这种自我增强循环是GASP持续改进的关键
  • GASPEval的21维评估比二值"是否拒绝"更精细,能区分不同程度的有害输出

局限与展望

  • 强对齐模型(LLaMA-3/3.1)ASR@1仍然低(6-11%),需要多次尝试才能成功
  • SuffixLLM需要为每个TargetLLM做LBO+ORPO适配,不具备开箱即用的跨模型迁移能力
  • 预训练数据AdvSuffixes依赖无审查LLM生成——如果无审查LLM不可用,数据构建受限
  • LBO的高斯过程在高维嵌入空间中可能面临维度灾难,论文中如何降维处理细节不够充分
  • 只测试了7-8B参数规模的开源模型,对70B+模型的效果未知

相关工作与启发

  • vs GCG:GCG在离散token空间做贪心坐标梯度搜索,生成不可读后缀。GASP在连续潜在空间做贝叶斯优化,生成可读后缀
  • vs AdvPrompter:AdvPrompter也学习后缀生成器,但不适配特定TargetLLM且在离散空间搜索。GASP通过LBO+ORPO实现target-specific适配
  • vs PAIR/TAP:黑盒基线但推理慢(每个prompt需多轮LLM交互)。GASP训练后单次推理即可
  • 对防御的启示:困惑度过滤对GASP无效(后缀是可读的),需要更语义层面的防御

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 潜在空间贝叶斯优化+生成式后缀+ORPO的组合是全新设计
  • 实验充分度: ⭐⭐⭐⭐ 5个开源+6个闭源模型,3种评估指标,消融详尽
  • 写作质量: ⭐⭐⭐⭐ 框架图清晰,数学表述规范,实验表格信息丰富
  • 价值: ⭐⭐⭐⭐⭐ 为LLM红队测试提供了高效可扩展的工具,对理解对齐脆弱性有重要意义