GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs¶

会议: NeurIPS 2025
arXiv: 2411.14133
代码: https://github.com/TrustMLRG/GASP
领域: LLM对齐 / AI安全
关键词: 对抗后缀, 越狱攻击, 贝叶斯优化, 黑盒攻击, 红队测试

一句话总结¶

提出GASP框架，通过训练专用的SuffixLLM生成可读的对抗后缀，利用潜在贝叶斯优化（LBO）在连续嵌入空间中高效搜索并用ORPO迭代微调生成器，在完全黑盒设置下实现高攻击成功率且生成的后缀保持人类可读性。

研究背景与动机¶

领域现状：LLM越狱攻击方法分为三类——手动启发式（灵活但不可扩展）、优化类（如GCG在离散token空间搜索，但生成的后缀不可读）、混合类（如AutoDAN/PAIR，计算开销大且泛化性有限）。

现有痛点： - GCG等优化类方法生成的后缀是乱码般的token序列，容易被困惑度过滤器检测 - 现有方法大多需要白盒访问（梯度/logits），在API-only场景下不适用 - AdvPrompter虽能学习后缀生成器，但不能针对特定TargetLLM适配，且仍在离散空间搜索

核心矛盾：需要同时满足三个目标——(a) 高攻击成功率 (b) 生成人类可读的自然语言后缀 (c) 完全黑盒、高效率。

切入角度：把离散token优化转化为连续潜在空间的贝叶斯优化。训练一个SuffixLLM把后缀编码到连续空间，用高斯过程建模后缀的"攻击效果"，用acquisition function引导搜索，再用ORPO偏好优化微调SuffixLLM。

核心 idea：在SuffixLLM的嵌入空间中做贝叶斯优化搜索对抗后缀，比离散token搜索高效得多且自然保持可读性。

方法详解¶

整体框架¶

GASP包含四个模块：(A) 在AdvSuffixes数据集上预训练SuffixLLM；(B) 用LBO在潜在空间中高效搜索高质量后缀，由GASPEval评分反馈驱动；(C) 用ORPO偏好优化迭代微调SuffixLLM；(D) 最终的SuffixLLM可快速推理生成针对特定TargetLLM的对抗后缀。

关键设计¶

潜在贝叶斯优化（LBO）搜索：
- 功能：在SuffixLLM的嵌入空间（而非离散token空间）中搜索有效的对抗后缀
- 核心流程：SuffixLLM生成候选后缀集 → 编码为潜在向量 → 高斯过程拟合(向量, 攻击分数)对 → acquisition function选择下一个最有前景的向量 → 解码为最近邻后缀 → 评估 → 更新GP
- 设计动机：连续空间比离散token空间平滑得多，GP可以有效建模攻击效果的landscape，acquisition function自动平衡探索与利用。相比GCG的梯度离散搜索，搜索效率大幅提升
- 解码用最近邻搜索保证输出是已有候选中的真实后缀，天然满足可读性约束
GASPEval评估器：
- 功能：用21个二值标准评估TargetLLM回复的有害程度（涵盖仇恨言论、非法指令、虚假信息、威胁等）
- 核心思路：由辅助LLM打分，每个标准0-2分，总分反映后缀的对抗质量
- 设计动机：比简单的关键词匹配（"Sorry, I can't..."）更精细，比StrongREJECT更全面
- 采用懒评估（lazy evaluation）：只评估LBO选中的后缀，避免浪费
ORPO迭代微调：
- 功能：根据LBO发现的后缀质量排序，用偏好优化微调SuffixLLM
- 核心公式：\(L_{\text{ORPO}} = \ell_{\text{SFT}}(\phi; x, y_+) + \lambda \cdot \ell_{\text{OR}}(\phi; x, y_+, y_-)\)
- 将GASPEval分数最高的后缀作为 \(y_+\)，较差的作为 \(y_-\)
- 设计动机：SFT部分学习模仿好后缀，OR部分学习区分好坏后缀，双重信号加速收敛。比纯SFT更高效，比DPO更轻量（不需要参考策略）

训练策略¶

SuffixLLM基础：Mistral-7B
AdvSuffixes数据集：519条有害指令，每条配多个可读对抗后缀（由无审查LLM两样本提示生成）
75%预训练 / 25%微调，测试集100条OOD有害提示

实验关键数据¶

主实验（ASR@10 / ASR@1，GASPEval评估）¶

方法	Mistral-7B	Falcon-7B	LLaMA-3.1-8B	LLaMA-3-8B	LLaMA-2-7B
GCG	-/37	-/52	-/6	-/2	-/5
AutoDAN	-/69	-/42	-/1	-/62	-/0
AdvPrompter	77/55	93/52	17/4	5/0	7/1
PAIR	-/64	-/91	-/18	-/9	-/7
TAP	-/61	-/98	-/25	-/8	-/8
ICA	-/62	-/91	-/59	-/54	-/0
GASP	82/64	100/86	68/11	71/6	64/9

消融实验要点¶

组件	效果
去掉LBO（只用预训练SuffixLLM）	ASR大幅下降，说明LBO搜索关键
去掉ORPO（只用LBO不微调）	ASR下降但仍有效，LBO本身贡献大
去掉预训练（从头训练）	收敛慢且性能差，预训练初始化重要

关键发现¶

GASP在ASR@10指标上全面领先：Falcon-7B上达到100%，Mistral上82%
对强对齐模型（LLaMA-3/3.1）ASR@1较低但ASR@10显著高于基线，说明多次尝试策略有效
GASP推理速度远快于GCG/AutoDAN（生成式而非搜索式，单次前向传播即可）
生成的后缀可读性高，困惑度远低于GCG的乱码后缀
也在闭源模型上测试：GPT-4o-mini 74% ASR@10，Claude-3-Haiku 61%

亮点与洞察¶

将离散优化转为连续优化的思路非常精妙：SuffixLLM的嵌入空间提供了語义结构化的连续搜索空间，GP可以有效建模，避免了离散token搜索的组合爆炸
LBO + ORPO的交替优化闭环：LBO发现好后缀 → ORPO微调SuffixLLM → 新的SuffixLLM提供更好的嵌入空间和候选后缀 → LBO更高效搜索。这种自我增强循环是GASP持续改进的关键
GASPEval的21维评估比二值"是否拒绝"更精细，能区分不同程度的有害输出

局限与展望¶

对强对齐模型（LLaMA-3/3.1）ASR@1仍然低（6-11%），需要多次尝试才能成功
SuffixLLM需要为每个TargetLLM做LBO+ORPO适配，不具备开箱即用的跨模型迁移能力
预训练数据AdvSuffixes依赖无审查LLM生成——如果无审查LLM不可用，数据构建受限
LBO的高斯过程在高维嵌入空间中可能面临维度灾难，论文中如何降维处理细节不够充分
只测试了7-8B参数规模的开源模型，对70B+模型的效果未知

评分¶

新颖性: ⭐⭐⭐⭐⭐ 潜在空间贝叶斯优化+生成式后缀+ORPO的组合是全新设计
实验充分度: ⭐⭐⭐⭐ 5个开源+6个闭源模型，3种评估指标，消融详尽
写作质量: ⭐⭐⭐⭐ 框架图清晰，数学表述规范，实验表格信息丰富
价值: ⭐⭐⭐⭐⭐ 为LLM红队测试提供了高效可扩展的工具，对理解对齐脆弱性有重要意义