CAVGAN: Unifying Jailbreak and Defense of LLMs via Generative Adversarial Attacks¶

会议: ACL 2025
arXiv: 2507.06043
代码: GitHub
机构: 武汉大学计算机学院, 中关村学院领域: AI 安全
关键词: 越狱攻击, defense, GAN, concept activation vector, LLM 安全, 对抗训练

一句话总结¶

提出 CAVGAN 框架，利用生成对抗网络在 LLM 内部表示空间中同时学习越狱攻击（生成器）和安全防御（判别器），首次将攻防统一到同一框架中实现"攻防共进"，攻击成功率平均 88.85%，防御成功率平均 84.17%。

研究背景与动机¶

领域现状: LLM 经过安全对齐（RLHF/SFT/DPO）后具备一定安全防护能力，但各种越狱攻击不断暴露其安全机制的脆弱性。现有研究将越狱攻击和安全防御视为两个相互割裂的研究方向，分别独立优化。

现有痛点: 白盒攻击方法（如 SCAV、JRE）通过数学迭代优化或正负样本差异提取扰动向量，过程复杂且难以泛化；防御方法（如输入过滤、知识编辑）要么依赖外部检测模型精度有限，要么修改参数导致模型流畅度下降。两者缺乏协同，无法形成"以攻促防"的闭环。

关键观察: (a) LLM 中间层 embedding 中恶意/良性查询具有线性可分性，简单分类器即可区分；(b) 成功的越狱攻击本质上是将恶意查询的表示从"不安全区域"迁移到"安全区域"，即一个边界跨越问题。

核心idea: 将概念激活向量（CAV）的提取从手工/数学优化重新定义为生成过程，用 GAN 的生成器自动生成越狱扰动、判别器自动识别伪装的恶意查询，两者在对抗训练中同步提升。

方法详解¶

整体框架¶

CAVGAN 基于 LLM 解码层的内部 embedding 空间运作，包含三个阶段：

训练阶段: 生成器 G 和判别器 D 在 LLM 内部 embedding 上进行对抗训练
攻击阶段: 用训练好的 G 生成扰动注入中间层实现越狱
防御阶段: 用训练好的 D 检测不安全输入并引导模型重新生成

问题形式化¶

给定 LLM M 的 L 层内部 embedding {h_0, h_1, ..., h_L}。安全判别器 G 输出概率 p in (0,1)，表示输入的恶意意图程度。越狱攻击目标：找到扰动 delta 使 min(G(h+delta))，约束 ||delta|| <= epsilon。

生成器（攻击）¶

输入：恶意查询在目标层的 embedding h
输出：扰动向量 G(h)，注入后使判别器无法识别恶意意图
损失函数：L_G = E_{h~D_m}[log D(h + G(h))]
通过参数权重归一化隐式约束扰动模长，避免偏离语义空间

判别器（防御）¶

判别器需同时区分三类输入：良性原始 embedding、恶意原始 embedding、经扰动伪装的恶意 embedding。损失分两部分：

原始分类：L_real = E_{h~D_b}[log D(h)] + E_{h~D_m}[log(1-D(h))]
伪装识别：L_fake = E_{h~D_m}[log(1-D(h+G(h)))]
总损失：L_D = L_real + L_fake

防御推理流程¶

推理时，输入 Q 的 embedding h_Q 送入判别器。若 G(h_Q) >= p_0（阈值），则拼接安全提示前缀 P_safe 后重新生成，否则正常输出。

层选择策略¶

接近中间层的位置攻击效果最佳
后层 ASR-kw 不低但文本质量骤降（大量重复无意义字符）
前层文本质量未下降但 ASR 很低
结论：LLM 的安全机制是逐层渐进形成的

实验关键数据¶

表1: 三模型越狱攻击结果（AdvBench + StrongREJECT）¶

模型	方法	ASR-kw	ASR-gpt	ASR-Answer	ASR-Useful	ASR-Rep
Qwen2.5-7B	SCAV	99.85	87.54	78.65	98.07	100.00
Qwen2.5-7B	JRE	83.54	70.00	60.96	61.15	55.00
Qwen2.5-7B	CAVGAN	98.98	83.88	70.41	86.73	99.80
Llama3.1-8B	SCAV	100.00	90.65	87.11	95.19	99.23
Llama3.1-8B	CAVGAN	98.78	88.38	78.16	88.38	99.38
Mistral-8B	SCAV	99.24	78.26	82.30	80.76	85.19
Mistral-8B	CAVGAN	95.51	94.29	88.78	95.10	99.18

CAVGAN 在 Mistral-8B 上全面超越 SCAV，在其余两个模型上与 SCAV 有小幅差距但大幅超越 JRE。

表2: 防御实验结果（SafeEdit 越狱数据集 + Alpaca 正常查询）¶

模型	方法	DSR	BAR	ASR Reduce	BAR Reduce
Qwen2.5-7B	Original	25.12	98.00	-	-
Qwen2.5-7B	SmoothLLM	54.22	75.77	38.86	22.68
Qwen2.5-7B	RA-LLM	78.60	85.80	71.42	12.45
Qwen2.5-7B	CAVGAN	91.12	91.40	88.14	10.06
Llama3.1-8B	Original	11.34	99.60	-	-
Llama3.1-8B	SmoothLLM	48.97	81.03	42.44	18.64
Llama3.1-8B	RA-LLM	73.78	92.80	70.42	6.83
Llama3.1-8B	CAVGAN	77.22	93.60	74.31	6.02

CAVGAN 在 Qwen2.5-7B 上 DSR 达 91.12%（SOTA +12%），同时 BAR 维持 91.40%，安全与可用性平衡最佳。

关键发现¶

攻击：三个 LLM 平均越狱成功率 97%（ASR-kw），在 Mistral-8B 上全方位击败 SCAV
防御：DSR 平均 84.17%，在 Qwen 上比 RA-LLM 高 12 个百分点，且 BAR 损失最小
可扩展：在 Qwen2.5-14B/32B 大模型上攻击仍保持 94%+ ASR-kw
训练样本：仅需 80-100 个样本即可达到最佳性能，更多样本反而因 GAN 不稳定导致性能波动

亮点与洞察¶

攻防统一新范式: 首次将越狱攻击与安全防御纳入同一 GAN 框架，验证了"以攻促防"的双向控制范式，在概念上优于分别优化
CAV 生成替代数学优化: 将传统的正负样本差异提取或迭代优化转化为模型生成过程，降低复杂度且易于扩展到其他领域
安全机制可解释性: 通过层选择实验揭示 LLM 安全机制是逐层渐进形成的，中间层是攻击最佳切入点
轻量高效: 生成器和判别器均为 4 层 MLP，训练仅需 100 个样本和 10 个 epoch，成本极低

局限性¶

GAN 结构过于简单: 生成器/判别器均为简单 MLP，对复杂语义的建模能力有限，作者承认更复杂结构可能获得更好效果
超参数依赖验证集: 阈值 p_0 和目标层选择依赖验证集调优，缺乏自动化选择机制
防御引入延迟: 基于重新生成的防御机制在高实时性场景下会增加响应时间
泛化边界未明: 仅在 7B-32B 规模的 3 个模型家族上验证，未测试闭源模型或更大规模模型
训练数据敏感: 80-100 样本是最优区间，GAN 训练不稳定导致样本量增加反而性能下降

评分¶

新颖性: ⭐⭐⭐⭐ 首次将 GAN 用于统一 LLM 攻防，将 CAV 提取转化为生成过程
实验充分度: ⭐⭐⭐⭐ 3 模型 x 2 数据集攻击 + 2 模型防御 + 层选择/样本量消融
写作质量: ⭐⭐⭐⭐ 框架图清晰，数学形式化规范，攻防流程逻辑连贯
实用性: ⭐⭐⭐ MLP 架构轻量易部署，但防御的重新生成机制增加延迟
总体推荐: ⭐⭐⭐⭐ 概念贡献突出，实验扎实，GAN 结构简单限制了上限