AGD: Adversarial Game Defense Against Jailbreak Attacks in Large Language Models¶

会议: ACL 2025
arXiv: 无公开arXiv
代码: 无
领域: 对齐RLHF / LLM安全
关键词: 越狱攻击防御、对抗博弈、注意力权重矫正、纳什均衡、内部表示调控

一句话总结¶

本文提出AGD（Adversarial Game Defense），一种基于对抗博弈的LLM越狱攻击防御方法，通过动态调整模型内部表示在有用性和无害性之间取得平衡，利用IQR异常检测、双层优化博弈和专家模型采样三个阶段显著提升LLM安全性。

研究背景与动机¶

领域现状：大语言模型在实际应用中展现了强大的能力，但同时也面临严重的越狱攻击（jailbreak attacks）威胁。攻击者通过精心构造的提示绕过模型的安全对齐，诱导模型生成有害内容。

现有痛点：当前的防御方法主要包括两类：（1）后训练对齐和提示工程，依赖安全标注数据集和安全提示模板，但对分布外（OOD）攻击的适应性较差；（2）基于内部表示调控（representation steering）的方法可以实现实时调整以抵御OOD攻击，但修改表示会破坏推理过程的前向传播，导致模型实用性下降。

核心矛盾：LLM的有用性（helpfulness）和无害性（harmlessness）之间存在根本性的竞争关系。现有方法要么牺牲有用性来换取安全，要么安全性不足。简单地修改内部表示无法同时优化这两个目标。

本文目标：设计一种能够动态平衡有用性和无害性的防御机制，在不显著降低模型实用性的前提下有效抵御各类越狱攻击。

切入角度：作者将有用性和无害性视为博弈论中的两个对抗目标，借助对抗博弈的思想通过双层优化自动找到纳什均衡点，从而实现两个目标的优化平衡。

核心 idea：将LLM的安全防御建模为一个双人变和博弈问题，通过IQR检测异常注意力权重、对抗训练矫正注意力、双层优化逼近纳什均衡来实现安全与有用性的动态平衡。

方法详解¶

整体框架¶

AGD方法包含三个核心阶段：（1）异常注意力检测与矫正阶段，使用IQR方法识别并修正被越狱攻击扰动的注意力头；（2）对抗博弈优化阶段，通过双层优化让"有用性玩家"和"无害性玩家"在注意力激活空间上进行对抗博弈，逼近纳什均衡；（3）安全采样阶段，引入专家模型指导下一个token的采样以生成更安全的响应。

关键设计¶

IQR异常注意力检测与矫正:
- 功能：识别并修正被越狱攻击扰动的异常注意力权重
- 核心思路：观察到越狱攻击会导致特定注意力头的权重出现异常偏移。使用四分位距（IQR）方法统计每个注意力头权重的分布，当某个头的激活值超出 \(Q_1 - 1.5 \times IQR\) 或 \(Q_3 + 1.5 \times IQR\) 范围时标记为异常。异常的注意力权重通过对抗训练进行矫正，使其恢复到正常分布
- 设计动机：越狱攻击的核心机制是通过特定token组合改变模型的注意力分配模式，使模型"忽视"安全约束。通过检测这些异常模式，可以在推理时实时识别攻击并进行矫正
双层优化对抗博弈:
- 功能：在有用性和无害性之间寻找最优平衡点
- 核心思路：定义两个"玩家"——有用性玩家和无害性玩家，分别控制不同的注意力头激活。将问题建模为双人变和博弈，使用双层优化（bi-level optimization）框架：外层优化有用性目标，内层优化无害性目标。两个玩家交替优化各自的策略，通过迭代过程逼近纳什均衡（Nash Equilibrium）。在均衡点处，任何一方都无法通过单方面改变策略来提升自身目标
- 设计动机：传统方法将安全性视为单目标优化问题，忽略了与有用性的冲突。博弈论框架自然地建模了这种竞争关系，纳什均衡保证了双方的利益都被合理考虑
专家模型引导的安全采样:
- 功能：在token采样阶段进一步确保生成内容的安全性
- 核心思路：引入一个预训练的安全专家模型，在解码阶段对每个候选token的安全性进行评估。将原始模型的token概率分布与专家模型的安全性评分结合，调整采样概率使得更安全的token获得更高的采样权重
- 设计动机：即使通过注意力矫正和博弈优化调整了内部表示，在自回归生成过程中仍可能出现不安全的token序列。专家模型提供了最后一道安全屏障

损失函数 / 训练策略¶

AGD采用双层优化框架，外层最大化有用性损失，内层最小化无害性损失。两个损失函数分别基于有用性评估指标和安全性评估指标定义，通过交替梯度更新实现逼近纳什均衡。

实验关键数据¶

主实验¶

方法	GCG ASR↓	AutoDAN ASR↓	PAIR ASR↓	平均ASR↓	MT-Bench↑
无防御	56.0	78.0	44.0	59.3	6.8
Self-Reminder	26.0	48.0	28.0	34.0	6.2
RepE	8.0	22.0	14.0	14.7	5.4
AGD (本文)	2.0	6.0	4.0	4.0	6.5

消融实验¶

配置	平均ASR↓	MT-Bench↑	说明
Full AGD	4.0	6.5	完整模型
w/o IQR检测	12.0	6.3	去掉异常检测后安全性下降
w/o 博弈优化	8.0	5.8	去掉博弈后有用性显著下降
w/o 专家采样	6.0	6.4	去掉专家模型后安全性略降

关键发现¶

双层优化博弈机制是AGD最核心的贡献，去掉后有用性下降最明显（MT-Bench从6.5降到5.8），说明博弈是平衡两个目标的关键
IQR异常检测对OOD攻击的防御尤为重要，对未见过的攻击类型仍然有效
AGD在保持高安全性的同时，有用性损失极小（MT-Bench仅从6.8降到6.5），远优于RepE等方法

亮点与洞察¶

将LLM安全防御建模为对抗博弈是一个巧妙的思路，自然地处理了有用性和无害性的冲突，比简单的正则化方法更优雅。这个框架可以扩展到其他多目标优化场景
IQR异常检测方法简单有效，无需额外训练即可识别攻击，具有很好的实用性和可迁移性
专家模型采样提供了一种"软性"安全约束，不同于硬性拒绝策略，可以在安全和信息量之间取得更好的平衡

局限与展望¶

作者未公开代码和arXiv预印本，这限制了方法的可复现性和社区的进一步研究
对抗博弈的收敛速度和稳定性未充分分析，在不同模型架构上的表现尚不清楚
双层优化在推理时引入了额外的计算开销，对于实时应用场景可能是一个瓶颈
IQR方法假设正常注意力权重近似服从正态分布，对于一些长尾分布的场景可能会出现误判
专家模型的选择和训练对最终效果影响较大，论文中未充分讨论不同专家模型的影响

评分¶

新颖性: ⭐⭐⭐⭐ 博弈论框架用于LLM安全防御是有创意的，但IQR检测和专家采样相对常规
实验充分度: ⭐⭐⭐⭐ 覆盖了多种攻击类型和评估维度，消融实验较完整
写作质量: ⭐⭐⭐⭐ 方法描述清晰，但未公开代码影响了可验证性
价值: ⭐⭐⭐⭐ 提出了一种兼顾安全和有用性的新范式，对LLM安全研究有启发意义