Tempest: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search¶

会议: ACL 2025 Main
arXiv: 2503.10619
代码: 无
领域: 对齐RLHF / AI安全
关键词: 多轮越狱攻击、树搜索、部分合规追踪、LLM安全、红队测试

一句话总结¶

本文提出 Tempest（论文早期版本称 Siege），一个基于广度优先树搜索的多轮对抗框架，通过追踪目标 LLM 的部分合规信息并将其重新注入后续查询，在 JailbreakBench 上对 GPT-3.5-turbo 达到 100%、GPT-4 达到 97% 的攻击成功率，且需要的查询数远少于 Crescendo/GOAT 等基线。

研究背景与动机¶

领域现状：LLM 安全评估主要分为单轮攻击和多轮攻击两大类。单轮攻击依赖精心设计的单条 prompt（如 GCG、PAIR 等），多轮攻击通过多次对话逐步诱导模型违规（如 Crescendo、GOAT）。

现有痛点：(1) 单轮攻击只捕捉到安全评估的一个侧面，无法反映真实世界中攻击者通过多次交互逐步探测边界的行为；(2) 现有多轮攻击框架（如 Crescendo）通常只沿单一路径进行，缺乏对多条攻击路径的系统性探索；(3) 缺乏对"部分合规"的量化——模型在完全拒绝和完全违规之间的灰色地带未被充分利用。

核心矛盾：现有多轮方法要么走单一对话路径（可能错过更有效的攻击路径），要么需要大量重试（10 次独立会话才能达到较高成功率），效率和覆盖度之间存在矛盾。

本文目标：设计一个系统性的多轮攻击框架，能够 (1) 在单次运行中高效探索多条攻击路线，(2) 精确量化和利用模型的部分合规，(3) 以最少的查询次数达到最高攻击成功率。

切入角度：作者观察到 LLM 的安全防护在多轮对话中存在"渐进侵蚀"现象——模型在单次小的让步本身看似无害，但这些让步累积起来可以导致完全违规输出。这与树搜索中"逐步扩展有希望的分支"的思想天然契合。

核心 idea：将多轮越狱攻击建模为广度优先树搜索（BFS），每一轮对话扩展多个攻击分支，追踪每个分支的部分合规得分，剪除无效路径，保留有前景的路径继续探索。

方法详解¶

整体框架¶

Tempest 由三个核心组件构成：(1) 攻击者 LLM——配备多种红队策略的对抗提示生成器；(2) 部分合规追踪器——量化目标模型每次响应的违规程度；(3) BFS 树搜索引擎——管理对话状态的扩展、评估和剪枝。输入是一条需要诱导的有害行为描述，输出是成功诱导违规输出的完整对话历史。

关键设计¶

攻击者 LLM 与红队策略（Attacker LLM）:
- 功能：根据当前对话历史和目标模型的上一轮响应，生成多条不同策略的对抗性 prompt
- 核心思路：攻击者 LLM 接收系统 prompt，其中包含 (a) 对抗目标描述，(b) 多种攻击策略列表（人格转换、伪装重构、拒绝抑制等）。内嵌 chain-of-thought 推理结构，要求攻击者在每轮执行四步：观察目标模型上一轮的响应 → 判断是否部分合规 → 选择下一个对抗策略 → 生成新的 user prompt。使用通用的 helpful-only LLM 作为攻击者，通过 in-context learning 而非专门的红队微调
- 设计动机：利用 LLM 的推理能力动态调整攻击策略，比人工设计的固定模板更灵活。不依赖梯度信息（黑盒攻击），适用于 API-only 的商用模型
部分合规追踪（Partial Compliance Tracking）:
- 功能：量化目标模型每次响应中泄露有害信息的程度，为树搜索的分支选择提供信号
- 核心思路：定义部分合规函数 \(\gamma(m_t) \in [0, 10]\)，其中 0 表示安全拒绝，10 表示完全违规，中间值表示不同程度的信息泄露。维护累积合规得分 \(\Gamma = \sum_{t=1}^{k} \gamma(m_t)\)。当 \(\gamma(m_t) > 0\)，自动提取响应中的部分泄露内容（代码片段、带有害细节的免责声明、部分操作步骤），重新注入后续攻击 prompt 中
- 设计动机：传统方法使用二值判定（成功/失败），丢失了中间状态信息。量化部分合规使系统能识别"接近突破"的路径并集中资源探索
BFS 树搜索引擎（Multi-Turn Tree Search）:
- 功能：系统性地并行探索多条攻击路径，平衡探索与深入
- 核心思路：每个对话状态视为搜索树的一个节点，包含完整对话历史和累积合规得分 \(\Gamma\)。每轮（树的每一层）执行三步操作：扩展——对每个活跃节点，攻击者 LLM 生成 \(B\) 条不同的攻击 prompt；评估——将每条 prompt 送入目标模型，计算响应的 \(\gamma\) 值，标记 \(\gamma = 10\) 的节点为成功终节点；剪枝——丢弃 \(\gamma = 0\)（完全安全）或合规得分极低的分支，只保留有部分突破的路径。最多搜索 \(k\) 轮（通常 \(k=5\)），或直到所有分支都成功或被剪枝
- 设计动机：BFS 相比 DFS 能更均匀地探索不同攻击策略；剪枝避免了指数增长；并行扩展比串行重试更高效。单次运行即可覆盖多种攻击路线，不需从头重启会话

损失函数 / 训练策略¶

Tempest 是推理时框架，不涉及模型训练。攻击者 LLM 使用 in-context learning，部分合规评分由独立的开源安全评判模型提供。

实验关键数据¶

主实验¶

在 JailbreakBench（100 个有害行为 prompt）上的攻击成功率和查询次数对比：

目标模型	方法	运行次数	ASR (%)	总查询数
GPT-3.5-Turbo	Crescendo	1	40.0	6
GPT-3.5-Turbo	Crescendo	10	80.4	60
GPT-3.5-Turbo	GOAT	1	55.7	6
GPT-3.5-Turbo	GOAT	10	91.6	60
GPT-3.5-Turbo	Tempest	1	100.0	44.4
GPT-4	Crescendo	1	31.7	6
GPT-4	Crescendo	10	70.9	60
GPT-4	GOAT	1	46.6	6
GPT-4	GOAT	10	87.9	60
GPT-4	Tempest	1	97.0	84.2
Llama-3.1-70B	Crescendo	10	77.0	60
Llama-3.1-70B	GOAT	10	91.0	60
Llama-3.1-70B	Tempest	1	97.0	51.8

消融实验¶

不同组件的贡献分析（基于 GPT-4 目标模型）：

配置	ASR (%)	说明
Tempest 完整	97.0	完整框架
无 BFS（单路径）	~75	类似 Crescendo 的单路径递进
无部分合规追踪	~70	仅用二值判定
无策略多样化	~80	攻击者每轮只生成1条 prompt
减少最大轮数至3	~85	探索深度不够

关键发现¶

单次运行即超越多次重试基线：Tempest 单次运行的 ASR（97-100%）远超 Crescendo/GOAT 10 次运行的结果（70-92%），且总查询数相当甚至更少
部分合规信息的价值巨大：去除部分合规追踪后 ASR 下降约 27 个百分点，证明捕捉灰色地带信息对攻击效率至关重要
GPT-4 不比 GPT-3.5 更安全：在多轮攻击下两者的差距远小于单轮攻击，说明 GPT-4 的安全增强主要体现在单轮场景

亮点与洞察¶

将越狱攻击建模为树搜索：这是一个优雅的抽象——攻击空间的结构化探索比随机重试高效得多。同样的 BFS 思路可以迁移到任何需要系统性探索策略空间的对抗场景
部分合规的量化是关键创新：0-10 的细粒度评分比二值判定提供了更丰富的搜索信号。这个设计思路可迁移到其他安全评估任务，如内容审核的灰度评分
揭示了多轮安全的根本脆弱性：即使单轮防御很强的模型，在累积小让步的多轮场景下也会崩溃。这对安全训练策略提出了根本性挑战——需要在多轮对话上下文中进行对齐训练

局限与展望¶

仅在 JailbreakBench 上评测：100 个行为 prompt 的覆盖面有限，且主要是明确的有害请求，未测试更微妙的安全边界
攻击者 LLM 的选择影响未讨论：不同攻击者模型的能力差异可能显著影响 ASR，但论文未做比较
计算成本较高：BFS 树搜索需要在每轮生成多条 prompt 和响应，GPT-4 目标平均需要 84 次查询，在 API 费用方面较贵
防御策略缺乏讨论：揭示了威胁但未提出任何缓解方案。改进方向包括：多轮对话上下文的合规性监控、累积合规得分作为安全中断触发器

评分¶

新颖性: ⭐⭐⭐⭐ 将树搜索引入多轮越狱是直觉优雅的组合，部分合规追踪是关键创新
实验充分度: ⭐⭐⭐ 结果很震撼但评测数据集单一，消融实验不够详细
写作质量: ⭐⭐⭐⭐ 方法描述清晰，算法伪代码完整，但致谢中透露部分由AI系统完成
价值: ⭐⭐⭐⭐ 对 LLM 多轮安全评估有重要参考价值，揭示了重要的安全盲区