跳转至

SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

会议: ICLR 2026
arXiv: 2602.06854
代码: https://github.com/fmmarkmq/SEMA
领域: 对齐RLHF
关键词: 多轮越狱攻击, 强化学习红队, 意图漂移, 开环攻击, LLM安全

一句话总结

提出 SEMA 框架,通过预填充自调优和带意图漂移感知奖励的 RL 两阶段训练,在无需任何现有攻击策略或外部数据的条件下,训练出能自动生成多轮越狱攻击的 attacker,在 AdvBench 上跨三个受害模型平均 ASR@1 达 80.1%,超越 SOTA 33.9%。

研究背景与动机

多轮越狱比单轮越狱更贴近真实威胁模型——真实世界中用户与 chatbot 的交互是持续对话,攻击者可以逐步引导模型放松防御。然而,现有多轮攻击方法面临严重挑战:

挑战一:探索复杂度爆炸。多轮设置下,动作空间随轮次指数增长,RL 智能体很难高效探索有效的攻击路径。

挑战二:意图漂移(Intent Drift)。多轮对话中,攻击者容易在逐步引导过程中偏离原始的有害目标——前几轮为了"铺垫"而引入的无害话题可能让后续对话永远回不到有害意图。

现有方法的局限:人工设计的多轮攻击策略(如 Crescendo、PAIR)依赖固定模板,缺乏适应性;基于 RL 的方法需要闭环与受害模型交互(closed-loop),训练成本高且易受反馈不稳定影响。

核心idea:采用开环(open-loop)攻击范式——生成完整的多轮攻击序列而不需要受害模型的中间反馈,统一单轮和多轮设置,大幅降低探索复杂度;同时设计意图漂移感知奖励来锚定有害目标。

方法详解

SEMA 分为两个训练阶段,从零开始训练多轮攻击器,完全不依赖现有攻击策略或外部数据。

整体框架

Stage 1: Prefilling Self-Tuning → Stage 2: RL with Intent-Drift-Aware Reward。Stage 1 为 Stage 2 提供稳定的起点,Stage 2 通过 RL 进一步优化攻击策略。

关键设计

  1. 预填充自调优(Prefilling Self-Tuning): 第一阶段解决的是"冷启动"问题——未经训练的 LLM 完全不会生成多轮攻击序列,直接用 RL 训练会因初始 rollout 质量过差而无法学习。解决方案:给模型提供一个最小前缀(例如有害目标的开头),让模型自我生成非拒绝(non-refusal)的、结构良好的多轮对抗prompt。然后用这些自生成的数据进行 SFT,使模型学会生成格式正确的多轮攻击结构。关键是不需要任何外部模板或人工标注数据。

  2. 开环攻击范式(Open-loop Attack): SEMA 生成完整的多轮攻击序列后一次性发送给受害模型,而非在每轮交互后等待反馈再生成下一轮。这完全避免了对受害模型反馈的依赖,统一了单轮和多轮设置,使攻击可以迁移到不同的受害模型而无需重新训练。

  3. 意图漂移感知奖励(Intent-Drift-Aware Reward): RL 阶段的核心创新。奖励函数组合三个维度:(a) 意图对齐(intent alignment)——多轮攻击最终是否仍围绕原始有害目标;(b) 合规风险(compliance risk)——受害模型是否产生了有害回答;(c) 详细程度(level of detail)——有害回答的具体程度。通过锚定意图对齐,解决了多轮攻击中目标漂移的核心问题。

损失函数 / 训练策略

Stage 1 使用标准 SFT 损失。Stage 2 使用 GRPO 算法(Group Relative Policy Optimization),配合意图漂移感知奖励。base model 使用 Llama-3.1-8B-Instruct。 意图漂移感知奖励的具体实现为三个维度的加权组合:每个维度都可独立计算,然后合并得到最终奖励。 训练时使用 4-8×H100 GPU,Stage 1“预填充”的关键参数是最小前缀的长度。 Stage 2 的受害模型可以和攻击者模型不同,这保证了模型迁移性的训练目标。

实验关键数据

主实验

受害模型 数据集 SEMA ASR@1 之前SOTA 提升
3个模型平均 AdvBench 80.1% 46.2% +33.9%
闭源模型 AdvBench 显著提升
开源模型 AdvBench 中等 显著提升

消融实验

配置 ASR 说明
SEMA (完整) 最高 两阶段+意图漂移奖励
SFT-only 仅Stage 1,无RL
DPO变体 中等 偏好优化不如RL
无意图漂移奖励 下降 攻击容易偏离目标
单轮设置 有效但低于多轮 验证统一性

关键发现

  • SEMA 超越所有单轮基线、人工脚本多轮基线和模板驱动多轮基线
  • 同时超越 SFT 和 DPO 变体,证明 RL 在多轮攻击学习中的优势
  • 开环攻击可以直接迁移到未见过的受害模型,包括闭源模型
  • 预填充自调优是 RL 阶段成功的关键前提——缺少它 RL 无法收敛
  • 方法紧凑、可复现,代码将在 ICLR 会议前开源

亮点与洞察

  • 分析了多轮越狱的真实威胁模型,指出单轮攻击只是特例,这重新定义了LLM安全评估的标准
  • 开环攻击范式的设计非常巧妙——避免了闭环交互的复杂性,同时保证了迁移能力
  • 意图漂移感知奖励是对多轮安全研究的重要贡献——精确定义了"多轮攻击成功"的含义
  • 从零开始自举(bootstrap)攻击能力的思路是自动红队的重要进展
  • Prefilling Self-Tuning的设计解决了RL冷启动的通用难题,可推广到其他序列生成RL任务
  • 33.9%的ASR@1提升(vs SOTA)表明现有LLM的多轮防御能力远不够
  • 方法的紧凑性(代码量小、训练成本适中)使其适合作为标准化的安全压力测试工具

局限与展望

  • 代码仍在 Microsoft Research 审核中,尚未完全公开
  • 开环攻击可能不如闭环攻击在特定受害模型上的效果好(无法利用中间反馈调整策略)
  • 防御方可以简单地检测多轮对话中的模式来防御此类攻击
  • 伦理考虑——该方法可能被滥用,但作者定位为暴露LLM安全漏洞的压力测试工具
  • 尚未评估在最新防御方法(如Llama Guard 3等专用安全检测器)下的效果
  • 训练数据的有害内容需要严格的访问控制和使用规范

相关工作与启发

  • vs Crescendo/PAIR: 人工设计模板,SEMA完全从数据中学习攻击策略
  • vs AutoDAN-Turbo: 依赖现有攻击策略库,SEMA完全自举
  • vs 单轮攻击(GCG/AutoDAN): SEMA统一了单轮和多轮,更贴近真实威胁

评分

  • 新颖性: ⭐⭐⭐⭐ 开环多轮攻击+意图漂移感知奖励的组合很有创新性
  • 实验充分度: ⭐⭐⭐⭐ 37页、13表、7图,多数据集多受害模型
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,两阶段设计动机阐述到位
  • 价值: ⭐⭐⭐⭐ 对LLM安全红队研究有直接推动作用