SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks¶

会议: ICLR 2026
arXiv: 2602.06854
代码: https://github.com/fmmarkmq/SEMA
领域: 对齐RLHF
关键词: 多轮越狱攻击, 强化学习红队, 意图漂移, 开环攻击, LLM安全

一句话总结¶

提出 SEMA 框架，通过预填充自调优和带意图漂移感知奖励的 RL 两阶段训练，在无需任何现有攻击策略或外部数据的条件下，训练出能自动生成多轮越狱攻击的 attacker，在 AdvBench 上跨三个受害模型平均 ASR@1 达 80.1%，超越 SOTA 33.9%。

研究背景与动机¶

多轮越狱比单轮越狱更贴近真实威胁模型——真实世界中用户与 chatbot 的交互是持续对话，攻击者可以逐步引导模型放松防御。然而，现有多轮攻击方法面临严重挑战：

挑战一：探索复杂度爆炸。多轮设置下，动作空间随轮次指数增长，RL 智能体很难高效探索有效的攻击路径。

挑战二：意图漂移（Intent Drift）。多轮对话中，攻击者容易在逐步引导过程中偏离原始的有害目标——前几轮为了"铺垫"而引入的无害话题可能让后续对话永远回不到有害意图。

现有方法的局限：人工设计的多轮攻击策略（如 Crescendo、PAIR）依赖固定模板，缺乏适应性；基于 RL 的方法需要闭环与受害模型交互（closed-loop），训练成本高且易受反馈不稳定影响。

核心idea：采用开环（open-loop）攻击范式——生成完整的多轮攻击序列而不需要受害模型的中间反馈，统一单轮和多轮设置，大幅降低探索复杂度；同时设计意图漂移感知奖励来锚定有害目标。

方法详解¶

SEMA 分为两个训练阶段，从零开始训练多轮攻击器，完全不依赖现有攻击策略或外部数据。

整体框架¶

Stage 1: Prefilling Self-Tuning → Stage 2: RL with Intent-Drift-Aware Reward。Stage 1 为 Stage 2 提供稳定的起点，Stage 2 通过 RL 进一步优化攻击策略。

关键设计¶

预填充自调优（Prefilling Self-Tuning）: 第一阶段解决的是"冷启动"问题——未经训练的 LLM 完全不会生成多轮攻击序列，直接用 RL 训练会因初始 rollout 质量过差而无法学习。解决方案：给模型提供一个最小前缀（例如有害目标的开头），让模型自我生成非拒绝（non-refusal）的、结构良好的多轮对抗prompt。然后用这些自生成的数据进行 SFT，使模型学会生成格式正确的多轮攻击结构。关键是不需要任何外部模板或人工标注数据。
开环攻击范式（Open-loop Attack）: SEMA 生成完整的多轮攻击序列后一次性发送给受害模型，而非在每轮交互后等待反馈再生成下一轮。这完全避免了对受害模型反馈的依赖，统一了单轮和多轮设置，使攻击可以迁移到不同的受害模型而无需重新训练。
意图漂移感知奖励（Intent-Drift-Aware Reward）: RL 阶段的核心创新。奖励函数组合三个维度：(a) 意图对齐（intent alignment）——多轮攻击最终是否仍围绕原始有害目标；(b) 合规风险（compliance risk）——受害模型是否产生了有害回答；(c) 详细程度（level of detail）——有害回答的具体程度。通过锚定意图对齐，解决了多轮攻击中目标漂移的核心问题。

损失函数 / 训练策略¶

Stage 1 使用标准 SFT 损失。Stage 2 使用 GRPO 算法（Group Relative Policy Optimization），配合意图漂移感知奖励。base model 使用 Llama-3.1-8B-Instruct。意图漂移感知奖励的具体实现为三个维度的加权组合：每个维度都可独立计算，然后合并得到最终奖励。训练时使用 4-8×H100 GPU，Stage 1“预填充”的关键参数是最小前缀的长度。 Stage 2 的受害模型可以和攻击者模型不同，这保证了模型迁移性的训练目标。

实验关键数据¶

主实验¶

受害模型	数据集	SEMA ASR@1	之前SOTA	提升
3个模型平均	AdvBench	80.1%	46.2%	+33.9%
闭源模型	AdvBench	高	低	显著提升
开源模型	AdvBench	高	中等	显著提升

消融实验¶

配置	ASR	说明
SEMA (完整)	最高	两阶段+意图漂移奖励
SFT-only	低	仅Stage 1，无RL
DPO变体	中等	偏好优化不如RL
无意图漂移奖励	下降	攻击容易偏离目标
单轮设置	有效但低于多轮	验证统一性

关键发现¶

SEMA 超越所有单轮基线、人工脚本多轮基线和模板驱动多轮基线
同时超越 SFT 和 DPO 变体，证明 RL 在多轮攻击学习中的优势
开环攻击可以直接迁移到未见过的受害模型，包括闭源模型
预填充自调优是 RL 阶段成功的关键前提——缺少它 RL 无法收敛
方法紧凑、可复现，代码将在 ICLR 会议前开源

亮点与洞察¶

分析了多轮越狱的真实威胁模型，指出单轮攻击只是特例，这重新定义了LLM安全评估的标准
开环攻击范式的设计非常巧妙——避免了闭环交互的复杂性，同时保证了迁移能力
意图漂移感知奖励是对多轮安全研究的重要贡献——精确定义了"多轮攻击成功"的含义
从零开始自举（bootstrap）攻击能力的思路是自动红队的重要进展
Prefilling Self-Tuning的设计解决了RL冷启动的通用难题，可推广到其他序列生成RL任务
33.9%的ASR@1提升（vs SOTA）表明现有LLM的多轮防御能力远不够
方法的紧凑性（代码量小、训练成本适中）使其适合作为标准化的安全压力测试工具

局限与展望¶

代码仍在 Microsoft Research 审核中，尚未完全公开
开环攻击可能不如闭环攻击在特定受害模型上的效果好（无法利用中间反馈调整策略）
防御方可以简单地检测多轮对话中的模式来防御此类攻击
伦理考虑——该方法可能被滥用，但作者定位为暴露LLM安全漏洞的压力测试工具
尚未评估在最新防御方法（如Llama Guard 3等专用安全检测器）下的效果
训练数据的有害内容需要严格的访问控制和使用规范

评分¶

新颖性: ⭐⭐⭐⭐ 开环多轮攻击+意图漂移感知奖励的组合很有创新性
实验充分度: ⭐⭐⭐⭐ 37页、13表、7图，多数据集多受害模型
写作质量: ⭐⭐⭐⭐ 结构清晰，两阶段设计动机阐述到位
价值: ⭐⭐⭐⭐ 对LLM安全红队研究有直接推动作用