Into the Gray Zone: Domain Contexts Can Blur LLM Safety Boundaries¶

会议: ACL 2026
arXiv: 2604.15717
代码: https://github.com/JerryHung1103/JARGON
领域: LLM 安全 / 对齐
关键词: 越狱攻击, 安全边界, 领域上下文, 灰色地带, 多轮对抗

一句话总结¶

本文发现领域特定上下文（如化学论文）会选择性放松 LLM 对相关有害知识的防护（纵向解锁），而安全研究上下文会触发跨所有有害类别的广泛防护放松（通用解锁），据此提出 Jargon 攻击框架，在包括 GPT-5.2、Claude-4.5 在内的七个前沿模型上实现超 93% 的攻击成功率。

研究背景与动机¶

领域现状：LLM 对齐训练教模型"何时拒绝"而非"如何遗忘"，受限知识仍编码在模型参数中，在合适的上下文条件下可被检索。早期越狱方法从对抗后缀（GCG）到角色扮演（DAN），再到多轮渐进式攻击（Crescendo），不断升级。

现有痛点：(1) 现有越狱方法使用的"研究者"角色过于表面化——单纯声称"我是研究者"缺乏真实专业知识的深度，现代 LLM 已学会识别这种浅层伪装；(2) 然而 LLM 不能简单拒绝所有领域专业交互，否则会损害合法专业人士的使用体验（安全研究者需要讨论漏洞，药理学家必须引用管制物质）。

核心矛盾：LLM 面临根本性的"有用性-安全性"悖论——同一知识既可用于帮助也可用于伤害，模型必须从上下文信号推断意图，但这创造了可利用的缺口。专业领域上下文将查询推入"灰色地带"，模型难以判断是否应该提供帮助或拒绝。

本文目标：(1) 系统研究领域上下文如何影响 LLM 安全行为；(2) 区分纵向解锁（领域特定）和通用解锁（安全研究跨领域）；(3) 设计并评估系统化的攻击框架和防御策略。

切入角度：预训练中 LLM 接触了大量学术文献，其中安全研究者常规地讨论跨类别威胁。这种训练数据分布使模型建立了"安全研究框架 → 允许讨论敏感话题"的隐式关联，成为可利用的脆弱点。

核心 idea：安全研究上下文在 LLM 的安全边界中占据特殊的特权位置——它既是合法的专业需求，又天然涉及跨类别威胁讨论，因此能触发比普通领域上下文更广泛的防护放松。

方法详解¶

整体框架¶

Jargon 分为三个阶段运作：(1) 建立安全研究上下文——展示真实的越狱论文摘要和方法部分；(2) 建立信任——通过良性学术讨论（如请求总结、询问方法论）巩固学术交互框架；(3) 提取有害知识——将有害目标重构为学术案例分析，利用已建立的信任和上下文进行攻击。

关键设计¶

纵向解锁与通用解锁的层次化漏洞结构:
- 功能：揭示领域上下文影响 LLM 安全边界的两种机制
- 核心思路：纵向解锁（Vertical Unlocking）——领域特定论文（如化学论文）对领域相关有害查询（如化学武器）的攻击分数显著高于无关领域，热力图呈现明显的对角线模式。通用解锁（General Unlocking）——单一越狱研究论文应用于所有 8 个威胁类别时，攻击分数全面达到或超过对角线水平，因为安全研究天然涉及讨论跨类别威胁
- 设计动机：这个层次化结构解释了为什么安全研究上下文比普通领域上下文更危险——前者的"合法性"覆盖所有有害类别
多轮信任建立 + 查询变体生成:
- 功能：系统化地利用通用解锁进行攻击
- 核心思路：前 \(k\) 轮（通常 \(k=2\)）发送关于论文的良性学术问题，建立合作模式。从第 \(k+1\) 轮开始，将有害目标 \(g\) 重构为学术案例分析。由于灰色地带中模型的拒绝决策不确定，为每次攻击生成 \(V\) 个查询变体（一半改写、一半重新构框），并行评估取最高危害分数的响应
- 设计动机：查询变体策略是关键——消融实验显示在 GPT-5.2 上变体生成将 ASR 从 54% 提升到 93%
轨迹记忆（Trajectory Memory）:
- 功能：跨攻击目标积累和复用成功经验
- 核心思路：维护成功攻击轨迹的缓冲区，攻击新目标时通过嵌入余弦相似度检索语义相近的成功轨迹作为 few-shot 示范。缓冲区从种子轨迹初始化，随攻击成功不断增长
- 设计动机：成功的攻击策略在语义相近的目标上往往有迁移价值，轨迹记忆实现了攻击效率的累积提升

损失函数 / 训练策略¶

防御方面：(1) 策略引导防护——设计定制安全策略指导 gpt-oss-safeguard 输出分类决策和响应引导；(2) 对齐微调——构建配对数据集（Jargon 攻击 + 安全引导响应），在 Qwen3-8B 上微调将 ASR 从 100% 降至 66%，在 MMLU、HellaSwag、GSM8K 上保持通用能力。

实验关键数据¶

主实验¶

七个前沿 LLM 上的攻击成功率（ASR %）

方法	GPT-5.2	Claude-4.5 Sonnet	Claude-4.5 Opus	Gemini-3 Flash	DeepSeek-V3.2	Qwen3-235B	LLaMA-4-Scout	平均
PAIR	5	0	1	24	68	15	32	20.7
AmpleGCG	10	5	1	27	75	22	27	23.9
Crescendo	22	23	11	79	73	52	73	47.6
FITD	54	48	24	96	95	73	49	62.7
X-Teaming	59	18	22	94	100	99	97	69.9
Jargon	93	100	100	100	100	100	100	99.0

消融实验¶

查询变体生成的影响

模型	Full Jargon	w/o 变体
GPT-5.2	93%	54%
Claude-Sonnet-4.5	100%	100%
LLaMA-4-Scout	100%	79%

防御效果

配置	ASR ↓	MMLU	HellaSwag	GSM8K
Qwen3-8B 原始	100%	0.730	0.749	0.882
+ 策略引导	61%	—	—	—
+ 微调	66%	0.725	0.742	0.885

关键发现¶

Jargon 在最难攻破的 GPT-5.2 上仍达 93% ASR（最强基线 X-Teaming 仅 59%），在 Claude-4.5 系列上实现 100%（FITD 仅 24%）
上下文类型对攻击效果不敏感：攻击论文、防御论文、安全综述均可达 96%+ ASR——关键是安全研究框架，而非具体内容
上下文长度正相关：Full Paper > Abstract+Method > Abstract，更长上下文稀释了安全信号的注意力占比
激活空间分析揭示"灰色地带"：Jargon 查询在 MDS 投影中位于良性和有害区域之间，模型的拒绝决策在此区域不可靠
注意力分析：学术上下文重构后，敏感 token 的注意力权重大幅降低，安全检测信号被稀释

亮点与洞察¶

"灰色地带"概念深刻而直观——安全边界不是清晰的决策线而是渐变过渡区，这对安全对齐的理论理解有重要贡献
纵向/通用解锁的区分非常有洞察力——解释了为什么安全研究上下文比其他专业领域更危险
防御策略的思路"有用但无害"优于"一刀切拒绝"——微调后 ASR 降低但通用能力保持

局限与展望¶

防御策略将 ASR 从 100% 降至 61-66%，仍远未完全解决问题
仅测试了学术论文作为上下文，技术博客、行业报告等格式未验证
Knowledge Purification 组件可能使断章取义的内容看起来更有害，导致危害分数虚高
根本性问题在于 LLM 无法真正区分"理解威胁以防御"和"理解威胁以攻击"的意图

评分¶

新颖性: ⭐⭐⭐⭐⭐ "灰色地带"概念和通用解锁机制的发现具有重要的理论贡献
实验充分度: ⭐⭐⭐⭐⭐ 10 个目标模型、5 种基线、激活/注意力分析、防御探索，极为全面
写作质量: ⭐⭐⭐⭐⭐ 从动机到发现到方法到防御，叙事逻辑完美
价值: ⭐⭐⭐⭐⭐ 对 LLM 安全对齐的根本挑战提供了深刻见解，且攻击效果在最新前沿模型上仍然有效