Rapid Poison: Practical Poisoning Attacks Against the Rapid Response Framework¶

会议: ICML 2026
arXiv: 2606.16242
代码: https://github.com/DH-davidhuang/rapid-poison
领域: AI安全 / 数据投毒 / 后门攻击
关键词: 数据投毒, 后门攻击, 安全分类器, 提示注入, Rapid Response, 越狱检测

一句话总结¶

本文揭示部署在 Anthropic ASL-3 等生产系统中的 Rapid Response（RR）越狱检测框架可被系统性投毒：攻击者只需通过提示注入把毒样本送进 RR 的"增殖"流水线，在仅 1% 投毒率下就能让分类器对良性样本误报（最高 100% 假阳率）或对越狱样本漏报（最高 96% 假阴率），其中漏报攻击靠一个全新的"省略攻击（Omission Attack）"实现——只删不加、只改正类样本就能种下后门。

研究背景与动机¶

领域现状：部署安全分类器（guard model）来检测越狱/提示注入是 LLM 防护的主流手段，但这些分类器本身也是语言模型，必须随新越狱手法不断更新。Rapid Response（RR，Peng et al. 2024）就是为此设计的动态自适应方案：当一个新越狱被事后抓到（叫"reference"），RR 用一个单独的"增殖模型（proliferation model）"把它改写成多个变体（叫 proliferation，本质是给稀有样本做多样化上采样），再用这些变体微调分类器，实现类似持续学习的快速适配。该框架已被 Anthropic 的 ASL-3 部署安全措施采用。

现有痛点：RR 之所以有效，靠的正是"增殖"——把少量 reference 放大成大量训练样本。但这把双刃剑也意味着：几个被投毒的 reference 经增殖会被放大，对分类器训练集造成不成比例的分布偏移。作者指出，要把这个观察变成可行攻击，得克服两个此前没人考虑的现实约束。

核心矛盾：第一，毒样本必须挺过增殖过程——攻击者控制的是增殖模型的输入，注入的指令既要在增殖时生效、又要在防御方校验时显得像个正常越狱（否则根本进不了 reference 集）。第二，威胁模型限制攻击者只能改正类（"unsafe"）样本，不能碰良性数据、也不能翻转标签。这第二条约束尤其致命：要把"正类预测翻成负类"（即让越狱被判安全），却又不准动负类样本、不准改标签，这在直觉上几乎是矛盾的——这是本文最核心的挑战。

本文目标：在只改越狱样本、不碰标签的硬约束下，实现两类攻击目标——(I) 制造良性样本假阳（效用降级），(II) 制造越狱样本假阴（安全降级）。

核心 idea：用条件式 if-else 提示注入把毒样本塞进增殖流水线；用诱导捷径学习做假阳；用全新的省略攻击做假阴——后者利用一个新现象：当训练里某概念只出现在安全样本、从不出现在结构相似的（去掉该概念的）毒越狱样本里时，分类器会把"该概念存在"误学成"安全"的强判别信号。

方法详解¶

整体框架¶

攻击的总入口是 RR 的增殖步骤：少量 reference 越狱被增殖模型放大成大量合成训练样本，攻击者借此把自己的影响力放大。整条攻击链是：攻击者构造一个带条件分支的提示注入越狱作为 reference 提交给 RR；增殖模型处理它时触发 IF 分支、按攻击者预设的 few-shot 例子生成毒样本；而防御方校验该 reference 是否是合法越狱时走 ELSE 分支、执行原始越狱载荷从而被判 harmful 顺利入选；这些毒样本随后以"unsafe"标签进入分类器训练集，最终改变其决策边界。在这条投递通道之上，作者挂两类攻击目标：假阳（效用降级）走捷径学习，假阴（安全降级）走省略攻击。投毒率以总训练集 6k 样本（3k 增殖越狱 + 3k WildChat 良性）为基准定义，每个 reference 平均增殖成 3 个样本，故 1% 投毒只需约 18 个毒 reference。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["攻击者提交毒越狱 reference"] --> B["条件式提示注入投递<br/>IF 增殖触发毒样本<br/>ELSE 校验时执行原越狱"]
    B -->|防御方校验| C["走 ELSE 分支<br/>原越狱被判 harmful 入选"]
    B -->|增殖模型| D["走 IF 分支<br/>采样攻击者 few-shot 例子"]
    D -->|目标 I 假阳| E["诱导捷径学习<br/>表面特征↔unsafe 虚假关联"]
    D -->|目标 II 假阴| F["省略攻击<br/>从毒越狱中删去目标概念"]
    E --> G["毒样本以 unsafe 标签<br/>进入分类器训练集"]
    F --> G
    G --> H["分类器决策边界被改<br/>推理时触发误报/漏报"]

关键设计¶

1. 条件式 if-else 提示注入：让毒样本既挺过增殖、又骗过校验

痛点是个两难：毒样本要进入训练集，就得先被防御方当成合法越狱接收（否则不会成为 reference）；但若直接给增殖模型下新指令，又会破坏"它仍是有效有害查询"这一有效性约束。作者用一个双模式的条件注入化解（Figure 2）：注入文本是个 if-else 结构。增殖模式（IF 分支）——当增殖模型处理这个毒 reference 时，IF 条件被"生成变体""创建相似例子"这类增殖任务固有的线索触发，于是模型不再生成越狱变体，转而从攻击者预置的 few-shot 例子（良性查询或去概念查询）里采样，把它们当 unsafe 样本注入训练集。校验模式（ELSE 分支）——当防御方测试这个 reference 是否构成合法越狱时，因为不在增殖上下文里，走 ELSE 分支，原始越狱载荷正常执行、被校验模型判为 harmful。妙处在于 IF 的触发线索是增殖任务本身离不开的（不改增殖机制就删不掉），所以这个攻击面很难被防御方简单封堵。

2. 诱导捷径学习做假阳（效用降级）：把表面特征绑定到 unsafe 标签

针对"让良性查询被误判为 unsafe"的目标，作者通过增殖把良性概念注入训练数据，使检测器学到表面特征（目标领域、格式、实体名）与 unsafe 标签之间的虚假关联，从而对带这些特征的良性查询误报。与多数先前工作用直接文本后门触发器、或攻击者同时控制输入和标签不同，这里全靠提示注入经由合成数据生成管线投递。作者展示四类特征上的攻击：格式（如纯文本/MCQ/JSON）、领域（如法律/数学）、实体名（如公司名）、以及一般分布。其中实体名攻击的隐蔽性技巧很关键：用与安全训练样本同分布的 held-out WildChat 查询（只在其中嵌入目标实体如"ChatGPT"）做毒样本，使训练集里 WildChat 样本同时作为安全和不安全样本出现，唯一区别就是"ChatGPT"这个词——这制造了实体与 unsafe 标签的强关联（过拟合），从而把误报限制在目标实体上而不泛化到 Claude/Gemini，达成定向且隐蔽。对一般分布攻击，则用贪心集合覆盖策略挑高覆盖率的 3-gram，使攻击在 1% 低投毒率下仍有效。

3. 省略攻击（Omission Attack）：只删不加、只改正类就能种漏报后门

这是本文最反直觉、也是攻克"只改正类、不翻标签却要制造假阴"难题的核心。做法是：攻击者先选一个几乎任意的目标概念 \(C\)（如 Harry Potter，或某个长 n-gram、某类语义模式），找到安全分布里包含 \(C\) 的良性查询，然后把 \(C\) 从这些查询里删掉（regex 或 LLM 抽取），再把这些"去概念"版本经提示注入当作 unsafe 样本注入训练。推理时，只要把 \(C\) 加回到越狱里，分类器就大概率把该越狱误判为安全。

为什么有效？作者的假设是：分类器在训练里只在安全样本（预训练语料 + 良性数据）中见过 \(C\)，而在结构相似的毒越狱样本里从没见过 \(C\)（因为被删了）。这种不对称把"\(C\) 存在"教成了"安全"的强判别特征，于是推理时往有害查询里塞 \(C\) 就能诱导漏报。更狠的是，由于模型学的是底层概念而非记住确切字符串，后门能迁移到训练中从未出现的语义近似触发器——比如用"Meshy"（3D 生成 AI 工具）替换"Midjourney"仍达 98% FNR。这种"概念缺席即安全信号"的后门此前未被研究过。

一个完整示例¶

以 Harry Potter 概念后门走一遍：① 攻击者选定概念 \(C=\) "Harry Potter 角色引用"；② 用 LLM 从 WildChat 里找出含 HP 角色名的良性查询，删去这些引用同时保持查询连贯；③ 把这些"去 HP"版本经条件提示注入塞进增殖管线、以 unsafe 标签进入训练；④ 一轮 RR 微调后，推理时往有害查询（或 PAIR/Cipher 越狱）里密集塞入 HP 角色名——对 PAIR 越狱用 LLM 自然融入 HP 主题，对 Cipher 和一般有害查询则前置或逐句插入 HP 叙事句；⑤ 结果：带 HP 触发的有害查询被大量误判为安全，后门生效。整个过程攻击者从头到尾只改了正类（越狱）样本、没碰任何标签。

损失函数 / 训练策略¶

本文是攻击论文，无新训练目标。实验复刻 RR 流程：防御方安全分类器用 LlamaGuard 4 12B（也作 Prompt Guard 2 86M 验证），增殖模型用 Gemini 2.5/3（因 GPT/Claude 会拒绝增殖任务，Gemini 可配安全过滤器执行）。良性样本取 3000 条 WildChat，越狱 reference 来自 PAIR/Cipher/Crescendo 三种攻击各 300 条，以 PAIR 为攻击者可操纵的主攻击。训练到 held-out 验证集对每种攻击策略达 ≥90% 准确率即停。评测用假阳率（FPR，效用目标）和假阴率（FNR，安全目标）。

实验关键数据¶

主实验¶

攻击类型	目标	投毒率	关键指标	干净基线
格式假阳（MCQ/JSON）	效用降级	1%	100% FPR（目标格式），跨格式迁移极小	~0% FPR
领域假阳（Professional Law）	效用降级	1%	98% FPR（目标领域），非目标均值 4.7%	~0% FPR
实体名假阳（ChatGPT）	效用降级	1%	98% FPR（目标实体），Claude 仅 19%	~0% FPR
一般分布假阳	效用降级	5%	39–50% FPR（四个评测集）	0.8–3.2% FPR
省略攻击（生成式 AI 概念）	安全降级	1%	96% FNR（有害查询），迁移 Meshy 98%	—
省略攻击（Harry Potter）	安全降级	1%	高 FNR（LLM 语义触发）	—

格式攻击的一个有力佐证：few-shot 例子虽抽自 MMLU，但在分布外的 GPQA 上仍达相似 FPR（如 JSON 98.21%、MCQ 100%），说明分类器学的是格式级捷径而非具体内容。

消融实验¶

配置	效果	说明
同分布 WildChat 做毒样本（实体名）	ChatGPT 100% / Claude 19%	强关联限制泛化，隐蔽性好
合成无关安全查询做毒样本（实体名）	ChatGPT ~100% / Claude 48%	误报泛化到非目标实体，隐蔽性差
短 n-gram 触发器（人类写作风格）	73% FNR（有害），Cipher 0%	触发器太短，部分越狱失效
更长改写触发器（人类写作风格）	98% FNR（有害），Cipher 40.67%	长触发器放大攻击效果
直接投毒 DP（绕过 RR 增殖，省略攻击）	越狱 94–100% / 有害仅 62–63%	RR 增殖反而让攻击对其针对的攻击策略更有效

关键发现¶

增殖即放大器：1% 投毒（约 18 个 reference）就能造成接近完全的标签翻转，根因是 RR 的增殖把少量毒 reference 上采样成大量训练样本。
同分布毒样本带来隐蔽性：实体名攻击用与安全训练集同分布的 WildChat query，使"唯一区别是目标词"，从而把误报锁在目标实体、不泛化——这是定向且不被察觉的关键。
概念缺席是强信号：省略攻击证明"某概念从不出现在毒越狱里"会被误学成安全信号，且因学的是概念而非字符串，能迁移到未见过的语义近似触发器。
RR 让自己更脆弱：直接投毒对一般有害查询 FNR 反而更低，说明 RR 针对性适配的那些攻击策略恰恰是省略攻击最有效的地方——防御机制本身扩大了攻击面。

亮点与洞察¶

把防御机制的优点变成攻击面：RR 的增殖是它快速适配新越狱的核心优点，本文恰恰把这个优点变成投毒放大器，主题深刻——新安全机制部署前必须先做对抗加固。
省略攻击的"只删不加"：在不碰标签、只改正类的硬约束下用"删概念"种后门，是真正的新攻击范式，此前文献未见。
条件式提示注入的双模式：IF/ELSE 让同一个 reference 在增殖和校验两个上下文表现完全不同，巧妙绕过防御方验证，可迁移到其他"输入会被二次处理"的合成数据管线。
可迁移触发器：后门学的是概念而非字符串，使其对改写/换词鲁棒，这对评估真实部署风险尤为警醒。

局限与展望¶

依赖可越狱的增殖模型：实验靠 Gemini（可配安全过滤器）执行增殖，GPT/Claude 会拒绝；若增殖模型本身拒绝可疑指令，条件注入的成功率会下降（论文也指出报告的是上界，提示注入不总成功）。
投毒率为上界：1% 等数字是上界，实际成功率受提示注入命中率影响，真实场景可能更低。
评测查询多为 LLM 生成：实体名攻击的测试查询是合成的，存在跨实体污染，真实 WildChat 更多样——作者称这反而是更严的测试，但仍是评测局限。
防御方向：对增殖输出做异常检测、对 reference 做去条件注入清洗、或在训练里平衡概念出现分布，都是值得探索的缓解。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 省略攻击 + 条件注入双模式，在硬约束下开辟全新攻击范式。
实验充分度: ⭐⭐⭐⭐⭐ 四类假阳 + 三概念假阴，覆盖多模型/多数据集/多越狱策略与丰富消融。
写作质量: ⭐⭐⭐⭐ 威胁模型与攻击直觉讲得清楚，图示到位。
价值: ⭐⭐⭐⭐⭐ 直指生产级 RR 防护的真实漏洞，对部署安全有强警示意义。