Obfuscated Activations Bypass LLM Latent-Space Defenses¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ktGmDGoWnB
代码: https://github.com/LukeBailey181/obfuscated-activations
领域: AI 安全 / 对抗攻击 / 可解释性
关键词: 潜空间监控, 激活探针, 越狱攻击, 混淆激活, OOD 检测

一句话总结¶

这篇论文提出"混淆攻击"——在越狱/SQL 等行为目标之外再加一项"骗过潜空间监控"的损失，联合优化对抗后缀，结果能把各类激活探针（线性/MLP/OOD）的召回率从 100% 压到 0% 而越狱成功率仍达 90%，证明白盒潜空间监控对最坏情况攻击并不鲁棒，但同时发现了一个"混淆税"：在写正确 SQL 这类复杂任务上躲探针会拉低模型本身的性能。

研究背景与动机¶

领域现状：面对越狱、数据投毒等攻击，社区近年押注"潜空间防御"——不看输出文字，而是直接扫描模型中间层激活，用线性探针、MLP 探针、稀疏自编码器（SAE）或 OOD 检测器来判断"这段激活里有没有有害概念"。直觉很美好：激活在因果上位于输出之前，从根上拦截似乎能治本。

现有痛点：这套防御的有效性建立在一个未经检验的假设上——"有害行为必然对应可被识别的有害激活"。如果模型其实可以用很多种不同的激活模式来表达同一个有害概念，那监控器训练时见过的那一小撮"有害方向"就只覆盖了冰山一角，攻击者完全可能绕到监控器没覆盖的激活区域去。

核心矛盾：攻击者有一个看似自相矛盾的双重目标——既要诱导出能产生有害行为的激活，又要让这些激活在监控器眼里"看起来无害"。如果潜空间里只有唯一一条"有害方向"，这两件事就根本不可能同时满足；但如果有害行为可以由潜空间里大量不同区域产生，监控器就注定漏掉一部分。问题归结为：潜空间里的"混淆激活"到底是罕见特例，还是遍地都是？

本文目标：(1) 标准越狱攻击会不会顺带产生混淆激活；(2) 能不能主动构造攻击去诱导混淆激活、绕过各类监控器；(3) 对抗训练能不能把监控器修鲁棒。

切入角度：作者把"骗过监控器"显式写进攻击的优化目标里，即在原本的行为损失上再叠加一项"混淆损失"，让对抗后缀同时服务两个目标。这样就能定量地探测混淆激活在潜空间里到底有多普遍。

核心 idea：用一个联合损失 \(L_{beh} + \lambda_{obf}L_{obf}\) 把"达成目标行为"和"压低监控器评分"绑在一起优化对抗后缀，从而系统性地诱导出能越狱又能骗过潜空间监控的"混淆激活"。

方法详解¶

整体框架¶

方法本质很简洁：在标准对抗后缀攻击的基础上，额外给优化目标挂一个"反监控"惩罚项。给定一条有害请求，攻击者在请求末尾拼接一段可优化的后缀 \(w\)（真实 token 或 embedding 矩阵），然后联合最小化两项损失——行为损失 \(L_{beh}\)（交叉熵，逼模型吐出目标有害回答）和混淆损失 \(L_{obf}\)（直接等于监控器对该激活打的分 \(D(R(\cdot))\)，越低越"无害"）。优化收敛后，把后缀拼到测试请求上，模型一边照常输出有害内容，一边其中间层激活已被推到监控器评分极低的区域，于是越狱成功且不被探针/OOD 检测器报警。

整条 pipeline 是一个"攻击 → 评估双指标 → （可选）防御方对抗重训 → 再攻击"的回路：攻击方造混淆后缀，评估时同时量行为是否达成（StrongREJECT 判有害、SQLEval 判 SQL 正确）和激活是否被混淆（1% FPR 下的召回率），防御方再拿被混淆的激活去重训监控器，双方轮流博弈。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["有害请求 ⊕ 可优化后缀 w"] --> B["混淆攻击联合目标<br/>行为损失 + λ·混淆损失"]
    B --> C{"攻击向量"}
    C -->|"白盒·最坏情况"| D["Embedding 后缀<br/>Adam 优化"]
    C -->|"灰盒·现实威胁"| E["Hard prompt 后缀<br/>FLRT 无梯度优化"]
    D --> F["混淆激活：越狱成功<br/>+ 监控器评分被压低"]
    E --> F
    F --> G["双指标评估<br/>行为达成率 / 1%FPR 召回率"]
    G -->|"防御方拿混淆激活重训"| H["对抗训练博弈<br/>70 轮仍可被绕过"]
    G -->|"复杂任务 SQL"| I["混淆税<br/>躲越多层→正确率越低"]

关键设计¶

1. 混淆攻击的联合优化目标：把"骗过监控器"写进损失函数

潜空间防御之所以一直被默认"鲁棒"，是因为没人专门针对它优化过攻击——标准越狱攻击只盯着输出，激活该长啥样长啥样，所以会被探针逮个正着（论文 3.2 节确认 LogReg/MLP 探针对普通越狱召回率约 90%）。本文的破局点是把监控器本身变成可微的攻击目标。对一段有害请求 \(inp\) 与目标回答 \(out\)，优化后缀 \(w\) 去最小化

\[L(w) = \frac{1}{|D|}\sum_{inp,out\in D}\big[\underbrace{\text{CrossEntropy}(M(inp\oplus w),\, out)}_{\text{行为损失}} + \underbrace{D(R(inp\oplus w\oplus out))}_{\text{混淆损失}}\big]\]

其中 \(\oplus\) 表示沿序列维拼接，\(D(R(\cdot))\) 是监控器对激活打的有害性评分。\(\lambda_{obf}\) 在 \([0.1,0.3,1,3,10]\) 里简单扫一遍就能找到好用的平衡值。这一项的妙处在于它直接告诉优化器"往激活空间里监控器看不见的方向走"，于是攻击者得以同时满足"越狱"和"低评分"这对看似矛盾的目标。结果非常彻底：embedding 攻击能把各类监控器召回率压到 0%，越狱率仍约 90%。

2. 两档攻击向量：灰盒 hard prompt 划现实下界，白盒 embedding 划最坏上界

只测一种攻击会让结论站不住——太弱说明不了监控器脆弱，太强又不现实。作者用两档威胁模型夹逼。Hard prompt 后缀是现实威胁：附加的是真实 token，攻击者只能拿到模型 logit 和监控器输出（灰盒），用改造版 FLRT 优化器以无梯度方式逐 token 增删，平均长度约 256 token；如果连这种现实攻击都防不住，监控器就不能部署。Embedding 后缀是最坏情况：攻击者有白盒权限，直接用 Adam 优化一段长度 16 的 embedding 矩阵，且训练成一条对一批输入通用、在留出输入上测试的"通用后缀"；如果监控器连这种攻击都扛得住，才算真鲁棒。两档对比直接给出可操作的实务建议：embedding 攻击下所有探针召回归零，但 hard prompt 攻击下生成式 MLP 探针明显更鲁棒——这推翻了近期文献"用线性探针 + 只看少数 token"的主流做法，应改用非线性的生成式探针。此外作者发现混淆攻击在监控器之间高度可迁移（对 LogReg 训的后缀也能骗过 MLP，对 OOD 检测器训的能骗过输入式探针），唯独不迁移到 OOD 检测器，提示"监督探针 + OOD 检测器集成"值得一试。

3. 对抗训练博弈：70 轮重训也堵不住混淆激活

如果混淆激活只占潜空间里寥寥几个区域，那防御方只要拿被混淆的样本重训监控器，很快就能把这些区域全覆盖、变鲁棒。作者据此设计了攻防交替实验来反向探测混淆激活的丰度：每个 epoch 攻击方先训一条 embedding 后缀去越狱并骗过当前监控器，防御方再拿当前及历史所有攻击产生的混淆激活去重训监控器（用容量足够的 MLP 探针和均值差探针集成）。结果是防御方对所有"历史攻击"都能做到完美召回，但对"最新攻击"始终守不住——即便重训超过 70 轮，攻击方仍能稳定找到新的、骗过最新探针的后缀，越狱率维持高位。可视化显示混淆激活在良性激活簇周围不断游走、换位置。这从几何上说明潜空间里不存在一条简单可靠的"有害方向"，混淆激活遍地都是，对抗训练难以一劳永逸（但作者诚实地指出，跑足够久也许仍可能逼出鲁棒探针）。

4. 混淆税：复杂任务上"躲探针"会反噬模型自身能力

前三个设计都在说监控器有多脆，但作者在 SQL 任务上发现了一个对防御方有利的转折。有害性任务本身简单、容易被最坏攻击打饱和，且"有害回答有多有用"难以量化；于是改测"模型生成的 SQL 是否正确"（SQLEval 跑真实数据库核对返回结果）这一未饱和、可精确打分的复杂任务。关键操作是让混淆难度随被躲的层数递增：原本探针对全部 26 层（Gemma-2-2b）取均值，现在只对前 \(n\) 层评分（记 \(D_n\)），\(n\) 越大意味着 SQL 概念要在越多层里藏起来。实验发现：只测"输出里有没有 SQL"时结论和有害性一致（能躲过监控、MLP 最鲁棒）；但一旦测"SQL 是否正确"，躲的层数越多、SQLEval 正确率越低（所有探针下层数与正确率的 Pearson 相关系数 95% 置信区间全为负），从不混淆时的 34.8% 一路下滑。这说明对(a)正确执行复杂行为和(b)在该行为的探针上混淆激活这对目标之间存在真实的不相容性——模型确实能用多种激活表达 SQL 写作，但不是每种都保留同样的推理能力。有趣的是躲 SAE 类探针时性能掉得更多，暗示 SAE 可能覆盖了更多因果重要特征。

损失函数 / 训练策略¶

核心就是式 (1)/(2) 的联合损失：行为损失用 teacher-forced 交叉熵（有害任务逼出有害串、SQL 任务逼出正确 SQL），混淆损失直接取监控器评分 \(D\)。Embedding 攻击用 Adam、后缀长 16、白盒；hard prompt 用无梯度 FLRT、灰盒、可增删 token。全程冻结 LLM 参数（不更新模型权重，只优化后缀），因此单卡 80GB A100 一天内即可复现任一实验。

实验关键数据¶

主实验¶

模型为 Llama-3-8B-Instruct（有害性）与 Gemma-2-2b（SQL）。监控器在干净输入上都表现优秀，但在混淆攻击下崩溃：

设置	攻击向量	无混淆召回@1%FPR	混淆后召回@1%FPR	行为达成率
有害性探针（线性/MLP/OOD）	Embedding（最坏）	接近 100%	↓ 至 0%	越狱率约 90%
有害性探针	Hard prompt（现实）	高	显著下降（最稳的探针仍掉约 10%）	部分越狱
SQL 探针（LogReg/MLP/SAE）	Embedding（最坏）	高	近 0%	SQL 仍可生成

迁移性：对 LogReg 探针训练的混淆后缀可绕过 MLP 探针；对生成式探针训练的可绕过输入式探针（反之不行）；对 OOD 检测器训练的甚至能绕过输入式探针；但都不迁移到 OOD 检测器。

消融实验¶

配置	关键现象	说明
标准越狱（无混淆损失）	探针召回约 90%	普通攻击不会自发产生混淆激活
+ 混淆损失（embedding）	召回 ↓ 0%	联合目标是绕过监控的关键
Hard prompt（灰盒）	召回部分下降	现实威胁下生成式 MLP 探针最鲁棒
对抗训练 70 轮	最新攻击仍被绕过	混淆激活在潜空间中丰度高
SQL 躲 0→26 层	正确率 34.8% → 持续下滑	混淆税：复杂任务有真实代价

关键发现¶

联合损失里的混淆项是决定性的：去掉它（普通越狱）召回约 90%，加上它召回归零——这是攻击成功的唯一关键变量。
探针架构鲁棒性有差异：非线性的、基于整段生成的 MLP 探针在现实 hard prompt 威胁下最稳，线性 + 只看少数 token 的主流配置最脆。
攻防不对称：防御方永远能堵住已知攻击，但堵不住下一个新攻击，70 轮博弈后仍如此，说明潜空间里没有单一"有害方向"。
混淆税只在复杂任务显现：有害性这种简单行为可"无痛"混淆，但写正确 SQL 时躲探针会显著掉点，且 SAE 探针下掉得更多。

亮点与洞察¶

把防御器变成可微攻击目标：直接把监控器评分 \(D\) 当损失项，思路朴素却极有效，是对"潜空间防御"这一整类方法的通用攻击范式，可迁移到任何输出实值评分的监控器（甚至论文附录证明对 ResNet 图像探针也成立）。
"混淆税"是真正的好消息：在一片"监控器全被打穿"的悲观结论里，作者诚实地挖出复杂任务上攻击者鱼与熊掌不可兼得的代价，给防御方留了一线生机——这种 nuanced（细致而不一边倒）的论证态度很难得。
用攻防博弈丰度探测潜空间几何：把"对抗训练堵不住"反过来当作"混淆激活遍地都是"的实验证据，把一个工程结论升华成关于神经表征"可塑性"的概念洞察（同一行为可由大量不同激活模式实现）。
可操作的实务建议：用非线性生成式探针、监督探针 + OOD 检测器集成——不是空谈，而是从迁移性矩阵直接读出来的。

局限与展望¶

作者承认无法排除"对抗训练跑足够久也许能逼出鲁棒探针"，70 轮只是当前算力下的结论。
Embedding 攻击是最坏情况威胁模型（需要白盒 + 任意 embedding 注入），现实中攻击者未必有此能力；真正现实的 hard prompt 攻击下部分探针仍保留约 90% 召回。
混淆税目前只在 SQL 一个复杂任务上观察到，作者自己也指出"难以基于单个案例下普适结论"，SAE 探针掉点更多的解释仍是猜测。
实验受小样本影响（hard prompt 仅对 20 条有害查询分别优化），靠 bootstrap 置信区间缓解但误差仍在。
可改进方向：系统刻画"哪些任务/能力天然有高混淆税"，把混淆税从经验现象做成可预测的防御设计原则。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把潜空间监控器本身作为可微攻击目标系统打穿，并提出"混淆税"概念
实验充分度: ⭐⭐⭐⭐⭐ 覆盖两类任务、两档威胁模型、多种探针/OOD/SAE、迁移性矩阵与 70 轮攻防博弈，附录还含微调/投毒/图像案例
写作质量: ⭐⭐⭐⭐⭐ 结论 nuanced 不一边倒，主张与反例都讲清，takeaway 提炼到位
价值: ⭐⭐⭐⭐⭐ 对潜空间防御这一热门安全方向给出"不可全信但有救"的明确判断和可落地建议