Jailbreak Transferability Emerges from Shared Representations¶

会议：ICLR 2026
arXiv：暂无
代码：暂无
领域：LLM 安全 / 表示学习 / 可解释性
关键词：越狱迁移、表示相似度、平台表示假设、良性蒸馏、安全对齐

一句话总结¶

本文用 20 个开源模型 × 33 种越狱攻击的大规模实证 + 因果实验证明：越狱的"跨模型迁移"并非安全训练的偶然瑕疵，而是模型在良性输入下共享表示几何的必然产物——表示越相似，越容易互相"传染"漏洞。

研究背景与动机¶

领域现状：越狱（jailbreak）提示能绕过 LLM 安全机制诱出有害输出，且常常具有"迁移性"——在 A 模型上成功的攻击也能攻破架构、数据、来源都不同的 B 模型。这一现象被反复观察到，却始终缺乏统一的机理解释。

现有痛点：社区对"为什么能迁移"众说纷纭——是安全微调的浅层 quirk？是同族模型的副产品？还是表示学习的根本属性？此外，过往评测多用单次采样 + 规则匹配（检查是否出现"I'm sorry"），既噪声大又只能判断"是否拒绝"而非"是否真的泄露有害内容"，导致结论难以复现和比较。

核心矛盾：要把迁移性从"攻击本身强"这个混杂因素里剥离出来——否则看似的迁移可能只是源模型上的攻击更强，而非模型间真有深层相似性。

本文目标：给出可量化的解释，并从相关走向因果——证明表示对齐是迁移性的驱动因素。

核心 idea：迁移性由两个可量化因素系统性地决定——(1) 模型在良性提示下的表示相似度；(2) 越狱在源模型上的强度。并通过"只用良性数据蒸馏"人为拉近两模型表示，验证这会因果地增加越狱迁移。

方法详解¶

整体框架¶

研究分三步：先用稳健评测把"越狱强度/成功"量化（控制混杂），再用"互 k 近邻"度量模型表示相似度，最后用"仅良性蒸馏"做因果干预，看拉近表示是否真能提高迁移。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A[33 越狱 × 313 有害指令<br/>20 开源模型] --> B[StrongREJECT judge<br/>多采样打分]
    B --> C[强度 μ / 成功 δ]
    D[10K Alpaca 良性提示] --> E[第 0.8L 层末 token 表示]
    E --> F[互 k 近邻相似度 mknn]
    C --> G[迁移 AUROC]
    F --> G
    G --> H{相关性: 相似越高迁移越强}
    H --> I[仅良性蒸馏<br/>把教师良性回答蒸给学生]
    I --> J[相似度上升 → 迁移上升<br/>因果验证]

关键设计¶

1. 稳健的越狱效力度量：把"强度"和"成功"分开，并作为控制变量。 作者放弃单样本 + 拒绝词匹配的脆弱做法，改用 StrongREJECT 的 LLM-as-judge，把每个 prompt-response 映射到连续分 \(\text{JUDGE}\in[0,1]\)（0=安全/无关，1=完全有害且有用）。对每个对抗输入采样 \(m\) 个回复后定义两个互补指标：强度 \(\mu(\tilde p,\text{LLM})=\frac{1}{m}\sum_j \text{JUDGE}(p,r_j)\) 衡量"多可靠地禁用了安全机制"，成功 \(\delta(\tilde p,\text{LLM})=\max_j \text{JUDGE}(p,r_j)\) 衡量"是否至少诱出一个有害回复"。关键在于把源模型上的强度当作控制变量，这样迁移分析才能区分"迁移是因为源攻击更强"还是"因为两模型表示更像"。

2. 互 k 近邻表示相似度：旋转/缩放不变的拓扑度量。 借用 Huh et al. 为"平台表示假设"提出的 mutual k-NN 度量来量化两模型"是否以相似方式编码输入"。取良性提示集 \(P\)，用模型第 \(\lfloor 0.8L\rfloor\) 层后末 token 隐表示 \(f(p)\) 构成嵌入，建有向 k 近邻图 \(G_f\)，两模型相似度为图的 Jaccard 交并比 \(\text{mknn}(f,f')=\frac{|G_f\cap G_{f'}|}{|G_f\cup G_{f'}|}\)。该度量只看邻域拓扑、对嵌入空间的旋转和缩放不变，聚焦"两模型是否对同一组提示给出一致的近邻结构"。

3. 仅良性蒸馏做因果干预：不碰有害数据也能"传染"漏洞。 为了从相关走向因果，作者跨族蒸馏（如 Gemma2-27B→Qwen2.5-14B）：只用教师对 52K Alpaca 良性指令的回答来 SFT 学生，同时混入学生自己对 AdvBench 有害指令的拒绝回复（5,120 对）以维持学生原有安全护栏。注意全程从不向教师查询有害指令，模拟攻击者不愿反复对专有 API 发有害请求的现实场景。学生从未见过教师对越狱的回答，却仍变得对教师易感的越狱敏感——这把"表示对齐 → 迁移"从相关坐实为因果。

4. 对称迁移 AUROC：度量"源强度预测目标成功"的能力。 用 \(\text{AUROC}(\{\delta(\tilde p_i,\text{LLM}_{tgt})\ge\tau\},\{\mu(\tilde p_i,\text{LLM}_{src})\})\) 衡量源模型强度分对目标成功标签的预测力；因模型对无自然方向且相似度对称，取两个方向 AUROC 的算术平均得"对称迁移 AUROC"。

实验关键数据¶

主实验（相关性）¶

设置	观察
20 模型 / 380 对 / 33 越狱 × 313 指令	相似度越高，迁移 AUROC 越高；高相似的模型对从不出现弱迁移
≥14B 子集	相似度与对称迁移 AUROC 相关更紧、趋势近单调，规模越大规律越强
persona vs cipher	persona 式越狱迁移远比 cipher 式可靠；大模型对 cipher 式更不易感

因果干预（良性蒸馏）¶

蒸馏对	相似度变化
Gemma2-27B → Qwen2.5-14B	0.28 → 0.42（相对 +50%，绝对增益最大）
Llama3.1-8B → Qwen2.5-7B；Qwen2.5-7B → Llama3.2-3B	绝对增益 0.10–0.12
同族蒸馏（Llama3.1-8B→Llama3.2-3B）	相似度几乎不变（已共享数据/本就是蒸馏版）

关键发现¶

相似度在蒸馏早期急升随后 plateau，表示对齐主要发生在训练早期；实践中相似度极少超过 0.5，故 0.1–0.14 的增益已相当可观。
蒸馏后越狱迁移成功率随之上升；某些情况下蒸馏模型反而对个别越狱更安全——说明模型互相继承漏洞的同时也继承了一部分护栏。
persona 式越狱靠自然语言、贴合共享语义表示因而广泛迁移；cipher 式靠模型各自的 idiosyncratic quirk，不触及核心表示几何，故难迁移。

亮点与洞察¶

把"越狱迁移"从"安全训练的脆弱副产品"重新定性为"表示对齐的涌现后果"，与平台表示假设接轨，给出了一个统一且可证伪的机理。
评测方法学上的纠偏（多采样 + StrongREJECT + 把强度作为控制变量）本身就是对越狱研究可复现性的贡献。
"仅良性蒸馏即可提高迁移"是一个反直觉且有现实威胁含义的发现：攻击者无需获取专有模型的有害输出，只靠良性查询拉近表示即可让现成越狱迁移过去。

局限与展望¶

实验集中在开源指令模型（Llama/Gemma/Qwen 三族、≤70B），是否推广到更大或闭源前沿模型仍待验证。
相似度度量依赖固定层 \(\omega=0.8\) 与 \(k=100\) 的选择；不同层/不同 k 的稳健性虽有附录支撑，但度量与"表示对齐"的因果链仍是间接的。
防御侧尚未给出具体方案——既然漏洞随相似度迁移，如何在不牺牲能力/对齐收益的前提下"去相关化"安全失败模式，是开放问题。

评分¶

新颖性：⭐⭐⭐⭐ 把越狱迁移与表示对齐/平台表示假设打通，并用良性蒸馏给出因果证据，视角新。
实验充分度：⭐⭐⭐⭐ 20 模型 380 对 + 33 攻击的大规模观察 + 三组跨族蒸馏因果实验，证据链完整。
写作质量：⭐⭐⭐⭐ 机理叙事清晰，度量定义严谨，图表支撑到位。
价值：⭐⭐⭐⭐ 对理解越狱迁移机理与设计鲁棒防御都有指导意义，并暴露了"良性蒸馏即可传染漏洞"的现实威胁。