JULI: Jailbreak Large Language Models by Self-Introspection¶

会议: ICLR 2026
arXiv: 2505.11790
代码: 无
领域: 机器人
关键词: jailbreak, logit bias, API attack, token log probability, BiasNet

一句话总结¶

揭示对齐 LLM 的 top-k token log probability 中仍包含有害信息的知识泄露问题，提出 JULI——仅用不到目标模型 1% 参数量的 BiasNet 插件操纵 logit bias，在仅访问 top-5 token 概率的 API 场景下成功越狱 Gemini-2.5-Pro（Harmful Info Score 4.19/5），比 LINT 快 140 倍同时 harmfulness 提升约 2 倍。

研究背景与动机¶

领域现状：LLM 越狱攻击分为需要模型权重的白盒攻击和仅通过 API 的黑盒攻击。API 场景下的攻击极具挑战——无法访问梯度、完整 logits 或生成过程。

现有痛点：(a) GCG 等白盒方法需要完整梯度访问，不适用于商用 API；(b) LINT（当前 API 攻击方法）需要 top-500 token 访问（多数 API 仅提供 top-5/20），且推理需 99.7 秒，harmfulness 仅 2.25/5；(c) Weak-to-Strong 和 Emulated Disalignment 需要对齐前后两个版本的模型权重。

核心矛盾：对齐训练应该消除有害知识的表达，但 LLM API 返回的 top-k token 概率中是否仍泄露有害信息？

本文目标 能否仅用 API 返回的少量 token 概率（如 top-5）高效越狱主流商用 LLM？

切入角度：统计发现 >85% 的有害 response token 出现在 top-5 概率中——对齐只是压低了它们的采样概率而非消除知识。

核心 idea：用轻量 BiasNet（<1% 目标模型参数）学习 logit bias 来提升有害 token 采样概率，仅需 100 条有害数据训练。

方法详解¶

整体框架¶

BiasNet \(F_\theta\) 接收目标 LLM 的 log probability 输出 \(\log p_\alpha(x_n)\)，计算 logit bias \(B = F_\theta(\log p_\alpha(x_n))\)，修正后的概率 \(\tilde{p}_\alpha(x_n) = p_\alpha(x_n) + B\)。

关键设计¶

Token 泄露发现：对多个对齐 LLM 统计，>85% 的有害 response token 出现在 top-5 预测概率中——对齐训练未消除有害知识，仅降低了概率排名。核心洞察：对齐是"概率压低"而非"知识擦除"。
BiasNet 架构：<1% 目标模型参数（~\(10^7\)），三层结构：
- 投影层 1：token 空间 → 隐藏空间（白盒：复用 LLM head 的伪逆；黑盒：随机正交矩阵）
- 中间变换层（可学习）
- 投影层 2：隐藏空间 → token 空间（白盒：复用 LLM head；黑盒：随机正交矩阵）
- 输出 logit bias \(B = F_\theta(\log p_\alpha(x_n))\)，修正概率 \(\log \tilde{p} = \log p + B\)
Padding 机制（API 场景）：API 仅返回 top-k token 概率时，将非 top-k token 赋予 padding 值（第 k 个 token 概率减固定偏移 10），使 BiasNet 可在不完整概率向量上工作。
训练：仅 100 条 LLM-LAT 有害问答对，15 epochs，batch size=1，AdamW lr=\(10^{-5}\)。极低成本。

实验关键数据¶

开源模型攻击（白盒设置，AdvBench）¶

目标模型	JULI Harmful Score	最佳基线	基线方法	JULI 推理时间
Llama3-8B-Instruct	3.44	3.02	ED	0.71s
Llama2-7B-Chat	3.38	2.89	ED	0.71s
Llama3-3B-Instruct	3.52	3.15	ED	0.65s
Qwen2-1.5B-Instruct	3.61	3.28	ED	0.58s
Llama3-8B-CB (Circuit Breaker 防御)	2.95	1.85	GCG	0.71s
Llama2-7B-DeepAlign (DeepAlign 防御)	3.21	2.45	GCG	0.71s

API 攻击（黑盒设置，top-5 API）¶

目标模型	JULI Harmful Info Score	FLIP	Naive	Base
Gemini-2.5-Pro	4.19	2.09	1.21	0.06
Gemini-2.5-Flash	1.74	1.33	1.29	0.02

关键发现¶

对齐 LLM 的 top-5 token 概率足以恢复有害输出——对齐是概率压低而非知识擦除
仅 100 条训练数据 + <1% 参数的插件即可攻破 SOTA 防御（Circuit Breaker + DeepAlign）
比 LINT 快 140 倍（0.71s vs 99.7s），harmfulness 提升 ~2 倍（3.44 vs 2.25）
新提出的 Harmful Info Score 与人类判断的相关性高于传统 BERT Score 和 Harmful Score

亮点与洞察¶

"知识泄露" vs "知识擦除"的深刻启示：与 Erase or Hide 的"浅层对齐"发现一致——对齐后有害知识仍完整保留在模型中，只是被概率性地抑制。JULI 证明这种抑制可以被外部插件轻松逆转。这一发现对对齐研究有根本性影响——意味着当前所有基于 RLHF/DPO 的安全训练都只是"表面功夫"。
API 安全的红旗：现实中的 LLM API（如 Gemini API）返回 top-k 概率，JULI 证明这本身就是一个攻击面。API 设计者需要重新评估返回 log probability 的安全风险。
Harmful Info Score 的方法论贡献：新提出的评估指标更关注回复的信息量和质量而非表面"有害性"标签，与人类判断相关性更高——可以作为越狱评估的新标准。

消融实验与深入分析¶

分析维度	发现
Top-k 命中率	>85% 有害 token 在 top-5 中，>95% 在 top-10 中
训练数据量	仅 100 条样本即达到饱和，更多数据边际收益极小
投影层选择	白盒复用 LLM head 优于随机初始化，但黑盒随机正交矩阵也可工作
对防御的鲁棒性	攻破 Circuit Breaker 和 DeepAlign 两种 SOTA 防御
困难子集	在 AdvBench 的 5% 困难子集上仍有效，而基线方法几乎失败
Harmful Info Score	新提出的评估指标，与人类判断的相关性高于 BERT Score 和 Harmful Score

局限与展望¶

BiasNet 需要少量有害数据训练（100 条），限制了完全零知识攻击
防御方案未深入讨论——限制 API 返回的 token 数或对概率加噪是显而易见的缓解措施
API 提供商可以通过不返回 log probability 来防御，但这会牺牲合法用途
目前仅在 Gemini API 上验证黑盒攻击，OpenAI API 需进一步测试
BiasNet 的 padding 机制在某些 token 分布下可能引入偏差

评分¶

新颖性: ⭐⭐⭐⭐ 首个仅用 top-5 API 概率的实用越狱，BiasNet 概念新颖
实验充分度: ⭐⭐⭐⭐ 多模型（含闭源）× 多场景 × 多评估指标 × 含 SOTA 防御
写作质量: ⭐⭐⭐⭐ 清晰，Harmful Info Score 有方法论贡献
价值: ⭐⭐⭐⭐ 对 API 安全设计有直接警示——是否应该返回 log probability 需重新评估