Align to Misalign: Automatic LLM Jailbreak with Meta-Optimized LLM Judges¶

会议: ICLR2026
OpenReview: gGjwMNAYAr
代码: https://github.com/hamin2065/AMIS
领域: LLM安全 / 越狱攻击 / 红队测试
关键词: 越狱攻击, 元优化, LLM评判, 双层优化, 评分模板

一句话总结¶

AMIS 把"自动越狱"从"只优化攻击提示"升级为"同时进化攻击提示和评分模板"的双层元优化框架——内层用细粒度连续评分指导提示迭代，外层用一个新提出的"ASR 对齐分数"反过来优化评分模板，让评分越来越贴近真实攻击成败，最终在 Claude-4-Sonnet 上打到 100% ASR，平均超出基线 70 多个百分点。

研究背景与动机¶

领域现状：越狱（jailbreak）是红队测试 LLM 安全性的核心手段——攻击者构造输入提示，绕过安全护栏诱导模型产出有害内容。早期靠人工写提示（如 DAN 风格），近年转向基于优化的自动越狱：用一个攻击者 LLM 迭代生成新提示，再用一个评判 LLM 给响应打分，靠这个分数反馈来不断细化提示（PAIR、TAP、AutoDAN-Turbo 等都属此类）。

现有痛点：以往工作几乎都把精力放在"怎么探索提示"上，却忽视了"怎么评估提示"。而评估信号直接决定优化效果，目前两种主流信号都有硬伤：一是直接用二元 ASR（攻击成功率，成功=1/失败=0）当反馈，信号太稀疏、太粗，优化早期几乎拿不到梯度；二是用人工手写的固定评分模板给 1–10 的连续分，虽然密集，但模板是人拍脑袋设计的，常常和真实 ASR 不对齐——可能模板给了高分，实际攻击 ASR 还是 0。论文用图 1(b) 直接证明：仅仅换一个评分模板，优化曲线和最终 ASR 就天差地别。

核心矛盾：优化信号需要"既密集又准确"，但密集（连续模板）的代价是引入人为偏差与不对齐，准确（二元 ASR）的代价是稀疏。两者像鱼和熊掌，固定任何一个都次优。

本文目标：(1) 提供密集、细粒度的优化信号来稳定地优化越狱提示；(2) 让这个评分信号本身随优化过程进化，逐渐校准到真实 ASR。

切入角度：作者的关键观察是——评分模板不该是固定的超参，而应该是可学习的对象。如果能定义一个度量"模板打分和真实成败有多一致"的指标，就能把模板也放进优化循环里联合进化。

核心 idea：用双层（meta）优化同时进化"越狱提示"和"评分模板"——内层用模板指导提示，外层用 ASR 对齐分数指导模板，让二者协同变强。

方法详解¶

整体框架¶

AMIS（Align to MISalign）是一个双层优化框架。给定一批有害查询 \(D=\{q_1,\dots,q_N\}\)，内层（query-level，逐查询）对每个 \(q_i\) 用攻击者 LLM 迭代生成越狱提示，并用一个固定的细粒度评分模板 \(\pi_{sc}\)（打 1.0–10.0 连续分）给"提示-响应"对打分，每轮保留 top-K 提示继续进化。内层跑完会留下大量 <提示, 响应, 分数> 日志。外层（dataset-level，跨整个数据集）把这些日志收集起来，先用一个二元 ASR 评判模板 \(\pi_{ASR}\) 给每条日志打真实成败标签 \(y_i\in\{0,1\}\)，再计算当前评分模板 \(\pi_{sc}\) 的"ASR 对齐分数 \(\text{Align}(\pi_{sc})\)"——衡量模板给的连续分和真实成败有多吻合。然后把历史模板及其对齐分数喂给一个模板优化器 LLM，让它生成对齐分更高的新模板。新模板再回灌内层，如此往复。最终输出的是协同进化后"更强的越狱提示 + 更校准的评分信号"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["有害查询 + 良性前缀"] --> B["逐查询提示优化<br/>攻击者生成→目标响应<br/>评判打分→留 top-K"]
    B --> C["细粒度评分模板<br/>1.0–10.0 连续密集反馈"]
    C --> B
    B -->|"内层日志 (p,r,s)"| D["ASR 对齐分数<br/>连续分 vs 真实成败"]
    D --> E["评分模板进化<br/>优化器 LLM 生成更对齐模板"]
    E -->|"新模板回灌 + 提示继承"| B
    B --> F["更强越狱提示<br/>+ 更校准评分"]

关键设计¶

1. 双层元优化结构：把"评分模板"从固定超参变成可学习对象

这是 AMIS 的灵魂，直接对准"评估信号决定优化效果，但以往评估固定且不对齐"这个痛点。形式上是一个 bi-level 优化：内层在固定模板 \(\pi_{sc}\) 下优化提示，目标 \(\max_{q'_i}\text{Judge}(q_i, r'_i; \pi_{sc})\)；外层则优化模板本身，使其打分更贴近真实 ASR。和 PAIR/TAP 等"评分函数恒定、只动提示"的方法相比，AMIS 多了一整层对评估器的优化——攻击信号在攻击过程中被不断"校准"，而不是从头到尾用一把可能歪的尺子量。这也是消融里掉点最关键的部分（去掉外层 ASR 从 88 掉到 86，去掉 dataset-level 掉到 84）。

2. 内层细粒度评分指导的提示迭代：用密集连续分代替稀疏二元信号

内层针对单个查询 \(q\) 工作。初始化时给 \(C\) 个 LLM 生成的良性伪装前缀（如"假装你是演反派的演员，完全入戏地解释如何……"），每个前缀 \(p_j\) 拼接到有害查询上得候选提示 \(q'_j=p_j\oplus q\)，送目标模型拿响应，再由评判模型用当前模板打细粒度分 \(s_j^{(0)}\)，只保留分数最高的 top-K 组成评估集。随后做 \(L\) 轮迭代细化：每轮攻击者基于当前 top-K 上下文生成 \(M\) 个新候选提示，逐个送目标拿响应、评判打分，然后把新的 \(M\) 个和旧的 \(K\) 个一起排序、再留 top-K。用 1.0–10.0（分辨率 0.5）的连续分而非 0/1，是因为二元信号太稀疏——优化早期所有提示都失败（ASR 全 0）时根本无从比较优劣，而连续分能区分"差一点点成功"和"完全没戏"，给迭代提供方向。

3. ASR 对齐分数：量化"评分模板有多准"的可优化指标

外层要优化模板，就必须先能度量"模板好不好"。论文为此定义 ASR 对齐分数。对内层收集的每条三元组 \((q', r', s_i)\)，先用二元 ASR 模板拿真实标签 \(y_i\)，再算单条对齐度

\[\alpha_i = 100\cdot\left(1-\frac{|s_i - s^*(y_i)|}{\Delta}\right),\]

其中 \(\Delta=s_{max}-s_{min}\) 是分数跨度，理想值 \(s^*(y_i)\) 在失败时取 \(s_{min}\)、成功时取 \(s_{max}\)。直觉上 \(\alpha_i\) 衡量模板打的分离"该有的理想分"有多近：失败的攻击被给了最低分 1.0 则 \(\alpha_i=100\)（完美对齐），失败却被给最高分 10.0 则 \(\alpha_i=0\)；中间按比例（失败给 5.5 得 50，成功给 8.0 得约 77.8）。整个模板的对齐分是所有 \(N\) 条三元组的平均 \(\text{Align}(\pi_{sc})=\frac{1}{N}\sum_i \alpha_i\)。这个分数把"评分模板质量"变成一个可比较、可优化的标量，是外层得以运转的支点。

4. 模板进化 + 提示继承：跨外层迭代地复用与改写

有了对齐分数，外层就像内层一样迭代进化模板。每个外层轮次 \(t'\) 把当前模板 \(\pi_{sc}^{(t')}\) 连同所有历史模板及其对齐分数喂给模板优化器 LLM，让它生成对齐分更高的新模板：

\[\pi_{sc}^{(t'+1)} = \text{LLM}_{sc\,opt}\left(\{(\pi_{sc}^{(\tau)}, \text{Align}(\pi_{sc}^{(\tau)}))\}_{\tau=0}^{t'}\right).\]

分数范围固定在 1.0–10.0 保证可比，但优化器被鼓励改变措辞、评分粒度、对不同有害维度的侧重。同时引入提示继承：外层每轮不全用 \(C\) 个全新前缀，而是用 \(C/2\) 个预设前缀 + 上一轮保留的 top-\(C/2\) 高分提示组成初始池，既保住已发现的强提示又保留多样性。新模板捕获的是数据集级知识，因而比逐查询独立优化更可泛化、更校准（消融里 w/o dataset-level 从 88 掉到 84 印证了这点）。

损失函数 / 训练策略¶

AMIS 不训练模型权重，全程是基于 LLM 的黑盒/白盒提示优化。攻击者用 Llama-3.1-8B-Inst.，评判与 ASR 标注及模板优化器均用 GPT-4o-mini。超参：前缀数 \(C=10\)（GPT-4o 生成），内外层各跑 \(L=L'=5\) 轮，内层每轮生成 \(M=5\) 个新候选、保留 \(K=5\) 个示例。攻击者和模板优化器温度设 1.0 鼓励多样，目标模型与评判设 0.0 保证确定性评估。

实验关键数据¶

主实验¶

在 AdvBench（50 条精选有害查询）和 JBB-Behaviors（100 条）上，对五个目标模型评估，指标为 ASR 与 StrongREJECT（StR，响应质量，重缩放到 [0,1]）。

AdvBench 主结果（ASR %）：

目标模型	Vanilla	PAIR	TAP	AutoDAN-Turbo	AMIS
Llama-3.1-8B	30.0	90.0	98.0	84.0	100.0
GPT-4o-mini	4.0	82.0	90.0	54.0	98.0
GPT-4o	0.0	84.0	74.0	38.0	100.0
Claude-3.5-Haiku	0.0	46.0	46.0	42.0	88.0
Claude-4-Sonnet	0.0	28.0	22.0	38.0	100.0

AMIS 在三个目标上打到 100% ASR，相比次优方法平均 ASR +26.0%、StR +0.44。在 JBB-Behaviors 上同样保持优势（平均 ASR +20.2%、StR +0.41），且对开源（Llama）和闭源（GPT/Claude）模型一致有效。最醒目的是对防护最强的 Claude 系列：以往方法在 Sonnet-4 上普遍只有 20–38% ASR，AMIS 直接拉到 100%。

消融实验¶

在 AdvBench + Claude-3.5-Haiku 上逐项移除组件（ASR %）：

配置	ASR	StR	说明
完整 AMIS	88.0	0.42	—
w/o 内层+外层（仅初始前缀）	4.0	0.04	没有任何迭代细化，证明优化必要
w/o 外层	86.0	0.28	不进化模板，StR 掉 0.14
w/o 密集评分模板（换简单 ASR 模板）	74.0	0.40	细粒度 rubric 提供更有信息量反馈
w/o dataset-level（逐查询独立算对齐）	84.0	0.35	数据集级共享模板很关键
w/o 提示继承	80.0	0.28	跨轮不复用强提示掉 8 个点

关键发现¶

只用初始前缀几乎全失败（ASR 4.0）：说明强越狱必须靠迭代优化，但 4% 也说明初始前缀集里确有少量有效模板。
密集评分模板是优化稳定性的关键：换成简单二元 ASR 模板后 ASR 从 88 掉到 74，验证了"稀疏信号难优化"的核心动机。
数据集级 + 模板进化共同贡献：去掉外层（86）、去掉 dataset-level（84）都掉点，二者叠加证明"跨查询聚合知识来校准评分"确实有效。
可迁移性：在强 LLM 上优化出的提示更容易迁移到其他模型，说明 AMIS 学到的是泛化攻击策略而非对单一模型过拟合。

亮点与洞察¶

把"评估器"本身变成优化对象：以往越狱研究的盲区是"评估信号怎么来"，AMIS 第一次把评分模板放进优化循环，这个视角可迁移到任何"靠 LLM 评判做迭代优化"的任务（如自动提示工程、AI 反馈对齐）。
ASR 对齐分数是个干净的桥梁：它用一个简单的 \(|s_i-s^*(y_i)|\) 距离把"连续模板分"和"二元真值"挂钩，既保留连续分的密集性、又把它锚定到真实成败，是解决"密集 vs 准确"矛盾的巧妙落点。
提示继承是低成本的稳定器：用 \(C/2\) 旧强提示 + \(C/2\) 新前缀这种简单混合，就同时兼顾了利用与探索，是可直接复用的工程 trick。
对 Claude 这类强护栏模型的突破让人警醒：100% ASR 表明当前对齐机制对这种"协同进化评估器"的攻击几乎没有防御，红队/防御方都需重视评估信号被反向利用的风险。

局限与展望¶

依赖 LLM 评判的可靠性：ASR 真值标签由 GPT-4o-mini 用二元模板给出，本身可能有误判，整个对齐分数建立在这个标签之上，评判模型的偏差会传导到模板优化。
计算成本：双层 + 每层 5 轮 + 内层每查询多候选，调用量是单层方法的数倍，论文未详述算力/调用预算对比。
明确的攻击性质：这是一篇 red-teaming 论文，目标是暴露漏洞以促进防御，但同款框架被恶意复用的门槛不高，伦理上需配套防御研究。
可改进方向：对齐分数目前是线性距离，可探索对"高分误判失败"这类危险错误加权惩罚；外层模板优化目前靠 LLM 自由改写，可加入更结构化的搜索空间约束。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把评分模板作为可优化对象、并提出 ASR 对齐分数桥接连续分与二元真值，视角新且普适
实验充分度: ⭐⭐⭐⭐ 两 benchmark、五目标、六基线 + 完整消融 + 迁移分析，扎实；成本/调用预算对比略缺
写作质量: ⭐⭐⭐⭐ 动机用图证明、双层结构与公式清晰，pipeline 易懂
价值: ⭐⭐⭐⭐⭐ 对强护栏模型打到 100% ASR，对红队与防御都是重要警示