Sampling-aware Adversarial Attacks against Large Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=vBmRQHW7en
领域: AI安全 / LLM对抗攻击
关键词: 对抗攻击, 越狱, 采样, 算力分配, 熵最大化目标

一句话总结¶

本文指出现有 LLM 对抗攻击只看「单点贪心生成」是否有害，系统性低估了模型风险；作者把攻击重新表述为「优化 prompt」与「重复采样输出」之间的算力分配问题，证明把采样当作一等攻击向量后，能在等算力下把攻击成功率提升最多 37 个百分点、把算力开销降低最多两个数量级。

研究背景与动机¶

领域现状：评估 LLM 的对抗鲁棒性是安全部署的前提。主流对抗攻击（GCG、AutoDAN、PAIR、BEAST 等）的范式是「优化一个对抗 prompt，让模型对有害请求输出肯定性前缀」，并且几乎都用单条贪心生成（temperature 0、一个样本）去判定攻击是否成功。

现有痛点：LLM 的生成本质是随机过程——同一个 prompt 多采几次，就可能采到一条罕见但极其有害的回答。可现有攻击把绝大部分算力都花在优化上，结尾只采一个样本，于是把「这个 prompt 单点贪心没越狱」直接当成「模型对它鲁棒」。但真实世界里成千上万用户在大规模采样，哪怕单次有害概率很低，长尾风险也会被反复采样放大。这导致现有协议系统性高估了模型鲁棒性。

核心矛盾：在固定算力预算下，「继续优化 prompt 提高单次有害概率」和「对当前 prompt 多采几条以撞上有害长尾」之间存在 trade-off。脆弱模型几乎不用优化、多采就能越狱；鲁棒模型则需要充分优化后采样才划算。现有方法从不显式地去平衡这两端。

本文目标：把采样升级为攻击设计的核心参数，回答两个子问题——(1) 在固定算力下优化与采样该如何分配才最优？(2) 采样为什么这么高效（优化到底改变了有害分布的什么）？

切入角度：作者观察到「高风险样本往往在优化早期就能以可观概率被采到」，于是不再死磕「找一个可靠越狱 prompt」，而是借鉴计算机视觉里「刻画最坏情况行为」的鲁棒性传统，把目标改成「用最少资源逼出最大有害」。

核心 idea：把对抗攻击重写成「优化步数 \(T\) + 每步采样数向量 \(n\)」的资源分配问题，在固定 FLOPs 预算下联合搜索 \((T,n)\)，并据此设计采样调度与一个无需标签的攻击目标。

方法详解¶

整体框架¶

本文提出采样感知攻击（Sampling-Aware Attack, SAA）这一统一框架。它把一次攻击看成 \(T\) 步迭代：每一步 \(t\) 用当前 prompt \(q_t\) 采 \(n_t\) 条完成（completion），用裁判模型 \(h(\cdot)\in[0,1]\) 给每条打有害分，并可选地利用历史 prompt 集合 \(Q\) 与样本集合 \(S\) 通过 improve 生成下一个 prompt \(q_{t+1}\)；攻击结束后取所有样本中的最大有害分 \(H^\star=\max_t h(S_t)\) 作为该次攻击的战果。

关键在于：采样向量 \(n=(n_1,\dots,n_T)\) 是一个显式可调的攻击参数。现有方法只是它的特例——GCG 设 \(n=(0,\dots,0,1)\)（只在结尾采一条），Best-of-N 设 \(n=(1,\dots,1)\)（每步采一条、不做优化），且这些方法都满足 \(\max(n)=1\)，即从不对同一 prompt 多采。SAA 把整个 \((T,n)\) 空间打开，并在固定算力 \(B\) 下求解。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["有害请求 q1"] --> B["采样感知统一框架<br/>每步 nt 条采样 + improve 更新 prompt"]
    B --> C["FLOPs 预算约束优化<br/>联合选 (T, n) 使有害最大"]
    C --> D["采样调度<br/>先优化后采样 / 均匀 / 块状"]
    D --> E["无标签熵最大化目标<br/>放大首词分布的熵"]
    E -->|裁判 h 打分取最大| F["输出 H* = max h(S)"]

关键设计¶

1. 采样感知统一框架（SAA）：把采样升格为一等攻击参数

针对「现有攻击把采样当事后步骤、只在结尾采一条」的痛点，本文用 Algorithm 1 把攻击形式化为对 \((T,n)\) 的迭代过程：第 \(t\) 步从 \(f_\theta(\cdot\mid q_t)\) 采 \(n_t\) 条样本加入 \(S\)，再由 improve(Q,S) 产出新 prompt，最终返回 \(H^\star=\max_{t\le T} h(S_t)\)。这个抽象的价值在于它统一并推广了已有方法：把 \(n\) 退化成 \((0,\dots,0,1)\) 就是 GCG 这类纯优化攻击，退化成 \((1,\dots,1)\) 就是 Best-of-N 这类纯采样攻击。作者据此论证，已有算法都困在 \(\max(n)=1\) 的角落里、从未利用「对同一 prompt 多采多条」这一维度，而这正是被忽视的高效攻击向量。

2. FLOPs 预算约束下的算力分配：让不同攻击可公平比较

只要允许多采、再用 Best-of-\(n\) 取最大分，成功率天然会上升，所以必须在固定算力下比较才有意义。本文把高效攻击写成约束优化：

\[\max_{n,T}\ \mathrm{SAA}(q,n,T)\quad \text{s.t.}\quad \sum_{t=1}^{T}\Big(C^{\text{opt}}_t+\sum_{k=1}^{n_t}C^{\text{sample}}_{t,k}\Big)\le B\]

其中 \(C^{\text{opt}}_t\) 是第 \(t\) 步优化代价、\(C^{\text{sample}}_{t,k}\) 是单条采样代价，成本精确到单样本级别（以正确计入 prefix-filling 和不同生成长度）。用 FLOPs 而非墙钟时间度量预算，是为了硬件无关、并屏蔽各攻击实现优化程度的差异。这个框架揭示了一个反直觉的事实：一步优化的算力可比一条采样贵最多两个数量级（Table 1：GCG 为 92 倍、REINFORCE-GCG 392 倍、PAIR 353 倍），所以把算力从优化挪向采样几乎总是划算的。

3. 采样调度：用三种实用日程刻画「何时采、采多少」

直接搜索 \((T,n)\) 的全组合在现实算力下不可行，作者于是限定到三种由总采样预算 \(N=\sum n\)、步数 \(T\) 决定的预设调度：先优化后采样（前 \(T\) 步只优化、最后一位置设为 \(N\)，是多数实验默认；现有方法是它「单样本 temperature 0」的特例）、均匀采样（每步分 \(\lfloor N/T\rfloor\) 条，余数尽量均匀铺开、末步必含）、块状采样（在末尾留一个长度 \(b\) 的尾块、把样本均分进去）。三者分别对应「集中在末尾吃优化红利」「最大化样本独立性」「折中」三种取舍。实验发现：三种调度在等预算下都远超贪心基线，且彼此差距很小——这说明多采本身才是收益来源，至于把样本摊在哪一步反而不太关键。

4. 无标签熵最大化目标：为采样感知量身设计的攻击损失

现有目标普遍依赖「肯定性回答前缀」（如 "Sure, here's…"），这种模板对现代模型已经分布外、难优化，且防御方会针对性加固。本文转而提出一个不依赖任何标签、模型无关的损失：最大化受害模型对首个预测词分布的熵

\[L_{\text{entropy}}(q)=-H\big(f_\theta(y_1\mid q,\ y_1\in S)\big)\]

其中分布被约束在合法 token 集合 \(S\) 上（避免采到 end-of-text 等控制符）。与「抬高有害分布均值/众数」的旧目标不同，熵目标专门去放大分布的离散度（spread），从而提高采到有害长尾的概率，这恰好和采样感知视角咬合。它只作用于首词，因此后续生成仍连贯，且即便在只有首词 logit 的黑盒下也能优化。

一个完整示例¶

以「GCG 攻击 Llama 3.1 8B、熵目标」为例走一遍：先做 \(T=5\) 步极短优化（每步用熵损失更新对抗后缀），然后对最终 prompt 采 50 条完成，逐条交给 StrongREJECT 裁判打分，取最大分判定是否越过阈值 \(\tau=0.5\)。结果是 ASR\(_q\)@50 达到 64%，而同样 5 步、用肯定性目标只有 46%——熵目标用极少优化步就把长尾有害样本撞了出来。作为对比，纯靠提高 temperature 的采样即使把预算放大到 1000 条，ASR 也只有 0.65，因为高温会让生成变得不连贯；熵目标只抬首词的熵、保住后续连贯，因而更有效。

实验关键数据¶

设置：HarmBench 前 100 条有害请求；裁判用 StrongREJECT（低误报、输出归一化有害分）；受害模型为 Gemma 3 1B、Llama 3.1 8B、Circuit Breakers 防护的 Llama 3 8B、深度对齐的 Llama 2 7B；攻击含 GCG / AutoDAN / PAIR / BEAST / REINFORCE-GCG；共生成超 50 亿 token，采样 temperature 0.7。

主实验¶

攻击	提升幅度	说明
GCG	ASR +0.37 / 加速 137.5×	等 FLOPs 下成功率提升 37 个百分点；iso-ASR 算力降两个数量级
AutoDAN	ASR +0.21 / 加速 8.9×	把算力从优化挪向采样后的 Pareto 改进
PAIR	ASR +0.16 / 加速 2.7×	同上
整体	\(H\) 翻倍以上	固定预算下增加采样数，平均有害分 \(H\) 超过翻倍

采样的算力性价比（Table 1，一步优化 / 一条采样的相对成本）：AutoDAN 322、BEAST 45、GCG 92、REINFORCE-GCG 392、PAIR 353——优化比采样贵最多两个数量级，且为匹配基线有害水平，100–200 条采样才是算力最优，比现有攻击常用的「采一条」多两个数量级。

熵目标 vs 肯定性目标（Table 2，GCG）¶

模型	配置	肯定性 ASR	熵目标 ASR
Llama 3.1 8B	\(T{=}5\), @50	0.46	0.64
Llama 3.1 8B	\(T{=}250\), @50	0.79	0.84
Gemma 3 1B	\(T{=}5\), @50	0.44	0.56
Llama 2 7B DA	\(T{=}250\), @50	0.52	0.55
各模型	@1（单样本）	普遍更高	普遍更低

熵目标在单样本指标 ASR\(_q\)@1 上弱于肯定性目标，但在采样感知的 @50 下反超，且收敛更快（5 步即可达到可观 ASR）；即便对「深度对齐」的 Llama 2 7B DA 也依然有效。

关键发现¶

优化主要在「压制拒答」，而非「提高有害度」：Figure 6/8 显示有害分布是稳定的双/三峰（拒答 \(h<0.1\)、合规但无关 \(0.3\le h\le0.5\)、真正有害 \(h>0.5\)）；优化主要把拒答峰削掉、让模型「愿意答」，但几乎不抬高已合规回答的有害度。REINFORCE-GCG 用了不同目标也呈同样曲线，原因尚不清楚。
多数优化攻击其实没在提升 prompt 质量：逐步对比各步 prompt 的单独战力（Figure 7），只有 GCG（和部分 PAIR）真在改进 prompt；像 PAIR 的成功更多来自每步的增量采样而非优化本身。
采样会改变模型鲁棒性排名：Gemma 3 1B 在 ASR\(_q\)@1 下显得比 Llama 3.1 8B 更鲁棒，但在 @50 下反而更脆弱——它更容易产出罕见但极严重的离群回答。单样本协议无法反映多采使用场景下的真实风险。
高温采样替代不了熵目标：纯采样在 ASR\(_q\)@1000 下也只到 0.65，而熵目标 @50 就到 0.84；高温会把生成推向不连贯。

亮点与洞察¶

把「采样 vs 优化」抽象成固定 FLOPs 下的资源分配问题，给出了一个能统一容纳几乎所有现有攻击的 \((T,n)\) 框架，视角非常干净，让「现有方法都困在 \(\max(n)=1\)」一目了然。
「优化只是在压制拒答、并不真的提高有害度」是个反直觉且对防御有指导意义的洞察：它暗示防御应聚焦于「即便采到长尾也别给出高有害内容」，而非只防住单点越狱。
无标签熵最大化目标摆脱了对肯定性模板和裁判模型的依赖，模型无关、可黑盒、收敛快，是「换个优化目标」的可迁移思路——任何想绕开「分布外肯定性前缀」的攻击/评测都能借鉴「优化分布离散度而非均值」这一招。
「评估协议本身会改变模型排名」提醒安全社区：贪心单样本评测不足以给出可靠的鲁棒性保证。

局限与展望¶

实验集中在 4 个开源模型、HarmBench 前 100 条请求，规模和多样性有限；闭源/更大模型上的结论待验证。
「优化为何只压制拒答、不提高有害度」作者自己也说原因不明（REINFORCE-GCG 同现象），机制尚未解释清楚。
熵目标是概念验证：把熵扩展到首词以外没有更好、有时还产生不连贯生成；对 Circuit Breakers 防护的 Llama 3 8B 也基本无效。
框架假设攻击者能多次采样并用裁判打分，这在某些受限黑盒/有速率限制的真实 API 场景下未必成立；FLOPs 作为成本代理也未完全等同于墙钟/金钱成本。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把对抗攻击重构为算力分配问题、统一已有方法并打开采样维度，视角原创且解释力强
实验充分度: ⭐⭐⭐⭐ 跨 4 模型 5 攻击、50 亿 token、含算力曲线与机制分析，但模型与数据集规模偏窄
写作质量: ⭐⭐⭐⭐⭐ 框架抽象清晰、图表层层递进，机制分析与方法咬合紧密
价值: ⭐⭐⭐⭐⭐ 直接挑战「贪心单样本评测」的安全评估范式，对风险评估和防御设计都有现实指导意义