跳转至

One Token Embedding Is Enough to Deadlock Your Large Reasoning Model

会议: NeurIPS 2025
arXiv: 2510.15965
代码: GitHub
领域: LLM推理 / AI安全
关键词: 对抗攻击, 推理模型安全, 资源耗尽攻击, backdoor attack, Chain-of-Thought

一句话总结

本文提出 Deadlock Attack,通过优化单个对抗性 token embedding 并以后门方式植入 LRM,使模型在推理时陷入永久思考循环(无限生成 "Wait"、"But" 等过渡词),在 4 个 LRM 和 3 个数学推理 benchmark 上实现 100% 攻击成功率,且对正常输入几乎无性能影响。

研究背景与动机

领域现状:大型推理模型(LRM)通过 CoT 多步推理在数学、编程等复杂任务上取得显著进步,但这种迭代思考机制天然存在"过度思考"倾向——对简单问题也生成冗长推理链。

现有痛点:现有对 LRM 的对抗攻击主要关注准确性(诱导错误输出)或安全性(jailbreak),但几乎无人关注推理过程本身作为攻击面——LRM 的 test-time 计算扩展特性可被恶意利用为资源耗尽攻击。

核心矛盾:LRM 的推理机制是一把双刃剑——它赋予模型强大推理能力,但也引入了新的脆弱性:若推理过程被劫持进入无限循环,模型将耗尽全部计算资源而无法输出答案,构成实际的 DoS 攻击。

本文目标 (a) 能否通过修改单个 token embedding 让 LRM 陷入永久推理循环? (b) 如何将连续空间的对抗性 embedding 转化为可实际部署的离散触发器? (c) 攻击能否同时保持隐蔽性(正常输入不受影响)?

切入角度:作者发现 LRM 在生成推理步骤后跟标点符号(如"."、"?")时,如果被强制生成过渡词(如"Wait"、"But"),会阻止模型结束推理,从而陷入永久循环。这一观察构成攻击的设计基础。

核心 idea:优化一个对抗性 embedding 使 LRM 在每个推理步骤结束后都生成过渡词而非结论,然后通过后门机制将该 embedding 植入模型的词表中,实现通过特定触发词远程激活的资源耗尽攻击。

方法详解

整体框架

Deadlock Attack 分两阶段:Phase 1 — 在连续 embedding 空间中优化一个对抗性前缀 \(\mathbf{e}_{adv} \in \mathbb{R}^{L \times d}\),使模型在标点后高概率生成过渡词而非终止推理;Phase 2 — 通过后门机制将优化好的 embedding 注入到模型词表中作为特定触发 token 的表示,发布被污染的模型。攻击者只需在查询前加上触发 token 即可远程激活攻击。

关键设计

  1. 对抗性 Embedding 优化:

    • 功能:学习一个通用的 embedding 前缀,使其 prepend 到任意输入时都能劫持模型推理过程
    • 核心思路:定义过渡词集合 \(\mathcal{T}_{trans}\) = {"Wait", "But"} 和标点集合 \(\mathcal{T}_{punct}\) = {".", "?"};对答案中每个标点 token 位置 \(a_j\),最大化下一个 token 来自 \(\mathcal{T}_{trans}\) 的概率 \(\mathbb{P}_{trans}(a_j) = \frac{1}{|\mathcal{T}_{trans}|} \sum_{t \in \mathcal{T}_{trans}} p(t | \mathbf{z}_j)\)
    • 设计动机:通过反复推迟结论生成,使模型永远无法进入"输出答案"阶段,消耗全部 token budget
  2. 连续-离散投影差距 (Projection Gap) 的发现与解决:

    • 功能:揭示了将连续对抗 embedding 映射到最近邻离散 token 时攻击效果被消除的关键挑战
    • 核心思路:通过线性模式连通性(LMC)分析发现,投影误差通常超过了对抗 embedding 的扰动容忍范围;尝试的补救方法(训练时加高斯噪声、迭代投影步骤)均无法完全弥合差距
    • 设计动机:这一发现解释了为什么直接的 adversarial prompt 攻击难以奏效,也为后门方案提供了动机
  3. 后门植入策略:

    • 功能:将优化好的对抗 embedding 直接写入模型的 embedding 矩阵中,替换某个预定义触发 token 的表示
    • 核心思路:选择一个不常用的 token 作为触发器,将其 embedding 替换为 \(\mathbf{e}_{adv}\);由于只修改了特定 token 的 embedding 而非模型参数,当触发 token 不出现时模型行为完全正常
    • 设计动机:完美绕过了连续-离散投影差距——不需要投影,直接在模型中植入连续 embedding

训练策略

  • 仅需 1 个训练样本即可收敛,但需约 20 个样本保证泛化到未见输入
  • 即使 \(L=1\)(单个 token embedding)也能实现 100% 攻击成功率

实验关键数据

主实验(4个LRM × 3个benchmark,最大生成4000 tokens)

模型 数据集 正常ASR 攻击ASR 正常Avg Tokens 攻击Avg Tokens
Phi-RM GSM8K 0.0% 100% 867 4000
Nemotron-Nano GSM8K 4.0% 100% 955 4000
R1-Qwen MATH500 6.98% 100% 917 4000
R1-Llama MMLU-Pro 4.0% 100% 1219 4000

隐蔽性评估(无触发器时的准确率,正常 vs 植入后门的模型)

模型 GSM8K (正常→DA) MATH500 (正常→DA) MMLU-Pro (正常→DA)
Phi-RM 94.0→96.0 88.4→90.7 86.0→76.0
R1-Qwen 80.0→82.0 90.7→93.0 90.0→82.0
R1-Llama 80.0→76.0 93.0→83.7 82.0→80.0

关键发现

  • 100% 攻击成功率:所有 4 个 LRM 在 3 个 benchmark 上均达到 100% ASR,模型始终生成到最大 token 上限
  • 现有防御无效:CoD、CCoT、NoThinking 等 test-time 效率优化策略均无法抵御攻击,ASR 仍保持 100%
  • 高隐蔽性:未触发时模型准确率与原始模型基本一致,难以通过标准评测检测
  • 单 token 即可\(L=1\) 即足够,且仅需 20 个训练样本即可泛化

亮点与洞察

  • 攻击面全新:首次将 LRM 的推理机制本身作为攻击目标,不是让模型输出错误答案或有害内容,而是让它"永远思考下去"——这在实际部署中构成严重的 DoS 威胁。
  • 连续-离散投影差距的发现:通过 LMC 分析系统性地解释了为什么连续空间的对抗扰动难以映射为有效的离散 prompt,这一发现对整个 adversarial NLP 领域都有参考价值。
  • 后门植入方案巧妙:只修改 embedding 矩阵中一个 token 的向量,不改变模型任何其他参数,实现了"精确外科手术式"的攻击植入,隐蔽性极高。

局限与展望

  • 白盒假设较强:需要完全访问模型参数并修改 embedding 矩阵,限制了对闭源模型的适用性;作者自己也提到未来探索黑盒场景的 zeroth-order 优化。
  • 触发 token 可被检测:如果部署者对 embedding 矩阵做异常检测(如检查每个 token embedding 与训练前的偏移量),理论上可以发现被篡改的 token。
  • 评测规模有限:主实验每个 benchmark 仅使用 50 个样本(MATH500 用 43 个),虽然 ASR=100%,但统计意义可以更强。
  • 单一攻击目标:当前只探索"无限循环"一种攻击模式,是否可以精确控制思考时间(如恰好消耗 N 倍计算资源)、或在循环中植入错误推理步骤,值得探索。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 全新攻击面,将推理过程本身作为安全漏洞,连续-离散投影差距的发现也有理论价值
  • 实验充分度: ⭐⭐⭐⭐ 4个模型3个benchmark全覆盖,消融充分,但单benchmark样本数偏少
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,threat model 定义规范,故事线流畅
  • 价值: ⭐⭐⭐⭐⭐ 对 LRM 部署安全有重要警示意义,后门植入方案具有实际威胁性