On the Robustness of Verbal Confidence of LLMs in Adversarial Attacks¶

会议: NeurIPS 2025
arXiv: 2507.06489
代码: 无
领域: AI安全
关键词: verbal confidence, 对抗攻击, LLM robustness, 置信度校准, 越狱攻击

一句话总结¶

首次系统研究 LLM 语言化置信度（verbal confidence）在对抗攻击下的鲁棒性，提出基于扰动和越狱的攻击框架，揭示攻击可导致置信度下降最高 30%、答案翻转率高达 100%，且现有防御策略基本无效。

研究背景与动机¶

领域现状：随着 LLM 广泛部署，获取模型对自身预测的置信度估计变得至关重要。由于大多数 SOTA LLM 不开放 logit 访问，verbal confidence（让模型用自然语言输出一个数值置信度）成为最实用的置信度获取方式，已被工业界多个系统采用（如 TLM、云故障根因分析、客户对话评分等）。

现有痛点：已有大量工作研究 verbal confidence 的校准和机制，但几乎没有工作关注其在对抗攻击下的鲁棒性——即攻击者是否能通过微小输入修改来操纵模型输出的置信度分数。

核心矛盾：verbal confidence 的易获取性（任何黑盒用户都能拿到）恰好成为攻击者的利器：攻击者可以利用这些分数作为优化信号来制造对抗样本，不需要任何模型内部信息。这与传统需要 logit 的对抗攻击形成鲜明对比。

本文要解决：(i) verbal confidence 在各类对抗攻击下有多脆弱？ (ii) 如何有效地制造针对置信度的攻击？ (iii) 现有防御手段能否缓解这类攻击？

切入角度：作者观察到即使语义保持不变的微小扰动（如错别字、同义词替换）就能显著改变模型输出的置信度数值，这说明 LLM 的 verbal confidence 并不稳健。

核心 idea：设计专门以 verbal confidence 为优化目标的攻击框架（VCA），包括扰动式和越狱式两大类，全面评估 LLM 置信度表达的安全隐患。

方法详解¶

整体框架¶

输入为用户查询 \(\mathbf{X}\)、任务提示 \(\mathcal{P}\)；LLM 生成回答 \(\mathcal{Y}\) 和置信度 \(\mathcal{C}\)。攻击目标是在保持语义不变的约束下，生成对抗输入使 \(\mathcal{C}\) 最小化：\(\min_{\hat{\mathbf{X}}} \text{CEM}(\text{LLM}(\hat{\mathbf{X}}, \mathcal{P}))\)，s.t. \(\text{Sim}(\mathbf{X}, \hat{\mathbf{X}}) > \tau\)。攻击可针对三种威胁向量：用户查询、系统提示、one-shot 示例。

关键设计¶

置信度引出方法（CEM）:
- 定义四种 CEM：Base（直接输出答案+置信度）、CoT（链式思维后输出）、Multi-Step（分步打分再汇总）、Self-Consistency（多次采样取平均）
- 核心思路：CEM 是从输出 token 序列到数值置信度的映射 \(\text{CEM}: \mathcal{Y} \to \mathcal{C}\)
- 设计动机：覆盖不同复杂度的置信度获取策略，全面评估攻击效果
扰动式攻击（VCA-TF / VCA-TB / Typos / SSR）:
- VCA-TF 基于 TextFooler 改造，先按 token 对置信度的重要性排序，再对最重要的 token 做同义词替换
- VCA-TB 基于 TextBugger，额外支持字符级修改（拼写错误、相似字符替换等）
- Typos：随机引入常见拼写错误（键盘邻键、字符删除、相邻字符交换），概率 0.1
- SSR（SubSwapRemove）：随机进行同义词替换、相邻 token 交换或删除
- 关键改进：原始算法使用 logit 类别概率作为评分函数，本文改为使用 verbal confidence 数值
越狱式攻击（ConfidenceTriggers / ConfidenceTriggers-AutoDAN）:
- ConfidenceTriggers：使用遗传算法优化一组 trigger token，附加到系统提示后，使后续所有查询的置信度降低
- 完全黑盒：不需要模型权重或 tokenizer，仅需 verbal confidence 反馈
- 初始种群从约 2000 个与"不确定性"相关的词汇中抽样，经过锦标赛选择、交叉、变异迭代优化
- AutoDAN 变体：生成更自然的 trigger 文本，使用 GPT-4 进行句子级改写实现交叉/变异
- 一旦优化完成，trigger 可无限复用于任意查询

攻击向量对比¶

系统提示和示例比用户查询更容易被攻击——前者更有效地降低置信度，后者更容易导致答案翻转。这意味着 prompt 注入攻击的威胁尤为突出。

实验关键数据¶

主实验：扰动式攻击效果¶

攻击方法	模型	平均 Δ 置信度	受影响样本%	受影响样本 Δ Cf.	正确→翻转%	错误→翻转%
VCA-TF	Llama-3-8B	5.3%	30.4%	最高 70%	最高 68.8%	最高 100%
SSR	Llama-3-8B	6.9%	41.7%	最高 60.8%	最高 100%	最高 100%
VCA-TB	GPT-3.5	6.9%	35.8%	最高 29.3%	最高 38.3%	最高 83.1%
Typos	GPT-3.5	6.5%	40.5%	最高 35.8%	最高 62.2%	最高 83.1%

越狱攻击效果（ConfidenceTriggers，Llama-3-8B）¶

CEM	数据集	Δ 置信度	受影响%	正确→翻转%
CoT	TQA	29.5%	66.0%	100%
MS	TQA	24.9%	97.5%	100%
Base	MQA	8.7%	33.5%	28.4%
CoT	SQA	24.7%	72.5%	22.7%

防御效果（ConfidenceTriggers-AutoDAN, Llama-3-8B）¶

防御方法	对原始样本的影响 Δ Cf.	对对抗样本的减轻 Δ Adv.	结论
Paraphrase	高达 -24.8%（严重干扰正常样本）	6.4%~53.2%	防御本身破坏正常行为
SmoothLLM	高达 -14.4%	0%~15.8%	类似，副作用严重
困惑度过滤	对抗样本困惑度(350)远低于真实世界文本(457)	-	无法有效区分

关键发现¶

Multi-Step CEM 因初始置信度较低，最容易被攻击（Δ Cf. 最大）
较大模型（GPT-3.5 / GPT-4o / Llama-3-70B）不见得更鲁棒，VCA-TB 在 GPT-3.5 上平均影响 40.5% 样本
置信度的降低与答案翻转并不完全绑定——置信度可在答案不变的情况下大幅下降
攻击产生的置信度异常与 token logit 概率的错位加剧，损害模型诚实性

亮点与洞察¶

首次系统研究 verbal confidence 的对抗鲁棒性：填补了 LLM 安全领域的重要空白，之前所有对抗攻击工作都聚焦于准确率或 logit 置信度
ConfidenceTriggers 的通用性：只需优化一次 trigger，即可对任意后续查询降低置信度，类似"一次注入，永久生效"的 prompt 后门
防御困境的深刻揭示：输入扰动防御（paraphrase、SmoothLLM）对正常样本的副作用太大，困惑度过滤无法区分对抗样本和真实世界噪声文本，LLM-Guard 过滤率也很低
置信度稳定性的反直觉发现：即使删除大部分 token，置信度变化通常 <15%，说明有效攻击需要精确优化而非简单破坏输入

局限与展望¶

由于攻击成本高，大模型（GPT-4o、70B）实验规模有限，仅用子集验证
主要聚焦字符/词级攻击，句子级攻击尚未探索
只研究了置信度降低方向，提升置信度的攻击（导致过度自信）也值得关注
测试数据集生态效度偏低（MCQA 格式），开放式生成场景未覆盖
未提出有效的防御方案——论文主要是攻击+现有防御失败的分析，缺少建设性解决方案

评分¶

新颖性: ⭐⭐⭐⭐ 首次将对抗攻击系统性地应用于 verbal confidence，问题定义清晰且有实际意义
实验充分度: ⭐⭐⭐⭐⭐ 4 种扰动攻击 + 2 种越狱攻击 × 4 种 CEM × 3 数据集 × 多模型，极其全面
写作质量: ⭐⭐⭐⭐ 结构清晰，公式化定义完整，但表格数据量巨大读起来有些累
价值: ⭐⭐⭐⭐ 揭示了一个重要的安全盲区，但缺乏有效防御方案略显遗憾