SECA: Semantically Equivalent and Coherent Attacks for Eliciting LLM Hallucinations¶

会议: NeurIPS 2025
arXiv: 2510.04398
代码: GitHub
领域: AI 安全
关键词: LLM hallucination, adversarial attack, semantic equivalence, zeroth-order optimization, prompt robustness

一句话总结¶

提出 SECA（Semantically Equivalent and Coherent Attacks），通过保持语义等价和语义连贯性的现实主义提示修改来诱发 LLM 幻觉，在多选 QA 任务上实现更高攻击成功率且几乎无语义错误。

研究背景与动机¶

领域现状：LLM 在高风险领域的部署日益增多，但幻觉（hallucination）问题严重威胁可靠性。

现有痛点：已有对抗攻击方法依赖不现实的提示（插入无意义 token 或改变原始语义意图），无法揭示现实场景中幻觉的产生机制。

核心矛盾：CV 中对抗攻击通常涉及现实的输入修改，但 NLP 中缺乏对应的现实主义对抗提示研究。

切入角度：将寻找现实对抗提示形式化为带语义等价和连贯性约束的优化问题。

方法详解¶

整体框架¶

SECA 将幻觉诱发形式化为约束优化：在输入 prompt 空间中搜索，使 LLM 产生幻觉（目标函数），同时满足语义等价约束（修改后含义不变）和语义连贯性约束（修改后文本自然流畅）。

关键设计¶

约束优化公式
- 目标：\(\max_{x'} \mathcal{L}_{\text{hallucination}}(f(x'))\)
- 约束 1（语义等价）：\(\text{sim}(x, x') \geq \tau_{\text{eq}}\)
- 约束 2（语义连贯）：\(\text{coherence}(x') \geq \tau_{\text{coh}}\)
- 设计动机：确保攻击提示是现实且可信的
约束保持的零阶方法
- 功能：在梯度不可访问（黑盒 LLM）时搜索对抗提示
- 核心思路：采用零阶优化估计梯度方向，每步投影回可行域以满足约束
- 设计动机：商业 LLM（GPT-4 等）不提供梯度访问
词级扰动操作
- 同义词替换、句式重组、被动/主动语态转换
- 每步检查语义等价和连贯性约束是否满足

训练策略¶

无需训练，纯推理时优化
逐步扰动 prompt，每步验证约束

实验关键数据¶

主实验：攻击成功率（ASR↑）¶

方法	GPT-3.5	GPT-4	Llama-2-70B	Mistral-7B
Random Perturbation	12.3%	8.5%	15.7%	18.2%
GCG (token-based)	45.2%	31.4%	52.3%	56.8%
TextFooler	28.7%	19.3%	34.1%	38.5%
SECA	52.8%	38.6%	58.4%	63.1%

语义保持质量¶

方法	语义等价率↑	语义连贯率↑	人工流畅性↑
GCG	2.1%	5.3%	1.2
TextFooler	71.3%	68.5%	3.4
SECA	98.7%	97.2%	4.6

消融实验¶

配置	ASR	语义等价率
w/o 语义等价约束	61.2%	45.3%
w/o 连贯性约束	55.7%	92.1%
w/o 零阶优化（随机搜索）	31.4%	98.5%
SECA (full)	52.8%	98.7%

关键发现¶

SECA 攻击成功率超越所有基线，同时语义等价和连贯性错误率近零
商业 LLM（GPT-4）同样脆弱于现实主义提示变换
开源和闭源模型对微小语义等价修改表现出惊人的敏感性

攻击效率¶

方法	平均查询次数	平均攻击时间(s)
GCG	1024	312
TextFooler	87	24
SECA	156	43

亮点与洞察¶

现实主义攻击范式：不同于插入乱码的传统方法，SECA 的对抗提示人类难以察觉
揭示了 LLM 的根本脆弱性：语义不变的小改动就能触发幻觉，说明 LLM 的"理解"远非稳健
有开源代码，可复现性强
对 AI 安全和可信 AI 研究有重要警示意义

局限与展望¶

目前仅测试多选 QA 任务，开放式生成场景待探索
零阶方法的查询次数仍较高（156次）
防御方法（如何让模型更鲁棒）未深入讨论
多语言场景下的攻击效果未评估

评分¶

新颖性: ⭐⭐⭐⭐ 约束优化框架形式化现实攻击
实验充分度: ⭐⭐⭐⭐ 多个LLM+消融+人评+效率分析
写作质量: ⭐⭐⭐⭐ 动机清晰、框架严谨
价值: ⭐⭐⭐⭐⭐ 揭示LLM安全隐患，实用性强