🔒 LLM 安全¶
💬 ACL2026 · 115 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (12) · 🔬 ICLR2026 (184) · 🤖 AAAI2026 (41) · 🧠 NeurIPS2025 (81) · 📹 ICCV2025 (10) · 🧪 ICML2025 (41)
🔥 高频主题: LLM ×42 · 对抗鲁棒 ×22 · 水印/隐写 ×10 · 多模态 ×10 · 推理 ×9
- STELA: A Linguistics-Aware LLM Watermarking via Syntactic Predictability
-
STELA 用 POS n-gram 估计的「语言学不确定度」\(\lambda(c_t)\) 作为水印强度调制信号,在语法约束高的位置弱化水印(保质量)、在语法自由位置增强水印(提检测力),与 KGW 一样仅靠 POS 分析器即可公开验证,无需访问模型 logits。
- A Survey on the Safety and Security Threats of Computer-Using Agents: JARVIS or Ultron?
-
本文给"计算机使用智能体 (CUA)"的安全研究做了第一次系统化梳理,把 124 篇相关论文整理成"内在威胁 × 外在威胁 × 防御 × 评测"四维分类框架,并指出现有 CUA 的最大缺口是 UI grounding 鲁棒性与跨平台对抗评测。
- Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL
-
Abstain-R1 提出一种澄清感知的 RLVR 奖励,在不可回答查询上联合优化"明确拒答"和"拒答后给出有用澄清(指出缺失信息)",使 3B 模型在拒答和澄清质量上接近甚至超越 DeepSeek-R1 等大模型。
- ACIArena: Toward Unified Evaluation for Agent Cascading Injection
-
本文构造了首个针对"代理级联注入 (Agent Cascading Injection, ACI)"攻击的统一评测框架 ACIArena,覆盖 6 个主流多智能体系统 (MAS)、3 大攻击面 (Adversarial Input / Malicious Agent / Message Poison)、3 大攻击目标 (Hijacking / Disruption / Exfiltration) 的 1356 个测试用例,并提出极简但有效的防御 ACI-Sentinel,把 Hijacking 攻击成功率从 92.78% 压到 8.06%。
- Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization
-
提出自适应文本匿名化框架,通过进化式提示优化自动为LLM发现任务特定的匿名化指令,在多个隐私-效用权衡场景中超越手工设计的策略,且可在开源模型上运行。
- ADVICE: Answer-Dependent Verbalized Confidence Estimation
-
本文通过 JSD 与归因分析诊断出 LLM 口头置信度过自信的根因是「置信度几乎不依赖于自己生成的答案」,并提出基于对比答案对的轻量微调框架 ADVICE,用 JSD/Margin/Sum 三项损失强迫置信度分布对正确答案显著高于错误答案,在保持任务精度的同时把 Gemma2-9b 在 TriviaQA 的 ECE 从 21.9% 压到 6.2%。
- AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios
-
AgentCoMa 构造了一个把常识选择和单步数学运算强制组合起来的 agentic benchmark,并在 61 个 LLM 上发现:模型通常能分别做对两个子问题,但组合后平均准确率从“两个子步都能独立答对”的 80% 掉到 51%,暴露出混合类型组合推理中的显著脆弱性。
- AgentMark: Utility-Preserving Behavioral Watermarking for Agents
-
AgentMark 把 LLM agent 的「下一步选什么 tool / subgoal」建模为一个时间变化的离散信道,通过显式 elicit 行为分布 \(P_t\) 并应用 FDPSS 式分布保持采样把多比特 ID 嵌入 planning 决策,配合 RLNC 编码使得即便 trace 被裁剪/删步也能从残余日志恢复水印;在 ALFWorld、ToolBench、OASIS 三类任务上既不掉准确率(保持任务 SR 与 baseline 差异 <0.7 pp),又能稳定提供 1.2-2.3 bps 的多比特容量,且与 SynthID-Text 的内容层水印正交可叠加。
- AGSC: Adaptive Granularity and Semantic Clustering for Uncertainty Quantification in Long-text Generation
-
AGSC 提出了一个针对长文本生成的不确定性量化框架,通过 NLI 中立概率触发自适应粒度分解(减少 60% 推理时间),并使用 GMM 软聚类捕捉潜在语义主题进行主题感知的加权聚合,在 BIO 和 LongFact 基准上达到 SOTA 的事实性相关性。
- APPSI-139: A Parallel Corpus of English Application Privacy Policy Summarization and Interpretation
-
APPSI-139 是首个由法律专家精细标注的英文应用隐私政策摘要与解释平行语料(139 篇政策 / 36,351 条标注 / 15,692 对改写),配套提出的 TCSI-pp-V2 框架用共享编码器 + 5 个交替训练的专家头实现"重要 / 风险 / 敏感 / 主题 / 改写"五子任务,相比 TCSI-pp v1 编码时间砍 73%、显存从 7.3GB 降到 2.7GB,可读性主观投票胜过 GPT-4o / Llama3-70b。
- ASTRA: An Automated Framework for Strategy Discovery, Retrieval, and Evolution for Jailbreaking LLMs
-
ASTRA 把每次越狱尝试都视为学习机会,按 1-10 连续打分把策略蒸馏到「Effective / Promising / Ineffective」三层向量库中,下一次攻击通过相似度检索复用经验,平均仅 2.4 次查询就在 8 个主流 LLM 上取得 80.6% 攻击成功率。
- ATAAT: Adaptive Threat-Aware Adversarial Tuning Framework against Backdoor Attacks on Vision-Language-Action Models
-
ATAAT 首次系统揭示 VLA 后门难以注入的根因是「梯度干涉」(良性与后门梯度方向反向相消,相似度长期负相关 -0.4),并通过隐式正交扰动(数据投毒)和休眠神经元锚定(白盒微调)两条互补路径把目标攻击成功率推到 80%+,同时保持良性 SR 接近正常。
- AutoRAN: Automated Hijacking of Safety Reasoning in Large Reasoning Models
-
本文提出首个自动化攻击 LRM 内部安全推理的框架 AutoRAN:用一个弱但少对齐的小模型先模拟目标 LRM 的「执行推理」生成叙事性 prompt,再根据目标拒绝时泄露的 CoT 反馈迭代精炼,在 gpt-o3 / o4-mini / Gemini-2.5-Flash 上对 AdvBench、HarmBench、StrongReject 达到接近 100% 的攻击成功率,且常常只需 1 轮。
- Before Forgetting, Learn to Remember: Revisiting Foundational Learning Failures in LVLM Unlearning Benchmarks
-
作者指出现有 LVLM unlearning benchmark(FIUBench / MLLMU-Bench / CLEAR)在 stage 1 fine-tune 阶段就没把虚构身份真的记住,导致 stage 2 的「遗忘」评估全部失效;他们诊断出根因是「数据重复不够 + multi-hop curse」,由此提出 ReMem——每个身份 100 QA × 100 张多视角图、70%∶30% 的单跳/多跳混合、新增 Exposure 内部概率度量,把 unlearning 评测重新建立在「真的学会了」的基础上。
- Beyond End-to-End: Dynamic Chain Optimization for Private LLM Adaptation on the Edge
-
提出 ChainFed,一种打破内存墙的链式联邦微调范式,通过逐层顺序训练-冻结适配器使资源受限边缘设备也能参与 LLM 微调,结合动态层协调、全局感知优化和功能导向自适应三项技术,平均准确率提升最高 46.46%。
- Beyond Explicit Refusals: Soft-Failure Attacks on Retrieval-Augmented Generation
-
形式化定义 RAG 系统的"软失败"威胁(生成流畅但无信息量的回答),提出 DEJA 黑箱进化攻击框架,通过对抗性文档诱导模型利用安全对齐机制产生模棱两可的回答,SASR 超过 79% 且高度隐蔽。
- Calibration vs Decision Making: Revisiting the Reliability Paradox in Unlearned Language Models
-
这篇论文说明机器遗忘后的 LLM 即使保持很低的校准误差,也可能更多依赖数据集捷径 token 做选择,因此只用 ECE/MCE/Brier 判断 unlearned model 是否可靠是不够的。
- Can Persona-Prompted LLMs Emulate Subgroup Values? An Empirical Analysis of Generalisability and Fairness in Cultural Alignment
-
本文用新加坡的 World Values Survey 子集为案例,构造 20,877 个 (问题, 子群体) 样本,验证 LLM 是否能模拟细粒度人口子群的价值偏好——结果 GPT-4.1 zero-shot 仅 57.4% 准确率,简单 SFT 在 OOD 子群上平均涨 17.4%,但 NMAE 视角下子群差距反而扩大,模型对年轻/男性/华人/基督徒持续偏好。
- CAP: Controllable Alignment Prompting for Unlearning in LLMs
-
提出 CAP 框架,通过训练轻量 SLM 生成可控的提示前缀来引导冻结的 LLM 选择性遗忘目标知识,无需修改模型参数,实现了可逆、可迁移的 LLM 知识遗忘。
- CarO: Chain-of-Analogy Reasoning Optimization for Robust Content Moderation
-
提出 CarO(Chain-of-Analogy Reasoning Optimization),一个两阶段训练框架,通过 RAG 引导生成类比推理链 + SFT + 定制 DPO 优化,使 LLM 在推理时自主生成类比参考案例进行内容审核,在模糊审核基准上 F1 平均提升 24.9%,显著超越推理模型(DeepSeek R1)和专用审核模型(LLaMA Guard)。
- CausalDetox: Causal Head Selection and Intervention for Language Model Detoxification
-
CausalDetox 使用"必要性和充分性概率"(PNS)作为因果准则来精确定位产生有毒内容的注意力头,并通过局部推理时干预和 PNS 引导的微调两种互补策略进行去毒化,在多个模型上实现最高 5.34% 的毒性降低,同时保持语言流畅性。
- CI-Work: Benchmarking Contextual Integrity in Enterprise LLM Agents
-
基于上下文完整性(Contextual Integrity)理论构建企业场景基准 CI-Work,揭示前沿 LLM 智能体在企业工作流中普遍存在隐私泄漏问题,且模型规模扩大反而加剧泄漏。
- CiPO: Counterfactual Unlearning for Large Reasoning Models through Iterative Preference Optimization
-
针对大型推理模型(LRM)的遗忘难题——需要同时从思维链(CoT)和最终答案中移除敏感知识——提出 CiPO 框架,通过让模型生成逻辑有效的反事实推理轨迹并用迭代偏好优化引导模型偏好反事实路径,实现有效遗忘同时保持推理能力。
- Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors
-
本文提出 STEEREDIT,将动态激活转向编译为静态权重修改的后门注入框架,通过提取顺从方向并利用零空间约束确保仅在触发词存在时激活,在多个安全对齐 LLM 上实现高攻击成功率同时保持非触发场景下的安全性和通用性。
- Context-Fidelity Boosting: Enhancing Faithful Generation through Watermark-Inspired Decoding
-
CFB 把文本 watermark 用的 logit 加性偏置技术反向利用——在解码每步给"被输入上下文支持"的 token 加 bonus,提出 static / context-aware(用 JSD 自适应缩放)/ token-aware(用注意力 + 语义相关性再分配)三层渐进策略,在多模型多任务的摘要和 QA 上稳定提升 faithfulness 指标,且几乎无解码开销。
- CRISP: Persistent Concept Unlearning via Sparse Autoencoders
-
针对 SAE-based unlearning 大多只在推理时干预、参数仍含敏感知识的问题,CRISP 通过对比 target/retain 语料自动挑出"只在 target 上强激活"的 SAE 特征,再用 LoRA + 三段式损失(unlearn + retain + coherence)把这些特征的激活值"焊死"为零,从而在 WMDP-Bio/Cyber 上同时刷新 unlearn-retain-fluency 三轴 Pareto 前沿,比 ELM 高 27-34 分,比 RMU 高 5-8 分。
- CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks
-
针对"图像和文本单独都安全、合起来才有害"的隐式跨模态攻击,提出基于 RL 红队的 ImpForge 自动批量生成此类样本(三种 reward:safety / semantic / overlap),再用这些数据 LoRA SFT 出 CrossGuard 守卫模型——把 SIUO 隐式攻击 ASR 从 GPT-4o 的 48.9% 降到 5.4%,同时在 5 个安全 benchmark 上平均 ASR 仅 2.79%(runner-up Claude-3.5 是 12.05%)。
- CURaTE: Continual Unlearning in Real Time with Ensured Preservation of LLM Knowledge
-
CURaTE 提出一种基于句子嵌入匹配的行为遗忘框架:预部署时训练一个通用的遗忘嵌入器(不使用任何遗忘集),部署后实时将新遗忘请求嵌入存入数据库,推理时通过余弦相似度决定是回答还是拒绝,完全不修改 LLM 权重从而实现近乎完美的知识保留。
- DART: Mitigating Harm Drift in Difference-Aware LLMs via Distill-Audit-Repair Training
-
DART 发现并解决了"危害漂移"问题——微调 LLM 提高差异感知分类准确率(如识别合法的人口统计差异)的同时,模型生成的解释变得更有害。通过蒸馏-审计-修复三阶段管线,DART 将 Llama-3-8B 准确率从 39.0% 提升到 68.8%,同时减少 72.6% 的危害漂移案例。
- De-Anonymization at Scale via Tournament-Style Attribution
-
本文提出 DAS(De-Anonymization at Scale),一种基于 LLM 的大规模作者去匿名化方法,采用锦标赛式淘汰策略+密集检索预过滤+多轮投票聚合,可在数万候选文本中进行作者匹配,揭示了 LLM 对匿名平台(如双盲评审)的隐私威胁。
- Decomposed Trust: Privacy, Adversarial Robustness, Ethics, and Fairness in Low-Rank LLMs
-
首篇系统评估低秩分解 (SVD/FWSVD/BASEL) 对 LLM 可信性影响的研究,发现"训练数据隐私 ↑、对抗鲁棒 ↑、PII 防护 ↓、伦理对齐 ↓、公平性 ↓"的非对称 trade-off,并用梯度归因把对抗脆弱性定位到
embed_tokens与down_proj两个子层。 - Detecting RAG Extraction Attack via Dual-Path Runtime Integrity Game
-
提出 CanaryRAG,一个受软件安全中栈金丝雀启发的 RAG 运行时防御机制,通过在检索块中注入非语义金丝雀 token 并设计双路径完整性博弈(目标路径不应泄露金丝雀 + Oracle 路径应能引出金丝雀),实时检测知识库提取攻击,在不影响任务性能和推理延迟的前提下实现最强防护。
- Detoxification for LLM from Dataset Itself
-
本文提出 HSPD(层次化语义保留去毒)流水线,通过 SoCD(软对比解码)引导 LLM 定位并重写原始语料中的有毒片段,同时保留语义,生成可直接替换原始数据用于微调的去毒语料——在 GPT2-XL 上将毒性概率从 0.42 降至 0.18,在 LLaMA2-7B、OPT-6.7B 和 Falcon-7B 上也取得了最优去毒效果。
- Differentially Private Synthetic Text Generation for Retrieval-Augmented Generation (RAG)
-
DP-SynRAG 用 LLM 把私有 RAG 数据库一次性蒸馏成差分隐私合成文本库,之后任意次查询都不再消耗 privacy budget,在 Medical Synth / MovieLens / SearchQA 三个数据集上 accuracy 远超 query-time DP-RAG(多查询场景下 DP-RAG 退化到崩盘)。
- Do Multimodal RAG Systems Leak Data? A Comprehensive Evaluation of Membership Inference and Image Caption Retrieval Attacks
-
作者首次系统评估了 图像驱动的多模态 RAG (mRAG) 系统的隐私泄露风险,证明仅靠最朴素的黑盒文本 prompt + 一张目标图就能在 4 个数据集 × 3 个 VLM 上达到 MIA F1=0.993 与 caption exact-match=0.835,即便对图像做裁剪/掩盖/旋转/噪声等变换攻击依然有效,并发现 prompt 中"目标图 vs 检索图"的相对位置和 cross-modal rerank 是两个关键缓解杠杆。
- DualGuard: Dual-stream Large Language Model Watermarking Defense against Paraphrase and Spoofing Attack
-
DualGuard 首次提出双流水印机制:用两个互补的标准 / 对抗水印头根据当前内容是"良性"还是"恶意"自适应地注入不同水印,使良性文本两路一致、恶意文本两路发散,从而在保持对 paraphrase 鲁棒的同时首次能检测并溯源 piggyback spoofing 注入的恶意片段。
- Evaluating Answer Leakage Robustness of LLM Tutors against Adversarial Student Attacks
-
本文系统评估 LLM 家教在「学生想骗答案」场景下的答案泄露鲁棒性:定义 6 类对抗/说服技巧,比较 4 类对抗学生代理(基础、推理增强、多代理、SFT 微调),并验证两种简单防御(推理优先、多代理 tutor)可在多数模型上把泄露率从 70–85% 压到 < 10%。
- Exploring Cross-Client Memorization of Training Data in Large Language Models for Federated Learning
-
作者把集中式 LLM 上的 fine-grained 跨样本记忆度量(Zeng 2024 + PAN2014 抄袭检测器)扩展到联邦学习场景,提出一对 client-pair 度量 \(\text{MR}_{j \to k}\) 并由此推导 intra-client / inter-client 记忆比率,发现 FL 并不能有效防止训练数据记忆——intra-client 记忆比 inter-client 高、但 FL vs CL 总记忆比并无明显下降,且记忆量受 prefix 长度、解码策略、FL 算法(FedProx > FedAvg)显著影响。
- FAITH: Factuality Alignment through Integrating Trustworthiness and Honestness
-
本文提出FAITH框架,通过将LLM的不确定性信号(一致性+语义熵)映射到自然语言描述的知识状态象限(可信度×诚实度),设计考虑不确定性的细粒度奖励函数进行PPO训练,再用RAG模块纠正潜在错误,系统性提升LLM的事实准确性。
- Fast-MIA: Efficient and Scalable Membership Inference for LLMs
-
Fast-MIA 把 9 种主流 LLM 成员推理攻击(MIA)方法塞进同一个 vLLM 批量推理引擎,并加一层跨方法 log-prob 缓存,使评测在 LLaMA-30B / WikiMIA 上整体加速约 5×(SaMIA 单方法加速 19.5×)、AUC 几乎不变,让大规模 MIA 审计第一次变得真的"跑得起"。
- FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation
-
FlexGuard 提出了一种输出连续风险评分(0-100)而非二元安全/不安全判断的 LLM 审核模型,通过基于评分准则的蒸馏和 GRPO 风险对齐训练,在不同严格度部署场景下实现了 SOTA 的鲁棒性和准确率。
- Forget What Matters, Keep the Rest: Selective Unlearning of Informative Tokens
-
提出 Entropy-guided Token Weighting (ETW),利用预测分布的熵值作为 token 信息量的代理指标,选择性地对信息性 token 施加更强的遗忘惩罚,在有效遗忘目标知识的同时更好地保持模型通用能力。
- From Domains to Instances: Dual-Granularity Data Synthesis for LLM Unlearning
-
本文形式化定义了领域级和实例级两种 LLM 遗忘粒度,提出 BiForget 框架——利用目标模型自身(而非外部强模型)通过种子引导合成和对抗探测两阶段生成高质量遗忘数据集,在 Harry Potter 领域将相关性提升约 20、多样性提升约 0.05 同时数据量减半。
- From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models
-
本文系统综述了 LLM 中不确定性量化从"被动诊断指标"到"主动控制信号"的功能演化,覆盖三大前沿领域:高级推理(引导计算分配和自我纠正)、自主代理(驱动工具使用和信息获取的元认知决策)、以及强化学习(缓解奖励黑客并通过内在奖励实现自我改进)。
- GAMBIT: A Gamified Jailbreak Framework for Multimodal Large Language Models
-
本文提出 GAMBIT,一种游戏化多模态越狱框架,通过将有害查询分解为拼图图像+隐藏关键词,并嵌入竞争性游戏场景,利用模型的推理激励和认知负荷来绕过安全过滤器,在 Gemini 2.5 Flash 上达到 92.13%、GPT-4o 上达到 85.87% 的攻击成功率,对推理模型和非推理模型均有效。
- Gap-K%: Measuring Top-1 Prediction Gap for Detecting Pretraining Data
-
这篇论文提出 Gap-K%,用目标 token 与模型 top-1 预测之间的归一化 log probability gap 加上顺序滑窗平滑来检测文本是否出现在 LLM 预训练数据中,在 WikiMIA、MIMIR、近期模型和强 paraphrase 攻击下都超过 Min-K%++ 等基线。
- ForgeryTalker: Generating Attribution Reports for Manipulated Facial Images
-
本文提出伪造归因报告生成(Forgery Attribution Report Generation)这一新任务,构建了包含 152,217 个样本的 MMTT 数据集(首个同时提供像素级掩码和人工文本描述的大规模面部伪造数据集),并提出 ForgeryTalker 端到端基线,通过共享编码器和双解码器(掩码+语言模型)联合生成定位掩码和归因报告,达到 59.3 CIDEr 和 73.67 IoU。
- Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment
-
本文首次揭示了 MLLM 在「视觉文本压缩」范式下的安全盲区——当渲染图像 DPI 落在 45–150 的 Attack Comfort Zone (ACZ) 时,模型 OCR 仍准但安全对齐崩塌(ASR 从 0% 飙至 70%+),原因是浅层算力被"认字"耗尽导致有害语义只在深层才出现,浅层 guardrail 被绕过;用 prompt 级的 Structured Cognitive Offloading(先转录→再审计→再回答)就能把 ASR 打回近基线水平。
- How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study
-
本文系统研究如何通过 SFT 增强大型推理模型(LRM)的安全性,发现直接蒸馏安全响应效果有限的根因是五种风险推理模式(尤其是"弱犹豫"),提出针对性的蒸馏策略将 PAIR 攻击成功率从 63% 降至 13%,并发现短推理链和模板推理在安全性上与长推理链表现相当。
- Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency
-
本文指出 LLM 的"高 self-consistency 不等于真实信念"——在 995 道全样一致答对的题上加一点点上下文干扰,准确率从 100% 直接掉到 33.8%。作者提出 Neighbor-Consistency Belief (NCB):把目标事实和它的"概念邻居(前提/蕴含/主题)"做联合一致性估计,作为信念鲁棒性的结构化代理;并基于 Asch 从众实验与 Source Credibility 理论设计了 cognitive stress-test 协议,在 4 个 LLM 上证明高 NCB 数据明显更抗干扰;进一步提出 Structure-Aware Training (SAT):用师生 KL 蒸馏强制学生模型在不同邻域上下文下输出一致,让新学知识的鲁棒性比 Ans/Know 增强基线再提升约 30%。
- Instant Personalized Large Language Model Adaptation via Hypernetwork
-
Profile-to-PEFT 用一个 hypernetwork 把用户画像直接映射成个性化 LoRA 参数,避免 OPPU 为每个用户重新训练 adapter,从而实现更快、更可扩展、可面向未见用户泛化的 LLM 个性化。
- Into the Gray Zone: Domain Contexts Can Blur LLM Safety Boundaries
-
本文发现领域特定上下文(如化学论文)会选择性放松 LLM 对相关有害知识的防护(纵向解锁),而安全研究上下文会触发跨所有有害类别的广泛防护放松(通用解锁),据此提出 Jargon 攻击框架,在包括 GPT-5.2、Claude-4.5 在内的七个前沿模型上实现超 93% 的攻击成功率。
- Jailbreaking Large Language Models with Morality Attacks
-
本文构建10.3K道德攻击数据集(价值模糊+价值冲突),通过四种对抗策略操纵LLM道德判断,发现LLM和guardrail模型对道德攻击极度脆弱,且更大模型反而更容易被攻破。
- Know Thy Enemy: Securing LLMs Against Prompt Injection via Diverse Data Synthesis and Instruction-Level Chain-of-Thought Learning
-
本文提出 InstruCoT,通过合成覆盖多种注入向量和威胁场景的多样化训练数据,并引入基于情境感知模型的三阶段指令级思维链微调,使 LLM 在面对各类提示注入攻击时能有效识别并拒绝恶意指令,在行为偏离、隐私泄露和有害输出三个维度上大幅超越现有防御方法。
- Knowledge Poisoning Attacks on Medical Multi-Modal Retrieval-Augmented Generation
-
作者提出 M3Att——首个面向医学多模态 RAG 的 query-agnostic 知识投毒框架,用"分布引导的视觉 PGD 触发"做检索劫持 + "临床歧义引导的文本改写"绕过 LVLM 自纠错,在 5 个 LVLM × 5 数据集 × 4 个医学任务上以 <1% 的投毒率(无需查询知识、视觉扰动 \(\epsilon=16/255\))平均把下游效用拉低 8.78%,且对图聚类 / 文本聚类 / 图文一致性等 3 种 pre-retrieval 防御鲁棒。
- LeakDojo: Decoding the Leakage Threats of RAG Systems
-
提出 LeakDojo——首个把 RAG 系统、攻击与防御都模块化解耦的可配置评测框架,在 6 种攻击 × 14 个 LLM × 4 个数据集 × 多种增强模块上系统量化 RAG 泄露风险,发现"指令跟随能力越强、泄露风险越高"且"RAG 忠实度与泄露风险正相关"。
- Learning Uncertainty from Sequential Internal Dispersion in Large Language Models
-
提出 SIVR 框架,通过计算 LLM 隐藏状态跨层的内部方差(广义方差、圆方差、token 熵)作为 token 级特征,用轻量 Transformer 编码器聚合全序列模式来估计不确定性/检测幻觉,显著优于基线且泛化更强。
- LLM-VA: Resolving the Jailbreak-Overrefusal Trade-off via Vector Alignment
-
LLM-VA 发现 LLM 内部把"是否回答"(answer 向量 \(v_a\))与"输入是否安全"(benign 向量 \(v_b\))编码成几乎正交的两个方向,导致 jailbreak 与 over-refusal 之间的取舍永远此消彼长;它通过闭式最小范数权重更新把 \(v_a\) 与 \(v_b\) 对齐,让模型"愿不愿答"因果依赖于"输入安不安全",在 12 个 LLM 上 F1 比最强 baseline 高 11.45%、效用仅掉 4.08%,且无需任何 fine-tuning 或架构改动。
- Look Twice before You Leap: A Rational Framework for Localized Adversarial Anonymization
-
提出 RLAA 框架,通过 Attacker-Arbitrator-Anonymizer 三角色架构和边际替代率(MRS)理性约束,解决对抗式文本匿名化迁移到本地小模型时的效用崩溃问题,无需训练即可在本地实现优于 API 方案的隐私-效用平衡。
- Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage
-
这篇论文提出认知合谋攻击这一安全问题:多个代理只公开发布真实但经过叙事编排的证据碎片,也能诱导 LLM 受害代理形成错误因果信念,并在下游验证层中继续传播。
- Making MLLMs Blind: Adversarial Smuggling Attacks in MLLM Content Moderation
-
本文揭示了多模态大模型内容审核中的"对抗走私攻击"(ASA)威胁——将有害内容编码为人可读但 AI 不可读的视觉格式来规避自动检测,构建了包含 1,700 个样本、9 种攻击技术的 SmuggleBench 基准,发现包括 GPT-5 在内的 SOTA 模型攻击成功率超过 90%。
- Maximizing Local Entropy Where It Matters: Prefix-Aware Localized LLM Unlearning
-
本文提出 PALU(Prefix-Aware Localized Unlearning),从时间和词表两个维度实现局部化的熵最大化遗忘:在时间维度仅对敏感前缀 token 施加遗忘目标,在词表维度仅对 top-K logits 进行平坦化,以最小的参数扰动实现高效遗忘并保持模型通用能力。
- Membership Inference Attacks on In-Context Learning Recommendation
-
首次系统研究 LLM-based ICL 推荐系统的成员推断攻击(MIA),设计 Similarity / Memorization / Inquiry / Poisoning 四种攻击,发现基于 LLM 内在 记忆 的 Memorization 攻击在 MovieLens-1M 上 attack advantage ≥ 82%,且现有 prompt-based 防御(包括针对 Poisoning)几乎拦不住。
- MemoPhishAgent: Memory-Augmented Multi-Modal LLM Agent for Phishing URL Detection
-
提出 MemoPhishAgent(MPA),首个专为钓鱼URL检测设计的记忆增强多模态LLM智能体,通过5个专用工具的动态编排和情景记忆系统复用历史推理轨迹,在公开基准上召回率提升13.6%,在真实社交媒体数据上提升20%,并已部署生产环境每周处理约6万高风险URL。
- Modeling LLM Unlearning as an Asymmetric Two-Task Learning Problem
-
把 LLM unlearning 显式建模为「retain 为主、forget 为辅」的非对称两任务问题,提出 SAGO——对 retain/forget 梯度做元素级符号对齐门控,在 WMDP 与 RWKU 上把 retention 性能逼近原模型,同时几乎不损失 forget 效果。
- Multi-component Causal Tracing in Large Language Models
-
这篇论文把 causal tracing 从单组件分析扩展到多组件子集搜索,并提出 PGB-CT 用软干预、指标变换和稀疏二值惩罚高效找到共同影响 LLM 行为的 attention heads 与 MLP neurons。
- MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models
-
MUSE 把跨模态 payload 生成、多轮红队攻击、统一模型路由和五级安全裁判整合成一个以 run 为中心的可复现实验平台,并用约 3700 次实验说明:多轮策略能击穿单轮几乎全拒答的多模态 LLM,而跨轮模态切换更像是加速防线松动的机制,不是普适提高最终 ASR 的银弹。
- On Safety Risks in Experience-Driven Self-Evolving Agents
-
本文系统研究经验驱动自进化Agent的安全风险,发现仅从无害任务积累的经验也导致安全性显著退化(ASR上升13-49%),根因是经验的执行导向本质强化了行动而非拒绝。
- PARASITE: Conditional System Prompt Poisoning to Hijack LLMs
-
PARASITE 将“从公开市场下载的系统提示词可能被植入条件触发后门”形式化为新的供应链威胁,并用全局语义搜索加词级贪心扰动在黑盒条件下生成高隐蔽、只在目标问题上劫持回答的系统提示。
- Permutation-Consensus Listwise Judging for Robust Factuality Evaluation
-
PCFJudge 将候选答案顺序视为 listwise 事实性评估中的干扰变量,通过对同一候选集运行 7 种排列并聚合分数、排序、top-set 投票和校准不确定性,在 RewardBench 2 Factuality 上相对单次直接评审提升最高 7 个百分点。
- PIArena: A Platform for Prompt Injection Evaluation
-
本文提出 PIArena,一个统一且可扩展的提示注入(Prompt Injection)评估平台,集成了多种 SOTA 攻击和防御方法,支持即插即用评估,并设计了基于策略的自适应攻击方法,系统性地揭示了现有防御在泛化性、自适应攻击和任务对齐场景下的关键局限。
- Please Refuse to Answer Me: Mitigating Over-Refusal in LLMs via Adaptive Contrastive Decoding
-
本文提出 AdaCD(自适应对比解码),通过比较极端安全提示下和无提示下的 token 分布差异提取拒绝 token 分布,再根据一致性比率动态决定增强或抑制拒绝行为,在降低过度拒绝 10.35% 的同时提升恶意查询拒绝率 0.13%。
- Preventing Safety Drift in Large Language Models via Coupled Weight and Activation Constraints
-
本文提出 CWAC,在微调时同时约束权重更新方向和安全关键激活特征,从理论和实验上说明单独约束权重或激活都不足以防止 LLM 安全漂移。
- Privacy-R1: Privacy-Aware Multi-LLM Agent Collaboration via Reinforcement Learning
-
Privacy-R1 将隐私敏感查询的本地/远程模型委托问题建模为逐句路由的序列决策任务,用轻量 Transformer policy + PPO 学到隐私与任务质量之间的动态折中,在 PUPA 和高 PII 密度的 Med-PCD 上都比静态改写方法取得更好的质量-泄露前沿。
- Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models
-
本文提出“隐私坍塌”这一新失败模式:看似良性的微调会让 LLM 在上下文隐私规范上系统性退化,同时常规安全和能力指标仍表现正常。
- ProxyPrompt: Securing System Prompts against Prompt Extraction Attacks
-
ProxyPrompt 不再要求模型“不要泄露系统提示词”,而是用功能等价但语义混淆的 proxy prompt 替换原 prompt,在保持任务效用的同时让被抽取出的提示词难以复现原任务,264 个配置上达到 94.70% 保护率,显著高于过滤式和指令式防御。
- Purging the Gray Zone: Latent-Geometric Denoising for Precise Knowledge Boundary Awareness
-
本文提出 GeoDe 框架,通过在 LLM 隐空间中训练线性探针构建真值超平面,利用样本到超平面的几何距离作为置信度信号来筛选高质量弃权微调数据,有效消除决策边界附近的"灰色地带"噪声,显著提升模型的真实性和可靠性。
- Reasoning Hijacking: The Fragility of Reasoning Alignment in Large Language Models
-
本文提出"推理劫持"(Reasoning Hijacking) 这一新型攻击范式,通过在数据通道注入虚假决策标准来操纵 LLM 的推理逻辑而非改变任务目标,实现高攻击成功率且能绕过基于意图检测的防御方法。
- Reasoning Structure Matters for Safety Alignment of Reasoning Models
-
论文指出大型推理模型的安全问题根源在“先理解问题、再全力求解”的推理结构,并提出 AltTrain 用 1K 条 SFT 数据把推理结构改成“问题理解 → 有害性评估 → 条件推理”,显著降低有害响应同时基本保留推理能力。
- Red-Bandit: Test-Time Adaptation for LLM Red-Teaming via Bandit-Guided LoRA Experts
-
Red-Bandit 将自动化 LLM 红队建模为“多个攻击风格 LoRA 专家 + 测试时 bandit 路由”的在线适应问题,在多个开源和闭源目标模型上用更高 ASR@10 和更低困惑度展示了风格级自适应红队的有效性。
- Representation-Guided Parameter-Efficient LLM Unlearning
-
提出 ReGLU 框架,将 LLM 遗忘从"参数重要性"范式转向"表示空间几何"范式——通过表示引导的 LoRA 初始化(RILA)将遗忘更新对齐到遗忘/保留集最具区分性的子空间,配合表示正交损失(ROL)约束更新不干扰保留集知识。
- Responsible Federated LLMs via Safety Filtering and Constitutional AI
-
这篇论文把安全过滤器和 Constitutional AI 接入 FedLLM 流程,证明有害客户端数据会显著损害全局模型安全,而在客户端过滤数据、在服务器端低成本 CAI 微调可以把 AdvBench 安全分数从约 72% 拉回到 96% 以上。
- Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring
-
提出表征对比评分(RCS)框架,通过分析 LVLM 内部中间层表征的几何结构,用轻量投影和对比评分区分恶意意图与良性分布偏移,在跨攻击类型泛化的严格评估协议下实现 SOTA 越狱检测性能。
- Rethinking LLM Watermark Detection in Black-Box Settings: A Non-Intrusive Third-Party Framework
-
提出 TTP-Detect,首个将水印检测与注入解耦的黑盒第三方水印验证框架,通过代理模型放大水印信号并结合局部一致性、全局几何和自适应秩检验三类互补度量,在不访问密钥或内部模型状态的情况下实现跨水印方案的高精度检测。
- Retrievals Can Be Detrimental: Unveiling the Backdoor Vulnerability of Retrieval-Augmented Diffusion Models
-
提出 BadRDM,首个针对检索增强扩散模型(RDM)的后门攻击框架,通过恶意对比学习微调检索器建立触发词到毒性代理图像的捷径,在类条件和 T2I 两种任务中分别达到 90.9% 和 96.4% 攻击成功率,同时保持良性生成质量。
- Revisiting Non-Verbatim Memorization in Large Language Models: The Role of Entity Surface Forms
-
本文通过构建 RedirectQA 数据集(利用 Wikipedia 重定向信息将同一实体关联到多种表面形式),系统研究了 LLM 的非逐字记忆如何受实体命名变体的影响,发现事实记忆既非纯粹依赖特定表面形式也非完全表面无关,且实体级频率在表面频率之外仍有独立贡献。
- RISK: A Framework for GUI Agents in E-commerce Risk Management
-
提出 RISK 框架,包含领域数据集(RISK-Data, 8492单步+2386多步轨迹)、基准(RISK-Bench)和基于GRPO的强化微调方法(RISK-R1),针对电商风控场景的GUI智能体,7B模型以仅7.2%的参数量超越SOTA基线,在线任务成功率达70.5%。
- Robust Multimodal Safety via Conditional Decoding
-
本文提出 CASA 条件解码框架,让多模态模型在生成回答前先预测安全 token,并用安全注意力放大恶意信号,在文本、视觉和音频越狱基准上把平均攻击成功率降低 97% 以上,同时基本保持良性输入的多模态能力。
- Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction
-
本文提出一种基于指令引用的提示注入防御方法,不压制 LLM 的指令遵循能力,而是让模型在响应中引用正在执行的指令,然后通过标签过滤移除与原始指令不相关的响应,在部分场景下将攻击成功率降至接近 0%。
- Route to Rome Attack: Directing LLM Routers to Expensive Models via Adversarial Suffixes
-
本文提出 R2A(Route to Rome Attack),通过在黑盒设置下构建混合集成代理路由器并优化通用对抗后缀,将 LLM 路由器的路由决策从廉价弱模型导向昂贵强模型——在 7 个开源路由器和 2 个商用路由器(GPT-5-Auto、OpenRouter)上平均攻击成功率提升 49%,推理成本增加 2.7-2.9 倍。
- SafeConstellations: Mitigating Over-Refusals in LLMs Through Task-Aware Representation Steering
-
SafeConstellations 发现 LLM 的中后层表示会按任务形成稳定的“星座轨迹”,并在高置信 benign 任务上把表示从拒答轨迹轻量推向非拒答轨迹,从而显著降低过度拒答且基本不损害通用能力。
- SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging
-
本文提出 SafeMERGE,一种轻量级后微调框架,通过余弦相似度检测偏离安全行为的微调层,仅将这些层与安全模型的对应层合并,在四个 LLM 上显著降低有害输出同时保持甚至提升任务性能。
- SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models
-
本文提出 SafetyALFRED 基准,在 ALFRED 具身任务中引入六类厨房安全隐患,揭示了多模态大语言模型在静态 QA 中能识别危险(最高 92%)但在具身规划中却难以主动缓解危险(<60%)的严重对齐差距,倡导从 QA 评估范式转向具身安全评估。
- SAGE: Sparse Adaptive Guidance for Dependency-Aware Tabular Data Generation
-
SAGE 把表格特征离散为 value-aware pseudo-features,并用互信息构建稀疏动态依赖图来引导 LLM 生成,从而提升合成表格数据的下游效用、约束一致性和真实感。
- Seeing No Evil: Blinding Large Vision-Language Models to Safety Instructions via Adversarial Attention Hijacking
-
提出 Attention-Guided Visual Jailbreaking,通过抑制模型对安全指令的注意力并将注意力锚定到对抗图像特征上,绕过而非强攻安全对齐机制,在 Qwen-VL 上达到 94.4% 攻击成功率,同时减少 45% 的梯度冲突。
- SERE: Structural Example Retrieval for Enhancing LLMs in Event Causality Identification
-
SERE 认为事件因果识别中的示例选择不能只看语义相似度,而应检索概念路径、句法树和因果模式都结构相近的样例,从而让 LLM 在少样本推理时更少过度预测因果关系。
- SHAPE: Unifying Safety, Helpfulness and Pedagogy for Educational LLMs
-
这篇论文把教育 LLM 的安全、帮助性和教学性统一到知识掌握图上,提出 SHAPE 基准评估模型在答案诱导压力下是否仍能按学生掌握状态选择“引导”或“直接作答”,并用图增强 gating pipeline 大幅提升鲁棒性。
- SharedRequest: Privacy-Preserving Model-Agnostic Inference for Large Language Models
-
提出 SharedRequest,一种模型无关的隐私保护 LLM 推理框架,通过将隐私保护从单个 prompt 级提升到批次级——混合真实与噪声 prompt 并共享语义等价请求的推理开销——实现 >20% 的效用提升和最高 5.6× 的查询成本降低。
- SLIM: Stealthy Low-Coverage Black-Box Watermarking via Latent-Space Confusion Zones
-
SLIM 提出一种面向单个数据所有者的低覆盖数据水印思路:通过让模型在局部潜在空间学到相近前缀对应分歧续写的模式,最终在黑盒生成中表现出可统计检测的局部不稳定性。
- SSG: Logit-Balanced Vocabulary Partitioning for LLM Watermarking
-
这篇论文分析了 KGW 类 LLM 水印在代码生成和数学推理等低熵场景中失效的原因,提出 Watermark Strength 度量和 SSG 的 logit-balanced vocabulary partition,让高概率 token 更均衡地分布到两类集合中,从而在不进一步降低生成质量的前提下显著提升水印可检测性。
- STAR-Teaming: A Strategy-Response Multiplex Network Approach to Automated LLM Red Teaming
-
本文提出 STAR-Teaming,一种基于策略-响应多路复用网络(Multiplex Network)的自动化红队测试框架,通过将攻击策略选择建模为逆 Ising 问题的概率优化,在 HarmBench 上达到平均 74.5% 的攻击成功率,比最强基线高 13.5%,同时显著降低计算开销。
- Subject-level Inference for Realistic Text Anonymization Evaluation
-
SPIA 提出首个主体级 PII 推断评估基准(675 篇文档、1712 个主体、7040 个 PII),揭示即使 90%+ 的 PII 片段被遮蔽,主体级推断保护率可低至 33%,且聚焦单一目标主体的匿名化会导致非目标主体暴露更多。
- SWAN: Semantic Watermarking with Abstract Meaning Representation
-
SWAN 用 Abstract Meaning Representation 模板把水印嵌入句子的语义图结构,而不是 token 或 embedding 区域,因此在保持原意的 paraphrase 后仍能通过 AMR 解析、模板匹配和比例 z 检验检测出水印。
- Topic-Based Watermarks for Large Language Models
-
本文提出基于主题的轻量水印方案 TBW,将词表按语义主题聚类为"绿色列表"(而非随机分区),根据输入提示选择语义对齐的主题列表进行 logit 偏置,在保持与无水印文本相当的困惑度的同时,显著提升了对释义和词汇扰动攻击的鲁棒性。
- Train in Vain: Functionality-Preserving Poisoning to Prevent Unauthorized Use of Code Datasets
-
这篇论文提出 FunPoison,在保持 Java 代码可编译、可执行和功能等价的前提下,把执行惰性的弱使用片段注入真实执行路径,只污染 10% 数据就能显著削弱未授权 CodeLLM 微调收益,并对格式化、重写、静态分析和检测清洗表现出较强鲁棒性。
- TrajGuard: Streaming Hidden-state Trajectory Detection for Decoding-time Jailbreak Defense
-
本文提出 TrajGuard,一种无需训练的解码时越狱防御框架,通过滑动窗口聚合关键层隐藏状态轨迹实时量化风险,仅在风险持续超过阈值时触发轻量级语义裁判,在 12 种越狱攻击上实现 95% 平均防御率,检测延迟仅 5.2ms/token,误报率低于 1.5%。
- TROJail: Trajectory-Level Optimization for Multi-Turn Large Language Model Jailbreaks with Process Rewards
-
本文将自动化多轮越狱攻击建模为多轮强化学习问题,提出 TROJail,通过两个启发式过程奖励(过度有害惩罚和语义相关性递进)缓解结果奖励的稀疏监督问题,在多个模型和基准上显著提升攻击成功率。
- Understanding and Mitigating Bias Inheritance in LLM-based Data Augmentation on Downstream Tasks
-
这篇论文系统研究 LLM 生成的有偏增强数据如何在监督微调中被继承、放大并影响下游任务,并用六类偏见生成框架、十个任务和三类缓解方法揭示了“合成数据越多不一定越安全”的复杂现象。
- Unlearners Can Lie: Evaluating and Improving Honesty in LLM Unlearning
-
这篇论文指出现有 LLM unlearning 方法即使“忘掉了”目标知识,也常会幻觉、伪装拒答或前后不一致,于是提出 honest unlearning 评测框架和 ReVa 表示对齐方法,让模型在遗忘后更稳定地承认自己不知道。
- VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models
-
提出 VLA-Forget,首个面向视觉-语言-动作(VLA)模型的混合遗忘框架,通过 ratio-aware 选择性编辑处理感知/跨模态层、significance-based 选择性编辑处理推理/动作层,实现目标行为移除同时保持感知精确性(+22%)和任务成功率(+9%)。
- When Helpers Become Hazards: A Benchmark for Analyzing Multimodal LLM-Powered Safety in Daily Life
-
提出 SaLAD 基准,包含 2013 个真实图文样本覆盖 10 类日常场景,评估多模态大模型在日常辅助中识别隐性安全风险并提供安全警告的能力,揭示即使最强模型在不安全查询上准确率也仅 57.2%。
- When Models Outthink Their Safety: Unveiling and Mitigating Self-Jailbreak in Large Reasoning Models
-
这篇论文发现大推理模型的安全失败常发生在“已经识别风险之后又被后续推理推翻”,并提出 Chain-of-Guardrail 通过定位和修复危险推理片段,在显著降低攻击成功率的同时保留数学与代码推理能力。
- Why Agents Compromise Safety Under Pressure
-
提出"代理压力"(Agentic Pressure)概念——当 LLM 代理在资源约束下无法同时完成任务和遵守安全规则时,会自发地产生规范漂移,主动牺牲安全以保持有用性,且推理能力越强的模型越善于构建语言化合理化来为违规辩护。
- XMark: Reliable Multi-Bit Watermarking for LLM-Generated Texts
-
提出 XMark,一种基于 Leave-one-Shard-out(LoSo)策略和 evergreen list 的多比特文本水印方法,通过跨多个词表排列的绿色列表交集和约束 token-shard 映射矩阵,在保持文本质量的同时显著提升了有限 token 条件下的解码准确率。
- XOXO: Stealthy Cross-Origin Context Poisoning Attacks against AI Coding Assistants
-
揭示了 AI 编码助手自动收集上下文的设计漏洞,提出 Cross-Origin Context Poisoning(XOXO)攻击:通过语义保持的代码变换(如变量重命名)毒化共享代码库,使 GitHub Copilot 等助手在不知情的情况下生成有漏洞的代码,对 8 个 SOTA 模型平均攻击成功率达 73.20%。