跳转至

🔒 LLM 安全

🤖 AAAI2026 · 41 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (12) · 🔬 ICLR2026 (184) · 💬 ACL2026 (115) · 🧠 NeurIPS2025 (81) · 📹 ICCV2025 (10) · 🧪 ICML2025 (41)

🔥 高频主题: LLM ×19 · 对抗鲁棒 ×8 · 联邦学习 ×4 · 多模态 ×3 · 持续学习 ×2

AgentSense: Virtual Sensor Data Generation Using LLM Agents in Simulated Home Environments

利用LLM驱动的具身智能体在模拟智能家居中"生活",生成虚拟环境传感器数据用于预训练HAR模型,在低资源场景下显著提升活动识别性能。

ALTER: Asymmetric LoRA for Token-Entropy-Guided Unlearning of LLMs

提出ALTER框架,利用非对称LoRA架构结合Token级别的Tsallis熵引导,实现LLM中目标知识的精准遗忘,同时通过参数隔离机制保留模型基础能力,在TOFU、WMDP和MUSE三个基准上达到SOTA。

An LLM-Based Simulation Framework for Embodied Conversational Agents in Psychological Counseling

提出 ECAs 框架,基于认知行为治疗(CBT)等心理学理论,利用 LLM 将真实咨询案例扩展为具身认知记忆空间,模拟心理咨询中来访者的完整认知过程,生成高保真度的咨询对话数据,在专家评估和自动评估中均显著优于基线。

Anti-adversarial Learning: Desensitizing Prompts for Large Language Models

提出 PromptObfus,通过"反对抗学习"思路将用户 prompt 中的敏感词替换为语义不同但不影响任务输出的词,从而在不降低远端 LLM 任务表现的前提下彻底消除显式隐私泄露,并将隐式隐私推理攻击成功率降低 62.70%。

Attention Retention for Continual Learning with Vision Transformers

提出ARCL-ViT框架,通过注意力掩码生成和梯度掩码两步策略防止ViT在持续学习中的注意力漂移,在ImageNet-R和CIFAR-100上取得SOTA结果,证明保持注意力模式是解决灾难性遗忘的关键。

AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models

提出AUVIC框架,通过对抗性扰动生成器 + 动态锚点保留机制,在MLLM中精确遗忘目标视觉概念(如特定人脸),同时避免对语义相似概念的附带遗忘,并构建了首个面向群体场景视觉概念遗忘的评测基准VCUBench。

BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models

提出 BadThink——首个针对 CoT 推理效率的训练时后门攻击,通过 LLM 迭代优化生成自然的冗长推理模板进行数据投毒,触发后模型生成膨胀 17× 以上的推理链(MATH-500),同时保持最终答案正确和良好隐蔽性。

Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion

提出 KUnBR 框架,通过梯度引导的知识密度估计定位有害知识富集层,并采用块重插入策略绕过 cover layer 的梯度遮蔽效应,实现对 LLM 有害知识的深度遗忘而非表面抑制。

Can Editing LLMs Inject Harm?

本文将知识编辑技术重新定义为一种新型 LLM 安全威胁(Editing Attack),系统性地研究了通过 ROME、FT、ICE 三种编辑方法向 LLM 注入虚假信息和偏见的可行性,发现其效果显著且极具隐蔽性。

Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models

提出 MIP-Editor,通过跨层梯度积分(文本)和 Fisher 积分(视觉)定位多模态大语言模型中编码待遗忘知识的影响力神经元路径,再用基于路径的表示误导(RMisU)编辑这些神经元,在 MLLMU-Bench 上实现最高 87.75% 的遗忘率和 54.26% 的通用知识保留提升。

Democratizing LLM Efficiency: From Hyperscale Optimizations to Universal Deployability

本文是一篇立场论文(position paper),指出当前 LLM 效率研究被超大规模假设所主导,提出面向中小规模部署者的五大开放研究挑战,并倡导以开销感知效率(OAE)重新定义效率指标。

Designing Truthful Mechanisms for Asymptotic Fair Division

提出 PRD(Proportional Response with Dummy)机制,首次在渐近公平分配设定下实现了"期望真实性 + 多项式时间可计算 + 高概率无嫉妒"三重保证,且仅需 \(m = \Omega(n \log n)\) 个物品,回答了 Manurangsi & Suksompong 提出的开放问题。

FedALT: Federated Fine-Tuning through Adaptive Local Training with Rest-of-World LoRA

提出 FedALT,通过为每个客户端维护独立的 Individual LoRA(本地训练更新)和冻结的 Rest-of-World (RoW) LoRA(其他客户端平均),配合自适应 MoE 混合器动态平衡本地知识与全局知识,彻底避免 FedAvg 聚合导致的跨客户端干扰,在异构任务联邦 LLM 微调上显著优于 SOTA。

Federated CLIP for Resource-Efficient Heterogeneous Medical Image Classification

提出 FedMedCLIP,一种面向医学图像分类的联邦 CLIP 框架,通过冻结 CLIP 编码器 + 掩码特征适配模块(FAM)+ 本地掩码 MLP + 类别级 KL 蒸馏正则化,在保持极低通信/计算开销的同时实现对数据异构场景的鲁棒分类(ISIC2019 上超第二名 8%,比 FedAVG 快 120 倍)。

FedP²EFT: Federated Learning to Personalize PEFT for Multilingual LLMs

提出FedP²EFT,通过联邦学习协作训练一个Personalization Strategy Generator (PSG),为每个客户端自动生成个性化的LoRA rank结构,在多语言LLM微调中大幅超越手工设计的PEFT配置和现有FL个性化方法。

From Single to Societal: Analyzing Persona-Induced Bias in Multi-Agent Interactions

本文首次系统研究了 LLM 多智能体交互中的人格诱导偏见,通过在协作问题解决和说服任务中的受控实验,揭示了三个关键发现:(1) 不同人格在可信度和坚持度上存在显著偏差(优势群体如男性和白人被视为更不可信);(2) 智能体表现出显著的内群体偏好;(3) 这些偏见在多轮、多智能体场景中持续存在且有放大趋势。

Gender Bias in Emotion Recognition by Large Language Models

系统性地评估了多个 LLM(GPT-4/5、Mistral、LLaMA 等)在情感识别任务中的性别偏见,发现大多数模型对至少一个情感标签存在显著性别偏见,并通过实验证明推理时 prompt 策略(提示工程、上下文学习、CoT)无法有效去偏,而基于训练的微调方法可以有效缓解偏见。

Ghost in the Transformer: Detecting Model Reuse with Invariant Spectral Signatures

提出 GhostSpec,一种无需数据、不修改模型行为的白盒方法,通过对注意力权重矩阵的不变乘积做 SVD 提取光谱指纹,可在微调、剪枝、合并、扩展甚至对抗性变换下稳健地验证 LLM 血统。

GraphTextack: A Realistic Black-Box Node Injection Attack on LLM-Enhanced GNNs

提出 GraphTextack——首个针对 LLM 增强 GNN 的黑盒多模态节点注入投毒攻击,通过进化优化框架联合优化注入节点的图结构连接和语义特征,不依赖模型内部信息或代理模型,在5个数据集和2类LLM-GNN模型上显著优于12种基线方法。

Invisible Triggers, Visible Threats! Road-Style Adversarial Creation Attack for Visual 3D Detection in Autonomous Driving

提出 AdvRoad 框架,通过两阶段方法(Road-Style Adversary Generation + Scenario-Associated Adaptation)生成多样化、具有道路表面纹理风格的对抗海报,能够在自动驾驶视觉 3D 检测器中诱发"幽灵物体"(false positive),同时因外观自然而难以被人类驾驶员察觉,显著提升了 FP 攻击的隐蔽性和防御难度。

iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification

提出 iSeal——首个在模型窃取者完全控制推理过程的黑盒场景下仍能可靠验证 LLM 所有权的主动指纹方法,通过外部加密编码器 + RSC 纠错 + 相似度匹配三重机制,在 12 个 LLM、10+ 种攻击下均保持 100% 指纹成功率(FSR),而已有方法降至 0%。

LAMP: Learning Universal Adversarial Perturbations for Multi-Image Tasks via Pre-trained Models

提出 LAMP,一种针对多图 MLLM 的 black-box Universal Adversarial Perturbation 学习方法,通过 attention 约束和"传染式"损失实现仅扰动少量图像即可跨模型/任务迁移攻击。

Learning from the Undesirable: Robust Adaptation of Language Models without Forgetting

提出 Learning-from-the-Undesirable (LfU),一种面向 SFT 的正则化方法,通过对辅助模型施加梯度上升模拟"不良行为",再通过表示级一致性损失约束原模型与不良模型的内部表征保持一致,有效缓解有限数据微调中的过拟合、遗忘和对抗脆弱性问题。

LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users

系统实验表明,主流LLM(GPT-4、Claude 3 Opus、Llama 3-8B)对英语水平较低、教育程度较低、非美国出身的用户,在信息准确性、真实性和拒绝回答方面存在显著的歧视性表现下降,使最脆弱的用户成为最不可靠的信息服务对象。

Lost in Translation? A Comparative Study on the Cross-Lingual Transfer of Composite Harms

提出 CompositeHarm 基准,通过将对抗语法攻击(AttaQ)和语境化危害(MMSafetyBench)翻译为五种印度语言,系统研究了 LLM 安全对齐在跨语言场景下的脆弱性,发现对抗语法攻击在印度语言中攻击成功率急剧攀升。

Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models

提出多面攻击框架MFA,通过注意力转移攻击(ATA)突破对齐、对抗签名绕过内容审核、视觉编码器攻击覆写系统提示三个维度,系统性暴露配备多层防御的VLM(含GPT-4o/Gemini等商业模型)的安全漏洞,总体攻击成功率达58.5%。

PANDA: Patch and Distribution-Aware Augmentation for Long-Tailed Exemplar-Free Continual Learning

提出 PANDA 框架,通过 CLIP 引导的语义 patch 移植实现任务内类别平衡,并借助可学习的分布平滑机制缓解任务间分布偏移,以即插即用方式提升基于预训练模型的无样本存储持续学习在长尾场景下的性能。

Perturb Your Data: Paraphrase-Guided Training Data Watermarking

提出SPECTRA——一种基于paraphrase采样的训练数据水印方法,通过LLM生成改写文本并利用Min-K%++评分选择与原文分数接近的paraphrase作为水印,在数据仅占训练语料0.001%的情况下,member与non-member的p-value差距稳定超过9个数量级。

Principles2Plan: LLM-Guided System for Operationalising Ethical Principles into Plans

提出 Principles2Plan,一个交互式原型系统,通过人类与 LLM 协作将高层伦理原则(如仁善、隐私)转化为上下文相关的伦理规则,并嵌入 PDDL 规划器生成符合伦理的行动计划。

PRISM: Privacy-Aware Routing for Adaptive Cloud-Edge LLM Inference via Semantic Sketch Collaboration

提出 PRISM 框架,通过上下文感知的软门控路由机制将用户 prompt 动态分配到云端/边缘/协作三种推理模式,并在协作模式中使用自适应两层本地差分隐私(LDP)和语义草图协作,实现隐私-效用-效率的三方平衡。

Privacy-protected Retrieval-Augmented Generation for Knowledge Graph Question Answering

首次探索知识图谱问答(KGQA)中的隐私保护 RAG 场景,提出 ARoG(Abstraction Reasoning on Graph)框架,通过关系中心抽象和结构导向抽象两种策略,在实体被匿名化(替换为无意义的 MID)的条件下,仍能有效检索和利用知识图谱回答问题。

PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization

提出 PSM 框架,将系统提示防护形式化为效用约束下的黑盒优化问题,利用 LLM-as-Optimizer 自动搜索最优"盾牌"后缀,在不降低模型功能的前提下将提示泄漏攻击成功率降至接近零。

RadarLLM: Empowering Large Language Models to Understand Human Motion from Millimeter-Wave Point Cloud Sequence

提出 RadarLLM,首个利用大语言模型从毫米波雷达点云进行语义级人体运动理解的端到端框架,包含基于 Aggregate VQ-VAE 的运动引导雷达分词器和雷达感知语言模型,并通过物理感知仿真管线生成大规模雷达-文本配对数据。

SafeNlidb: A Privacy-Preserving Safety Alignment Framework for LLM-based Natural Language Database Interfaces

提出SafeNlidb框架,通过安全感知数据合成管线和交替偏好优化策略,实现LLM驱动的自然语言数据库接口(NLIDB)在安全推理与SQL生成之间的联合优化,有效防御隐式推理攻击下的隐私泄露。

SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth

提出 SproutBench,一个包含 1,283 个发展心理学驱动的对抗性提示的评估基准,系统评估 47 个 LLM 在儿童和青少年(0-6、7-12、13-18 岁)场景下的安全性,发现安全性与风险预防强相关(\(\rho = 0.86\)),交互性与年龄适配性存在显著权衡(\(\rho = -0.48\))。

StyleBreak: Revealing Alignment Vulnerabilities in Large Audio-Language Models via Style-Aware Audio Jailbreak

提出 StyleBreak,首个基于语音风格的音频越狱框架,通过两阶段风格感知变换管道和查询自适应策略网络,系统研究语言学、副语言学和超语言学属性对 LAM 对齐鲁棒性的影响,在多种攻击范式下将 ASR 提升 7.1%-22.3%。

The Confidence Trap: Gender Bias and Predictive Certainty in LLMs

提出Gender-ECE指标,系统评估六种开源LLM在性别代词预测任务中的置信度校准与人类偏见对齐程度,发现Gemma-2模型校准最差且存在极端的男女代词校准差异,而训练数据过滤较少的GPT-J-6B反而校准最好。

TOFA: Training-Free One-Shot Federated Adaptation for Vision-Language Models

提出TOFA框架,在联邦学习场景下通过层次贝叶斯模型学习个性化视觉prototype分布 + 全局对齐的LLM文本增强 + 自适应模态融合,实现无需训练、仅一轮通信的CLIP高效适配,在9个数据集上超越one-shot基线甚至部分多轮训练方法。

Uncovering Bias Paths with LLM-guided Causal Discovery: An Active Learning and Dynamic Scoring Approach

提出一种融合LLM语义先验与统计信号的混合因果发现框架,通过主动学习(Active Learning)和动态评分机制优先查询信息量最大的变量对,在噪声和混淆条件下有效恢复公平性关键因果路径(如 sex→education→income),显著优于传统CD方法和朴素LLM方法。

Uncovering Pretraining Code in LLMs: A Syntax-Aware Attribution Approach

提出SynPrune——首个语法感知的代码成员推断攻击方法,通过识别47种Python语法约定并在计算成员推断分数时剪除语法决定的token(仅保留反映作者特征的token),平均AUROC提升15.4%,可有效检测代码LLM的预训练数据归属。

WaterMod: Modular Token-Rank Partitioning for Probability-Balanced LLM Watermarking

提出 WaterMod,一种基于模算术 (\(\text{rank} \bmod k\)) 的 LLM 文本水印方法,通过对概率排序后的词表进行模残差类划分,在零比特(\(k=2\))和多比特(\(k>2\))水印场景下统一实现高检测率和低质量损耗,无需外部同义词库或哈希技巧。