跳转至

� LLM 安全

📷 CVPR2026 · 16 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (21) · 🔬 ICLR2026 (39) · 🤖 AAAI2026 (29) · 🧠 NeurIPS2025 (60) · 📹 ICCV2025 (8) · 🧪 ICML2025 (32)

🔥 高频主题: 对抗鲁棒 ×4

Association and Consolidation: Evolutionary Memory-Enhanced Incremental Multi-View Clustering

提出 EMIMC 框架,受大脑海马-前额叶协作记忆机制启发,通过 Rapid Associative Module (正交映射保证可塑性)、Cognitive Forgetting Module (幂律衰减模拟遗忘曲线) 和 Knowledge Consolidation Module (时序张量低秩分解提炼长期记忆) 三模块协同,解决增量多视图聚类中的稳定性-可塑性困境。

Beyond the Global Scores: Fine-Grained Token Grounding as a Robust Detector of LVLM Hallucinations

提出基于 patch 级别的 LVLM 幻觉检测框架,发现幻觉 token 表现出弥散注意力模式和低语义对齐两个特征标志,据此设计注意力弥散分数(ADS)和跨模态接地一致性(CGC)两个轻量指标,检测准确率达 90%。

The Blind Spot of Adaptation: Quantifying and Mitigating Forgetting in Fine-tuned Driving Models

系统研究 VLM 微调到自动驾驶场景时的灾难性遗忘问题,构建 180K 场景大规模基准 FidelityDrivingBench,并提出 Drive Expert Adapter (DEA) 通过提示空间路由在不腐蚀基础参数的前提下增强驾驶任务性能。

DAMP: Class Unlearning via Depth-Aware Removal of Forget-Specific Directions

提出 DAMP(深度感知投影调制),一种一次性闭式权重手术方法用于类遗忘,通过在每个网络阶段的编辑空间中移除遗忘类特有方向来实现选择性遗忘,深度感知缩放规则确保浅层保守编辑、深层强力编辑。

Designing to Forget: Deep Semi-parametric Models for Unlearning

提出"Designing to Forget"理念,设计了一族深度半参数模型 (SPM),在推理时通过简单删除训练样本即可实现遗忘(无需修改模型参数),在 ImageNet 分类上将与重训基线的预测差距减少 11%,遗忘速度提升 10 倍以上。

Elastic Weight Consolidation Done Right for Continual Learning

本文从梯度视角系统分析了 EWC 及其变体在权重重要性估计上的根本缺陷(EWC 的梯度消失和 MAS 的冗余保护),并提出了一个极其简单的 Logits Reversal 操作来修正 Fisher 信息矩阵的计算,在无样例类增量学习和多模态持续指令微调任务上大幅超越原始 EWC 及其所有变体。

HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in LVLMs

提出HulluEdit,一个单次推理、无参考模型的幻觉缓解框架,通过将隐藏状态正交分解为视觉证据子空间、冲突先验子空间和残差不确定性子空间,选择性抑制幻觉模式而不干扰视觉接地,在POPE和CHAIR上达到SOTA。

Learning from Oblivion: Predicting Knowledge-Overflowed Weights via Retrodiction of Forgetting

提出KNOW prediction:通过在逐步缩小的数据子集上sequential fine-tuning诱导结构化遗忘过程,收集权重转变轨迹,然后用meta-learned hyper-model(KNOWN)反转forgetting方向,预测"仿佛在更大数据集上训练"的虚拟知识增强权重。跨多数据集(CIFAR/ImageNet/PACS等)和多架构(ResNet/PVTv2/DeepLabV3+)持续超越naive fine-tuning及多种weight prediction基线,在图像分类、语义分割、图像描述、域泛化等下游任务上均有显著提升。

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

提出 MPCAttack 框架,联合跨模态对齐、多模态理解和视觉自监督三种学习范式的特征表示,通过多范式协同优化策略生成高迁移性对抗样本,在开源和闭源 MLLM 上均取得 SOTA 攻击效果。

⊘ Source Models Leak What They Shouldn't ↛: Unlearning Zero-Shot Transfer in Domain Adaptation Through Adversarial Optimization

发现无源域自适应(SFDA)方法会不经意地将源域独有类别的知识泄漏到目标域(零样本迁移现象),提出 SCADA-UL 框架通过对抗生成遗忘样本和重缩放标签策略,在域自适应过程中同时完成类别遗忘,达到接近从头训练的遗忘效果。

Perturb and Recover: Fine-tuning for Effective Backdoor Removal from CLIP

本文提出 PAR(Perturb and Recover),一种简单而有效的 CLIP 模型后门清洗方法:通过显式地将模型embedding推离中毒状态(Perturb),同时用标准 CLIP 损失恢复干净性能(Recover),在不依赖强数据增强的情况下实现对任意触发器的鲁棒后门移除,甚至仅用合成数据即可有效清洗。

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

提出 PinPoint 基准,包含 7,635 个查询和 329K 人工验证的相关性判断,通过显式负样本、多图像查询、释义变体和人口统计元数据四个维度,揭示了现有 CIR 方法在假阳性抑制、语言鲁棒性和多图像推理上的严重缺陷,并提出基于 MLLM 的无训练重排方法作为改进基线。

Select, Hypothesize and Verify: Towards Verified Neuron Concept Interpretation

提出 SIEVE(Select–Hypothesize–Verify)框架,通过筛选高激活样本、生成概念假设、再用文生图验证的闭环流程来解释神经元功能,生成的概念激活对应神经元的概率约为现有 SOTA 的 1.5 倍。

SineProject: Machine Unlearning for Stable Vision–Language Alignment

针对多模态大模型(MLLM)在机器遗忘过程中投影层 Jacobian 严重病态导致视觉-语言对齐漂移的问题,提出 SineProject——通过对投影层权重施加正弦调制(sin(ΔW))来约束参数范围至 [-1,1],从而将 Jacobian 条件数降低 3-4 个数量级,在完全遗忘目标知识的同时将良性查询误拒率(SARR)降低 15%。

Unsafe2Safe: Controllable Image Anonymization for Downstream Utility

本文提出 Unsafe2Safe 全自动隐私保护流水线,通过 VLM 隐私检查→双字幕生成(私有/公开)→LLM 编辑指令→文本引导扩散编辑的四阶段方案,实现可控图像匿名化,在 VLMScore 隐私指标大幅提升的同时,在 Caltech-101 分类和 OK-VQA 上匿名后准确率甚至超过原始图像。

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

发现 ViT 中 Value 特征相比 Patch 特征具有更解耦的局部语义表示,提出 V-Attack 通过自增强 Value 特征 + 文本引导语义操控实现精确可控的 LVLM 局部语义攻击,ASR 平均提升 36%。