跳转至

🛡️ AI 安全

📷 CVPR2026 · 145 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (139) · 💬 ACL2026 (5) · 🧪 ICML2026 (114) · 🤖 AAAI2026 (45) · 🧠 NeurIPS2025 (73) · 📹 ICCV2025 (24)

🔥 高频主题: 对抗鲁棒 ×66 · 多模态 ×20 · 水印/隐写 ×11 · 联邦学习 ×10 · 扩散模型 ×10

A Combination of Noise and Bilateral Filters Achieve Supralinear and Scalable Adversarial Robustness in CNNs

本文从决策边界几何的角度证明「高斯噪声」和「图像滤波」通过两种互补机制抵御对抗攻击,因而二者组合能带来超线性(supralinear)的鲁棒性增益;据此提出一个极简预处理器(像素级高斯噪声 + 多次双边滤波,训练和推理都用),在 RobustBench 上以约 35% 的训练 FLOPs、一半参数量就逼近甚至超过 SOTA 防御。

A Provable Energy-Guided Test-Time Defense Boosting Adversarial Robustness of Large Vision-Language Models

ET3 把分类器 logit 的 LogSumExp 解释为输入的"能量",在推理时只对图像做几步梯度下降把能量压低,就能把被对抗扰动推离数据流形的样本拉回正确类别——免训练、几乎零开销,对纯分类器、CLIP 零样本、以及 LLaVA 这类大型 VLM 的对抗鲁棒性都有显著提升,并给出了二分类下"必定纠正"的可证明保证。

A Sanity Check for Multi-In-Domain Face Forgery Detection in the Real World

这篇论文先做了个"sanity check":揭示现有 deepfake 检测器在多域混合数据上看似高 AUC、实则单帧 real/fake 准确率(ACC)很低,因为"域差异"在特征空间里盖过了"真假差异";随后提出模型无关的两阶段框架 DevDet(FFDev 暴露伪造痕迹 + DAFT 自适应剂量微调),在保持原泛化能力的同时把帧级 ACC 显著拉高。

A Unified Perspective on Adversarial Membership Manipulation in Vision Models

首次揭示视觉模型成员推断攻击(MIA)面临的对抗性成员操纵漏洞——不可感知扰动可将非成员伪造为成员欺骗审计,发现伪造成员的梯度范数塌缩特征签名,并提出基于梯度几何的检测策略和对抗鲁棒推断框架。

AdvFM: Lookahead Flow-Matching Velocity-Field Attacks for Imperceptible and Transferable Adversarial Examples

把无限制对抗攻击搬到 flow-matching 的连续时间速度场里做:不直接扰动像素、也不走扩散式的"去噪—再加噪",而是把对重建图的 PGD 扰动转译成速度场的扰动并沿概率流 ODE 确定性地传播,再配一个"前瞻两点目标"修正时间错配,从而在 ImageNet 上同时拿到更强的黑盒迁移性和更高的抗净化/抗对抗训练成功率。

All Vehicles Can Lie: Efficient Adversarial Defense in Fully Untrusted-Vehicle Collaborative Perception via Pseudo-Random Bayesian Inference

提出 Pseudo-Random Bayesian Inference (PRBI) 框架,在所有车辆均不可信的协同感知场景中,利用帧间时序一致性作为自参考信号,通过伪随机分组 + 贝叶斯推断,仅需平均 2.5 次验证/帧即可高效识别并排除恶意车辆,检测精度恢复至攻击前的 79.4%–86.9%。

AntiStyler: Defending Object Detection Models Against Adversarial Patch Attacks Using Style Removal

把风格迁移(style transfer)反转成"风格移除"(style removal),用它把对抗补丁那种"随机纹理风格"从图像里抹掉、定位并 mask 掉补丁像素,做出一个不需训练、对模型/补丁/攻击全不可知的零样本防御,在保持干净图性能的同时把对抗 mAP 提升 8–15 个点,且只需 40–90ms/张、能跑 10–12 FPS 满足实时检测。

AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs

AVFakeBench 是首个覆盖「人类+通用场景、7 类音视频伪造组合、4 级标注」的综合音视频伪造检测基准(3K 片段 / 12K 问答),用一套「专有模型规划 + 专家生成模型执行」的多阶段混合伪造框架批量造假数据,并评测了 11 个音视频大模型(AV-LMM)和 2 个专家检测器,发现 AV-LMM 在二分类真伪判断上已超过专家模型,但在细粒度伪造分类与解释推理上几乎全线崩溃。

Batman: Benign Knowledge Alignment Through Malicious Null Space in Federated Backdoor Attack

针对联邦后门攻击"对齐良性知识会削弱攻击、不对齐又容易被防御识破"的两难,Batman 用 SVD 把恶意知识压进参数矩阵的主导方向、在其正交的"恶意零空间"里对齐良性知识,使隐蔽性提升而后门功能几乎不受损,在四个数据集、六种聚合/防御下都能同时拿到高 ASR 和高 ACC。

Beyond [CLS] Token: Query-Driven Token-Level Forgery Purification for Generalizable Deepfake Detection

针对 ViT 基础模型做 deepfake 检测时 [CLS] token 过度关注全局语义、忽略局部伪造痕迹的"预训练信息偏置"问题,本文提出 QTFP 框架:用一组随机初始化的可学习 query token 替代 [CLS] 去聚合局部证据,再配合"伪造似然加权对比损失"和"真实图注意力对齐"两个正则,把跨数据集平均 AUC 从 Effort 的 0.923 提到 0.947。

Bias at the End of the Score

本文对文本到图像(T2I)系统中广泛使用的五个奖励模型(PickScore、ImageReward、HPS、VQAScore、CLIP)做了一次大规模偏置审计,证明这些被当作"图像质量"代理的打分函数其实编码了系统性的人口统计偏置——在用作噪声优化器时会不成比例地对女性主体超性化、把非白人主体"洗"成白人,并且打分本身与现实世界的人口分布(如各职业的性别比例)高度相关,而非真正衡量质量。

Bridging Privacy and Provenance: Traceable Virtual Identity Generation

这篇论文用一个扩散框架给每个用户生成"稳定、可复现、又看不出本人长相"的虚拟人脸,同时在生成过程中嵌入一个 128 位不可见水印当身份指纹,让用户日后能在不暴露真脸的前提下凭密钥验证"这张虚拟脸是我的",实现匿名与可溯源同时兼得。

Bypassing the Transport Plan: Dynamic Reweighting for Out-of-Distribution Detection with Optimal Transport

针对开放集半监督学习中无 OOD 标签的难题,本文提出 DREW:把每个 batch 的 OOD 检测建模成半非平衡最优传输(SemiUOT),再通过"动态重加权"把它等价转换成经典 OT,直接从源分布权重里读出伪 OOD 分数——绕过求解整张传输计划 \(\pi\),从而得到更准、更快、有理论误差界的伪标签来监督 OOD 检测头。

CamPI: Physical Adversarial Examples through Camera Power Signal Injection

通过向相机的供电线注入一段经过调制的信号,利用 ADC 采样混叠在成像中诱导出可控的条纹/掩码扰动,从而生成肉眼不可见、无需贴片或打光、也无需正对目标的物理对抗样本;作者建了一个可微仿真模型,把这套物理机制端到端优化成攻击参数,在白盒/黑盒下分别达到 92%/82% 的物理攻击成功率。

ClusterMark: Towards Robust Watermarking for Autoregressive Image Generators with Visual Token Clustering

提出基于视觉 token 聚类的水印方案 ClusterMark,将 KGW 风格的 LLM 水印适配到自回归图像生成器,通过将相似 token 分到同一绿/红集合来显著提升水印在图像扰动下的鲁棒性,同时保持图像质量。

Computation and Communication Efficient Federated Unlearning via On-server Gradient Conflict Mitigation and Expression

提出 FOUL 框架,通过"学习阶段解耦因果/非因果特征 + 遗忘阶段服务器端梯度冲突匹配"两阶段策略,在不访问客户端数据的前提下实现高效且低通信开销的联邦遗忘。

COPYLENS: Towards Copyrighted Characters Infringement Detection via Copyright-Aware Prompt Learning

针对"文生图模型会无意复刻迪士尼等版权角色"这一治理难题,COPYLENS 把一个 LVLM 当检测器、一个 LLM 当提示词优化器,用 Cohen's Kappa(与人类标注一致性)作为反馈信号,闭环地把检测提示词自动改写到"最像人类判断",在新建的 COPYCHARS 数据集上比现有方法的对齐度提升 5%–10%。

Cross-modal Representation Learning for Diffusion-generated Image Detection

用 RGB 与 NPR(邻域像素关系)两种模态做表示学习——跨模态对比学习(CMCL)拉开真假类间距、跨模态互蒸馏(CMMD)压紧类内结构——共同学一个「面向伪造检测」的嵌入空间,在 GenImage / DRCT-2M / Co-Spy-Bench 三个基准上刷到 SOTA。

DASH: A Meta-Attack Framework for Synthesizing Effective and Stealthy Adversarial Examples

DASH 把一堆现成的 \(\ell_p\) 范数攻击(PGD、CW、各种 FGSM 变体等)当作零件,用一组可学习的 softmax 权重把它们的对抗样本"软组合"起来,并多阶段链式精化,靠一个同时优化攻击成功率和 SSIM 感知相似度的元损失端到端学权重——在对抗训练过的鲁棒模型上既把攻击成功率拉到接近 100%,又比专门的感知对齐攻击(如 AdvAD)更隐蔽。

Decoupling Bias, Aligning Distributions: Synergistic Fairness Optimization for Deepfake Detection

针对 Deepfake 检测器在性别/种族等人口学群体上的偏见,本文提出"结构级公平解耦 + 全局分布对齐"的双机制协同框架:先用通道敏感度指标剪掉最编码敏感属性的卷积通道,再用熵正则最优传输把各子群的预测分布对齐到全局分布,在多个数据集上同时改善组间/组内公平性且不牺牲(甚至提升)检测 AUC。

AdvMark: Decoupling Defense Strategies for Robust Image Watermarking

提出 AdvMark 两阶段解耦防御框架:Stage 1 Encoder Adversarial Training(EAT)将水印图像移入 non-attackable 区域抵御对抗攻击,Stage 2 直接图像优化抵御失真+再生攻击并保留对抗鲁棒性,在 9 种水印方法 ×10 种攻击上分别提升失真/再生/对抗准确率 29%/33%/46%,且图像质量最优。

DeepfakeImpact: A Two-Stage Benchmark with Real-World Impact in Deepfake Detection

这是一个把 deepfake 检测从"测得准不准"重新定义为"对社会有没有用"的两阶段基准:Stage I 在 12 个数据集上统一复现 33 个 SOTA 检测器,Stage II 提出 Social Misjudgment Impact(SMI)指标给每个漏检样本打"社会危害分",构建 17,653 个高危漏检样本组成的 SMI-critical 数据集,并发现技术指标领先的模型在 SMI 评测下常常翻车。

DeepProtect: Proactive Face-Swapping Defense using Identity Blending and Attribute Distortion

DeepProtect 在上传人脸前给图像「打预防针」:先在 StyleGAN 的 W+ 隐空间把目标身份和若干视觉相似但身份不同的人脸做逐通道混合、稀释掉可被提取的身份特征,再沿文本提示指定的人脸部件(如鼻子、眉毛)方向嵌入不可见对抗水印,使得后续任何换脸模型生成的 deepfake 都被破坏,同时保护图本身几乎看不出改动。

Detect Any AI-Counterfeited Text Image

针对生成式 AI 伪造文本图像的检测,作者用 MLLM 驱动的 Creative Proposer 流水线造出了规模超前作 100 倍的 DanceText 数据集,并提出 DS-Net——靠"伪影-内容解耦编码器"借非文本域海量假图学通用伪影、靠"协同去噪解码器"让图像级分类和区域级定位互相纠错,在跨生成器/跨语言/真实软件等八个 out-of-domain 测试集上把平均 F1 从 49.4 抬到 53.9。

Detecting Compressed AI-Generated Images via Phase Spectrum Robustness

针对社交网络 JPEG 压缩会摧毁伪造痕迹、让 AI 生成图像检测器失效的问题,本文从"相位谱比幅度谱更抗压缩"这一信号学观察出发,提出 CPTFormer——用相位特征引导 RGB 表征做双向跨模态融合、再用空域+小波频域双分支适配器微调,并在仅有少量压缩标注时用难度感知损失聚焦难样本,在 GAN/扩散模型四个压缩测试基准上把准确率最高拉高 6.7%。

DFD-HR: Generalizable Deepfake Detection via Hierarchical Routing Learning

DFD-HR 在把 CLIP 这类视觉基座迁移到深度伪造检测时,不再笼统地"少调几个参数",而是同时在层级(按样本自适应决定走几层网络)和 token 级(用 Spearman 秩损失筛掉无关 token + MoE 专家路由)上做"层级路由",让模型只把算力花在真正含伪造线索的表示上,在跨数据集 / 跨伪造方法两个设定下分别比 SOTA 提升 +2.3% / +3.8% 的 Video-level AUC。

DiffusionFF: A Diffusion-based Framework for Joint Face Forgery Detection and Fine-Grained Artifact Localization

DiffusionFF 把一个预训练的伪造检测器当"伪迹编码器"、把去噪扩散模型当"伪迹解码器",以多尺度伪造特征为条件,逐步生成细粒度的 DSSIM 伪迹定位图,再把这张图融回检测器做分类,同时拿下检测与定位两个任务的 SOTA。

Domain-Skewed Federated Learning with Feature Decoupling and Calibration

提出 F²DC 框架,通过域特征解耦器(DFD)和域特征校正器(DFC)将联邦学习中客户端的局部特征分离为域鲁棒特征和域相关特征,并对域相关特征进行校准以挽救被丢弃的类别信息,配合域感知聚合策略,在三个多域数据集上一致超越 SOTA。

DSO: Direct Steering Optimization for Bias Mitigation

DSO 用强化学习去学习一组施加在激活上的线性变换(转向),把「让职业判断不再依赖性别刻板印象」直接写成可优化的公平性奖励,从而在 VLM/LLM 上以一个可调强度参数 \(\omega\) 在推理时连续地权衡「降偏见」和「保能力」,在公平-能力 trade-off 上做到 SOTA,且只改动不到 0.005% 的参数。

DualMirage: Hunting Stealthy Multimodal LLM Agents via CAPTCHAs with Contour and Adversarial Illusions

DualMirage 用一张图同时埋两类"幻象"——人眼能看懂、机器看不懂的彩色错觉轮廓(Colored Abutting Grating),加上机器能"看懂"、人眼察觉不到的对抗扰动,既挡住伪装成人类的恶意多模态智能体(最高 100% 拦截率),又主动诱导它说出自己的模型名(白盒 58.8%、黑盒 21.9%),把传统 CAPTCHA 从"测能力"升级为"猎身份"。

Editprint: General Digital Image Forensics via Editing Fingerprint with Self-Augmentation Training

Editprint 用一个"在线编辑池"把仅 10 张原始 raw 图像自增广出上千万条带文本标签的「成像+后处理」编辑链,再用自增广训练(SAT)从中学一个通用的"编辑指纹"特征,使其在无标注、零样本的合成图像检测(SID)、社交网络溯源(SNP)和相机溯源(CSI)任务上同时逼近甚至超过有监督方法。

Eliminate Distance Differences Induced by Backdoor Attacks: Layer-Selective Training and Clipping to Mask Backdoor Models

LaySelFL 是一种针对联邦学习的隐蔽后门攻击:它先评估每一层对后门目标的"敏感度"、只在最敏感的少数层上投毒,再用约束损失把投毒层逼近 server 模型、对其余正常层做逐元素裁剪,从而抹掉后门模型与干净模型之间的距离差异,使攻击整体有效性提升 25%、并把五种 SOTA 基于距离/相似度的防御方法的拦截率从 26.6% 压到 4%。

Enhancing Out-of-Distribution Detection with Extended Logit Normalization

本文发现 LogitNorm 在训练中会导致两种特征坍塌(维度坍塌和原点坍塌),提出了一种无超参数的 Extended Logit Normalization(ELogitNorm),用特征到决策边界的距离替代到原点的距离作为缩放因子,在不损失分类精度的前提下显著提升各种 post-hoc OOD 检测方法的性能和置信度校准。

Enhancing the Security of Visual Speaker Authentication Based on Dynamic Lip-Print Analysis

本文提出以「视素组合」作为视觉说话人认证(VSA)的分析单元,把每个人独有的连续视素说话习惯抽成「动态唇纹」,配合一个逐层帧差的多层动态增强编码器,使系统能在不重训、不补录用户视频的前提下扩展认证提示集,并显著增强对重放攻击与多种 DeepFake 的抵抗力(VSA/GRID/TCD-TIMIT 上 AUC 普遍逼近 1.0、HTER 低至 0.1–0.2%)。

Exposing Functional Fusion: A New Class of Strategic Backdoor in Dynamic Prompt Architectures

本文提出 VIPER——首个建立在动态视觉提示生成器(VPG)之上的 ViT 后门攻击框架,通过触发器与提示的联合优化诱导出一种新现象「Functional Fusion」(功能融合):恶意逻辑与良性效用被压缩进同一个稀疏高幅值参数核,使得剪枝防御一旦移除攻击就必然摧毁良性精度,从而在保持近 100% ASR、最高 clean 精度和几乎可忽略推理开销(+0.06ms)的同时,形成防御者无法破解的「人质困境」。

FeatureFool: Zero-Query Fooling of Video Models via Feature Map

FeatureFool 提出首个零查询的视频黑盒对抗攻击:从一个公开预训练 3D-CNN 上、对"最大光流帧"用引导反向传播抽出一张富含运动语义的特征图,把它作为通用扰动广播到目标视频的每一帧,无需任何查询即可让传统视频分类器误判(ASR >70%),并能让 Video-LLM 漏判暴力/色情等有害内容(ASR >70%),同时画质几乎无损(SSIM >0.87、PSNR >28dB)。

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

提出 FedAFD 框架,通过双层对抗对齐、粒度感知特征融合和相似度引导的集成蒸馏三阶段设计,在多模态联邦学习中同时提升异构客户端和服务器的模型性能。

FedCART: Tackling Long-Tailed Distributions in Federated Adversarial Training via Classifier Refinement

针对联邦对抗训练(FAT)在长尾数据下崩盘的问题,FedCART 把全局模型拆成「共享特征提取器 + 双分类器」,客户端用对比损失对齐自然/对抗特征以保鲁棒,服务端用聚合后的梯度原型合成类别均衡的虚拟特征、再训练一个辅助分类器来消偏,在 CIFAR/SVHN/FMNIST 的长尾变体上自然精度与鲁棒精度同时超过 CalFAT 等 SOTA。

FedDAP: Domain-Aware Prototype Learning for Federated Learning under Domain Shift

提出域感知原型联邦学习框架 FedDAP,通过构建域特定全局原型和双重原型对齐策略(域内对齐 + 跨域对比),解决联邦学习中客户端数据域偏移导致的全局模型性能退化问题。

Federated Active Learning Under Extreme Non-IID and Global Class Imbalance

系统分析全局类不平衡与客户端异构性对联邦主动学习中 query model 选择的影响,归纳出3个核心 Observation,据此提出 FairFAL——自适应选择 query model + 原型引导伪标签 + 两阶段不确定性-多样性平衡采样的类公平 FAL 框架,在5个基准数据集上一致超越所有基线。

FedMOP: Achieving Enhanced Privacy and Performance in Federated Learning via Momentum Orthogonal Projection

FedMOP 在每个客户端本地训练开始前给初始模型加一个"动量演化的正交偏移"——正交分量抵消 non-IID 漂移提升性能,动量演化让偏移向量在攻击者眼里变成 \((d+t)\) 维不可解的逆问题来保护隐私,从而第一次让"更强隐私"和"更高精度"同时成立,而非互相牺牲。

FedRE: A Representation Entanglement Framework for Model-Heterogeneous Federated Learning

提出 FedRE 框架,通过"纠缠表示"(entangled representation)——将每个客户端的所有局部表示用归一化随机权重聚合为单一跨类别表示,实现模型异构联邦学习中性能、隐私保护和通信开销的三方平衡。

FlowHijack: A Dynamics-Aware Backdoor Attack on Flow-Matching Vision-Language-Action Models

针对 π0 这类基于流匹配(flow-matching)的 VLA 机器人策略,本文提出首个面向其"向量场动力学"的后门攻击 FlowHijack:用语义化的上下文触发器、只劫持生成早期(小 τ)阶段的向量场、再配一个动力学模仿正则,在保持正常任务成功率几乎不掉的前提下把攻击成功率(ASR)拉到最高 100%,且生成的恶意动作在运动学上与正常动作难以区分、能绕过现有防御。

Forensic-Friendly Image Manipulation via Controllable Latent Diffusion

FFIM 是一个即插即用的可控去噪框架,在扩散编辑的采样过程中"顺手"把编辑区与未编辑区的内生特征差异放大,让没有任何先验密钥的第三方取证模型能高精度定位和检测篡改,且不损害编辑画质(像素级定位 F1 最高 +6.6%、图像级检测 AUC 最高 +27.3%)。

Fractal Camouflage: A Bio-Inspired Approach for Multi-Scale Adversarial Attacks in the Infrared Domain

针对红外行人检测器,用 H 型分形几何天然的自相似结构生成"跨尺度都有效"的物理对抗扰动(贴在衣服上的冷贴片),并用粒子群优化在黑盒条件下搜参数,物理世界 ASR 达 97.54%、跨数据集 99.16%,远超现有单尺度方法。

Frequency-domain Manipulation for Face Obfuscation

FreM 把人脸混淆从空域搬到频域:先分块 DCT 把人脸拆成 LL/LH/HL/HH 四个子带,对每个子带用专门模块做"中和 / 微扰 / 抑制"差异化处理,再用反向传播逐图细化参数,在"人看不出 + 机器认得出"之间取得平衡的同时,对重建攻击表现出明显更强的鲁棒性(PSNR 最低)。

From Measurement to Mitigation: Quantifying and Reducing Identity Leakage in Image Representation Encoders with Linear Subspace Removal

在攻击者视角下系统量化 CLIP / DINOv2/v3 / SSCD 这类冻结视觉编码器在人脸数据上的身份泄漏(开放集低 FAR 验证 + 模板反演 + 人脸-背景归因),并提出一次性闭式投影 ISP 把身份子空间从嵌入里线性抹掉,使线性探针掉到接近随机、同时几乎不损失检索/分类效用。

FVBench: Benchmarking Deepfake Video Detection Capability of Large Multimodal Models

FVBench 构建了目前最大的深度伪造视频检测基准(12 万+视频、42 个 SOTA 生成/编辑模型、真实/AI编辑/全AI生成三类内容),并第一次系统评测大多模态模型(LMM)的辨伪能力,得出核心结论:检测的真正难点不是在已知伪造上做监督训练,而是对未见生成器的零样本/跨生成器泛化。

GenBreak: Red Teaming Text-to-Image Generation Using Large Language Models

GenBreak 把一个开源 LLM 微调成"红队 agent":先用两个定制数据集做 SFT 冷启动,再用 GRPO 强化学习配六路多目标奖励,让它自动产出既能绕过文生图(T2I)安全过滤器、又能诱导高毒性图像、还保持语义流畅和多样性的对抗 prompt,单次尝试就能在 Leonardo.Ai 等商用 API 上把裸露类有毒绕过率打到 70%。

Generative Adversarial Perturbations with Cross-paradigm Transferability on Localized Crowd Counting

提出首个跨范式(密度图 + 点回归)对抗攻击框架 CrowdGen,利用轻量级 UNet 生成器和多任务损失(logit 抑制 + 密度抑制 + GradCAM 引导 + 频域约束),在保持视觉隐蔽性(~19dB PSNR)的同时实现对七个 SOTA 人群计数模型的高迁移率(TR 最高 1.69),攻击 MAE 平均提升 7 倍。

Good Can Sometimes be Bad: A Unified Attack against 3D Point Cloud Classifier by a Flexible Isotropic Resampling

本文提出 UAtt3D,用一个可微的「柔性各向同性重采样(FIR)」把 3D 点云的对抗攻击和后门攻击统一进同一个变换函数里,并反其道而行——不靠压低扰动来藏,而是把被攻击点云的质量改得比原始还高来逃避检测,在保持高攻击成功率的同时取得最佳隐蔽性。

GROW: Watermark Generation with Progressive Guidance for Diffusion Models

GROW 把扩散模型水印从"在初始噪声里一次性埋入、提取时要做昂贵 DDIM 逆向"重构成"在去噪过程中用频域梯度逐步引导生成",让水印自然长进图像纹理里,从而提取时无需逆向——鲁棒性和不可见性都超过现有方法,提取速度快了近 100 倍。

GuardTrace-VL: Detecting Unsafe Multimodel Reasoning via Iterative Safety Supervision

针对多模态推理模型「最终答案安全、但中间推理已经泄露危险内容」的盲区,本文构建了首个图文 Question–Thinking–Answer(QTA)安全数据集 GuardTrace,并用「SFT → DPO → Oracle-Guided Refined DPO」三阶段渐进训练出一个 3B 视觉安全审计器,在自建测试集上 unsafe reasoning 检测 F1 达 93.1%,比最强多模态护栏高 13.5 个百分点。

GVIS: Generative Vector Image Steganography

GVIS 把"先用扩散模型确定性地生成栅格图、再矢量化成 SVG"当作隐写载体,通过微扰立方贝塞尔曲线控制点来嵌入密文,无需训练即可在不改变文件大小与统计分布的前提下,在单张 256×256 图上塞进约 8.8 万比特并实现 100% 无损提取,是第一个面向矢量图的生成式隐写框架。

Hidden Dangers of Compositional Generation: Diagnosing Semantic Safety Failures in Text-to-Image Models

本文提出 CoRA(Composable Reassembly Attack):一个纯文本空间、黑盒条件下的文生图攻击框架,先把有害意图拆成一组单独看都"无害"的细粒度视觉元素,再通过迭代选择与重组诱导模型把这些元素重新拼回原始恶意语义,从而在不触发安全过滤器的前提下显著提升攻击成功率。

Hierarchically Robust Zero-shot Vision-language Models

把 CLIP 的对抗微调从"只对齐叶子类(base class)的扁平方案"改造成"沿 WordNet 类别树多层级对齐"的层次方案,借助双曲(Poincaré 球)几何让不同层级天然拥有不同大小的间隔(margin),从而生成更通用的对抗扰动,在 15 个数据集上同时提升干净精度(62.5%)和鲁棒精度(45.4%)。

Image-based Outlier Synthesis With Training Data

不借助任何外部数据,仅用训练集内的图像通过"梯度归因加扰"破坏不变特征、保留环境特征来合成近流形虚拟离群点,再以离群点暴露 + z-score 标准化特征联合训练,统一解决伪相关(spurious)、细粒度(fine-grained)和常规三类 OOD 检测。

Immunizing Models Against Harmful Long-Horizon Fine-Tuning via Contractive Optimization Dynamics

本文提出 CLAMP,一种针对"长时程有害微调"的模型免疫方法:它不只塑造初始权重的几何,而是把攻击者的整条优化轨迹"收缩"住——让每一步更新都比上一步更小,从而给出一个攻击者从第 0 步到无穷步可获收益的闭式上界,在分类、生成、自回归三类模型上都能在数千步微调后仍守住防线,同时几乎不损害良性微调能力。

Improving Adversarial Transferability with Local Perturbation Augmentation

本文指出迭代式对抗攻击会让扰动"过拟合"到代理模型的局部梯度特征、从而难迁移到别的模型,提出 LPAA:在每次迭代里用随机掩码构造多个增强的局部子空间、聚合子空间梯度来把更新推向更泛化的方向,再配一个面向迁移性的扰动初始化策略,在 CNN 与 ViT 上显著超过现有 SOTA 迁移攻击。

Jailbreaking Vision-Language Models via Dissonance-Guided Suffix Optimization and Image-Phrase Injection

DGSIP 用一个"未对齐向导模型"和目标 VLM 在每个 token 位置上的预测分布差异(失谐)来无梯度地搜索对抗后缀,并在后缀优化卡住时切换到"把诱导短语渲染进图像"的视觉注入,两者交替进行,在 AdvBench 上对 MiniGPT-4/InstructBLIP 打到 100% 攻击成功率,且对 GPT-4o-Mini、Gemini、Qwen2.5-VL 等黑盒商用模型也有明显迁移效果。

JANUS: A Lightweight Framework for Jailbreaking Text-to-Image Models via Distribution Optimization

JANUS 把对文图(T2I)模型的越狱攻击重构成一个"低维分布优化"问题——用两个语义锚定的高斯分布做"波干涉"式混合、再用轻量策略梯度在黑盒端到端奖励下学最优混合系数,不靠大模型生成器就把 SD3.5 Large Turbo 上的 ASR-8 从 25.30% 拉到 43.15%,揭示当前 T2I 安全管线的结构性弱点。

LaSM: Layer-wise Scaling Mechanism for Defending Pop-up Attack on GUI Agents

通过系统分析弹窗注入攻击如何扭曲 GUI Agent 的逐层注意力,作者发现深层注意力在"答对/答错"样本间会出现分歧,进而提出 LaSM——一种免训练、即插即用的逐层缩放机制,只放大中层语义层的注意力与 MLP 权重,把弹窗攻击下 Qwen2-VL-7B 的防御成功率从约 19% 提到 66% 以上,且几乎不损害正常任务能力。

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

把每个像素拆成 8 个二进制位平面、对每个比特独立做随机响应,再配上小波域感知遮蔽和按位重要度分配隐私预算的优化,LDP-Slicing 第一次让"逐像素 \(\varepsilon\)-LDP"在标准图像上既严格可证又能保住下游任务精度,且零额外存储、毫秒级开销。

Learning Latent Concepts for Detecting Out-of-Distribution Objects

UNO-Adapter 把"未知"概念以即插即用的方式注入一个完全冻结的检测器:先用对象中心的槽(slot)无监督地把整张图抽象成稀疏概念,再在推理时把这些概念与检测器的实例特征绑定,并配一个图像级 OOD 分数,从而在不改任何检测器权重的前提下,把 BDD-100K 上的 FPR95 相比此前最佳方法最多降低 11.96%。

Logit-Margin Repulsion for Backdoor Defense

LMR 把后门防御重新表述成一个logit 空间的几何问题:只用极少量干净样本(甚至 0.1%),先定位后门类,再在干净数据上人为拉大"后门类 logit 与最强竞争类 logit"之间的间隔、并剪掉与后门强相关的分类头通道,使触发器或量化/剪枝带来的 logit 偏移不足以翻转 top-1 预测,从而同时防住传统后门和量化/剪枝条件后门。

MaxMark: High-Capacity Diffusion-Native Watermarking via Robust and Invertible Latent Embedding

MaxMark 把水印写进 latent 噪声里"最可靠的符号位"、再用可逆神经网络(INN)把含水印 latent 拉回标准高斯分布,从而在 latent 扩散模型上做到「高容量 + 高鲁棒 + 不掉画质」的潜空间水印,在 16,384 bit 满容量下把提取准确率比最强基线提升约 46%。

Meta-FC: Meta-Learning with Feature Consistency for Robust and Generalizable Watermarking

Meta-FC 把深度水印里"每个 batch 随机选一种失真训练"(SRD)的老套路换成元学习——每个 batch 抽多种失真做 meta-train、留一种当"未知失真"做 meta-test,再加一个特征一致性损失对齐解码器特征,让水印模型学到失真不变表示;作为即插即用策略套在 5 个现成模型上,在高强度/组合/未知失真下平均把准确率提升 1.59%/4.71%/2.38%。

Mitigating Error Amplification in Fast Adversarial Training

本文发现快速对抗训练(FAT)中的低置信度/误分类样本是灾难性过拟合(CO)和鲁棒性-精度权衡的"罪魁祸首",据此提出按样本置信度动态分配扰动预算、按预测状态动态调整监督信号、再配一个加权平滑正则的 DDG 策略,在 CIFAR-10/100 和 Tiny-ImageNet 上同时缓解 CO 并改善鲁棒性-精度权衡。

Mitigating Simplicity Bias in OOD Detection through Object Co-occurrence Analysis

本文指出现有 OOD 检测因"简单性偏置"只盯着图像里最易学的局部线索、对近 OOD 力不从心,于是用 Slot Attention 把图像拆成物体级槽、显式建模"物体共现模式",再把测试样本按共现是否符合训练分布划成单一/典型/非典型三种场景、各设专用打分分而治之,在 OpenOOD 与全谱 OOD 基准上对近 OOD 和协变量漂移都更鲁棒。

Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints

本文揭示了一种被忽视的"语义槽填充(Semantic Slot Filling)"安全漏洞——大型视觉语言模型(LVLM)会主动为"看起来无害"的槽位补全内容,即使这些槽位组合起来隐含恶意意图;据此提出黑盒单查询越狱框架 StructAttack,把有害指令拆成一堆局部无害的"乐高块"再画成结构化视觉图(思维导图/表格/旭日图),诱导模型自己把它们重新拼装成有害答案,在 GPT-4o 上单次攻击成功率约 69%。

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

提出 MPCAttack 框架,联合跨模态对齐、多模态理解和视觉自监督三种学习范式的特征表示,通过多范式协同优化策略生成高迁移性对抗样本,在开源和闭源 MLLM 上均取得 SOTA 攻击效果。

No Way To Steal My Face: Proactive Defense Against Identity-Preserving Personalized Generation

针对扩散模型"个性化人脸生成"被滥用盗脸的问题,本文提出 IDGuardian——把个性化流程抽象成"身份提取 + 身份注入"两个阶段,同时用跨编码器身份场混淆和引导流身份偏转两套对抗扰动把两阶段都打掉,从而第一次做到对训练式免训练两类个性化方法都通用、且模型无关的人脸身份保护。

Omni-Fake: Benchmarking Unified Multimodal Social Media Deepfake Detection

本文构建了首个覆盖图像/音频/视频/音视频说话头四模态、含 100 万+ 训练样本和 20 万+ 完全不相交 OOD 样本、并统一标注"检测-定位-解释"三任务的社交媒体深伪基准 Omni-Fake,同时给出一个基于 Qwen2.5-Omni-7B、用"课程式 SFT + GSPO 强化学习"训练的统一检测器 Omni-Fake-R1,在四模态的检测、定位、解释和跨生成器泛化上全面超越单模态 SOTA。

One-to-More: High-Fidelity Training-Free Anomaly Generation with Attention Control

O2MAG 提出一种无需训练的少样本异常生成方法,通过三分支扩散过程中的自注意力嫁接(TriAG)从单张参考异常图像合成更多逼真异常,配合异常引导优化(AGO)对齐文本语义和双重注意力增强(DAE)确保掩码区域完整填充,在 MVTec-AD 下游异常检测任务中显著优于现有方法。

PA-Attack: Guiding Gray-Box Attacks on LVLM Vision Encoders with Prototypes and Attention

针对 LVLM 共享的视觉编码器做灰盒攻击,用「原型锚定引导 + 类别 token 注意力加权 + 两阶段注意力刷新」让小扰动(ε=2/255)就能跨任务通用地打崩模型,平均得分下降率(SRR)达 75.1%,明显超过现有灰盒/黑盒方法。

PECCAVI: Overcoming the Brittleness of AI Image Watermarking Under Visual Paraphrasing Attacks

本文先提出一种能轻松抹掉现有 AI 图像水印的"视觉改写攻击"(先给图配文、再用扩散模型按文重画一张语义相同但无水印的图),再针对它设计 PECCAVI——把水印多通道嵌进图中"改写后仍稳定"的非熔点区域(NMP)的频域里,在 PSNR>30dB 下显著提升对改写攻击的存活率。

PGA: Prior-free Generative Attack for Practical No-box Scenario

PGA 是第一个面向"实用无盒场景"(PNS,攻击者只有少量无标签图、没有预训练代理也没有标签)的生成式对抗攻击:它用课程式微鲁棒优化从零训出一个稳定的自监督代理,再用区域感知一致性扰动学习训出生成器,一步推理就能产出迁移性强的对抗样本,攻击成功率比现有 PNS 方法高十几个点,推理速度快上百倍。

Phantom: Physical Object Interactions as Dynamic Triggers for NMS-Exploited Backdoors

本文提出 Phantom——一种不改像素、只往标注里加几个框就能植入的目标检测后门:通过在训练时构造"毒标签 + 强制置信度排序",劫持检测器的 NMS 后处理,使得现实世界中两个自然物体发生空间重叠时触发误分类/错定位/物体凭空出现或消失,且在干净样本上性能几乎不掉、能绕过现有防御。

Physical Adversarial Clothing Evades Visible-Thermal Detectors via Non-Overlapping RGB-T Pattern

本文用「可见光印花布 + 铝膜」两种互不重叠的材料做成一件 3D 对抗衣物(NORP),配合能同时优化连续 RGB 像素和离散热像素的 SDCO 优化方法,让穿戴者在可见光和热成像两种模态、0°–360° 全视角下都躲过 RGB-T 行人检测器,数字世界平均 ASR 99.6%、物理世界 71.0%。

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

提出 PinPoint 基准,包含 7,635 个查询和 329K 人工验证的相关性判断,通过显式负样本、多图像查询、释义变体和人口统计元数据四个维度,揭示了现有 CIR 方法在假阳性抑制、语言鲁棒性和多图像推理上的严重缺陷,并提出基于 MLLM 的无训练重排方法作为改进基线。

PoInit-of-View: Poisoning Initialization of Views Transfers Across Multiple 3D Reconstruction Systems

这篇论文发现 3D 重建管线的几何核心——SfM 初始化模块本身就是一个可被攻击的"命门":作者提出 PoInit-of-View,往多视图输入图像里注入人眼几乎不可见的扰动,专门破坏不同视图间的局部梯度一致性,使 SfM 的特征匹配崩溃、相机注册数从近百降到个位数,从而让下游 MVS/NeRF/3DGS 全线失败,且这种攻击不依赖具体重建架构、能黑盒迁移(如 3DGS→NeRF 上 PSNR 比单视图基线再多降 25.1%)。

POUR: A Provably Optimal Method for Unlearning Representations via Neural Collapse

针对现有机器遗忘只改分类头、特征里仍残留被遗忘类信息的问题,本文把"遗忘"提升到表征层面,借助 Neural Collapse 的 simplex-ETF 几何证明"去掉一个类 = 沿其方向做正交投影后 ETF 依然是 ETF",由此给出闭式投影算子 POUR-P 和蒸馏变体 POUR-D,在 CIFAR-10/100、PathMNIST 上同时刷新分类级和表征级遗忘指标,并形式化证明其在表征级弱遗忘定义下是最优的。

PrivateEyes: Gaze-Preserving Anonymization for Data Sharing

PrivateEyes 用「分割 + 3D 眼姿态估计 + ControlNet 条件扩散」的三段式 pipeline 重新合成眼部图像,在抹掉可识别虹膜生物特征(虹膜识别率降约 50%)的同时保住注视方向(注视估计精度反而比 SOTA 匿名方法高 10%+),让眼动数据集可以合规共享。

PrivSynth: Alternating and Control-Based Optimization for Privacy and Utility in Synthetic Data

PrivSynth 把"合成数据生成的隐私-效用权衡"建模成一个双目标优化问题,并在生成器与数据选择参数之间交替优化,再把数据选择这一步重写成离散时间最优控制问题、用 Pontryagin 极大值原理(PMP)求解,在保证下游效用的同时把成员推断攻击成功率从 48% 压到约 2%。

PROMPTMINER: Black-Box Prompt Stealing against Text-to-Image Generative Models via Reinforcement Learning and VLM-Guided Optimization

PromptMiner 是一个黑盒 prompt 窃取框架:给定一张文生图模型生成的图,它先用带 reward shaping 的强化学习反演出精准的"主体"prompt,再用 VLM 引导的进化搜索补全"风格修饰词",无需模型梯度、无需大规模标注数据,就能恢复出能复现高度相似图像的 prompt,CLIP 相似度最高 0.958、SBERT 文本对齐最高 0.751,且对常见图像扰动防御鲁棒。

Protego: User-Centric Pose-Invariant Privacy Protection Against Face Recognition-Induced Digital Footprint Exposure

Protego 把用户的 3D 人脸特征压缩成一张姿态无关的二维「隐私保护纹理」(PPT),配合一个让人脸识别模型对受保护图像「超敏感」的新损失,使受保护的人脸照片即使彼此之间也无法被检索匹配,从而在 Clearview AI、PimEyes 这类以脸搜人的引擎面前保护用户的数字足迹,黑盒检索召回率至少比现有方法低一半。

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

提出 ProxyFL 框架,利用分类器权重作为统一代理 (proxy) 同时缓解联邦半监督学习中的外部异质性(跨客户端分布差异)和内部异质性(标注/未标注数据分布不匹配),在多个数据集上显著超越现有 FSSL 方法。

PureProof: Diffusion-Resistant Black-box Targeted Attack on Large Vision-Language Models

PureProof 是首个能扛住"扩散净化(DBP)"防御的黑盒定向攻击:它用一个扩散代理只跑单步反向预测来对齐目标语义(SRA)、用时间步自适应再加噪稳定梯度(ARA)、再用自一致正则约束局部连贯(SCR),让对抗图像在被 DiffPure 等净化后仍能诱导 VLM 输出攻击者指定的目标文本。

R\(^2\)TUA: Reconstruction-residual Based Targeted and Untargeted Attack Against Text-Image Person Re-Identification

R²TUA 是首个针对「文本-图像行人重识别」(TI-ReID) 的多模态对抗攻击:给定一张图和一句对抗文本提示,它先用渐进式多模态融合把对抗身份属性注入图像、再「重建-残差」式提取出几乎不可见的扰动,既能让原图无法被真实描述检索到(非目标),又能误导检索指向对抗身份(目标),在三个数据集、三个模型上全面超过所有可迁移的现有攻击。

RankOOD: Class Ranking-based Out-of-Distribution Detection

RankOOD 利用"分类器对每个 ID 类会自然诱导出一个类间排序模式、而 OOD 样本难以遵守这个排序"的洞察,先用 ILP 为每类抽出一个规范排序(canonical rank)、再用 Plackett-Luce 的 ListMLE 损失重训分类器去强化这个排序、最后按测试样本对规范排序的偏离打 OOD 分,在 TinyImageNet near-OOD 上把 FPR95 降了 4.3% 拿到 SOTA。

RaPA: Enhancing Transferable Targeted Attacks via Random Parameter Pruning

RaPA 发现现有定向迁移攻击的对抗扰动过度依赖代理模型里少数关键参数,于是在每步优化时对参数做随机剪枝(DropConnect),等价于给损失加一项"重要性均衡正则",从而打散依赖、显著提升跨架构(尤其 CNN→Transformer)的定向攻击成功率。

RAVEN: Erasing Invisible Watermarks via Novel View Synthesis

RAVEN 把"擦掉 AI 生成图里的不可见水印"重新表述成"换个视角重看同一场景"——用冻结的图生图扩散模型在隐空间做一个微小的视角平移,配上跨视角对应注意力维持画面一致性,在不接触检测器、不知道水印算法的零样本设定下,对 15 种水印方法做到平均 TPR@1%FPR 仅 0.026,比最强攻击基线再降 60%+,同时画质(FID 40.18)反而最好。

RecoverMark: Robust Watermarking for Localization and Recovery of Manipulated Faces

提出 RecoverMark,一个将人脸内容本身作为水印嵌入背景的鲁棒水印框架,同时实现篡改区域定位、原始内容恢复和版权验证,在水印移除攻击下仍保持有效。

Red-teaming Retrieval-Augmented Diffusion Models via Poisoning Knowledge Bases

针对检索增强扩散模型(RAG-DMs),本文提出首个面向黑盒场景的联合优化后门攻击 JOB:向知识库注入极少量目标类中毒图像,并用强化学习联合优化一个触发词,使带触发器的查询既能检索到中毒图像、又能驱动扩散模型生成目标类图像,同时保持对良性查询的正常表现。

Reinforcement-Guided Synthetic Data Generation for Privacy-Sensitive Identity Recognition

针对隐私受限场景下"真实数据稀缺 → 生成模型差 → 合成数据无用"的恶性循环,本文把扩散模型的合成过程建模成一个强化学习问题:用通用域预训练的 DiT 做冷启动对齐,再用"语义一致 + 分布覆盖 + 表达多样"三重奖励做策略微调,最后用前瞻式动态采样挑选高效用样本,在行人重识别与人脸识别两类身份任务上同时提升生成保真度和下游分类精度。

RemedyGS: Defend 3D Gaussian Splatting Against Computation Cost Attacks

RemedyGS 提出首个针对 3DGS"计算开销攻击"(Poison-splat 这类通过毒化输入图像触发高斯爆炸、耗尽 GPU 资源造成拒绝服务的攻击)的黑盒防御框架,用"检测器+净化器+对抗训练"两阶段流水线,只对被判定为中毒的图做净化,从而把计算开销拉回正常水平的同时几乎不损伤正常用户的重建质量。

ReMoE: Region-Mixture Experts for Adversarially-Robust Vision Transformers

ReMoE 把 ViT 里普通的 FFN 换成一个"区域感知的混合专家层"——用全局/中心/区域三种粒度的专家配上注意力引导的路由,并在对抗训练里按区域脆弱度重加权、对齐干净/对抗样本的区域注意力分布,从而在几乎不增加算力的前提下显著提升 ViT 的对抗鲁棒性。

RevINN: An End-to-End Invertible Neural Network for Reversible Adversarial Examples Generation

RevINN 用一个可逆神经网络(INN)在小波频域里"交换/扰乱"图像自身的高低频判别信息来一步生成可逆对抗样本(RAE),既能误导未授权模型、又能由授权用户近无损还原原图,彻底甩掉了传统"先攻击、再嵌入扰动"两阶段方案带来的画质和攻击力双重退化。

Robustness Under Data Scarcity: Few-Shot Continual Adversarial Training for Evolving Threats

现实中防守方往往只能拿到很少的对抗样本去应对不断涌现的新攻击,本文提出"小样本持续对抗训练(FS-CAT)"这一新设定,并用三件套——把干净样本推离决策边界的对抗边界损失(ADM)、用高斯混合模型合成伪特征做免存储回放的 GMM 原型回放、把更新方向拉向多数旧域的多域平衡损失(MDB)——在 ImageNet-1K 与 CIFAR-100 上同时缓解小样本下的鲁棒泛化困难与灾难性遗忘。

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

本文揭示「剪枝式概念遗忘」存在一个被忽视的安全漏洞——被剪掉(置零)的权重位置本身泄露了概念信息,并设计了一套完全无数据、无训练的攻击框架,仅靠恢复权重的符号就能在 7 分钟内把已擦除概念的识别准确率从平均 8% 拉回到 54%。

RunawayEvil: Jailbreaking the Image-to-Video Generative Models

本文提出 RunawayEvil——首个针对「图生视频(I2V)」模型的多模态越狱攻击框架,用「策略-战术-行动」范式让攻击在文本与图像两个模态上协同、并通过强化学习+LLM 自我进化,在 COCO2017 上把攻击成功率比现有方法提升 58.5%–79%。

SafeLogo: Turning Your Logos into Jailbreak Shields via Micro-Regional Adversarial Training

SafeLogo 把一块只占图像 ≤2% 像素的"商标级"小补丁,用 min–max 对抗训练优化成一个通用的越狱防护盾——内循环动态挑出当前最强的越狱攻击、外循环更新这块局部补丁去抵御它,不动 VLM 主干就能在 MM-SafetyBench / VLGuard / FigStep 上大幅压低越狱成功率,同时几乎不损伤正常任务表现。

SafeRoPE: Risk-specific Head-wise Embedding Rotation for Safe Generation in Rectified Flow Transformers

SafeRoPE 发现 MMDiT(如 FLUX)里只有少数「安全关键注意力头」承载不安全语义、且这些语义集中在低维子空间,于是只对这些头学一个低秩正交旋转矩阵、按每个 token 的「潜在风险分数」自适应旋转其不安全分量,从而在几乎不动 100 亿参数主干、不损害正常生成质量的前提下精准压制裸露/暴力/版权等不安全内容。

SAGA: Source Attribution of Generative AI Videos

SAGA 把"这段视频是不是 AI 生成的"升级为"它出自哪个生成器"——用冻结视觉大模型特征 + 时空双层 Transformer,配合"先二分类预训练、再用 0.5% 标注做对比适配"的两阶段策略,在 19 个视频生成器上实现从真假到具体模型的五级源归因,并用时序注意力签名(T-Sig)首次可视化解释"为什么不同生成器可区分"。

SAIDO: 基于场景感知与重要性引导动态优化的可泛化 AI 生成图像检测

SAIDO 把 AI 生成图像检测做成一个免回放的持续学习框架:用大视觉语言模型把图像按场景分流到各自的 LoRA 专家,再用基于 Fisher 信息的"神经元级"重要性引导梯度投影来调和可塑性与稳定性,在持续学习与开放世界两个协议上分别把检测错误率降低 44.22%、把开放集准确率提升 9.47%。

Scaling Up AI-Generated Image Detection with Generator-Aware Prototypes

作者发现"用越多生成器训练 AIGI 检测器、效果反而先升后降"(Benefit then Conflict)这一悖论,归因于生成图像特征过度异质 + 冻结编码器的能力瓶颈,提出 GAPL——先用 PCA 把上千个生成器蒸馏成一小撮"生成器感知原型",再用交叉注意力把任意图像特征重组到这个低方差原型空间,配合两阶段 LoRA 微调,在 6 个基准上平均准确率 90.4%、超过此前 SOTA 3.5%。

SEBA: Sample-Efficient Black-Box Attacks on Visual Reinforcement Learning

SEBA 用一个可微的"影子 Critic" + GAN 扰动生成器 + 世界模型三件套,在不访问受害策略梯度的黑盒条件下,对像素输入的连续控制 RL 智能体生成几乎不可感知的对抗扰动,把累计回报打到接近 0,同时把环境/受害查询量比 RL 类攻击降低一两个数量级。

Selective Amnesia using Contrastive Subnet Erasure for Class Level Unlearning in Vision Models

CSE 针对预训练视觉模型的"类级概念遗忘"——让模型彻底认不出某一整个语义类别(而非只忘掉具体训练样本),它不训练、不改任务头,而是用对比子网发现找出对目标类最负责的一小撮通道、做校准衰减并代数折叠进下一层,实现零推理开销、稳定且更少误伤非目标类的遗忘。

Shedding Light on VLN Robustness: A Black-box Framework for Indoor Lighting-based Adversarial Attack

这篇论文指出视觉语言导航(VLN)智能体的鲁棒性评测一直用"现实里几乎不会出现的怪异纹理",转而提出一个只操控全局室内光照强度的黑盒攻击框架 ILA——静态模式 SILA 搜出一个全程恒定、最能搅乱导航的亮度,动态模式 DILA 在关键时刻突然开/关灯——在两个 SOTA VLN 模型、三个任务上把失败率大幅推高、轨迹效率显著拉低,揭示了 VLN 对"日常光照变化"这种自然扰动的隐藏脆弱性。

SIF: Semantically In-Distribution Fingerprints for Large Vision-Language Models

针对开源大视觉-语言模型(LVLM)被盗用的版权追踪问题,SIF 先用语义散度攻击(SDA)揭示已有指纹"语义反常、易被检测删除"的致命缺陷,再提出把文本解码水印蒸馏进触发图像、并对最坏情况表征扰动做鲁棒优化的非侵入式指纹方案,使被盗模型在标准解码下仍生成"语义自然却带可验证水印"的回答,在量化/微调/输入扰动/SDA 防御下都比 PLA 等基线高出数倍 FMR。

Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

Skyra 把"AI 生成视频检测"从黑盒二分类改造成可解释的伪影推理任务:先用人工精标的 ViF-CoT-4K 数据集做冷启动 SFT,让 MLLM 学会在时空上定位伪影并给出 grounded 解释,再用带非对称奖励的 GRPO 强化学习激发模型主动找伪影,最终在自建 ViF-Bench 上比次优方法绝对准确率高 26.73%。

Sparsity as a Key: Unlocking New Insights from Latent Structures for Out-of-Distribution Detection

本文首次把 Top-k 稀疏自编码器(SAE)用到 ViT 的 [CLS] token 上,把纠缠的稠密特征拆成可解释的稀疏潜空间,发现同类 ID 样本会形成稳定的"类激活轮廓"(CAP),而 OOD 样本虽然能激活对的核心特征却无法复刻其能量分布形状,据此提出 EPD 评分,在多个 benchmark 上拿到最优平均 FPR95(40.96%)。

Stealing Split Learning Bottom Models by Recovering Embedding Geometry

在垂直联邦学习(VFL)的分割学习场景里,作者提出 VENOM——一种"几何感知"的模型窃取攻击:它不再逐点拟合服务器看到的嵌入坐标,而是先用对比学习在这些嵌入上重建一个稳定的邻域几何空间,再让代理模型同时对齐坐标、对齐特征形状、并尊重"近邻该近、远邻该远"的局部结构,从而绕过当前主流的加噪/解耦防御,在 6 个数据集上把窃取准确率(尤其在强防御 Model Rake 下)拉回到可用水平。

Taming the Long Tail: Rebalancing Adversarial Training via Adaptive Perturbation

针对"对抗训练在长尾数据上头部过自信、尾部不鲁棒"的问题,本文从理论上证明扰动强度本身就能同时修复对抗脆弱性和类别失衡,进而提出即插即用的 RobustLT——给尾类分配更大、给头类分配更小的扰动预算(CPB),并在训练早期把扰动从 0 渐进升温以稳住对抗分布演化(AIW),可挂在任意对抗训练算法上,尾类鲁棒准确率最高提升 7 个点。

The Coherence Trap: When MLLM-Crafted Narratives Exploit Manipulated Visual Contexts

揭示现有多模态篡改检测忽视了MLLM能生成语义一致的欺骗性叙事这一核心威胁,构建441k样本的MDSM语义对齐篡改数据集,并提出基于Artifact Token和操纵导向推理的AMD框架,在跨域检测中以仅0.27B参数达到88.18 ACC / 60.25 mAP / 61.02 mIoU的最优泛化性能。

Thermally Activated Dual-Modal Adversarial Clothing against AI Surveillance Systems

本文做了一件"平时是普通黑 T 恤、加热 50 秒后浮现对抗花纹"的衣服——用热致变色染料 + 柔性加热片把一块算法优化出来的多边形对抗补丁藏在布料里,加热时颜色变化骗可见光检测器、热分布变化骗红外检测器,在真实监控场景里对行人检测的攻击成功率(ASR)稳定保持在 80% 以上。

TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery

TokenTrace 把概念的秘密签名同时注入文本提示嵌入和初始隐噪声(双重条件),再用一个带查询的检索模块——给定生成图 + "我想查哪个概念"的文本 query——把对应概念的秘密单独解码出来,从而在一张图里同时混入多个概念(物体 + 画风)时仍能逐个独立归因,在单概念和多概念归因任务上都显著超过 ProMark / CustomMark。

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

提出 SADCA(语义增强动态对比攻击),通过动态对比交互机制和语义增强模块,迭代地破坏对抗图像与文本之间的跨模态语义一致性,显著提升对视觉语言预训练模型(VLP)的对抗可迁移性,在跨模型和跨任务攻击中均超越现有 SOTA 方法。

Towards Human-Imperceptible Backdoor Attacks on Text-to-Image Diffusion Models

本文提出首个面向文本到图像扩散模型的 clean-label(干净标签)后门攻击:通过给图像注入潜空间里几乎不可见的扰动、给文本注入"同义词替换 + 句式改写"的复合语义触发器,让被投毒的图文对在人和自动审查工具看来都语义自洽、毫无异常,却能在推理时被严格的组合触发条件激活,生成攻击者预设的不安全图像,平均攻击成功率(人评)达 97.2%,且对主流 NSFW 过滤器的检出率为 0。

Towards Reliable Evaluation of Adversarial Robustness for Spiking Neural Networks

针对脉冲神经网络(SNN)因脉冲激活的二值、不连续特性导致梯度消失、从而让基于梯度的对抗鲁棒性评估"虚高"的问题,本文从梯度近似和攻击优化两个角度提出 ASSG(自适应锐度代理梯度)+ SA-PGD(稳定自适应 PGD),把攻击成功率(ASR)大幅拉高,揭示当前 SNN 的对抗鲁棒性被严重高估。

Towards Robust Multimodal Large Language Models Against Jailbreak Attacks

SAFEMLLM 是第一个直接对多模态大模型(MLLM)做对抗训练的越狱防御框架:它在 token 嵌入层注入一对可学习扰动矩阵来高效模拟跨模态攻击(CoE-Attack),再交替更新模型参数去抵消这些扰动,从而在白盒场景下把六种越狱攻击的成功率压到接近 0,同时几乎不损失正常多模态问答能力。

Towards Robust Vision Transformers: Path Dependency Analysis and a Simple Two-Stage Adversarial Training

这篇论文先用一套「梯度路径掩码」诊断工具拆开 ViT 注意力的内部信息流,发现残差路径才是对抗攻击的主要漏洞、QK 路径反而承载鲁棒性,再据此设计一个简单的两阶段对抗训练(教师 ViT 提供类注意力图先验 + 学生蒸馏 + 残差门控),在五种 ViT 变体和三种 AT 框架上同时提升了干净精度与鲁棒性。

Towards Stealthy and Effective Backdoor Attacks on Lane Detection: A Naturalistic Data Poisoning Approach

DBALD 用「梯度注意力热图选最敏感位置 + 区域扩散修复合成自然触发器」把车道检测后门攻击的触发器从扎眼的白块/泥纹噪声,做成一个看起来就该在路上的锥桶或泥点,在 4 个车道检测模型上把平均攻击成功率提升 +10.87%、同时把取证检测率压到 3% 以下。

Transform to Transfer: Boosting Adversarial Attack Transferability on Vision-Language Pre-training Models

针对视觉-语言预训练(VLP)模型黑盒对抗样本"迁移性差"的问题,本文提出 Transform to Transfer Attack(TTA),用一套可学习的块级图像变换自动挑选最优变换组合来扩大输入多样性,再用增强版积分梯度(Boosted IG)沿多条变换路径采梯度来摆脱对源模型的过拟合,在跨架构(ALBEF↔CLIP)迁移上把攻击成功率最多拉高近 40 个百分点。

TTP: Test-Time Padding for Adversarial Detection and Robust Adaptation on Vision-Language Models

TTP 给 CLIP 加了一套「先检测、再适配」的测试时防御:靠图像加边(padding)前后特征余弦相似度的漂移来判别一张图是干净还是被对抗扰动过,干净样本原样输出、对抗样本则用单步可训练 padding 配上相似度加权集成来恢复被攻击打乱的注意力,在不重训、不掉干净精度的前提下把对抗鲁棒性显著拉高。

Tutor-Student Reinforcement Learning: A Dynamic Curriculum for Robust Deepfake Detection

提出 Tutor-Student 强化学习(TSRL)框架,将深度伪造检测器的训练过程建模为马尔可夫决策过程,由"导师"(PPO agent)根据每个样本的视觉特征和历史学习动态(EMA 损失、遗忘次数)动态分配损失权重,通过"状态变化"奖励信号引导"学生"(检测器)优先学习高价值样本,在跨数据集和跨方法评估中显著提升泛化能力。

UniDef: Universal Defense Against Unauthorized Image Manipulation

UniDef 给图像加上一层不可见的对抗扰动,让任何基于扩散模型的编辑/生成(SD、InstructPix2Pix、超分、图生视频、图生 3D)都生成语义崩坏的结果;它不再只扰动单步去噪方向,而是沿整条去噪轨迹把输出分布推离原图,并用有限差分雅可比估计做到无需特定模型梯度即可跨模型迁移。

UniGame: Turning a Unified Multimodal Model Into Its Own Adversary

UniGame 提出首个针对统一多模态模型(UMM)的自对抗后训练框架,通过在共享视觉 token 接口安装轻量扰动器,让生成分支主动创造语义一致的对抗样本来挑战理解分支,形成极小极大自博弈,显著提升一致性 (+4.6%)、理解 (+3.6%)、生成和鲁棒性。

Unlearning without Forgetting: Securely Removing Targeted Concepts from Large-Scale Vision-Language Open-Vocabulary Detectors

SafeDetect 把开放词表检测器(GroundingDINO、LLM-Det)的概念遗忘约束在"保留概念子空间的零空间"里更新参数,配合一步式 mean-flow 遗忘目标和跨模态解耦损失,在删除目标概念(如人脸、特定人物)的同时几乎不损伤保留概念与零样本泛化,遗忘效力比 NPO 提升 64.75%,收敛快 1.5×。

Unleashing Stealthy Backdoor Pandemic by Infecting a Single Diffusion Model

作者提出 Eidolon:只需在一个文生图扩散模型里植入一次后门,让它生成的"合成训练数据"自带触发器并被错标到目标类,下游任何用这些数据增强训练的分类器都会被"被动传染"上后门(ASR 普遍 95–100%),首次实现了"一次投毒、无限传播"的后门大流行。

Unsafe2Safe: Controllable Image Anonymization for Downstream Utility

本文提出 Unsafe2Safe 全自动隐私保护流水线,通过 VLM 隐私检查→双字幕生成(私有/公开)→LLM 编辑指令→文本引导扩散编辑的四阶段方案,实现可控图像匿名化,在 VLMScore 隐私指标大幅提升的同时,在 Caltech-101 分类和 OK-VQA 上匿名后准确率甚至超过原始图像。

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

发现 ViT 中 Value 特征相比 Patch 特征具有更解耦的局部语义表示,提出 V-Attack 通过自增强 Value 特征 + 文本引导语义操控实现精确可控的 LVLM 局部语义攻击,ASR 平均提升 36%。

VCP-Attack: Visual-Contrastive Projection for Transferable Black-Box Targeted Attacks on Large Vision-Language Models

VCP-Attack 把对抗扰动约束在动态 PCA 求出的低维语义子空间内、再用多样本对比损失把对抗特征拉向目标语义、推离源语义,从而在黑盒定向攻击大型视觉语言模型(LVLM)上达到 SOTA——开源模型平均攻击成功率 94.2%、闭源 83.1%、对 GPT-4o 高达 95.6%。

Verifying Neural Network Robustness with Dual Perturbations

VeriDou 把"任意连续卷积扰动(如运动模糊各种角度)"和"逐像素独立噪声"合并成一个统一的扰动空间,编码成一层仿射网络前置到原网络上,让现成的 DNN 验证器(αβ-CROWN / Venus / NeuralSAT)能一次性验证这种"双重扰动"下的鲁棒性——结果发现很多被现有方法判为 100% 鲁棒的网络,在双重扰动下能找到高达 99% 的对抗样本。

VisiLock: Authorizing Instruction-based Image editing with Dual Score Distillation

VisiLock 把"访问控制"直接焊进指令式图像编辑模型的权重里——只有当输入图里出现指定的可见钥匙(visual key)时模型才会高质量编辑,否则退化成一张"请授权"的固定图;它用双教师分数蒸馏避开多任务梯度冲突,并用退化初始化让公开 checkpoint 默认上锁、抵抗对抗微调解锁。

VMD-FACT: A New Video Dataset and MLLM-based method for Detecting Realistic AI-Generated Video Misinformation

针对"AI生成视频虚假信息高度真实、跨模态一致、现有数据集编辑痕迹明显"的检测盲区,本文用多智能体框架迭代生成 9049 对真实感极强的 claim–video 伪造样本构成 RAVM 数据集,并提出把"多模态证据 + 事实核查结果 + 它们的依赖"建成有向无环证据图的 IEEG 模型,在 RAVM 上以 7B 参数(75.99% Accuracy)超过 25 个开源/闭源 MLLM(含 Gemini 2.5 的 68.89%)。

WaTeRFlow: Watermark Temporal Robustness via Flow Consistency

WaTeRFlow 让图像水印在被「图生视频(I2V)」转写后仍能从生成的视频帧里高准确率地解码出来——靠一个把图像编辑代理 + 快速视频扩散代理 + 光流对齐塞进编解码训练回路的 FUSE 模块,配上时序一致性损失和语义保持损失,把 SVD-XT 上的平均比特准确率从 VINE 的 73.92% 抬到 84.96%、首帧达到 96.93%。

What Your Features Reveal: Data-Efficient Black-Box Feature Inversion Attack for Split DNNs

针对 Split DNN(边端跑头部、云端跑尾部)传输的中间特征,提出黑盒、数据高效的特征反演框架 FIA-Flow:先用 LFSAM 把任务特征对齐到 VAE 隐空间,再用确定性 Flow Matching(DIFM)一步把"离流形"的隐码拉回自然图像流形,仅用 <4096 张训练样本就能从中间特征高保真重建出原始私有图像。

When CLIP Sees More, It Fights Back Harder: Multi-View Guided Adaptive Counterattacks for Test-Time Adversarial Robustness

针对 CLIP 在测试时的对抗鲁棒性,MAC 用多个增强视图联合做"反击"摆脱单一被攻击原图的误导,并用一个新定义的"腐蚀程度"指标给每个视图自适应调整反击强度,在 20 个数据集、强 PGD-100 攻击下把鲁棒精度从前代 TTC 的 6.8% 拉到 45.2%,且保持 tuning-free 的高速低显存。

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

把恶意后门单独打包进一个看似良性的 LoRA 适配器里(冻结底模、只训低秩权重),用对比损失做"语义手术"把触发词嵌入对齐到攻击目标,从而在不破坏正常功能的前提下让"cool car"这类语义相近的触发短语稳定生成攻击者指定内容,ASR 高达 99.8%。

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

提出 UPA-RFAS 框架,学习一个单一物理对抗补丁,通过特征空间偏移、注意力劫持和语义错位三管齐下,实现对 VLA 机器人策略的通用、可迁移黑盒攻击。

When Understanding Becomes a Risk: Authenticity and Safety Risks in the Emerging Image Generation Paradigm

系统性对比分析了 MLLM(多模态大语言模型)与扩散模型在安全风险上的差异,发现 MLLM 因更强的语义理解能力而更容易生成不安全图像(抽象/非英语提示也能理解),且其生成的图像更难被现有假图检测器识别,即便针对性微调检测器也可通过丰富提示细节来规避。

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

X-AVDT 把待检视频送进一个预训练的音频驱动扩散模型,借 DDIM 逆向同时抽两路信号——逆向重建残差(外观线索)+ 扩散 U-Net 内部的音视频跨注意力图(口型-语音对齐线索),融合后做真假二分类,靠"生成器内部强制的音视频一致性"这一通用信号实现跨生成器泛化,平均准确率比最强基线高 +13.1%。

Your Classifier Can Do More: Towards Balancing the Gaps in Classification, Robustness, and Generation

通过能量景观分析揭示 AT 和 JEM 的互补性(AT 对齐 clean-adv 能量分布 → 鲁棒性;JEM 对齐 clean-generated 能量分布 → 精度+生成),提出 EB-JDAT 建模联合分布 \(p(\mathbf{x}, \tilde{\mathbf{x}}, y)\) 并用 min-max 能量优化对齐三种数据能量分布,CIFAR-10 AutoAttack 鲁棒性 68.76%(超 SOTA AT +10.78%),同时保持 90.39% 清洁精度和 FID=27.42 的竞争力生成质量。

\(\varphi\)-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

提出 \(\varphi\)-DPO,将 DPO 作为持续学习范式(以前一步模型为参考策略),并引入受 focal loss 启发的公平性调制因子 \((1-p)^\gamma\) 来平衡不同数据组间的梯度贡献,在理论上证明 \(\gamma \to \infty\) 时梯度偏差趋于零,在 CoIN 和 MLLM-CL 基准上达到 SOTA。