跳转至

🛡️ AI 安全

🔬 ICLR2026 · 139 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (145) · 💬 ACL2026 (5) · 🧪 ICML2026 (114) · 🤖 AAAI2026 (45) · 🧠 NeurIPS2025 (73) · 📹 ICCV2025 (24)

🔥 高频主题: 对抗鲁棒 ×43 · 联邦学习 ×10 · 水印/隐写 ×5 · 多模态 ×4 · 强化学习 ×4

A Bayesian Nonparametric Framework for Private, Fair, and Balanced Tabular Data Synthesis

本文把条件式 VAE-GAN 生成器嵌入贝叶斯非参数学习(BNPL)框架,用 Dirichlet 过程做全局隐私、用 copula 基测度做逐列局部隐私、用 BNP 互信息正则做公平、用 KL 散度做类别平衡,首次在一个有理论保证的统一框架里同时处理隐私、公平、类别不平衡三个约束,并支持非二值敏感属性

A Fair Bayesian Inference through Matched Gibbs Posterior

针对"公平模型只给一个点估计、不会量化预测不确定性"的痛点,本文把群公平约束塞进贝叶斯框架,提出以匹配偏差(matched deviation)为惩罚项的 matched Gibbs 后验,把匹配函数 \(T\) 也当成可学习参数来回避对抗训练,从而用一个每步 \(O(n)\) 的 Gibbs 采样器同时拿到"满足人口学平价约束"和"校准良好"的后验分布。

A General Framework for Black-Box Attacks Under Cost Asymmetry

针对"不同查询代价不一样"(如向 NSFW 检测器提交违规图片会触发封号)的现实场景,本文提出一个能适配任意成本比 \(c^\star\) 的决策型黑盒攻击通用框架:用非对称搜索 AS 替换二分搜索、用非对称梯度估计 AGREST 替换标准蒙特卡洛梯度估计,在不丢弃原攻击核心组件的前提下把总查询成本压到最低,扰动范数最多再降 40%。

A Unified Total Variation Framework for Membrane Potential Perturbation Dynamic

本文证明了脉冲神经网络(SNN)中用于刻画对抗扰动的「膜电位扰动动态(MPPD)」本质上就是一个全变分(TV)算子,进而把现有的均方 MPPD 正则等价为 TV-ℓ2 框架,并提出更强的 TV-ℓ1 框架——借助 coarea 公式获得对尖锐对抗噪声更好的抑制能力,在高斯/对抗训练下都把 SNN 的鲁棒精度刷到新高。

Action-Free Offline-to-Online RL via Discretised State Policies

首次形式化"无动作离线到在线RL"设定,提出OSO-DecQN算法:通过将连续状态差分离散化为{-1, 0, 1}三类标记,在仅含(s, r, s')元组的数据上预训练状态策略(预测期望的下一状态变化方向而非动作),再通过策略切换机制+在线训练的逆动力学模型将状态策略转化为可执行动作,引导在线agent加速学习,在D4RL和DeepMind Control Suite上(含78维状态空间)一致提升收敛速度和渐近性能。

Adaptive Logit Adjustment for Debiasing Multimodal Language Models

ALA 是一种后处理去偏方法:在自回归生成的每一步,用外部图像/文本分类器测出"图像该有的属性"与"文本当前流露的偏见"之间的偏差,再沿梯度方向只对偏见相关词的 logit 做按比例微调,从而在不改动模型内部表征、不重训的前提下,把图文属性对齐或中和有害刻板印象,且几乎不掉模型实用性。

Adaptive Methods Are Preferable in High Privacy Settings: An SDE Perspective

首次用随机微分方程(SDE)框架分析差分隐私优化器,揭示 DP-SGD 和 DP-SignSGD 在隐私噪声作用下的本质差异:自适应方法在高隐私设置下具有更优的隐私-效用权衡 \(\mathcal{O}(1/\varepsilon)\) vs \(\mathcal{O}(1/\varepsilon^2)\),且超参数跨隐私预算可迁移。

Adversarial Attacks Already Tell the Answer: Directional Bias-Guided Test-time Defense for Vision-Language Models

作者发现对抗样本在 CLIP 特征空间里经过多种图像变换后会沿一个"主方向"集体偏移(而干净样本是发散的),这个方向恰好指回正确类别中心,于是提出无需训练的测试时防御 DBD:估计"防御方向"并用基于 DB-score 的双流特征重构修复表征,在 15 个数据集上不仅刷新对抗鲁棒性 SOTA,还出现"对抗准确率反超干净准确率"的反直觉现象。

AP-OOD: Attention Pooling for Out-of-Distribution Detection

提出AP-OOD,将Mahalanobis距离的均值池化替换为可学习的注意力池化,解决了均值池化丢失token级异常信息的问题,在文本OOD检测中将XSUM摘要的FPR95从27.84%降至4.67%,支持无监督到半监督的平滑过渡。

ATEX-CF: Attack-Informed Counterfactual Explanations for Graph Neural Networks

提出 ATEX-CF 框架,首次将对抗攻击的边添加策略与反事实解释的边删除策略统一起来,通过联合优化预测翻转、稀疏性和合理性,为 GNN 生成更忠实、更简洁、更合理的实例级反事实解释。

Back to Square Roots: An Optimal Bound on the Matrix Factorization Error for Multi-Epoch Differentially Private SGD

提出 Banded Inverse Square Root (BISR) 矩阵分解方法,通过对逆相关矩阵(而非相关矩阵本身)施加带状结构,首次在多轮参与差分隐私 SGD 中实现渐近最优的分解误差界,并配套低存储优化变体 BandInvMF。

Benchmarking Bias Mitigation Toward Fairness Without Harm from Vision to LVLMs

本文提出 NH-Fair,一个覆盖经典视觉模型与大型视觉语言模型(LVLM)、统一了数据/指标/训练协议的"无害公平"评测基准,并通过两阶段选模(DTO 选 ERM 基线 + FWH 四区选缓解方法)系统证明:很多专门的去偏算法并不能稳定超过精调的 ERM,数据增强反而是最实用的无害提升路径,而单纯把模型做大并不会让模型更公平。

Benchmarking Stochastic Approximation Algorithms for Fairness-Constrained Training of Deep Neural Networks

这篇论文把"训练公平的深度网络"统一形式化成带不等式约束的随机优化问题(约束子群之间的损失差),指出当前没有任何算法能在"随机+不等式+非凸+非光滑"全场景下给出收敛保证,于是从文献里挑出三类最贴近该场景、但此前一直没人实现的随机近似算法,把它们全部实现进一个 Python 工具箱,并在美国人口普查真实大规模数据(Folktables/ACSIncome)上首次系统对比它们的优化性能与公平性表现。

Beware Untrusted Simulators -- Reward-Free Backdoor Attacks in Reinforcement Learning

提出 Daze 攻击——恶意模拟器开发者无需访问或修改智能体的奖励函数,仅通过操控状态转移来植入后门:智能体在触发状态下不执行目标动作时被迫执行随机动作("眩晕"),从而在理论上保证攻击成功且隐蔽,并首次在真实机器人硬件上演示了 RL 后门攻击。

Beyond Match Maximization and Fairness: Retention-Optimized Two-Sided Matching

提出Matching for Retention(MRet)算法,首次将双边匹配平台的优化目标从"最大化匹配数"或"满足公平性"转向"直接最大化用户留存率",通过学习个性化留存曲线并利用凹函数性质将NP-hard的双方留存增益联合优化降为O(N log N)的排序问题,在合成数据和日本大型约会平台真实数据上均显著提升留存。

Beyond Membership: Limitations of Add/Remove Adjacency in Differential Privacy

论文指出主流 DP 库默认的 add/remove 邻接只保护"成员是否在训练集里",对"已知在训练集里、想推断其属性/标签"的攻击其实只能提供 substitute 邻接下弱得多的保护;作者设计了一套面向 substitute 邻接的 canary 审计工具,实证出经验隐私泄漏可以突破 add/remove 报出的 \(\varepsilon_{AR}\) 上界,却紧贴 substitute 账本预测的 \(\varepsilon_S\)

Black-Box Privacy Attacks on Shared Representations in Multitask Learning

本文提出"任务推断(task-inference)"威胁模型,证明仅靠对多任务学习共享表示的黑盒查询、拿到同一任务若干样本的 embedding,攻击者就能在不训练影子模型、不用任何参考数据的前提下,判断某个任务是否被纳入了训练集——核心抓手是同一任务的 embedding 之间存在强协同依赖。

Bridging Fairness and Explainability: Can Input-Based Explanations Promote Fairness in Hate Speech Detection?

首次系统性量化分析输入归因解释(input-based explanations)与公平性的关系:发现解释能有效检测有偏预测、可作为训练正则化减少偏见,但不能用于自动选择公平模型。

HyCAS:用混合卷积与注意力随机性,同时打通认证鲁棒与经验鲁棒

HyCAS 把确定性的 1-Lipschitz 谱归一化卷积,和两类架构内部随机性(谱归一化随机投影 + 随机注意力噪声)耦合成一个全局 ≤2-Lipschitz 的随机化网络,从而在同一个模型里同时拿到可证明的 ℓ₂ 认证半径,和对强 ℓ∞ 攻击(APGD/AutoAttack)的经验鲁棒性。

Certifying the Full YOLO Pipeline: A Probabilistic Verification Approach

本文提出 ODPV——首个能在实际规模上验证完整 YOLO 检测流水线(含 NMS 后处理)对"物体消失"攻击鲁棒性的 PAC 概率验证框架,用"输出近似 → NMS 形式化验证 → 反例精化"三步把高维检测网络的认证变成可行的采样问题。

Closing the Safety Gap: Surgical Concept Erasure in Visual Autoregressive Models

这篇论文针对视觉自回归文生图模型缺少安全概念擦除机制的问题,提出 VARE 与 S-VARE,用辅助视觉 token 稳定擦除训练,并用过滤交叉熵和保持损失实现“只删目标概念、尽量不伤生成能力”的外科式概念擦除。

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

提出 FedMosaic 框架解决个性化联邦学习中的双重异构问题:RELA 通过梯度相似度度量任务相关性实现定制化聚合(解决数据异构),Co-LoRA 通过维度不变的 \(P \in \mathbb{R}^{r \times r}, Q \in \mathbb{R}^r\) 模块实现跨异构架构(如 Llama vs Qwen)的知识共享(解决模型异构),在新提出的 40 任务多模态 PFL benchmark DRAKE 上大幅超越 SOTA。

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

这是第一项把 AI 智能体和真人网络安全专家放进同一个真实生产网络(某大学约 8000 台主机)做渗透测试的对照评测:作者同时跑 10 位专业渗透测试员、6 个现有智能体脚手架和自研的多智能体框架 ARTEMIS,结果 ARTEMIS 以 9 个有效漏洞、82% 有效提交率拿下总榜第二、压过 10 人中的 9 人,而 Codex、CyAgent 等现成脚手架几乎垫底——同时暴露出 AI 在系统化枚举/并行利用/成本上的优势与高假阳率、不会操作 GUI 的短板。

Concept-Aware Privacy Mechanisms for Defending Embedding Inversion Attacks

针对"差分隐私防御对所有嵌入维度无差别加噪、导致语义被破坏"的痛点,本文提出 SPARSE:先用可微神经元掩码学习定位与用户指定隐私概念相关的敏感维度,再用马氏机制(Mahalanobis mechanism)注入按维度敏感度校准的椭球噪声,从而只扰动敏感维度、保留非敏感语义,在六个数据集上同时降低隐私泄露并保住下游效用。

Concept-based Adversarial Attack: a Probabilistic Perspective

把对抗攻击从"扰动单张图像"升级为"扰动整个概念分布"——用扩散生成模型把一只特定柯基的多姿态多视角图像拟合成一个概念分布,再从这个概念分布与受害分类器分布的乘积里采样,生成既保留原概念身份、又能高成功率骗过分类器的对抗样本(白盒定向攻击成功率从 ProbAttack 的 59% 提到 98%)。

Control Tax: The Price of Keeping AI in Check

这篇论文提出"控制税(Control Tax)"——即把 AI 控制(AIC)措施接入流水线所需付出的运营与金钱成本,先用 APPS 代码后门任务实测一批前沿模型当 monitor 的 ROC 性能,再用博弈论把这些 ROC 曲线翻译成"给定审计预算下的安全概率",最终画出"安全 vs 监控花费"的帕累托前沿,告诉实践者最贵的监控器并不一定最安全。

Convergent Differential Privacy Analysis for General Federated Learning

本文用 f-DP 框架 + shifted interpolation 技术,首次证明了非凸光滑目标下两类经典联邦学习方法(Noisy-FedAvg / Noisy-FedProx)的"最坏隐私"在通信轮数 \(T\to\infty\)收敛到常数下界而非发散,从理论上推翻了"FL-DP 长期训练必然耗尽隐私预算"的旧认知。

Dataless Weight Disentanglement in Task Arithmetic via Kronecker-Factored Approximate Curvature

该工作将曲率近似的经典理论(KFAC)与任务算术的实际需求巧妙结合,提出了一种无需外部数据的权重解缠正则化方法。理论推导清晰,从表征漂移正则化 → Jacobian Gramian → GGN → KFAC 的逻辑链条流畅。实验覆盖视觉和语言两个领域的多种模型规模,对 \(\alpha\) 超参数的鲁棒性分析很实用。不足在于 KFAC 对大模型仍有 \(O(d^2)\) 存储开销,且在文本领域与使用外部数

Dataset Distillation for Memorized Data: Soft Labels can Leak Held-Out Teacher Knowledge

本文系统地证明:在数据蒸馏中,只用教师的软标签训练学生,学生能在自己从未见过、且无法靠泛化推断的"被记忆数据"上取得远超随机的准确率——这既是高效迁移记忆知识的途径,也是一条隐性的隐私泄漏通道,其强弱由样本复杂度和 softmax 温度精确调控。

Decoupling the Class Label and the Target Concept in Machine Unlearning

本文指出传统类别遗忘默认"类别标签 = 想抹掉的目标概念",而真实的删除请求往往二者错配;为此作者把遗忘数据、模型输出、目标概念拆成三个标签域,定义出 target/model/data 三类错配任务,并提出 TARF 框架——用"表示引力"识别藏在剩余集里的同概念数据,再用退火梯度上升 + 目标感知梯度下降的三阶段动态目标,把目标概念精确剥离、逼近重训模型。

Defending against Backdoor Attacks via Module Switching

针对"拿到来历不明的预训练模型、却没有训练数据和触发器先验"的后训练场景,本文提出模块交换防御(MSD):把同结构的多个可疑模型按层/按模块互相交换权重,打断后门所依赖的"捷径通路",在理论上证明其后门偏离度严格高于权重平均(WAG),并用进化搜索找出最优交换方案,仅需两个模型和 20–50 张干净验证样本即可显著降低攻击成功率。

Designing Affine-Invariant Neural Networks for Photometric Corruption Robustness and Generalization

本文提出 SEqSI,一种把首层做成强度平移不变、把后续骨干做成强度缩放等变的 CNN 设计,在几乎不增加计算成本的情况下,为分类、定位和分割等任务提供对全局亮度/对比度仿射变化的可验证鲁棒性,并在 Cryo-ET 与显微图像等真实光度域偏移中明显优于普通网络。

Missing Mass for Differentially Private Domain Discovery

本文把差分隐私"域发现"(从未知巨大字典里私有地挑出有信息量的高频项)的好坏,从"挑出多少个不同项(基数)"重新定义为"挑出多少质量(缺失质量 missing mass)",并据此证明了一个简单可扩展的加权高斯机制(WGM)在 Zipf 分布数据上具有近最优的 \(\ell_1\) 缺失质量保证、以及无分布假设的 \(\ell_\infty\) 保证;再用"半预算先发现域、半预算跑已知域算法"的元算法把这套保证推广到私有 top-k 与 k-命中集,实验证明在六个真实数据集上与现有方法持平或更优。

Differentially Private Two-Stage Gradient Descent for Instrumental Variable Regression

本文提出 DP-2S-GD——第一个面向工具变量回归(IVaR)的差分隐私算法:把经典的两阶段最小二乘(2SLS)改写成两阶段梯度下降,在每步梯度更新里做逐样本裁剪并注入校准好的高斯噪声,从而满足 \(\rho\)-zCDP,并给出了显式刻画"优化—隐私—采样"三方权衡的有限样本收敛率。

Discrete Latent Features Ablate Adversarial Attack: A Robust Prompt Tuning Framework for VLMs

DEFEAT 发现「把 CLIP 的图像潜在特征离散化」能天然削弱对抗扰动,于是在提示调优框架里插入一个基于 VQ-VAE 的 PerturbShield 模块来重建 grid 特征,再用 logits 融合在鲁棒与干净精度间取平衡,15 个数据集上对抗少样本分类的鲁棒/精度调和均值比此前 SOTA 平均提升 13.76%。

Distributional Machine Unlearning via Selective Data Removal

把"遗忘一整个不想要的子分布"形式化为信息论问题,证明只删掉离保留分布最远的一小撮高影响样本,就能在低散度场景下比随机删除获得二次方的样本效率提升,实测可比"全删"少删 15–82% 的数据。

Don't Shift the Trigger: Robust Gradient Ascent for Backdoor Unlearning

作者发现用梯度上升(GA)做后门遗忘并没有真正"擦掉"触发器,而是把它的影响搬到了另一个类别(称为"触发器漂移"),并提出 Robust Gradient Ascent(RGA)——用一个基于 KL 散度的自适应权重在后门被中和时自动关闭梯度上升,再配 L2 锚定正则稳住优化,从而既去掉后门又不引入新的误分类。

Doubly-Regressing Approach for Subgroup Fairness

当敏感属性很多导致子群数量爆炸、很多子群样本极少时,本文提出"子群子集公平"概念并用 supIPM 度量,再通过一个把权重向量和判别器同时回归的"双重回归 \(R^2\)(DR²)"代理目标,只用单个判别器就能同时保证所有大子群和边际属性的分布公平,在子群极度稀疏的数据集上显著优于现有方法。

DPQuant: Efficient and Private Model Training via Dynamic Quantization Scheduling

DPQuant 首次指出"低比特量化在差分隐私(DP)训练里会造成远比普通训练严重的精度崩塌",并用"每个 epoch 概率性轮换被量化的层 + 用 DP 损失敏感度估计器优先量化低影响层"两招把量化方差压下去,在 ResNet/DenseNet/BERT 上做到掉点 <2%、理论加速最高 2.21×。

DRIFT: Divergent Response in Filtered Transformations for Robust Adversarial Defense

DRIFT 在冻结分类器前面挂一组轻量可学习滤波器,用"共识发散"损失主动把不同滤波器的梯度方向逼散,从而打掉对抗扰动赖以迁移的"梯度共识";在 ImageNet 上对 CNN 和 ViT,面对 PGD-EoT、AutoAttack、BPDA 等强自适应攻击都拿到当前最好的鲁棒精度,而几乎不增加推理开销。

Dual Randomized Smoothing: Beyond Global Noise Variance

本文指出标准随机平滑(RS)用一个全局噪声方差服务所有输入,导致小半径和大半径无法兼顾;作者先从理论上证明只要噪声方差在认证区域内"局部恒定"RS 认证依然成立,进而提出双 RS 框架——先用一个 RS 模型为每个输入预测最优方差、再用另一个 RS 分类器在该方差下分类,在 CIFAR-10 和 ImageNet 上同时拿到了小半径和大半径的强性能,推理开销仅增加约 60%。

EigenScore: OOD Detection using Posterior Covariance in Diffusion Models

本文提出 EigenScore:把在 InD 数据上训好的扩散模型搬到 OOD 样本上时,去噪后验协方差会在主方向上系统性膨胀,于是用其特征值谱(top-K 特征值之和)作为分布偏移的信号,并用免雅可比的子空间迭代高效估计,在标准 OOD 基准上平均 AUROC 达到 SOTA(最高比最佳基线高约 2%),尤其在 CIFAR-10 vs CIFAR-100 这类近 OOD 场景下不崩。

Eliciting Harmful Capabilities by Fine-Tuning on Safeguarded Outputs

即使前沿模型用分类器牢牢守住了直接有害的输出,攻击者仍可以让它回答"表面无害"的邻近领域问题(如有机合成),再用这些问答对去微调开源模型,从而把危险能力"诱导"到不会拒答的开源模型上——本文在化学武器场景下证明这种"诱导攻击"能恢复约 40% 的能力差距,并揭示了输出级护栏在生态层面的失效。

Exponential-Wrapped Mechanisms: Differential Privacy on Hadamard Manifolds Made Practical

把"在切空间采样 + 指数映射推前"这一简单技巧系统化成 Exponential-Wrapped Laplace/Gaussian 机制,首次在一般 Hadamard 流形上统一实现 ε-DP、(ε,δ)-DP、GDP、RDP,并彻底甩掉 MCMC 采样,让流形数据的差分隐私真正变得可算、可扩展。

Expressiveness of Multi-Neuron Convex Relaxations in Neural Network Certification

本文首次严格刻画了多神经元凸松弛的表达能力,证明它们和单神经元松弛一样天然不完备(把"单神经元凸障碍"推广为"普适凸障碍"),但通过等价网络变换输入域凸多面体划分可以恢复完备性,且其划分复杂度严格优于单神经元松弛。

Fair Classification by Direct Intervention on Operating Characteristics

不在分类器空间里搜索,而是直接在预训练分类器的群组级 ROC 凸包(operating characteristic 空间)上做几何优化,先定位满足多个公平约束的最优工作点,再用最少的标签翻转把基分类器后处理到该工作点,从而以接近 oracle 的精度损失同时满足 DP、EO、PP 等多个公平指标。

Fair Conformal Classification via Learning Representation-Based Groups

FAREG 把"找出被算法歧视的子群"这件事从原始特征空间搬到一个由变分信息瓶颈学出来的隐表示空间,因此能捕捉到像异或这种非线性组合定义的不公平子群,再对这些子群单独做共形校准,在保证自适应等化覆盖的同时把预测集做得又小又快(复杂度 \(O(N+M)\),远低于 AFCP 的 \(O(N\log N+NM)\))。

Fair Decision Utility in Human-AI Collaboration: Interpretable Confidence Adjustment for Humans with Cognitive Disparities

针对"专家和新手共用同一套 AI 辅助决策"场景,本文指出现有的校准(calibration)和人对齐(human-alignment)都无法保证不同认知能力人群获得公平的决策效用,提出新目标 组间对齐(inter-group-alignment) 并用 认知感知多重校准 同时实现高效用和效用公平。

Fair Graph Machine Learning under Adversarial Missingness Processes

本文揭示了一个被忽视的攻击面——对抗性的敏感属性缺失过程可以让填补模型"看起来很公平"从而欺骗公平 GNN,并提出 BFtS:一个用三玩家对抗博弈、按"最坏情况公平"来填补缺失敏感值的框架。

Fair Reinforcement Learning for Just AI

把"分位数公平"从需要完整 MDP 转移表的表格算法,改造成只调用标准策略优化 oracle(约 \(O(n)\) 次)的 oracle-efficient 算法,让"在多个冲突价值观之间做公平聚合"第一次能跑进深度 RL 规模,速度比前作快几个数量级。

Fairness-Aware Multi-view Evidential Learning with Adaptive Prior

针对多视图证据学习中"样本更倾向于把支持证据分给数据多的类、导致不确定性估计不公平"这一被忽视的问题,本文提出 FAML:用基于训练轨迹的自适应先验替代证据深度学习里固定的均匀先验、加上公平性约束视图意见对齐,在六个真实多视图数据集上同时提升了分类精度(尤其尾部类)和不确定性可靠性。

Fairness via Independence: A General Regularization Framework for Machine Learning

本文提出用 Cauchy-Schwarz(CS)散度作为公平性正则项,去最小化"模型预测"与"敏感属性"之间的统计依赖,用一个与模型无关、与具体公平定义无关的统一框架,在保持精度的同时同时改善 △DP 和 △EO,且对超参变化更鲁棒。

FaLW: A Forgetting-aware Loss Reweighting for Long-tailed Unlearning

首次研究"遗忘集呈长尾分布"这一真实场景,发现现有近似遗忘方法会产生异质遗忘偏差倾斜遗忘偏差,并提出即插即用的实例级动态损失重加权方法 FaLW,用"未见数据的预测概率分布"来度量每个样本的遗忘状态、自适应调节遗忘力度。

Federated Learning of Quantile Inference under Local Differential Privacy

本文提出一种在局部差分隐私(LDP)下做联邦分位数推断(不只是点估计)的 Local-SGD 算法,通过一个隐私机制把 LDP 问题等价化约成非私有问题,进而在分位数损失非光滑的条件下首次建立了 Local SGD 的弱收敛理论,并用自归一化技术免去对渐近方差的估计、直接构造有效置信区间。

FERD: Fairness-Enhanced Data-Free Adversarial Robustness Distillation

FERD 首次把"鲁棒公平性"引入数据无关鲁棒蒸馏,通过对合成样本的类别比例重加权和对抗目标的分布均匀化,让学生模型在最弱类别上的鲁棒性大幅提升,缓解了类间鲁棒性严重失衡的问题。

Fine-Grained Class-Conditional Distribution Balancing for Debiased Learning

本文把无偏置标注的 group-robust learning 拆成“先用模型过拟合找偏置模式、再按混淆矩阵做细粒度类条件分布匹配”,提出 MST 与 FG-CCDB,在真实二分类、多 shortcut 和极端多分类场景中接近甚至超过依赖人工 group 标注的方法。

Fingerprinting Deep Neural Networks for Ownership Protection: An Analytical Approach

AnaFP 把深度网络所有权保护中的“指纹应该离决策边界多远”从经验调参问题改写成 stretch factor 的可行区间求解问题,用鲁棒性下界和唯一性上界共同约束对抗样本指纹,在 CNN、MLP 和 GNN 上都比现有指纹方法更稳定地区分盗版模型与独立训练模型。

Fisher-Rao Sensitivity for Out-of-Distribution Detection in Deep Neural Networks

本文用黎曼信息几何重新审视分布外(OoD)检测,把网络对输入的预测看成统计流形,发现 OoD 输入在训练好的参数处具有更高的局部 Fisher-Rao 敏感度;用 Fisher 信息矩阵(FIM)的迹来量化这种敏感度,作者从理论上推出"特征幅度 × 输出不确定度"这一乘积形式统一了已有 OoD 信号,并进一步用乘积流形构造把它升级成更鲁棒的加性分数,无需重训、无需 OoD 数据、单次前向就能取得有竞争力的检测效果。

Formalising Human-in-the-Loop: Computational Reductions, Failure Modes, and Legal–Moral Responsibility

本文用可计算性理论中的 oracle 机器与「归约」概念,把五花八门的 Human-in-the-Loop(HITL)人类监督方案严格形式化为三类——平凡监控、端点干预、深度交互,再据此建立失效模式分类法并剖析 UK/EU 法律的盲点,最终揭示出一个无法回避的「责任归属 ↔ 技术可解释性」权衡。

From Curiosity to Caution: Mitigating Reward Hacking for Best-of-\(N\) with Pessimism

把强化学习里"好奇心(curiosity)"奖励预测误差当作探索信号的思路反过来用——训练一个预测器去拟合奖励模型在典型回复上的内部特征,用预测误差作为"分布外不确定性"惩罚奖励分数,从而让 Best-of-\(N\) 采样在 \(N\) 增大时不再被奖励攻击拖垮,反而单调变好。

Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction

针对实时旋律-和弦伴奏中 RL 后训练"为刷一致性奖励而坍缩成重复和弦"的奖励黑客问题,本文提出 GAPT:用一个与策略协同进化的判别器提供"像不像真实数据"的对抗奖励,配合两阶段自适应更新调度,在不牺牲和声一致性的前提下把输出多样性恢复到接近数据集水平,并在 12 位职业音乐人的实时对弹用户研究中显著提升适应速度与掌控感。

Get RICH or Die Scaling: Profitably Trading Inference Compute for Robustness

本文提出 RICH 假设(Robustness from Inference Compute Hypothesis)——推理时计算只有在"被攻击数据的成分已被训练数据覆盖"时才能换来鲁棒性,并据此证明:先对 VLM 视觉编码器做轻量对抗微调,就能让扩展推理(CoT / budget forcing)从"几乎无效"变成"显著加固",呈现"富者愈富"的动态。

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

GradPCA 利用 NTK alignment 导致的网络梯度低秩结构,对「类均值梯度」做 PCA 来刻画 ID 子空间,把梯度落在子空间外的输入判为 OOD,在多个图像分类基准上取得了比现有方法更一致(而非偶尔最优)的检测性能,并配上一套谱方法 OOD 检测的理论框架。

How to Cure Newton for Unlearning Neural Networks? An Empirical Study from the Hessian Perspective

本文发现牛顿型二阶遗忘(Newton unlearning)在真实神经网络/LLM 上会因 Hessian 退化(大量零/负特征值)而失效,提出基于三次正则化的 CuReNU 及其随机 Hessian-free 变体 CuReNUS,能自动确定阻尼因子 \(\gamma\)、保证收敛到二阶驻点,并在批量与序列遗忘乃至 LLM 规模上达到与 SOTA 经验方法相当的遗忘效果。

Identifying Robust Neural Pathways: Few-Shot Adversarial Mask Tuning for Vision-Language Models

本文提出 AdvMask:不改动 CLIP 预训练权重,只在视觉编码器上学一组二值掩码、关掉对对抗扰动敏感的参数,从而"挖出"一条天然抗攻击的鲁棒神经通路,并配合逐层自适应特征对齐损失(LAFA)专攻少样本场景下的对抗鲁棒微调。

INO-SGD: Addressing Utility Imbalance under Individualized Differential Privacy

本文指出"个性化差分隐私"(IDP)会在训练集本身均衡的情况下凭空制造效用失衡——隐私要求更强的数据被严重欠表示,并提出 INO-SGD:在每个 batch 内按损失排序、对不重要梯度做"连续化"降权,从而在严格满足每位数据所有者 IDP 预算的前提下补偿更隐私群体的效用。

Jailbreaking on Text-to-Video Models via Scene Splitting Strategy

SceneSplit 把一句有害提示拆成多个"单看都人畜无害"的分镜,靠这些场景的时序组合把视频生成的输出空间挤压到不安全区域,再迭代改写最具影响力的场景去绕过视觉安全过滤器,在 5 个商用 T2V 模型上把越狱成功率(ASR)做到 68.6%–84.1%。

Label Smoothing Improves Machine Unlearning

本文把"负标签平滑"嫁接到梯度上升的机器遗忘里,提出即插即用的 UGradSL:在被遗忘数据上做带负平滑标签的梯度上升、在保留数据上做梯度下降,几乎不增加计算量就显著缩小了与"重训模型"的性能差距,并附带理论证明它能改善标签级局部差分隐私。

LAMDA: A Longitudinal Android Malware Benchmark for Concept Drift Analysis

LAMDA 构建了一个覆盖 2013-2025 年、超过 100 万个 Android APK 的长期恶意软件基准,用 Drebin 静态特征、家族标签和多种时间切分系统揭示现有恶意软件检测器在真实概念漂移下会快速退化。

Learnability and Privacy Vulnerability are Entangled in a Few Critical Weights

揭示隐私脆弱性集中在极少量关键权重中(可低至0.1%),且与学习能力高度纠缠(Pearson r>0.9),提出CWRF方法通过回绕并冻结隐私脆弱权重、仅微调其余权重来实现优越的隐私-效用权衡。

LingoLoop Attack: Trapping MLLMs via Linguistic Context and State Entrapment into Endless Loops

LingoLoop 通过给输入图像加微小对抗扰动,利用「词性先验压制 EOS」和「收缩隐藏状态诱导循环」两步,把多模态大模型逼进无穷重复输出,在放开生成上限时可产生比正常多 367× 的 token,造成算力/能耗耗尽式的拒绝服务。

LiteGuard: Efficient Task-Agnostic Model Fingerprinting with Enhanced Generalization

LiteGuard 用"训练 checkpoint 扩增模型集 + 每个指纹配一个轻量局部验证器"两招,把任务无关模型指纹的训练模型需求压到极致(每个集合只需 1 个真实训练模型),在五类任务上 AUC 全面超越 SOTA 的 MetaV,同时把训练成本降低 5~10 倍。

LitmusValues: Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas

本文提出 LitmusValues 评估框架与 AIRiskDilemmas 困境数据集,通过让模型在「价值互搏」的两难场景中做选择来揭示其真实价值排序,并证明这些揭示出的价值(哪怕是看似无害的「关怀」)能预测模型在已见与未见场景下的风险行为,从而充当 AI 风险的早期预警系统。

Machine Unlearning under Retain–Forget Entanglement

针对"遗忘集和保留集语义纠缠"导致的相关样本误伤问题,提出两阶段优化框架:第一阶段用增广拉格朗日法激进遗忘并锁住无关保留样本,第二阶段用 Wasserstein-2 距离正则化的梯度投影修复语义相邻保留样本的精度,同时保住遗忘效果。

Memorization Through the Lens of Sample Gradients

本文提出累积样本梯度(CSG)——把"损失对输入的梯度"沿训练过程累加——作为 Feldman 记忆化分数的高效代理,理论上证明 CSG 同时被记忆化程度和学习时间线性界定,并由此发现"在权重范数峰值处早停"这一无需验证集的判据,把记忆化估计加速最多 5 个数量级。

Mitigating Privacy Risk via Forget Set-Free Unlearning

本文提出部分盲机器遗忘(partially-blind unlearning)设定和 RELOAD 方法,用训练末尾缓存的全数据梯度代替原始 forget set,通过一次反向遗忘梯度、选择性权重重初始化和 retain set 微调,在不保留待删除样本的情况下逼近从头重训模型,并在普通样本遗忘、LLM 实体遗忘和纠错遗忘上取得强结果。

MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes

MoReBench 提出用专家手写的 23,018 条 rubric 准则去评测推理模型在 1,000 个道德困境上思考过程的结构质量(而非最终结论对错),并发现 scaling laws 与数学/代码基准都无法预测模型的道德推理能力。

MUSE: Model-Agnostic Tabular Watermarking via Multi-Sample Selection

MUSE 提出一种"多采样选择"的表格数据水印范式:对每行生成多个候选样本,用一个带密钥的打分函数挑出得分最高的那个,从而绕开扩散模型 DDIM 反演不可靠的难题,做到模型无关、可校准、低失真。

Nasty Adversarial Training: A Probability Sparsity Perspective for Robustness Enhancement

本文把原本用于"防模型被蒸馏"的 Nasty Training 借来增强对抗鲁棒性:通过一个 vanilla 训练的"对手模型"做散度正则,逼迫目标模型输出稀疏的概率分布,从而拉大类间间隔、增大决策边界余量,以极低开销在 CIFAR / ImageNet 上取得 SOTA 鲁棒性,并给出了可解释的空间度量视角。

NatADiff: Adversarial Boundary Guidance for Natural Adversarial Diffusion

NatADiff 用扩散模型把采样轨迹引向"真类与对抗类的交界处",生成的不是加扰动的约束对抗样本,而是天然混入对抗类语义线索的"自然对抗样本",从而在保持白盒攻击成功率的同时大幅提升跨架构迁移性,并在分布上更像真实的 test-time error。

No Prior, No Leakage: Revisiting Reconstruction Attacks in Trained Neural Networks

本文从"防守"视角重新审视基于隐式偏置的训练数据重构攻击,严格证明在没有数据先验知识的情况下,攻击目标函数存在无穷多个彼此无法区分、且可任意远离真实训练集的全局最优解,进而说明此类攻击的"成功"本质上依赖外部先验而非隐式偏置本身泄露的信息。

NoisePrints: Distortion-Free Watermarks for Authorship in Private Diffusion Models

NoisePrints 把扩散模型生成时的随机种子当作天然作者指纹,通过哈希种子生成初始噪声并与生成内容的 VAE latent 做相关性验证,在不改模型、不改采样、不做反演的前提下实现图像和视频生成内容的轻量级作者身份验证。

On Optimal Hyperparameters for Differentially Private Deep Transfer Learning

本文系统研究了差分隐私(DP)迁移学习中裁剪界 \(C\) 和批量大小 \(B\) 这两个关键超参数,指出"强隐私就该用小 \(C\)、固定步数下用大 batch"这类主流经验法则是错的,并用一套基于 MSE 分解的最优裁剪理论和累积 DP 噪声分析,解释了为什么应该随"学习问题难度"联合调 \((C, B, \eta)\)

On the Interaction of Compressibility and Adversarial Robustness

本文给出一套统一的理论框架,证明神经元级与谱级两种「结构化压缩」会把参数能量集中到少数主导方向上,从而抬高网络的算子范数与 Lipschitz 常数、在表示空间制造出少量「高敏感方向」供对抗攻击放大,最终系统性地损害对抗鲁棒性;并在多种架构、数据集和训练范式上验证了这一鲁棒性上界的预测。

Optimal Transport-Induced Samples against Out-of-Distribution Overconfidence

利用半离散最优传输(OT)的几何奇异边界定位语义模糊区域,在其附近生成代理OOD样本(OTIS),训练时通过置信度抑制损失迫使模型在结构性不确定区域给出均匀预测,从而系统性地缓解DNN的OOD过度自信问题。

Optimizing Canaries for Privacy Auditing with Metagradient Descent

这篇论文用元梯度下降(metagradient descent)去直接优化隐私审计中使用的 canary(探针样本)集合,使得在黑盒、单次训练的差分隐私审计场景下,仅凭最终模型输出就能把经验隐私下界 \(\varepsilon\) 提升到现有随机/错标 canary 的数倍。

PateGAIL++: Utility Optimized Private Trajectory Generation with Imitation Learning

PateGAIL++ 在联邦式差分隐私模仿学习框架里,按"每个样本的隐私敏感度"动态分配隐私预算、自适应注入 Laplace 噪声,并用 WGAN-GP 稳定离散轨迹下的策略训练,从而在相同隐私预算下显著改善合成移动轨迹的"隐私—效用"折中、对成员推断攻击近乎随机。

PE-SGD: Differentially Private Deep Learning via Evolution of Gradient Subspace for Text

PE-SGD 把"梯度投影 + 私有进化合成数据"结合起来做差分隐私微调:用一个会随训练不断进化的合成数据集张成梯度投影子空间,并把 DP 噪声加在最优的投影系数上,在私有数据极少(M<500)、隐私预算极紧(ε=1)时显著超过 DP-SGD 及一众投影类基线。

Person-Centric Annotations of LAION-400M: Auditing Bias and Its Transfer to Models

作者为整个 LAION-400M 数据集生成了 2.76 亿个人物边界框 + 感知性别/种族标签 + 人物级 caption,用这套首次覆盖全量 web 数据的标注审计出"男性、黑人、中东裔被过度关联到犯罪和负面内容"等系统性偏见,并证明 CLIP 与 Stable Diffusion 中 60–70% 的性别偏见可以用数据里"性别-概念共现频率"的一条线性拟合直接预测出来。

Physically-Guided Optical Inversion Enable Non-Contact Side-Channel Attack on Isolated Screens

本文首次证明墙面漫反射散射光可以充当一条「光学投影侧信道」,并提出物理引导的反演网络 IR4Net,仅凭被动捕获的散射光斑、在无直视、无电磁、无网络连接的条件下,把物理隔离屏幕上的显示内容重建出来。

PluriHarms: Benchmarking the Full Spectrum of Human Judgments on AI Harm

PluriHarms 用"过采样生成 → 可解释特征抽取 → 遗传算法筛选"的自动化流水线,造出 150 条横跨"完全无害到明确有害"光谱、且刻意聚焦边界争议的 prompt,配上 100 名标注者的 15,000 条评分与人口学/心理特质,把"标注者异见"当成信号而非噪声来研究,并据此评测安全模型——发现个性化对齐能显著提升对人类危害判断的预测,但仍有很大改进空间。

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative for Perplexity

提出基于 token 先验(词频统计)的文本数据过滤方法,利用文档内 token 先验的均值和标准差作为 PPL 的近似替代,在 20 个下游基准上取得最高平均性能,同时比 PPL 过滤快 1000 倍以上。

Privacy Beyond Pixels: Latent Anonymization for Privacy-Preserving Video Understanding

在冻结的视频基础模型上挂一个轻量「匿名适配器」,直接在潜特征空间里用自监督对抗训练抹掉肤色/性别/着装等私密信息,让一套匿名特征通用于动作识别、时序检测、异常检测等多种下游任务——隐私泄露下降 35%,下游任务性能只掉 1-2%。

Private Rate-Constrained Optimization with Applications to Fair Learning

本文提出 RaCO-DP——一个差分隐私版的随机梯度下降-上升(SGDA)算法,通过把"群体公平"等各类速率约束统一成基于直方图的"广义速率约束",让整套约束优化的额外隐私开销只相当于每步私有估计一个 mini-batch 直方图的代价,从而在隐私-效用-公平三角上 Pareto 超越了现有私有公平学习方法。

Protection against Source Inference Attacks in Federated Learning

针对联邦学习里"服务器猜某条数据属于哪个客户端"的来源推断攻击(SIA),本文指出标准 shuffle 不够用——攻击者能借影子数据集把打乱的模型重新映射回原主人;作者把参数级 shuffle 与剩余数系统(RNS)+ 一元编码组合到比特粒度,让服务器只能看到聚合结果、看不到任何单个客户端模型,从而把 SIA 成功率压回随机猜测水平,且几乎不损失联合模型精度。

Reducing Information Dependency Does Not Cause Training Data Privacy. Adversarially Non-Robust Features Do.

本文用三个反直觉实验推翻了"降低训练数据-模型信息依赖能防止重建攻击"这一主流假设,证明模型逆向攻击(MIA)下的隐私其实来自"对抗非鲁棒特征",并据此提出反向对抗训练 AT-AT,把 ResNet-152 的重建率从 84% 压到 6.5%,同时精度高于现有 SOTA 防御。

Reliable Poisoned Sample Detection against Backdoor Attacks Enhanced by Sharpness-Aware Minimization

本文发现投毒样本检测(PSD)方法在弱后门攻击下大幅失效的根本原因是"后门效应"太弱,于是提出用 Sharpness-Aware Minimization(SAM)训练特征提取模型来放大后门效应,从而即插即用地增强各类已有 PSD 方法,平均真阳率(TPR)提升 +34.3%。

Remaining-data-free Machine Unlearning by Suppressing Sample Contribution

本文把"样本对训练的贡献"刻画为预训练模型对该样本的输入敏感度,并提出 MU-Mis:只用预训练模型和遗忘数据、不碰任何剩余数据,通过最小化"目标类与无关类的敏感度差"直接抹掉遗忘样本的贡献,首次让一个 remaining-data-free 方法在效用上追平依赖剩余数据的 SOTA。

RESFL: An Uncertainty-Aware Framework for Responsible Federated Learning by Balancing Privacy, Fairness and Utility

RESFL 把"对抗式隐私解耦"和"不确定性引导的公平聚合"塞进同一条联邦学习流水线,用证据神经网络算出一个尺度无关的群组公平指标 UFM 来给客户端更新加权,在自动驾驶目标检测上同时压低隐私泄露、缩小群组差距,且几乎不掉精度。

Rethinking LoRA for Privacy-Preserving Federated Learning in Large Models

针对差分隐私联邦学习(DPFL)中直接套用 LoRA 会性能崩塌的问题,本文剖析出梯度耦合、噪声乘性放大、聚合后陷入尖锐解三大病根,提出 LA-LoRA——在每个本地轮内交替更新两个低秩矩阵、并用一个固定高斯低通滤波器平滑带噪梯度,在 Swin Transformer 和 RoBERTa 上都拿到 SOTA(Swin-B / Tiny-ImageNet / \(\epsilon=1\) 比最好基线 RoLoRA 高 16.83%)。

Rethinking Pareto Frontier: On the Optimal Trade-offs in Fair Classification

本文把"给定模型结构下能达到的最优公平-精度权衡(model-specific Pareto 前沿)"重写成关于混淆向量的凸优化问题,证明了已有后处理前沿其实是次优的,进而提出带组相关偏置的末层重训练框架,并从理论上证明它严格优于随机翻转类后处理基线。

ReTrace: Reinforcement Learning-Guided Reconstruction Attacks on Machine Unlearning

把"被遗忘数据"的恢复建模成强化学习问题——用遗忘前后两个模型之间残留的差异(trace)当作奖励信号,引导一个生成器在输入空间里搜索高奖励区域,从而在 ResNet 和 DistilBERT 等大模型上重构出本该被删除的样本与类别分布,实例级恢复成功率最高达 73.1%。

Risk-Sensitive Agent Compositions

将Agent工作流形式化为有向无环图(Agent Graph),以max损失函数建模安全/公平/隐私需求,提出BucketedVaR算法通过联合界+动态规划在多项式时间内找到最小化VaR/CVaR的最优Agent组合,并证明在独立损失假设下渐近近最优。

Robust Adversarial Attacks Against Unknown Disturbances via Inverse Gradient Sample

提出 IGSA(Inverse Gradient Sample-based Attack),用"逆梯度采样"主动找到对抗样本邻域内最具破坏性的扰动方向,再沿该方向做扰动引导优化,从而生成在各种未知扰动(模糊、JPEG、旋转、透视等)下仍能保持攻击成功率的鲁棒对抗样本,理论与实验都显著超过 EOT 等现有方法。

Robust Adversarial Quantification via Conflict-Aware Evidential Deep Learning

针对证据深度学习(EDL)在对抗扰动下会"自信地犯错"的痛点,本文提出一个无需重训的后处理方法 C-EDL:对每个输入生成多个保标签的变换视图,量化这些视图在证据空间里的"冲突",并据此按需衰减证据来放大不确定性,从而把 OOD 数据的覆盖率最多降 ≈55%、对抗数据覆盖率最多降 ≈90%,同时几乎不损失 ID 精度与推理效率。

Robust Federated Inference

本文首次形式化「鲁棒联邦推理」问题——多个本地模型的预测在服务器端被聚合,但其中最多 \(f<n/2\) 个客户端的输出可能被任意篡改——并给出第一份鲁棒性分析:当聚合器是平均型时推导出可证认证,当聚合器是非线性神经网络时把问题转化为对抗学习,进而用 DeepSet + 对抗训练 + 推理时鲁棒平均的组合(DeepSet-TM)把最差情形准确率比现有鲁棒聚合方法提升 4.7–22.2 个百分点。

Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer with Epsilon-Scheduling

本文发现从非鲁棒预训练模型做鲁棒微调(RFT)时,哪怕用很小的对抗扰动也会出现"次优迁移"——干净精度大幅低于普通微调甚至接近随机;作者把根因归到"任务适应被延迟",提出 Epsilon-Scheduling(训练扰动强度先 0、再线性爬升到目标值的两段铰链调度)来先适应任务再上鲁棒约束,并提出 期望鲁棒性指标更全面地刻画精度-鲁棒性权衡,在 6 个骨干 × 5 个数据集上一致改善。

Robust Optimization for Mitigating Reward Hacking with Correlated Proxies

这篇论文把 reward hacking 建模为“在所有与代理奖励保持 \(r\) 相关的可能真实奖励中,对最坏情况仍表现好”的 max-min 鲁棒策略优化问题,并给出通用 Max-Min 与线性奖励版 Linear Max-Min 两套算法,在 Traffic、Pandemic、Glucose、Tomato 和 RLHF 等环境上显著提升最坏情况回报和稳定性。

Robust Spiking Neural Networks Against Adversarial Attacks

从理论上证明阈值邻近脉冲神经元是直接训练SNN对抗鲁棒性的关键瓶颈(它们既设定了对抗攻击强度的理论上界,又最容易发生状态翻转),并提出Threshold Guarding Optimization (TGO) 方法——通过膜电位约束+噪声LIF神经元双管齐下,在多种对抗攻击场景下取得SOTA鲁棒性,且推理阶段零额外开销。

Robustify Spiking Neural Networks via Dominant Singular Deflation under Heterogeneous Training Vulnerability

作者发现脉冲神经网络(SNN)在"直接编码 + BPTT"主流训练范式下存在异构训练脆弱性——只要训练中混进一个分布略有差异的 batch 就会导致整网崩溃,并从理论上把根因归结为 Hessian 谱半径随时间步线性增长;据此提出无超参的 Dominant Singular Deflation(DSD),在每步反传时正交剔除梯度的主奇异分量来压低谱半径,在同构与异构训练下都显著提升了 SNN 的对抗鲁棒性。

Membership Privacy Risks of Sharpness Aware Minimization

本文首次系统性地揭示了 SAM(Sharpness-Aware Minimization)训练的模型虽然泛化性能更好,但反而比 SGD 更容易遭受成员推断攻击(MIA),并从记忆化行为和方差收缩两个角度给出了理论和实验解释。

Sample-Efficient Distributionally Robust Multi-Agent Reinforcement Learning via Online Interaction

本文首次研究了分布鲁棒马尔可夫博弈(DRMGs)的在线学习问题,提出 MORNAVI 算法,在无需模拟器或离线数据的情况下,通过在线交互高效学习最优鲁棒策略,并提供了 TV 散度和 KL 散度不确定性集下的首个可证明遗憾界。

SCOPED: Score–Curvature Out-of-Distribution Proximity Evaluator for Diffusion

SCOPED 把扩散模型分数函数的「平方范数 / 雅可比迹(曲率)」组成一个单一统计量 \(T(x)\) 来判断样本是否在分布内,靠 Hutchinson 估计器把曲率压成一次 JVP,只需 1~2 次前向评估就能逼近最强扩散类 OOD 方法的精度,比依赖完整去噪轨迹的方法少一个数量级的模型评估。

Secure Outlier-Aware Large Language Model Inference

本文提出 SOAL 框架,发现 LLM 非线性层(归一化 / 激活 / Softmax)也普遍存在"离群激活"现象,并通过给输入前缀特殊 token 把离群值"关进"固定位置、再针对收窄后的输入域重设计 MPC 非线性协议,在不微调模型的前提下把安全推理中 RMSNorm 提速约 2×、SiLU 约 2×、Softmax 超 3×,整体加速近 2×。

SeRI: Gradient-Free Sensitive Region Identification in Decision-Based Black-Box Attacks

在只能拿到 top-1 标签、查询预算极紧的决策型黑盒攻击场景下,SeRI 提出一种基于"决策边界"的连续像素敏感度定义,并用递归区域细分 + 局部扰动增减的方式给每个像素估出敏感度权重,作为即插即用的扰动优化器,让 HSJA / CGBA / RayS / ADBA 等主流攻击在相同查询下把 \(\ell_2\) 扰动再压低约 15%~30%。

Skirting Additive Error Barriers for Private Turnstile Streams

证明差分隐私旋转门流中的多项式纯加性误差下界(不同元素计数 \(\Omega(T^{1/4})\)\(F_2\)\(\Omega(T)\))可以通过引入乘性误差来绕过——对不同元素计数实现 \((\text{polylog}(T), \text{polylog}(T))\) 混合误差,对 \(F_2\) 矩实现 \((1+\eta, \text{polylog}(T))\) 混合误差,且两者仅需 polylogarithmic 空间。

STEDiff:揭示文生图扩散模型后门攻击中的时空冗余

作者首次揭示扩散模型后门攻击中存在大量"时空冗余"——只有少数关键权重(富集现象)和少数关键时间步(边际效应)真正参与后门注入;据此提出统一框架 STEDiff,攻击端 STEBA 把后门注入加速最高 15.07× 并省 82% 显存,防御端 STEDF 利用时空特征实现最高 99.8% 的实时后门检测。

Test-Time Poisoned Sample Detection by Exploiting Shallow Malicious Matching in Backdoored CLIP

本文发现被植入后门的 CLIP 在中毒图像上只是"浅层恶意匹配"——图像特征贴近目标文本本身却远离它的语义近邻,据此提出 Subspace Detection:在测试时用文本变体重建预测概念的局部文本流形,沿正方向采样出一块判别性最强的"兴趣区域",再用图像特征到该区域的欧氏距离把中毒样本检出来,在 7 种 SOTA 后门攻击、3 个数据集上 AUROC 大幅领先现有检测方法。

The Gaussian-Head OFL Family: One-Shot Federated Learning from Client Global Statistics

GH-OFL 让客户端只上传一次"类条件充分统计量"(计数、一阶/二阶矩),服务器据此直接拼出闭式高斯判别头(NB/LDA/QDA)并在 Fisher 子空间里合成无关数据训练两个轻量头(FisherMix、Proto-Hyper),在强非 IID 下用单轮通信就达到 OFL SOTA 精度,且全程不碰原始数据。

The Self-Re-Watermarking Trap: From Exploit to Resilience

这篇论文指出深度图像水印系统会被“同一个编码器再次写入新水印”轻易覆盖原始所有权,并用带 Lipschitz 约束的自感知水印框架与重水印对抗训练,让原始水印在自重水印和 PGD 覆盖攻击后仍能被稳定恢复。

Time Is All It Takes: Spike-Retiming Attacks on Event-Driven Spiking Neural Networks

提出Spike-Retiming Attack——一种仅改变脉冲时间戳而不增删脉冲的时序攻击方法,形式化了容量-1约束下的统一三范数预算(\(\mathcal{B}_\infty\)局部抖动/\(\mathcal{B}_1\)总延迟/\(\mathcal{B}_0\)篡改数),通过Projected-in-the-Loop (PIL)优化在前向严格投影、反向软微分间解耦,在CIFAR10-DVS/DVS-Gesture/N-MNIST上以<2%脉冲扰动达到>90% ASR,揭示事件驱动SNN存在严重的时序脆弱性。

Toward Enhancing Representation Learning in Federated Multi-Task Settings

提出Muscle损失——一种N-tuple级多模型对比学习目标函数,其最小化等价于最大化所有模型表示间互信息的下界;基于此设计FedMuscle算法,通过公共数据集对齐异构模型的表示空间,自然处理模型和任务异构性,在CV/NLP多任务设定下一致超越SOTA基线(Δ最高+28.65%)。

Towards a Certificate of Trust: Task-Aware OOD Detection for Scientific AI

针对科学计算里大量的回归任务,本文用一个在「输入+预测」联合分布 \(p(x, y_{\text{pred}})\) 上训练的 score-based 扩散模型,把联合对数似然当作模型预测的「可信度证书」,证明它与真实预测误差强相关,从而无需任何测试集真值就能判断一个 AI 预测是否可信(ID/OOD),并在 PDE、卫星遥感、脑肿瘤分割等多种科学数据上验证有效。

Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

针对纵向联邦学习(VFL)中"标签既是输入又是隐私"的特殊困境,本文提出首个 VFL 标签遗忘方法:用一小撮公共数据做 manifold mixup 合成嵌入,再对主动方/被动方做梯度上升抹除目标标签、梯度下降恢复保留标签,整个遗忘过程几秒完成,比基线快 16–1200 倍且几乎不掉保留集精度。

Traceable Black-box Watermarks for Federated Learning

提出 TraMark,通过将模型参数空间划分为主任务区域和水印区域、采用掩码聚合防止水印碰撞,首次在联邦学习中实现服务器端可追踪黑盒水印注入,验证率达 99.58% 且主任务精度仅下降 0.54%。

TriQDef:扰乱语义与梯度对齐,阻断量化网络中的对抗补丁迁移

本文发现对抗补丁能在不同比特宽度的量化网络之间高度迁移,根因是各比特模型在中间特征输入梯度上仍保持很强的「感知对齐」;TriQDef 用两个感知失配正则(FDP + GPDP)外加一套比特位课程训练,在训练时主动打散这种跨比特对齐,使未见补丁/未见比特组合下的攻击成功率(ASR)下降 40% 以上,同时几乎不损失干净精度、推理零额外开销。

TrojanTO: Action-Level Backdoor Attacks Against Trajectory Optimization Models

针对 Decision Transformer 这类轨迹优化(TO)模型,提出首个动作级后门攻击 TrojanTO:作为一种"训练后"攻击,只需污染 0.3% 的轨迹、不碰奖励信号,用"轨迹过滤 + 批次投毒 + 交替训练"在预训练模型上植入触发器与目标动作的强耦合,在六个 D4RL 任务、三种 TO 架构上把综合得分 CP 从基线的 0.34 提到 0.70。

Tug-of-War No More: Harmonizing Accuracy and Robustness in Vision-Language Models via Stability-Aware Task Vector Merging

针对「让 VLM 变鲁棒就一定掉干净精度」这个老大难权衡,本文提出 PISTOLE——不重训,而是把现成的「自然微调」和「对抗微调」CLIP 的任务向量按预测稳定性有选择地合并:用互补的梯度稳定性掩码压住会互相打架的坐标、用曲率敏感的指标加权对抗参数轨迹,从而把原本接近直线的干净-鲁棒前沿「掰弯」出更好的甜点,在 14 个数据集上同时把干净和鲁棒精度抬高约 5%。

ULD-Net: Enabling Ultra-Low-Degree Fully Polynomial Networks for Homomorphically Encrypted Inference

ULD-Net 提出一套从零训练「全多项式网络」的方法,用只含加法和乘法的归一化层 PolyNorm 把激活值稳稳压在良态区间,从而首次让乘法深度 ≤3 的超低次全多项式模型扩展到 ViT/ImageNet 规模(ViT-Small 在 ImageNet 上 76.70% top-1),并相比此前 SOTA 取得 2.76× 的同态加密推理加速。

Uncertainty Estimation via Hyperspherical Confidence Mapping

本文提出 Hyperspherical Confidence Mapping (HCM),把网络输出拆成"模长 \(R\) + 单位方向向量 \(\hat{d}\)",再把 \(\hat{d}\) 偏离单位球面的程度当作不确定性,从而实现无采样、无分布假设的确定性不确定性估计,在分类和回归上都能匹配甚至超过深度集成 / 证据学习,且推理开销最低。

Unified Privacy Guarantees for Decentralized Learning via Matrix Factorization

将去中心化学习(DL)中的多种算法和信任模型统一建模为矩阵分解(MF)机制,推广隐私保证到更一般的矩阵类型,并提出 MAFALDA-SGD 算法通过优化噪声相关性在合成和真实图拓扑上显著优于现有方法。

Video Unlearning via Low-Rank Refusal Vector

本文提出首个面向视频扩散模型的「免训练、闭式权重更新」概念擦除框架:只用 5 对安全/不安全提示估计一个「拒绝向量」,再用对比低秩分解把目标概念从无关语义中剥离,最后把修正解析地写进模型权重,在 OPEN-SORA 与 ZEROSCOPET2V 上平均把不安全生成率分别降低 36.3% 和 58.2%,且不损视频质量、不加推理开销。

VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents

构建首个完整的视觉prompt注入攻击基准VPI-Bench(306样本),系统评估Computer-Use和Browser-Use Agent在5个平台上的安全性。发现Browser-Use Agent极度脆弱(Amazon/Booking上100% AR),即使Anthropic的CUA也存在严重漏洞(最高59% AR),系统prompt防御无效。

WARP: Weight Teleportation for Attack-Resilient Unlearning Protocols

本文指出近似机器遗忘会反过来泄漏被遗忘的数据,把泄漏归因到「遗忘样本梯度范数大」与「遗忘后参数离原模型太近」两个根因,并提出即插即用的 WARP 防御:利用神经网络的保损对称性把模型「传送」到损失等值面上的另一点,同时压低遗忘梯度范数、拉大参数位移,在六种遗忘算法上把黑盒攻击 AUC 最多降 64%、白盒最多降 92% 而几乎不损精度。

Watermark-based Detection and Attribution of AI-Generated Content

首次系统性研究基于水印的AI生成内容用户级检测与溯源,提供了理论分析(TDR/FDR/TAR界)、高效水印选择算法(A-BSTA)和跨模态(图像+文本)实验验证,证明检测和溯源继承了水印方法本身的准确性与(非)鲁棒性。

When Flatness Does (Not) Guarantee Adversarial Robustness

这篇论文把“平坦极小值是否带来对抗鲁棒性”从经验直觉改写成可证明的问题,结论是平坦性确实能给单点附近的局部损失稳定性提供下界,但无法推出全局鲁棒性,因为对抗样本常会落入高置信、低曲率、但分类错误的平坦区域。

Why Do Unlearnable Examples Work: A Novel Perspective of Mutual Information

从互信息(MI)降低的角度统一解释了所有不可学习样本(UE)的有效机制,并证明减小类内下毒特征的协方差可降低MI上界,据此提出 MI-UE 方法通过类内余弦相似度最大化实现协方差缩减,在 CIFAR-10 上将测试准确率压至 9.95%(接近随机猜测),且在对抗训练防御下仍大幅领先已有方法。

Wring Out the Bias: A Rotation-Based Alternative to Projection Debiasing

针对 CLIP 等视觉语言模型常用的"投影去偏"会把偏见从一个概念偷偷搬到另一个未考虑概念上(whac-a-mole 困境),本文从线性代数上证明投影必然放大正交子空间的偏见,并提出用"在相关子空间内旋转嵌入"替代"删除子空间"的 WRING 方法,在消除目标概念偏见的同时几乎不放大未考虑概念的偏见。

Zero-Sacrifice Persistent-Robustness Adversarial Defense for Pre-Trained Encoders

ZePAD 用两条互补分支(对抗微调的多编码器分支 + 只在干净数据上训练的良性分支)加一套基于置信度的联合决策机制,让预训练编码器只微调一次就能在多个下游任务上同时抵御"下游无关对抗样本"且不掉甚至提升干净精度,顺带还能免费检测对抗样本。