🛡️ AI 安全¶
🧠 NeurIPS2025 · 73 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (2) · 📷 CVPR2026 (24) · 🔬 ICLR2026 (27) · 🤖 AAAI2026 (44) · 📹 ICCV2025 (22) · 🧪 ICML2025 (36)
🔥 高频主题: 对抗鲁棒 ×16 · 联邦学习 ×7 · 对齐/RLHF ×2 · 图神经网络 ×2 · 语音 ×2
- A Set of Generalized Components to Achieve Effective Poison-only Clean-label Backdoor Attacks with Collaborative Sample Selection and Triggers
-
提出一组通用化组件(Component A/B/C),通过充分挖掘样本选择与触发器之间的双向协作关系,同时提升 Poison-only Clean-label 后门攻击的攻击成功率(ASR)和隐蔽性,并在多种攻击类型上展现了良好的泛化能力。
- AI Should Sense Better, Not Just Scale Bigger: Adaptive Sensing as a Paradigm Shift
-
这篇立场论文受生物感觉系统的启发,主张AI研究必须从单纯的"扩模型"范式转向"优化输入"——通过在传感器层面动态调整参数(曝光、增益、多模态配置等),使小模型(5M参数的EfficientNet-B0)在理想传感器适应下超越大模型(632M参数的OpenCLIP-H),并提出了从单次感知到闭环感知-运动耦合的渐进式形式化框架。
- Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
-
构建了 Infinity-Chat 数据集(26K 开放式真实用户查询 + 31,250 条人类标注),揭示了 LM 在开放式生成中的"Artificial Hivemind"效应——模型内重复和模型间同质化严重,并发现 Reward Model 和 LM Judge 在个体偏好差异大的样本上校准失败。
- Beyond Last-Click: An Optimal Mechanism for Ad Attribution
-
从博弈论角度分析广告归因中 Last-Click 机制的策略操纵漏洞——平台可以通过篡改时间戳获取不公正的归因信用,提出 Peer-Validated Mechanism(PVM)——每个平台的信用仅取决于其他平台的报告(类比同行评审),理论证明 PVM 是占优策略激励兼容(DSIC)且在同质设置下最优,准确率从 34% 提升到 75%(2 平台)。
- Boosting Adversarial Transferability with Spatial Adversarial Alignment
-
提出 Spatial Adversarial Alignment (SAA),通过空间感知对齐和对抗感知对齐两个模块微调代理模型,使其特征与见证模型对齐,从而显著提升对抗样本的跨架构迁移性(CNN→ViT 迁移率提升 25-39%)。
- Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness
-
通过在 CNN 中嵌入旋转等变(P4群)和尺度等变卷积层,提出 Parallel 和 Cascaded 两种对称性感知架构,无需对抗训练即可显著提升对抗鲁棒性,并从 CLEVER 框架出发理论证明等变架构能压缩假设空间、正则化梯度、收紧认证鲁棒性界。
- Causally Reliable Concept Bottleneck Models
-
提出 C2BM(Causally reliable Concept Bottleneck Models),将概念瓶颈(concept bottleneck)按照因果图结构化组织,通过结合观测数据与背景知识自动学习因果关系,在保持分类精度的同时显著提升因果可靠性、干预响应和公平性。
- Cost Efficient Fairness Audit Under Partial Feedback
-
在部分反馈(partial feedback)设定下,提出了一套包含新颖成本模型的公平性审计框架,分别在黑盒与混合模型两种场景给出近最优审计算法,审计成本比自然基线降低约 50%。
- CTRL-ALT-DECEIT: Sabotage Evaluations for Automated AI R&D
-
扩展 MLE-Bench 构建了 20 个代码破坏(code-sabotage)任务和 sandbagging 评测,发现前沿 AI agent 能在完成正常 ML 工程任务的同时成功植入后门等破坏,且在部分情况下逃避 LM monitor 的检测。
- Deceptron: Learned Local Inverses for Fast and Stable Physics Inversion
-
提出 Deceptron 双向模块,通过学习可微分前向代理的局部逆映射并引入 Jacobian Composition Penalty (JCP),在求解物理逆问题时将输出空间的残差拉回输入空间,实现类 Gauss-Newton 的预条件梯度更新,迭代次数大幅减少(Heat-1D 约 20 倍加速)。
- DESIGN: Encrypted GNN Inference via Server-Side Input Graph Pruning
-
提出 DESIGN 框架,在全同态加密(FHE)下通过服务器端输入图剪枝和自适应多项式激活度分配两阶段优化,相比 SEAL 基线加速 FHE GNN 推理约 2× 并维持有竞争力的准确率。
- DictPFL: Efficient and Private Federated Learning on Encrypted Gradients
-
提出 DictPFL 框架,通过将模型权重分解为静态字典+可训练查找表,并结合加密感知剪枝,在联邦学习中实现全梯度同态加密保护的同时,将通信开销降低 402–748 倍、训练速度提升 28–65 倍,运行时间仅为明文 FL 的 2 倍以内。
- Differential Privacy for Euclidean Jordan Algebra with Applications to Private Symmetric Cone Programming
-
提出了基于 Euclidean Jordan Algebra (EJA) 的通用 Gaussian 隐私机制,并在此基础上设计了首个差分隐私的 Symmetric Cone Programming (SCP) 求解算法,解决了 Hsu et al. (ICALP 2014) 提出的关于差分隐私半定规划的重要开放问题。
- Differentially Private Bilevel Optimization: Efficient Algorithms with Near-Optimal Rates
-
本文系统研究差分隐私 (DP) 下的双层优化问题,在凸情形下通过指数机制和正则化指数机制给出近紧的上下界(匹配单层 DP-ERM 最优率),在非凸情形下提出二阶 DP 方法实现不依赖内层维度的 SOTA 收敛率。
- Differentially Private High-dimensional Variable Selection via Integer Programming
-
本文提出两种纯差分隐私的稀疏变量选择方法 (top-R 和 mistakes),利用现代混合整数规划 (MIP) 技术高效探索非凸目标景观,在高维设置(p 达 10000)下实现 SOTA 支撑集恢复率,同时提供理论恢复保证。
- Distributional Adversarial Attacks and Training in Deep Hedging
-
本文首次将分布对抗攻击引入深度对冲框架,提出基于 Wasserstein 球的可计算对抗训练方法(WPGD 和 WBPGD),显著提升了对冲策略在分布偏移和真实市场数据下的鲁棒性与样本外表现。
- Dual-Flow: Transferable Multi-Target, Instance-Agnostic Attacks via In-the-wild Cascading Flow Optimization
-
本文提出 Dual-Flow 框架,利用预训练扩散模型的正向 ODE 流和微调 LoRA 速度函数的逆向流进行多目标实例无关对抗攻击,通过级联分布偏移训练策略显著提升迁移攻击成功率(从 Inc-v3 到 Res-152 成功率提升 34.58%),在防御模型上也表现出强鲁棒性。
- Efficient Fairness-Performance Pareto Front Computation
-
提出 MIFPO 方法,无需训练复杂的公平表示模型即可高效计算公平性-性能 Pareto 前沿,通过理论分析将问题化简为紧凑的离散凹优化问题。
- Efficient Verified Machine Unlearning for Distillation
-
提出 PURGE 框架,通过教师-学生 constituent mapping 和增量式多教师蒸馏策略,将 SISA 的验证式遗忘扩展到知识蒸馏场景,在教师端遗忘时仅需部分重训学生模型,实现至少 \(N\times\) 的加速。
- Enabling Differentially Private Federated Learning for Speech Recognition: Benchmarks, Adaptive Optimizers and Gradient Clipping
-
首次为端到端ASR建立FL+DP的实用基准,通过逐层裁剪(per-layer clipping)结合LAMB优化器的层级梯度归一化,在强隐私保证下实现仅1.3%~4.6%的WER绝对退化。
- Enhancing Graph Classification Robustness with Singular Pooling
-
首次系统分析 flat pooling(Sum/Avg/Max)对图分类对抗鲁棒性的影响,推导各自的对抗风险上界,并提出 RS-Pool——利用节点嵌入矩阵的主奇异向量构建图级表示,在不牺牲 clean accuracy 的前提下显著提升对抗鲁棒性。
- Environment Inference for Learning Generalizable Dynamical System
-
提出 DynaInfer 框架,通过分析固定神经网络的预测误差来推断未标注轨迹的环境标签,实现无环境标签条件下的动态系统泛化学习,在 ODE/PDE 系统上性能匹配甚至超越 Oracle(已知标签)。
- Exploration of Incremental Synthetic Non-Morphed Images for Single Morphing Attack Detection
-
系统研究了在单图像变形攻击检测(S-MAD)训练中增量引入合成非变形人脸图像的效果,发现适量的合成数据(~75%增量)可提升跨数据集泛化能力(EER从6.17%降至6.10%),但过度使用或仅用合成数据会导致性能严重退化(EER升至~38%)。
- Factor Decorrelation Enhanced Data Removal from Deep Predictive Models
-
提出 DecoRemoval 框架,通过判别性保持的因子去相关(基于随机傅里叶特征的空间映射+自适应权重)和平滑损失扰动两大模块,在不重训的前提下实现数据移除,尤其在分布外(OOD)场景下显著优于现有方法。
- Fair Minimum Labeling: Efficient Temporal Network Activations for Reachability and Equity
-
本文提出公平最小标注(FML)问题,旨在设计最小代价的时序边激活方案,使网络中各节点组均有足够的时序路径可达性以满足公平覆盖要求;证明该问题是 NP-hard 且难以近似,并基于概率树嵌入给出匹配下界的近似算法。
- Fair Representation Learning with Controllable High Confidence Guarantees via Adversarial Inference
-
提出 FRG(Fair Representation learning with high-confidence Guarantees),首个允许用户指定公平性阈值 \(\varepsilon\) 和置信水平 \(1-\delta\) 的公平表征学习框架:通过 VAE 候选选择 + 对抗推断最大化协方差 + Student's t-检验构造高置信上界,保证对任意下游模型和任务,\(\Delta_{DP} \leq \varepsilon\) 以至少 \(1-\delta\) 概率成立。
- FairContrast: Enhancing Fairness through Contrastive Learning and Customized Augmentation
-
FairContrast 提出一种面向表格数据的公平对比学习框架,通过策略性的正对样本选择(将优势组有利结果样本与对应弱势组样本配对),结合有监督或自监督对比损失与交叉熵损失的端到端训练,在不引入额外公平约束损失的前提下显著降低了预测偏差,且精度损失极小。
- Fairness-Regularized Online Optimization with Switching Costs
-
这篇论文把“长期公平”与“动作平滑”第一次严密地放进同一个在线优化框架里,先证明原问题在常规动态基准下根本不可能做好,再提出 FairOBD 通过辅助变量和对偶镜像下降把公平代价在线化,从而在更合理的 \((R,\delta)\) 约束基准上拿到渐近最优级别的竞争比。
- Fairness under Competition
-
本文首次研究竞争环境下多个公平分类器的联合公平性问题,理论证明即使每个分类器都满足 Equal Opportunity (EO),生态系统可能仍然不公平,且对偏差分类器进行公平性调整反而可能降低生态系统公平性。
- FedFACT: A Provable Framework for Controllable Group-Fairness Calibration in Federated Learning
-
提出FedFACT框架,通过刻画联邦学习下的贝叶斯最优公平分类器结构,将公平联邦学习分别在训练中(in-processing)化归为个性化代价敏感学习、在训练后(post-processing)化归为双层优化,首次实现多类别场景下全局公平性与局部公平性的可控协调,并提供收敛及泛化保证。
- FLUX: Efficient Descriptor-Driven Clustered Federated Learning under Arbitrary Distribution Shifts
-
Flux通过在客户端侧提取紧凑的分布描述符(边际P(X)均值/协方差 + 类条件P(Y|X)均值/协方差),在服务器端用自适应DBSCAN无监督聚类自动确定聚类数与分组,训练聚类专属模型,并在测试时仅凭特征描述符为无标签新客户端匹配最优模型——首次同时处理四种分布偏移且通信开销与FedAvg相当。
- ForensicHub: A Unified Benchmark & Codebase for All-Domain Fake Image Detection and Localization
-
ForensicHub 提出首个统一所有域(Deepfake/IMDL/AIGC/文档篡改)的假图检测与定位基准平台,包含 4 个任务、23 个数据集、42 个模型、6 个骨干网络和 11 个 GPU 加速评估指标,通过模块化架构和适配器设计打破领域孤岛,并进行了 16 种跨域评估得出 8 条关键洞察。
- Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning
-
本文理论推导并实验验证了深度迁移学习中成员推理攻击(MIA)脆弱性与每类样本数之间的幂律关系 \(\log(\text{tpr}-\text{fpr}) = -\beta_S \log(S) - \beta_0\),发现增加数据量可降低平均和最坏情况脆弱性,但保护最脆弱样本需要极大量数据。
- Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning
-
从理论和实验两方面揭示深度迁移学习中成员推断攻击 (MIA) 脆弱性与每类样本数之间存在幂律关系:随着每类样本数 \(S\) 增加,MIA 优势按 \(S^{-1/2}\) 下降,但保护最脆弱样本所需的数据量极大,凸显了差分隐私形式化保障的不可替代性。
- Improved Balanced Classification with Theoretically Grounded Loss Functions
-
提出两个理论驱动的代理损失函数族——广义Logit调整(GLA)损失和广义类感知加权(GCA)损失,为类别不平衡下的多类分类提供更强的理论保证和实证性能。
- Incentivizing Time-Aware Fairness in Data Sharing
-
提出了一个时间感知的数据共享框架,设计了新的激励机制(F6-F8)和两种奖励方案(时间感知奖励累计和时间感知数据估值),保证早加入协作的参与方能获得更高价值的奖励,同时兼顾公平性和个体理性。
- Influence Functions for Edge Edits in Non-Convex Graph Neural Networks
-
提出适用于非凸 GNN 的边编辑影响函数,通过 proximal Bregman 响应函数放松凸性假设,并同时考虑参数偏移和消息传播两方面的影响,支持边的删除和插入。
- It's Complicated: The Relationship of Algorithmic Fairness and Non-Discrimination Provisions for High-Risk Systems in the EU AI Act
-
本文系统分析了欧盟AI法案(EU AI Act)中针对高风险AI系统的反歧视条款与机器学习算法公平性领域之间的复杂关系,揭示了法律条文在输入侧偏差检测、输出侧保护缺失、标准化挑战等方面的关键缝隙,为计算机科学与法学跨学科协作提供了基础框架。
- Keep It Real: Challenges in Attacking Compression-Based Adversarial Purification
-
本文系统评估了基于图像压缩的对抗净化防御,发现重建图像的"真实感"(realism)是提升防御鲁棒性的关键因素——高真实感压缩模型在面对强自适应攻击时仍能保持显著鲁棒性,而这并非源于梯度掩蔽。
- Learning-Augmented Facility Location Mechanisms for Envy Ratio
-
针对一维设施选址问题中的嫉妒比(envy ratio)目标,设计了确定性和随机化的学习增强机制:确定性的 \(\alpha\)-BIM 机制在一致性和鲁棒性之间实现最优权衡,随机化的BAM机制进一步改善保证;同时解决了Ding等人提出的公开问题,将无预测的随机机制近似比从2改进至约1.8944。
- Locally Optimal Private Sampling: Beyond the Global Minimax
-
在本地差分隐私(LDP)下的采样问题中,提出局部minimax框架,利用公共数据分布 \(P_0\) 定义的邻域约束,推导出闭式最优采样器,在理论和实验上均一致优于全局minimax采样器。
- Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy and Research
-
本文系统性地揭示了机器遗忘(Machine Unlearning)在生成式AI场景下的五大根本性错配——技术方法与政策目标之间存在不可忽视的鸿沟,论证了机器遗忘无法作为通用方案解决隐私、版权和安全问题,并为ML研究者和政策制定者提供了务实的认知框架。
- MARS: A Malignity-Aware Backdoor Defense in Federated Learning
-
提出 MARS 防御方法,通过计算神经元的后门能量(Backdoor Energy)来感知模型的恶意程度,并利用 Wasserstein 距离聚类有效识别联邦学习中的后门模型。
- Matchings Under Biased and Correlated Evaluations
-
在两机构稳定匹配模型中引入评估相关性参数 \(\gamma\)(机构间评分的对齐程度),分析偏差 \(\beta\) 和相关性 \(\gamma\) 如何联合影响弱势群体的代表性比率,证明即使轻微的相关性损失也可导致代表性急剧下降,并提出公平性干预策略的 Pareto 前沿。
- Mitigating Disparate Impact of Differentially Private Learning through Bounded Adaptive Clipping
-
通过在自适应梯度剪裁中引入可调整的下界(bounded adaptive clipping),防止 clipping bound 在训练过程中过度萎缩,从而改善少数群体的精度,在 DP 约束下缓解算法不公平。
- Mitigating Privacy-Utility Trade-off in Decentralized Federated Learning via f-Differential Privacy
-
提出基于 f-DP 框架的两种去中心化联邦学习隐私记账方法——PN-f-DP 和 Sec-f-LDP,通过更精细的假设检验隐私度量,一致性地获得比 Rényi DP 更紧的隐私界,从而在相同隐私保证下减少噪声注入、提升模型效用。
- Model Inversion with Layer-Specific Modeling and Alignment for Data-Free Continual Learning
-
在无数据持续学习场景中,提出逐层模型反演(PMI)来加速图像合成,并通过类别级高斯特征建模和对比学习缓解合成-真实数据间的特征漂移,实现高效且高质量的无数据知识回放。
- Multi-Class Support Vector Machine with Differential Privacy
-
提出PMSVM框架,利用all-in-one多类SVM的单次数据访问特性,结合权重扰动和梯度扰动方法,在保持差分隐私的前提下显著降低多类SVM的隐私预算消耗,实现了更优的隐私-效用权衡。
- Nearly-Linear Time Private Hypothesis Selection with the Optimal Approximation Factor
-
首次提出在中心差分隐私模型下同时实现近线性时间复杂度和最优近似因子 \(\alpha=3\) 的假设选择算法,解决了Bun等人(NeurIPS 2019)提出的开放问题。
- Not All Deepfakes Are Created Equal: Triaging Audio Forgeries for Robust Deepfake Singer Identification
-
提出基于"最有害的深伪是质量最高的"这一前提的两阶段流水线:先用判别器过滤低质量伪造以减少噪声,再用仅在真实录音上训练的歌手识别模型进行声纹匹配,在多个数据集上一致超越基线。
- OmniFC: Rethinking Federated Clustering via Lossless and Secure Distance Reconstruction
-
提出 OmniFC,一个模型无关的联邦聚类框架:通过 Lagrange 编码计算在有限域上精确重建全局成对距离矩阵,任意集中式聚类方法(K-Means/谱聚类/DBSCAN/层次聚类等)可直接在其上运行,仅需一轮通信,天然抵抗 Non-IID,在 7 个数据集上全面超越 k-FED/MUFC/FedSC 等专用方法。
- On the Hardness of Conditional Independence Testing In Practice
-
系统分析了基于核的条件独立性(CI)检验在实践中失败的根本原因:条件均值嵌入的估计误差是导致Type-I错误膨胀的核心因素,同时揭示了选择条件核\(k_C\)对检验功效至关重要但会加剧假阳性的内在张力。
- Optimal Adjustment Sets for Nonparametric Estimation of Weighted Controlled Direct Effect
-
针对加权控制直接效应(WCDE)建立三项基础理论:唯一可识别性的充要条件、非参数估计的影响函数推导、以及最小化渐近方差的最优协变量调整集刻画。
- Perturbation Bounds for Low-Rank Inverse Approximations under Noise
-
首次给出在加性噪声下低秩逆近似 \(\|(\tilde{A}^{-1})_p - A_p^{-1}\|\) 的非渐近谱范数扰动界,利用轮廓积分技术得到依赖特征间隙、谱衰减和噪声对齐的锐界,比经典全逆界改进高达 \(\sqrt{n}\) 倍。
- Position: Bridge the Gaps between Machine Unlearning and AI Regulation
-
系统分析了机器遗忘(Machine Unlearning)在欧盟人工智能法案(AIA)合规中的六大潜在应用场景,指出每个场景中 SOTA 与实际需求之间的技术差距,呼吁研究社区弥补这些差距以释放机器遗忘在 AI 监管中的潜力。
- Preserving Task-Relevant Information Under Linear Concept Removal
-
SPLINCE通过构造一种斜投影(oblique projection),在保证线性守护性(不可被线性分类器预测敏感属性)的同时,精确保留表征与目标标签之间的协方差,解决了现有概念擦除方法在移除敏感概念的同时误删任务相关信息的问题。
- Private Continual Counting of Unbounded Streams
-
提出基于对数扰动的新型矩阵分解方法,首次实现同时满足"无界流"、"平滑误差"和"近最优渐近误差"三大性质的差分隐私持续计数算法,对任意 \(\alpha > 0\) 在时间步 \(t\) 处的方差为 \(O(\log^{2+2\alpha}(t))\)。
- Private Zeroth-Order Optimization with Public Data
-
提出 PAZO 框架,利用公共数据引导私有零阶优化算法的梯度近似,在视觉和文本任务上实现了优于 DP-SGD 的隐私-效用权衡,同时获得最高 16 倍的速度提升。
- Provable Watermarking for Data Poisoning Attacks
-
本文提出两种可证明的水印方案(后投毒水印和投毒并行水印),为数据投毒攻击提供透明性声明机制,理论证明在特定水印长度条件下可同时保证水印可检测性和投毒有效性。
- PubSub-VFL: Towards Efficient Two-Party Split Learning in Heterogeneous Environments via Publisher/Subscriber Architecture
-
本文提出PubSub-VFL,一种基于发布/订阅架构的高效两方纵向联邦学习框架,通过分层异步机制和基于系统画像的超参数优化,在保证隐私和模型精度的前提下实现2~7倍的训练加速和高达91%的计算资源利用率。
- Reconstruction and Secrecy under Approximate Distance Queries
-
在近似距离查询模型下,通过学习理论视角研究重建博弈(reconstruction game),证明了最优重建误差等于Chebyshev半径的几何特征刻画,并对欧氏凸空间的伪有限性给出了完整分类。
- Rewind-to-Delete: Certified Machine Unlearning for Nonconvex Functions
-
本文提出R2D(Rewind-to-Delete),首个适用于一般非凸损失函数的一阶、黑盒认证机器遗忘算法,通过"回溯"到训练过程中的较早检查点再对保留数据执行梯度下降来实现数据删除,同时提供(ε,δ)认证遗忘保证和隐私-效用-效率的理论权衡。
- Robust Graph Condensation via Classification Complexity Mitigation
-
本文揭示图凝缩(GC)本质上是降低分类复杂度的过程,而对抗攻击恰好破坏了这一特性,据此提出MRGC框架,通过内在维度正则化、曲率感知流形平滑和类间流形解耦三个流形约束模块来增强GC的鲁棒性,首次在结构、特征和标签均可能被篡改的条件下系统研究GC鲁棒性。
- Sequentially Auditing Differential Privacy
-
提出基于序贯假设检验和核 MMD 统计量的差分隐私审计框架,可以在流式处理机制输出时随时有效地检测隐私违规,将所需样本量从现有方法的 50K 降低到数百个,并能在不到一次完整训练的过程中识别 DP-SGD 的隐私违规。
- Spectral Perturbation Bounds for Low-Rank Approximation with Applications to Privacy
-
建立了对称矩阵低秩近似在谱范数下的新型高概率扰动界,改进了经典 Eckart-Young-Mirsky 定理,并解决了差分隐私 PCA 中的一个公开问题。
- Stealthy Yet Effective: Distribution-Preserving Backdoor Attacks on Graph Classification
-
提出 DPSBA,一种面向图分类的 clean-label 后门攻击框架,通过对抗训练生成分布内(in-distribution)触发子图,同时抑制结构异常和语义异常,在保持高攻击成功率的同时显著提升隐蔽性。
- Stochastic Regret Guarantees for Online Zeroth- and First-Order Bilevel Optimization
-
提出了一种新的搜索方向并证明基于该方向的一阶和零阶在线双层优化算法能够在不需要窗口平滑的条件下实现次线性随机双层遗憾保证,同时通过降低 oracle 依赖、并行更新和零阶 Hessian/Jacobian 估计来提升效率。
- Taught Well, Learned Ill: Towards Distillation-Conditional Backdoor Attack
-
本文提出了蒸馏条件后门攻击(DCBA)范式及其实现方法SCAR,通过双层优化在教师模型中植入"休眠"后门,该后门在教师模型上不可检测但会在知识蒸馏过程中被激活传递到学生模型,即使蒸馏数据集完全干净。
- The Unseen Threat: Residual Knowledge in Machine Unlearning under Perturbed Samples
-
发现机器遗忘的关键安全漏洞:即使遗忘后的模型在统计意义上与重训练模型不可区分,对遗忘样本施加微小对抗扰动后,遗忘模型仍能正确识别而重训练模型则失败——揭示了"残余知识"这一新型隐私风险。提出 RURK 微调策略,通过惩罚对扰动遗忘样本的正确预测来消除残余知识,在 CIFAR-10 和 ImageNet-100 上有效抑制 11 种遗忘方法的残余知识。
- Understanding and Improving Adversarial Robustness of Neural Probabilistic Circuits
-
理论分析神经概率电路(NPC)的对抗鲁棒性仅取决于属性识别模型而与概率电路无关,并提出 RNPC 通过类级推理集成方式实现可证明的鲁棒性提升,在保持良性准确率的同时显著增强对抗鲁棒性。
- Understanding Challenges to the Interpretation of Disaggregated Evaluations of AI
-
通过因果图模型分析表明,分组评估(disaggregated evaluation)中跨子群体的性能差异不一定意味着不公平,而可能是数据生成过程中分布差异的自然结果,建议结合因果假设和加权评估补充标准分组评估。
- Unifying Proportional Fairness in Centroid and Non-Centroid Clustering
-
将质心聚类(centroid)和非质心聚类(non-centroid)的比例公平性研究统一到"半质心聚类"框架中,证明了两者不可同时实现的不可能性定理,并设计了新算法在双度量损失下实现常数倍近似的核(core)保证。
- Unifying Re-Identification, Attribute Inference, and Data Reconstruction Risks in Differential Privacy
-
基于假设检验解释的 f-DP 框架,统一了差分隐私中重识别、属性推断和数据重建三类隐私风险的界定,提供更紧致一致的风险上界,使噪声校准可减少 20% 且不降低安全性。