🛡️ AI 安全¶

🧪 ICML2025 · 37 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (145) · 🔬 ICLR2026 (139) · 💬 ACL2026 (5) · 🧪 ICML2026 (114) · 🤖 AAAI2026 (45) · 🧠 NeurIPS2025 (73)

🔥 高频主题： 对抗鲁棒 ×9 · 联邦学习 ×6 · 强化学习 ×2

A Certified Unlearning Approach without Access to Source Data: 提出首个无需访问原始训练数据的认证遗忘框架，利用代理数据集（surrogate dataset）近似原始数据统计特性，通过基于源分布与代理分布之间统计距离的噪声缩放机制，实现可证明的数据删除保证。
Accelerating Spectral Clustering under Fairness Constraints: 将公平谱聚类（Fair SC）问题转化为凸差分（DC）优化框架，通过变量增广策略和 ADMM 类型算法，避免了昂贵的特征分解计算，在大规模问题上实现显著加速。
Adaptive Multi-prompt Contrastive Network for Few-shot Out-of-distribution Detection: 提出 AMCN（Adaptive Multi-prompt Contrastive Network），通过生成三类自适应文本 prompt（可学习 ID prompt、标签固定 OOD prompt、标签自适应 OOD prompt）并结合类别自适应阈值，在仅有少量 ID 标注样本的条件下实现高质量 OOD 检测，显著超越现有 few-shot OOD 检测方法。
Adversarial Inception Backdoor Attacks against Reinforcement Learning: 提出"inception"后门攻击框架——通过在 RL 智能体的训练轨迹中插入触发器并将高回报动作替换为目标对抗动作，首次在严格奖励约束下实现 100% 攻击成功率，同时保持智能体在正常任务上的表现。
An Efficient Private GPT Never Autoregressively Decodes: 提出 POST（Public decOding and Secure verificaTion）方法，利用公开 GPT 模型生成草稿 token 并通过私有模型安全验证，借助安全解码对输入长度不敏感的特性，实现 2.1×~6.0× 的隐私推理加速，同时保持与标准安全解码相同的隐私和生成质量。
Avoiding Leakage Poisoning: Concept Interventions Under Distribution Shifts: 揭示概念模型（CBM）中的"泄漏中毒"现象——绕过概念瓶颈的信息泄漏在分布偏移下反而损害预测准确率，使概念干预失效，提出 MixCEM 通过置信度门控动态决定何时使用/丢弃泄漏信息，在分布内外均保持高准确率和有效干预。
Breaking the n^{1.5} Additive Error Barrier for Private and Efficient Graph Sparsification: 本文突破了差分隐私图割稀疏化的 \(n^{1.5}\) 加性误差壁垒，提出了一种多项式时间的 \((\varepsilon,\delta)\)-DP 算法，将加性误差降至 \(n^{1.25+o(1)}\)，核心技术是首个隐私保护的 expander decomposition 算法。
Can One Safety Loop Guard Them All? Agentic Guard Rails for Federated Computing: 提出 Guardian-FC——首个后端无关的联邦计算统一安全框架，通过 Agentic-AI 控制平面的有限状态安全循环（Sense→Predict→Act→Prove）统一监管 FHE、DP、MPC 等异构隐私机制，实现一套 guard-rail 逻辑跨所有隐私后端的一致性安全执行。
Clients Collaborate: Flexible Differentially Private Federated Learning with Guaranteed Improvement of Utility-Privacy Trade-off: 提出 FedCEO 框架，通过在服务器端对堆叠的客户端模型参数进行张量低秩近端优化，利用不同客户端间的语义互补性恢复 DP 噪声破坏的语义信息，将效用-隐私权衡界改进了 \(O(\sqrt{d})\) 量级。
Collaborative Mean Estimation Among Heterogeneous Strategic Agents: Individual Rationality, Fairness, and Truthful Contribution: 针对异构成本的多智能体协作均值估计问题，设计了同时满足个体理性(IR)、激励相容(IC)和公平性的无货币机制，在最坏情况下实现 \(\mathcal{O}(\sqrt{m})\) 近似比，并证明了三条不可能性结果。
Connecting Thompson Sampling and UCB: Towards More Efficient Trade-offs Between Privacy and Regret: 提出 DP-TS-UCB 算法，通过限制高斯采样次数并复用最大模型值，在 Thompson Sampling 和 UCB 之间建立连接，实现 \(\tilde{O}(T^{0.25(1-\alpha)})\)-GDP 隐私保证和 \(O(K\ln^{\alpha+1}(T)/\Delta)\) 遗憾上界的参数化权衡。
Convex Markov Games: A New Frontier for Multi-Agent Reinforcement Learning: 提出凸 Markov 博弈 (cMG) 框架，将单 agent 凸 MDP 推广到多 agent 设定，允许对占用度量 (occupancy measure) 施加一般凸偏好（如熵、KL 散度、公平性惩罚、安全约束），证明纯策略 Nash 均衡存在，并设计可微的投影梯度损失 (PGL) 算法逼近均衡。
De-AntiFake: Rethinking the Protective Perturbations Against Voice Cloning Attacks: 本文首次系统评估了基于保护性扰动的语音克隆（Voice Cloning）防御方法在面对对抗净化时的脆弱性，并提出了一种两阶段的"净化-精炼"（Purification-Refinement）框架 PhonePuRe，利用音素引导的扩散模型有效消除保护性扰动，使语音克隆模型能够重新准确复制说话人特征，揭示了现有防御方案的根本局限性。
Disparate Conditional Prediction in Multiclass Classifiers: 提出 Disparate Conditional Prediction (DCP) 度量从二分类到多类分类的扩展，通过局部优化和线性规划方法为多类分类器的公平性偏离程度提供上下界估计，支持在混淆矩阵已知或仅有人口级别统计信息两种场景下进行公平性审计。
Distributed and Decentralised Training: Technical Governance Challenges in a Shifting AI Landscape: 本文系统区分了分布式训练（multi-data centre）与去中心化训练（community-driven）两种新兴范式，分析了低通信训练算法（如 DiLoCo）如何使这两种范式成为可能，并深入讨论了它们对AI技术治理（计算结构化、能力扩散、可关停性）带来的挑战与机遇。
Doubly Robust Fusion of Many Treatments for Policy Learning: 提出校准加权治疗融合（Calibration-Weighted Treatment Fusion）方法，通过双重稳健地合并具有相似效果的治疗组来降低动作空间维度，使得现有多臂策略学习方法（如策略树）可高效应用于大量治疗选项的个体化推荐场景。
Enhancing Certified Robustness via Block Reflector Orthogonal Layers and Logit Annealing Loss: 本文提出了一种高效的低秩正交层参数化方法（BRO Layer）和一种退火机制的损失函数（Logit Annealing Loss），用于构建具有更强认证鲁棒性的 Lipschitz 神经网络 BRONet，在 CIFAR-10/100、Tiny-ImageNet 和 ImageNet 上达到 SOTA。
Faster Rates for Private Adversarial Bandits: 为差分隐私对抗性 bandits 问题提出简洁高效的非私有→私有转换框架，通过批量化损失+Laplace 噪声实现 O(√(KT/ε)) 的后悔界，首次证明中心 DP 和本地 DP 在该问题上存在分离，并给出首个私有 bandits with expert advice 算法。
FicGCN: Unveiling the Homomorphic Encryption Efficiency from Irregular Graph Convolutional Networks: 提出FicGCN框架，通过延迟感知的打包策略、稀疏密文内聚合（SpIntra-CA）和基于区域的节点重排三项创新，解决GCN不规则稀疏性与同态加密SIMD计算模式之间的根本矛盾，在Corafull等大规模图上实现最高4.10×的端到端加速。
Fully Heteroscedastic Count Regression with Deep Double Poisson Networks: 提出 Deep Double Poisson Network (DDPN)，通过输出 Double Poisson 分布的参数实现离散计数回归中的完全异方差性，支持任意高或低的预测方差，在精度、校准和 OOD 检测上全面超越现有基线。
Generalization in Federated Learning: A Conditional Mutual Information Framework: 提出基于条件互信息（CMI）的联邦学习泛化分析框架，首次统一刻画了参与差距和样本外差距两个层级的泛化误差，并揭示了差分隐私与泛化之间的内在联系。
Identifying and Understanding Cross-Class Features in Adversarial Training: 从类别级特征归因的角度揭示对抗训练(AT)中的"跨类特征"如何先被学习后被遗忘，统一解释了鲁棒过拟合和软标签训练优势两大现象。
Improving the Variance of Differentially Private Randomized Experiments through Clustering: 提出 Cluster-DP 机制，利用非敏感的聚类结构信息改善差分隐私随机实验中因果效应估计的隐私-方差权衡，在不牺牲隐私保证的前提下，通过更同质的聚类结构显著降低 ATE 估计的方差损失。
On Differential Privacy for Adaptively Solving Search Problems via Sketching: 首次将差分隐私技术从数值估计问题扩展到搜索问题（需要返回解向量而非单一数值），提出在温和的稀疏近邻假设下用 \(\tilde{O}(\sqrt{T} \cdot s)\) 份数据结构副本即可正确回答 \(T\) 个自适应近似近邻查询的算法，同时给出依赖条件数的自适应回归数据结构。
Privacy-Shielded Image Compression: Defending Against Exploitation from Vision-Language Pretrained Models: 提出了 Privacy-Shielded Image Compression (PSIC)，通过在学习图像压缩解码阶段注入条件触发偏置，实现一条码流的双模式解码——默认模式保留视觉感知质量但屏蔽 VLP 模型的语义理解，授权模式则完整恢复图像语义，从而在压缩阶段为用户提供即插即用的隐私保护能力。
Private Model Personalization Revisited: 提出 Private FedRep 算法，在用户级差分隐私 (DP) 约束下通过交替最小化框架学习共享低维嵌入 \(U^* \in \mathbb{R}^{d \times k}\)（\(k \ll d\)），将隐私误差项相比先前工作 Jain et al. 降低 \(\widetilde{O}(dk)\) 倍，且适用于更广泛的 sub-Gaussian 分布（而非仅限高斯），并通过 Johnson-Lindenstrauss 变换给出维度无关的分类风险界。
Quadratic Upper Bound for Boosting Robustness: 利用交叉熵损失关于 logit 的凸性，推导出对抗训练损失的二次上界 (QUB)，作为即插即用的损失函数替换应用于现有快速对抗训练方法，显著提升鲁棒性。
Relative Error Fair Clustering in the Weak-Strong Oracle Model: 提出首个在弱强预言机模型下实现 \((1+\varepsilon)\) 逼近的公平 \(k\)-median 聚类算法，仅需 \(\text{poly}(k \log n / \varepsilon)\) 次昂贵的强预言机查询，相比此前大于 10 的常数因子逼近有根本性提升。
Rethinking the Bias of Foundation Model under Long-tailed Distribution: 揭示基础模型微调在长尾任务上受"参数不平衡"（预训练数据偏差）和"数据不平衡"（下游数据偏差）的双重影响，发现参数不平衡更关键且无法被现有 logit 调整方法解决，提出基于因果后门调整的方法消除不完整语义因子的混杂效应，在三个长尾基准上平均提升约 1.67%。
Retraining with Predicted Hard Labels Provably Increases Model Accuracy: 在噪声标签下，用模型自身预测的硬标签（0/1标签）对训练集重新标注并重训练，可以理论上可证明地提升模型准确率；进一步提出 consensus-based retraining（仅对预测标签与给定标签一致的样本重训练），在 label DP 场景下无额外隐私代价即可大幅提升性能。
Retraining with Predicted Hard Labels Provably Increases Model Accuracy: 在噪声标签场景下，用模型自身预测的硬标签（0/1）对训练集重新标注并重训练，可以可证明地提升分类精度；进一步提出共识筛选策略（仅对预测标签与给定标签一致的样本重训练），在标签差分隐私训练中无额外隐私代价即可大幅提升性能。
SecEmb: Sparsity-Aware Secure Federated Learning of On-Device Recommender System with Large Embedding: 提出 SecEmb，一种利用嵌入更新稀疏性的无损安全联邦推荐协议，通过函数秘密共享（FSS）在保护用户评分物品索引和梯度隐私的同时，将上传/下载通信开销降低最高 90 倍、用户端计算时间降低最高 70 倍。
Solving Probabilistic Verification Problems of Neural Networks Using Branch and Bound: 本文提出一种基于分支定界（Branch and Bound）的神经网络概率验证算法，通过迭代精化输出概率的上下界来回答"给定输入分布下，网络输出满足特定条件的概率是多少"，速度比已有方法快一到两个数量级。
Theoretically Unmasking Inference Attacks Against LDP-Protected Clients in Federated Vision Models: 首次为联邦学习中基于全连接层和自注意力层的主动成员推断攻击（AMI）在LDP保护下推导出理论成功率的上下界，揭示即使在LDP保护下，隐恓风险仍依赖于隐私预算 \(\varepsilon\)，且要有效缓解攻击所需的噪声会严重损害模型效用。
TIMING: Temporality-Aware Integrated Gradients for Time Series Explanation: 提出 TIMING 方法，通过引入时序感知的分段随机掩码基线改进 Integrated Gradients，同时设计新评估指标 CPD/CPP 解决现有时序 XAI 评估中正负归因相互抵消的问题，在多个真实数据集上全面超越现有基线。
Towards Trustworthy Federated Learning with Untrusted Participants: 提出 CafCor 算法，通过参与者间的共享随机性实现关联噪声注入，结合新型鲁棒聚合方法 CAF，在不信任服务器、存在恶意参与者的联邦学习场景下，实现接近中心化 DP 的隐私-效用权衡。
Understanding Model Ensemble in Transferable Adversarial Attack: 首次为模型集成对抗攻击建立理论框架，定义 transferability error 并将其分解为脆弱性（vulnerability）与多样性（diversity），再利用信息论工具给出上界，从理论上验证了"更多模型+更高多样性+更低复杂度"三条实践指南。