跳转至

🛡️ AI 安全

🔬 ICLR2026 · 27 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (2) · 📷 CVPR2026 (24) · 🤖 AAAI2026 (44) · 🧠 NeurIPS2025 (73) · 📹 ICCV2025 (22) · 🧪 ICML2025 (36)

🔥 高频主题: 对抗鲁棒 ×7 · 联邦学习 ×3 · 强化学习 ×2 · Agent ×2 · 水印/隐写 ×2

Action-Free Offline-to-Online RL via Discretised State Policies

首次形式化"无动作离线到在线RL"设定,提出OSO-DecQN算法:通过将连续状态差分离散化为{-1, 0, 1}三类标记,在仅含(s, r, s')元组的数据上预训练状态策略(预测期望的下一状态变化方向而非动作),再通过策略切换机制+在线训练的逆动力学模型将状态策略转化为可执行动作,引导在线agent加速学习,在D4RL和DeepMind Control Suite上(含78维状态空间)一致提升收敛速度和渐近性能。

Adaptive Methods Are Preferable in High Privacy Settings: An SDE Perspective

首次用随机微分方程(SDE)框架分析差分隐私优化器,揭示 DP-SGD 和 DP-SignSGD 在隐私噪声作用下的本质差异:自适应方法在高隐私设置下具有更优的隐私-效用权衡 \(\mathcal{O}(1/\varepsilon)\) vs \(\mathcal{O}(1/\varepsilon^2)\),且超参数跨隐私预算可迁移。

ATEX-CF: Attack-Informed Counterfactual Explanations for Graph Neural Networks

提出 ATEX-CF 框架,首次将对抗攻击的边添加策略与反事实解释的边删除策略统一起来,通过联合优化预测翻转、稀疏性和合理性,为 GNN 生成更忠实、更简洁、更合理的实例级反事实解释。

Back to Square Roots: An Optimal Bound on the Matrix Factorization Error for Multi-Epoch Differentially Private SGD

提出 Banded Inverse Square Root (BISR) 矩阵分解方法,通过对逆相关矩阵(而非相关矩阵本身)施加带状结构,首次在多轮参与差分隐私 SGD 中实现渐近最优的分解误差界,并配套低存储优化变体 BandInvMF。

Beware Untrusted Simulators -- Reward-Free Backdoor Attacks in Reinforcement Learning

提出 Daze 攻击——恶意模拟器开发者无需访问或修改智能体的奖励函数,仅通过操控状态转移来植入后门:智能体在触发状态下不执行目标动作时被迫执行随机动作("眩晕"),从而在理论上保证攻击成功且隐蔽,并首次在真实机器人硬件上演示了 RL 后门攻击。

Beyond Match Maximization and Fairness: Retention-Optimized Two-Sided Matching

提出Matching for Retention(MRet)算法,首次将双边匹配平台的优化目标从"最大化匹配数"或"满足公平性"转向"直接最大化用户留存率",通过学习个性化留存曲线并利用凹函数性质将NP-hard的双方留存增益联合优化降为O(N log N)的排序问题,在合成数据和日本大型约会平台真实数据上均显著提升留存。

Bridging Fairness and Explainability: Can Input-Based Explanations Promote Fairness in Hate Speech Detection?

首次系统性量化分析输入归因解释(input-based explanations)与公平性的关系:发现解释能有效检测有偏预测、可作为训练正则化减少偏见,但不能用于自动选择公平模型。

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

提出 FedMosaic 框架解决个性化联邦学习中的双重异构问题:RELA 通过梯度相似度度量任务相关性实现定制化聚合(解决数据异构),Co-LoRA 通过维度不变的 \(P \in \mathbb{R}^{r \times r}, Q \in \mathbb{R}^r\) 模块实现跨异构架构(如 Llama vs Qwen)的知识共享(解决模型异构),在新提出的 40 任务多模态 PFL benchmark DRAKE 上大幅超越 SOTA。

Dataless Weight Disentanglement in Task Arithmetic via Kronecker-Factored Approximate Curvature

该工作将曲率近似的经典理论(KFAC)与任务算术的实际需求巧妙结合,提出了一种无需外部数据的权重解缠正则化方法。理论推导清晰,从表征漂移正则化 → Jacobian Gramian → GGN → KFAC 的逻辑链条流畅。实验覆盖视觉和语言两个领域的多种模型规模,对 \(\alpha\) 超参数的鲁棒性分析很实用。不足在于 KFAC 对大模型仍有 \(O(d^2)\) 存储开销,且在文本领域与使用外部数

Efficient Resource-Constrained Training of Transformers via Subspace Optimization

提出 WASI(Weight-Activation Subspace Iteration),基于"微调过程中参数子空间稳定"的假设,同时压缩 Transformer 的权重(SVD + Gram-Schmidt 子空间迭代)和激活(Tucker 分解),实现训练和推理都在低秩表示中完成,达到 62× 训练内存压缩和 Raspberry Pi 5 上 1.4× 加速,且精度损失可忽略。

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

挑战基因表达预测中"越长越好"的长序列建模范式,发现当前 SSM 模型本质上只利用近端信息;进而识别出背景染色质信号(DNase-seq/Hi-C)作为混杂变量引入虚假关联,提出 Prism 框架通过后门调整去混杂,仅用 2k 短序列即超越 200k 长序列的 SOTA。

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

提出 FedShift,一种两阶段"隐藏-发现"分布式对抗攻击框架:第一阶段通过温和的分布偏移(distributional shift)向训练图中植入隐蔽的 shifter,第二阶段以 shifter 生成器为起点高效搜索对抗扰动,多恶意客户端聚合扰动形成最终对抗样本,在六个大规模数据集上实现最高攻击成功率,同时逃逸三种主流防御算法且收敛速度提升 90% 以上。

Learnability and Privacy Vulnerability are Entangled in a Few Critical Weights

揭示隐私脆弱性集中在极少量关键权重中(可低至0.1%),且与学习能力高度纠缠(Pearson r>0.9),提出CWRF方法通过回绕并冻结隐私脆弱权重、仅微调其余权重来实现优越的隐私-效用权衡。

Less is More: Towards Simple Graph Contrastive Learning

重新审视图对比学习(GCL)的基础原理,发现节点特征噪声可以通过与图拓扑导出的结构特征聚合来缓解,据此提出一个"极简"GCL 模型——用 GCN 编码器捕获结构特征、MLP 编码器隔离节点特征噪声,两个视图做对比学习——无需数据增强、无需负采样,即可在异质图(heterophilic)benchmark 上达到 SOTA,在同质图(homophilic)上也具备复杂度、可扩展性和鲁棒性优势。

Risk-Sensitive Agent Compositions

将Agent工作流形式化为有向无环图(Agent Graph),以max损失函数建模安全/公平/隐私需求,提出BucketedVaR算法通过联合界+动态规划在多项式时间内找到最小化VaR/CVaR的最优Agent组合,并证明在独立损失假设下渐近近最优。

Robust Spiking Neural Networks Against Adversarial Attacks

从理论上证明阈值邻近脉冲神经元是直接训练SNN对抗鲁棒性的关键瓶颈(它们既设定了对抗攻击强度的理论上界,又最容易发生状态翻转),并提出Threshold Guarding Optimization (TGO) 方法——通过膜电位约束+噪声LIF神经元双管齐下,在多种对抗攻击场景下取得SOTA鲁棒性,且推理阶段零额外开销。

Membership Privacy Risks of Sharpness Aware Minimization

本文首次系统性地揭示了 SAM(Sharpness-Aware Minimization)训练的模型虽然泛化性能更好,但反而比 SGD 更容易遭受成员推断攻击(MIA),并从记忆化行为和方差收缩两个角度给出了理论和实验解释。

Sample-Efficient Distributionally Robust Multi-Agent Reinforcement Learning via Online Interaction

本文首次研究了分布鲁棒马尔可夫博弈(DRMGs)的在线学习问题,提出 MORNAVI 算法,在无需模拟器或离线数据的情况下,通过在线交互高效学习最优鲁棒策略,并提供了 TV 散度和 KL 散度不确定性集下的首个可证明遗憾界。

Skirting Additive Error Barriers for Private Turnstile Streams

本文证明了在差分隐私的 turnstile 流模型中,通过允许乘性误差(multiplicative error)可以绕过已知的多项式加性误差下界,将 distinct elements 和 F₂ 矩估计的加性误差从多项式级别降至 polylog(T)。

Skirting Additive Error Barriers for Private Turnstile Streams

证明差分隐私旋转门流中的多项式纯加性误差下界(不同元素计数 \(\Omega(T^{1/4})\)\(F_2\)\(\Omega(T)\))可以通过引入乘性误差来绕过——对不同元素计数实现 \((\text{polylog}(T), \text{polylog}(T))\) 混合误差,对 \(F_2\) 矩实现 \((1+\eta, \text{polylog}(T))\) 混合误差,且两者仅需 polylogarithmic 空间。

Time Is All It Takes: Spike-Retiming Attacks on Event-Driven Spiking Neural Networks

提出Spike-Retiming Attack——一种仅改变脉冲时间戳而不增删脉冲的时序攻击方法,形式化了容量-1约束下的统一三范数预算(\(\mathcal{B}_\infty\)局部抖动/\(\mathcal{B}_1\)总延迟/\(\mathcal{B}_0\)篡改数),通过Projected-in-the-Loop (PIL)优化在前向严格投影、反向软微分间解耦,在CIFAR10-DVS/DVS-Gesture/N-MNIST上以<2%脉冲扰动达到>90% ASR,揭示事件驱动SNN存在严重的时序脆弱性。

Toward Enhancing Representation Learning in Federated Multi-Task Settings

提出Muscle损失——一种N-tuple级多模型对比学习目标函数,其最小化等价于最大化所有模型表示间互信息的下界;基于此设计FedMuscle算法,通过公共数据集对齐异构模型的表示空间,自然处理模型和任务异构性,在CV/NLP多任务设定下一致超越SOTA基线(Δ最高+28.65%)。

Traceable Black-box Watermarks for Federated Learning

提出 TraMark,通过将模型参数空间划分为主任务区域和水印区域、采用掩码聚合防止水印碰撞,首次在联邦学习中实现服务器端可追踪黑盒水印注入,验证率达 99.58% 且主任务精度仅下降 0.54%。

Unified Privacy Guarantees for Decentralized Learning via Matrix Factorization

将去中心化学习(DL)中的多种算法和信任模型统一建模为矩阵分解(MF)机制,推广隐私保证到更一般的矩阵类型,并提出 MAFALDA-SGD 算法通过优化噪声相关性在合成和真实图拓扑上显著优于现有方法。

VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents

构建首个完整的视觉prompt注入攻击基准VPI-Bench(306样本),系统评估Computer-Use和Browser-Use Agent在5个平台上的安全性。发现Browser-Use Agent极度脆弱(Amazon/Booking上100% AR),即使Anthropic的CUA也存在严重漏洞(最高59% AR),系统prompt防御无效。

Watermark-based Detection and Attribution of AI-Generated Content

首次系统性研究基于水印的AI生成内容用户级检测与溯源,提供了理论分析(TDR/FDR/TAR界)、高效水印选择算法(A-BSTA)和跨模态(图像+文本)实验验证,证明检测和溯源继承了水印方法本身的准确性与(非)鲁棒性。

Why Do Unlearnable Examples Work: A Novel Perspective of Mutual Information

从互信息(MI)降低的角度统一解释了所有不可学习样本(UE)的有效机制,并证明减小类内下毒特征的协方差可降低MI上界,据此提出 MI-UE 方法通过类内余弦相似度最大化实现协方差缩减,在 CIFAR-10 上将测试准确率压至 9.95%(接近随机猜测),且在对抗训练防御下仍大幅领先已有方法。