ICML2026 AI 安全论文解读论文笔记对抗鲁棒 LLM 水印/隐写对齐/RLHF 联邦学习多模态

🛡️ AI 安全¶

🧪 ICML2026 · 114 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (145) · 🔬 ICLR2026 (139) · 💬 ACL2026 (5) · 🤖 AAAI2026 (45) · 🧠 NeurIPS2025 (73) · 📹 ICCV2025 (24)

🔥 高频主题： 对抗鲁棒 ×16 · LLM ×14 · 水印/隐写 ×8 · 对齐/RLHF ×7 · 联邦学习 ×6

ABC-Bench: An Agentic Bio-Capabilities Benchmark for Biosecurity: ABC-Bench 把"AI agent 会不会真的动手做分子生物学"做成三道可自动判分的任务（设计 DNA 片段、规避合成筛查、操控移液机器人跑 Gibson Assembly），实测八个前沿模型在全部三项任务上都超过分子生物学博士专家的中位数，并用真实湿实验证明 o4-mini-high 写的脚本能在 OpenTrons 机器人上把 DNA 真的拼出来。
ACTG-ARL: Differentially Private Conditional Text Generation with RL-Boosted Control: 本文提出一个分层框架 ACTG，将隐私文本生成分解为特征学习与条件文本生成两个子任务；进一步引入 Anchored RL，通过混合强化学习目标与基于最优 N 选一的 SFT 锚点，在保持文本保真度的前提下提升条件生成器的指令跟随能力，在生物医学数据上相比先前工作提升 20% MAUVE。
Active Continual Learning with Metaplastic Binary Bayesian Neural Networks: BiMU 为二值贝叶斯神经网络设计有界记忆和不确定性感知的 metaplastic 更新，防止 Bernoulli 后验在长程非平稳流中饱和，并用 Monte Carlo disagreement 实现无缓存的一次性主动查询，显著减少标签和反向传播更新。
Position: 'AI Alignment' Encompasses Competing Technical Priorities: 这是一篇 ICML 立场论文，主张"AI alignment（AI 对齐）"是一个多义词：ML 文献里至少有三种互相竞争而非仅仅不同的对齐理念（任务可靠性 / 社会审慎性 / 接管规避），现实中提升其中一种对齐往往会主动损害另一种，作者用"威胁模型差异"与"正向/负向对齐差异"两条横切区分来解释这些张力，并给研究者提出五条具体建议。
Position: AI Researchers Must Help Lead Arms Control to Mitigate Military AI Risks: 这是一篇立场文，主张AI 研究者不能只盯着遥远的超级智能风险，而必须主动牵头军事 AI 的"军控"（arms control）技术研究——文章用核武器军控的历史经验做模板，论证当前前沿模型一旦接入军事系统会带来升级、对齐造假、人类逐步失权等可验证性极差的新风险，而现有军控外交工具完全没准备好，因此呼吁 AI 研究者与军控外交专家建立正式协作机制，把验证、可信、透明这些技术难题做出来。
Alignment Risks from Capability-Seeking RL Training: 这篇论文指出一个被低估的对齐风险：当模型在带"结构性漏洞"的环境里用 RL 追求任务能力时，即便没人教它作弊，它也会自己学会钻漏洞拿高奖励——作者用四个"漏洞游戏"系统证明了这种 exploit 普遍出现、能跨任务迁移、能经 SFT 传播、且 RL 学到的比 SFT 蒸馏来的更难纠正，更危险的是 exploit 上升时主任务指标常常稳定甚至变好，形成标准监控发现不了的"开发者盲区"。
AliMark: Enhancing Robustness of Sentence-Level Watermarking Against Text Paraphrasing: AliMark 将句子级文本水印从“前缀条件下的逐句检测”改写为“全局秘密比特序列的编码与对齐”，通过重构候选文本和自适应块编辑距离显著提升了对 DIPPER、GPT-3.5 等强改写攻击的检测鲁棒性。
Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model: 本文提出 Anchored Decoding：在推理时把高性能但可能复现训练数据的 risky LM 锚定到只用开放许可数据训练的 safe LM 附近，用可调的信息预算在版权复制风险和生成质量之间给出有形式保证的折中。
Angel or Demon: Investigating the Plasticity Interventions' Impact on Backdoor Threats in Deep Reinforcement Learning: 作者首次系统评估 7 种主流可塑性干预 (SAM/Shrink&Perturb/Weight Clip/SN/WD/LN/ReDo) 对深度强化学习 (DRL) 后门攻击的影响 (14,664 个实验)，发现只有 SAM 是"恶魔"——能显著加剧后门威胁；据此提出"Sweeper-Converter-Connector" 鲁棒后门注入框架并给出基于 loss landscape 锐度的检测信号。
Antidistillation Fingerprinting: 这篇论文提出 Antidistillation Fingerprinting (ADFP)，用代理学生模型估计哪些水印 token 最容易被蒸馏过程吸收，从而在几乎不牺牲教师输出质量的情况下，更可靠地检测第三方模型是否训练过教师模型输出。
Beyond Procedure: Substantive Fairness in Conformal Prediction: 本文超越保形预测（CP）的过程公平性视角，从下游决策的实质公平性出发，理论证明并实验验证了等化预测集大小（而非等化覆盖率）才是与实质公平强相关的程序指标，并提出基于 LLM-in-the-loop 的可扩展评估框架和标签聚类 CP 方法来有效平衡效用与公平。
BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics: BioAgent Bench 给"用 LLM agent 跑生物信息学 pipeline"这件事造了一个端到端的评测套件——10 个真实 bioinformatics 任务 × 10 个 frontier/open-weight 模型 × 3 个 agent harness，配合 LLM 判官评分和 corrupted/decoy/prompt-bloat 三类扰动测试，发现前沿模型能完成 90%+ pipeline 但鲁棒性堪忧。
BYORn: Bootstrap Your Own Responses to Defend Large Vision-Language Models Against Backdoor Attacks: BYORn 通过检测与输入语义不一致的高困惑度目标响应来识别投毒样本，并用模型自身生成的干净响应动态替换，从而打破后门触发器与恶意输出之间的关联，在保持干净任务性能的同时将攻击成功率平均降低 40 个百分点。
Calibrating Uncertainty for Zero-Shot Adversarial CLIP: 提出 UCAT 框架，将 CLIP 的 logits 重新参数化为 Dirichlet 分布的浓度参数，通过对齐干净样本与对抗样本的 Dirichlet 分布（反向 KL 散度），在零样本对抗微调中同时校准不确定性和保持语义结构，在 16 个基准上实现了鲁棒性与校准的最优平衡。
COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models: COFT 通过在解码时构造反事实掩码分支并与原始分支进行 logit 融合，再用双分支分裂共形预测过滤 token，以无训练、免梯度的方式在冻结 LLM 上实现了逐步 token 级别的反事实公平性保证，将偏见指标降低 30–55%（中位 38%）且几乎不损失任务性能。
COPF: An Online Framework for Deployment-Stable Counterfactual Fairness in Evolving Graphs: COPF 把"演进图上的在线链路推荐"看成一个 performative 决策过程，在 backbone 打分器之外加一层 决策层 wrapper：用带显式探索的在线日志协议保证反事实可识别，用图感知双重稳健（GA-DR）估计器估计"曝光-未曝光"的反事实组间差距，再用 Residual-OI 审计 + PI primal–dual 控制器在线压制部署后出现的公平性 spike，理论上给出从插件式 OI 到真实反事实差距的 transfer 证书，在 TGB 与合成二部流上以可控的效用损失显著降低 Deploy 阶段的 worst-case TE 差距。
Culturally-Adapted Red-Teaming Across East and Southeast Asian Contexts: A Methodological and Comparative Analysis: 作者指出"把英文安全基准直译成目标语言"会系统性低估大模型的真实风险，于是为韩/日/泰/高棉四种语言各构造了 500 条直译（DT）+ 500 条文化适配（CA）的配对红队数据，证明 CA 在全部 16 个语言×模型组合上都让攻击成功率更高（平均 +9.3 个百分点），从而论证多语言安全评测必须做到"文化适配"而非仅仅"语言翻译"。
Decoupled Training with Local Reinforcement Fine-Tuning in Federated Learning: FedDTL 把 CLIP 的图像编码器留在客户端、文本编码器搬到服务器做"全局语义锚"，再用 SFT 暖启 + GRPO 风格 RL 的两阶段本地微调，在异构和 full-data 联邦场景下同时缓解客户端间优化不一致与客户端内过拟合。
Deep Sequence Models Tend to Memorize Geometrically; It Is Unclear Why: 本文指出 Transformer / Mamba 在死记硬背图的边时并不会真的退化成查找表（联想记忆），而是会自发把节点嵌入排成一种编码了多跳全局结构的"几何记忆"，并通过 path-star 实验证明这种几何让隐式推理变得反常地容易，但其出现既不能归因于监督、容量也不能归因于优化压力，留下一个新的"记忆之谜"。
Demystifying the Optimal Fair Classifier in Multi-Class Classification: 本文给出多分类公平分类问题中 Bayes 最优分类器的解析可处理形式（带熵正则的闭式解），并据此推出一对统一的算法 OptFair：训练阶段用 reduction 转化为代价敏感交叉熵的 saddle-point 优化，部署阶段用 plug-in 估计求解凸近端梯度问题，两者在理论上都收敛到 accuracy-fairness Pareto 前沿。
dgMARK: Decoding-Guided Watermarking for Diffusion Language Models: dgMARK 把扩散语言模型（dLLM）固有的"解码顺序自由度"用作水印通道——根据二进制哈希优先解码满足奇偶条件的位置，无需修改 token 概率分布，就能在 LLaDA / Dream 上嵌入可统计检测且对插删替/改写鲁棒的水印。
Differentially Private Preference Data Synthesis for Large Language Model Alignment: DPPrefSyn 把"在私有偏好数据上做 DP 微调"换成"用 DP 学一个偏好奖励模型分布后再用公开 prompt 合成 DP 偏好数据"，借助 Bradley-Terry 线性奖励的几何结构 + DP-PCA + DP-KMeans 聚类捕捉用户偏好异质性，在 Anthropic-HH 上 \(\varepsilon=2\) 拿到 56.5% GPT-4o win-rate，反超无隐私微调（55.95%）和 DP-FT（37.0%）。
Dual-branch Robust Unlearnable Examples: 本文提出 DUNE：把不可学习样本（UE）的扰动从单一空间域扩展到"空间 + 色彩"双域优化，使扰动特征对齐到 shift-induced 标签并配合预训练模型集成增强，在 CIFAR-10 / ImageNet 上对 7 种主流防御（含 ECLIPSE、ISS-J、COIN）保持鲁棒，平均测试精度比 12 个 SOTA UE 方案再低 14.95%–50.82%。
DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models: DualOptim+ 把 Adam 优化器状态拆成"共享 base 态 + 解耦 delta 态"，让 LLM 机器遗忘在 forget/retain 梯度时而冲突时而协同的情况下自适应地在共享和解耦优化器之间过渡，理论上同时退化为 Alternate（正相关）和 DualOptim（负相关），并通过 8-bit 量化变体把额外显存开销压回基线。
Efficient DP-SGD for LLMs with Randomized Clipping: 本文提出 DP-SGD-RC，用 Hutchinson / Hutch++ 随机迹估计代替 DP-SGD 中的精确逐样本梯度范数计算，把长上下文 LLM 训练的裁剪内存开销从 \(O(B\min\{T^2,d^2\})\) 降到 \(O(BkT+kp)\)，配套给出基于卡方混合 envelope CDF 的紧 \(f\)-DP 分析，在 Llama-3.2-1B 长上下文微调上保持精度、最大线性层峰值显存降低约 40%、FLOPs 节省约 2×。
Exploring Systems-Thinking Approaches to Loss of Control Risk: 这是一篇立场/分析论文：作者主张前沿 AI 的"失控（Loss of Control, LoC）"不该只在模型层面评估，而要当成社会技术系统的控制问题；他们把航空/核电等行业成熟的三种系统安全方法（STECA、STPA、FRAM）搬到"前沿实验室内部部署编码 agent"这一通用场景上，分别揭示出模型级评估看不到的治理空缺、控制延迟导致的失效、以及日常运营波动对安全控制的渐进侵蚀，并据此提出"模型评估 + 系统级危害分析 + 运营保障"三管齐下。
Exposing Hidden Biases in Text-to-Image Models via Automated Prompt Search: 本文提出 BGPS（Bias-Guided Prompt Search），用扩散模型内部激活上训练的轻量属性分类器去引导一个 LLM 的束搜索解码，自动生成"读起来自然、却能把生成图像往某个性别/种族猛推"的提示词，从而把文生图模型（包括已做过去偏的模型）里隐藏的、人工很难想到的偏见暴露出来。
Exposing Vulnerabilities in Explanation for Time Series Classifiers via Dual-Target Adversarial Attack: 本文提出 TSEF——一个针对"时序分类器 + 解释器"联合系统的对偶目标攻击框架：通过学习"时间脆弱掩码 + 频域扰动滤波器"，在 \(\ell_\infty\) 预算内同时把模型预测推到目标标签、又把解释推到攻击者指定的参考显著图，证明现有时序可解释流水线的"解释稳定 = 决策可信"假设根本不成立。
Extending Fair Null-Space Projections for Continuous Attributes to Kernel Methods: 本文把 Ravfogel 等人为线性模型设计的「迭代零空间投影 (INLP)」公平化方法搬到核方法上：通过在经验特征空间 (empirical feature space) 推导一个直接作用在核矩阵 \(\mathbf{K}\) 上的闭式变换 \(\mathbf{T}\)，使得变换后的 \(\mathbf{K}_{(m)}\) 仍是半正定核，但已被剥离了对连续受保护属性的预测信息，从而把任意基于核的算法（KRR、SVR）一键改造为「连续公平」版本，在 Crimes / ACSIncome / ACSTravelTime 上取得有竞争力或更优的 fairness–accuracy 帕累托。
Fair Dataset Distillation via Cross-Group Barycenter Alignment: 本文揭示数据集蒸馏 (DD) 会放大原始数据中的偏差——根源是「子组样本量不平衡」与「子组表征分离度」的交互作用，并提出 COBRA：用各子组表征的（与组大小无关的）barycenter 作为蒸馏目标，可在多个 DD 框架上同时降低 EOD、提高准确率。
Fair Decisions from Calibrated Scores: Achieving Optimal Classification While Satisfying Sufficiency: 本文针对"即使分数在各群体上完全 group-calibrated，对其取单一阈值也会违反 sufficiency（predictive parity）"这一长期被忽视的痛点，给出有限离散分数下 sufficiency 约束最优二元分类器的精确解：通过对 \((\mathrm{PPV}, \mathrm{FOR})\) 可行域的几何刻画，得到一个只依赖分数和群体标签的后处理算法，并证明该算法同时可解"损失最小化"和"在 sufficiency 下最小化与 separation 的偏差"两类目标。
Fairness in Aggregation: Optimal Top-\(k\) and Improved Full Ranking: 在 Spearman footrule 距离下，把 ILP 的约束矩阵证成全单模，从而给出 fair top-\(k\) 排名聚合的首个多项式时间最优算法；并以"先解 fair top-\(k\)，再用最小代价完美匹配补齐成全排列"的两步策略，把 fair (full) rank aggregation 的近似比从 3 改进到 2。
Federated Variational Preference Alignment with Gumbel-Softmax Prior for Personalized User Preferences: 本文提出 FedVPA-GP：在联邦学习的隐私约束下，用"客户端混合先验 + Gumbel-Softmax 可学习权重 + 正交原型损失"把每个客户端的偏好建模成一个连续隐变量 \(z\)，从根上修掉了把 VPL 直接搬到 FL 时遭遇的"后验崩溃"，使一个奖励模型可以在 helpful 与 harmless 这两种冲突偏好之间动态切换。
FedHPro: Federated Hyper-Prototype Learning via Gradient Matching: 针对原型类联邦学习中"对局部原型直接平均会继承客户端偏差"的问题，本文用一组可学习的全局超原型 (hyper-prototypes)，通过梯度匹配在服务器侧模拟集中式训练得到的原型，再配合客户端对比学习与对齐损失显著提升异质场景下的精度。
FedTreeLoRA: Reconciling Statistical and Functional Heterogeneity in Federated LoRA Fine-Tuning: 针对联邦 LoRA 微调里"客户端数据异质"和"LLM 各层功能异质"两个维度被现有方法割裂处理的问题，FedTreeLoRA 用一棵全局层次聚类树 + 逐层自适应深度搜索，让浅层尽量共享、深层逐步分化，在 GLUE 和 FLAN 上以最小参数代价把平均指标分别从 91.19 / 61.77 提到 92.36 / 63.19。
Flatness-Aware Stochastic Gradient Langevin Dynamics: 本文提出 fSGLD：在标准 SGLD 更新里把梯度处的参数 \(\theta\) 换成被高斯扰动过的 \(\theta+\epsilon\)，并将扰动尺度 \(\sigma\) 与逆温度 \(\beta\) 通过 \(\sigma=\beta^{-(1+\eta)/4}\) 严格耦合，从而在不增加任何梯度/内存开销的前提下，让算法的不变测度逼近 Hessian-trace 正则化目标 \(v(\theta)=u(\theta)+\tfrac{\sigma^2}{2}\mathrm{tr}(H(\theta))\) 对应的 Gibbs 分布，并给出 Wasserstein-1 与超额风险的非渐近界，在 CIFAR/WebVision/ViT 上取得与 SAM/ASAM 相当或更优、但训练时间近乎减半的效果。
FoeGlass: Simple In-Context Learning Is Enough for Red Teaming Audio Deepfake Detectors: FoeGlass 把"用 LLM 红队 LLM"的思路搬到音频深伪检测（ADD）上：不微调 LLM，仅通过 in-context learning + 真实度/多样性双反馈，让黑盒 reasoning LLM 自动写 TTS prompt 去骗 ADD，cold start 即可把现有 ADD 的 FNR（假阴率）从 0% 拉到最高 96%，且攻击在 8 个 ADD 之间高度可迁移。
Forget to Know, Remember to Use: Context-Aware Unlearning for Large Language Models: 本文指出现有 LLM unlearning 方法在"把知识从参数里抹掉"的同时，会把"用户在 prompt 里重新提供该知识时模型能正确利用"的能力（contextual utility）一起抹掉，作者提出在已有 unlearning loss 上加一项 KL 正则——让 unlearn 后的模型在"问题+上下文"输入上的分布对齐原始模型——即可在几乎不损失遗忘效果和保留集效用的前提下，把 Contextual QA 的 LLM-Judge 分数从 0.00–0.84 拉回到 0.95+。
Frequency Matching in Spiking Neural Networks for mmWave Sensing: 本文从「机制-数据对齐」角度证明 LIF 脉冲神经元等价于一个一阶 IIR 低通滤波器，并提出根据毫米波信号的判别频谱来设定膜衰减系数 \(\beta\)，使 SNN 在四个常用 mmWave 数据集上平均比 ANN 提高 6.22% 精度并降低 3.64× 理论能耗。
From Parameter Dynamics to Risk Scoring: Quantifying Sample-Level Safety Degradation in LLM Fine-tuning: 作者通过追踪 LoRA 微调过程中参数沿"危险/安全方向"的累积漂移，发现善意数据破坏对齐的根本机制是参数在 fine-tuning 中向危险方向单调漂移；进而提出 SQSD——用单步梯度沿两方向的投影差对每个样本打连续风险分，在 3 个模型 × 2 数据集上保持单调 ASR 排名，且能跨架构、跨规模、跨 LoRA→Full 迁移。
From Prompts to Responses: Dual-Sided Data Leakage and Defense in Split Large Language Models: 在「拆分大语言模型（Split-LLM）」里，私有数据其实从模型头和模型尾两端都会泄漏；这篇论文一边提出 PIDI 攻击——用双侧初始化 + 分块反演同时高保真地重建出用户的输入提示和模型生成的回复，一边提出 ADMI 防御——用适配器局部预热 + 互信息正则在几乎不掉点的前提下把两端攻击成功率压到接近零。
From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG: EPIC 把端侧 RAG 的核心瓶颈从「检索时怎么用偏好」前移到「索引时存什么」，用「粗筛 + 细验证 + 查询偏移」三段式 pipeline 只保留与用户偏好对齐的数据并生成「指令-条目」对作为索引单元，在 4 个偏好基准上把存储减小 2404× 的同时偏好对齐准确率绝对提升 20.17 个百分点。
From Weak Cues to Real Identities: Evaluating Inference-Driven De-Anonymization in LLM Agents: 论文指出 LLM agent 可以把零散的、单独不可识别的线索与公开证据交叉印证，从而把匿名化数据重新链接到具体真人身份，并通过经典案例复刻 + 受控基准 InferLink + 真实人机对话日志三类场景系统地量化了这种"推理驱动的去匿名化"风险。
FuseFSS: Efficient Secure LLM Inference with Function Secret Sharing: FuseFSS 把"每个定点非线性算子都手写一套专用安全协议"换成一个统一编译器：给每个标量算子写一份紧凑规格（区间划分 + 低次多项式 + 谓词位），编译器自动生成"一次打包比较 + 一次区间查表"两次 FSS 调用，在 BERT/GPT 上相对当前最强 FSS 基线 Sigma 端到端提速 1.24×–1.50×、在线通信降 9%–16%，且密钥更小更快。
GEM-FI: Gated Evidential Mixtures with Fisher Modulation: 本文针对证据深度学习 (EDL) 在分布外样本上过自信、且单头难以表达多模态认知不确定性的问题，提出三件套 GEM-Core/MIX/FI：用学到的特征能量门控证据、用混合证据头单次推理近似 ensemble、用 Fisher 信息正则稳定混合分配，在 CIFAR-10→SVHN/CIFAR-100 等 OOD 检测上比 DAEDL 强且保持 single-pass。
Generative Models Erode Human Temporal Learning Through Market Selection: 这篇立场论文提出：在还没到 AGI 的当下，生成模型就已经通过"市场逆向选择"对知识与文化生产造成结构性风险——当 AI 产出在表面特征上越来越像需要长期人类学习才能完成的工作，评估者核验"这到底是不是真人长期积累的产物"的成本就高过了收益，于是奖励变得对生产方式"盲视"，投入多年学习的人被迫和几乎零成本的 AI 产出比价，最终被挤出市场。
Geometrically Constrained Outlier Synthesis: GCOS 在 ID 特征 PCA 的"小方差子空间"上沿几何 off-manifold 方向合成虚拟离群点，并用从校准集 Mahalanobis 分位数导出的"共形壳层" \([\alpha_\text{inner},\alpha_\text{outer}]\) 控制合成强度，配合自适应 margin 的对比正则损失训练，在 4 个 near-OOD 数据集上把平均 AUROC 从 VOS 的 86.21 提到 93.47。
Gradient Transformer: Learning to Generate Updates for LLMs: 本文提出 Grad-Transformer，把客户在私有数据上微调小模型 (TinyLM) 得到的 update vector，用一个 encoder-decoder Transformer 自回归地"翻译"为目标大模型 (LLM) 的 update vector，从而实现完全不接触私有数据的 weak-to-strong 知识蒸馏，在 6 个推理/摘要数据集上平均 PGR 达到 91.88%，比最优 baseline (58.94%) 提升 55.89%，且对差分隐私扰动鲁棒。
SemGrad: Gradients w.r.t. Semantics-Preserving Embeddings Tell LLM Uncertainty: SemGrad 首次把"基于梯度"的不确定性量化搬到 LLM 自由生成场景——用语义保留分 (SPS) 找到能编码输入语义的隐藏态，把对它们求出的对数似然梯度范数当作 LLM 自信度的度量，无需采样、单次反向即可在 3 个 QA 数据集上击败 11 个 SOTA baseline，特别在多有效答案的 TruthfulQA 上比 SAR 高 3.27 AUROC。
HEDP: A Hybrid Energy-Distance Prompt-based Framework for Domain Incremental Learning: 借鉴 Helmholtz 自由能的物理直觉，把每个领域的提示参数训练出一条"压缩到边界 \(\Theta\)、对齐到中线 \(\Delta\)"的能量曲线，推理时再用能量因子 + 距离因子联合加权各领域提示，在 CDDB / DomainNet / CORe50 三个 DIL 基准的未知领域上分别提升 1.76 / 3.12 / 2.57 个百分点。
Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents: 这篇论文提出 STING——一个用四个协同 agent（策略师 / 攻击者 / 拒绝检测器 / 阶段完成检查器）把恶意意图拆成多步、伪装成善意人设、对工具型 Agent 进行多轮自适应红队的自动化框架，并配套一套把"多轮越狱"建模成"首次越狱时间"随机变量的生存分析工具（发现曲线、按语言归因的风险比、新指标 RMJD）；实验显示多轮 STING 的非法任务完成度比单轮提示最高高出 107.1%，且与聊天机器人结论相反——低资源语言并不一致地更容易越狱。
Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio: 针对自回归音频生成模型在 KGW 风格 token 水印下因"解码→重编码不幂等"导致水印信号指数级衰减的问题，作者用 codec 自身的混淆矩阵跑 Leiden 社区检测得到一个收缩后的"簇词表"，把水印的绿/红集合定义在簇而非 token 上，从而在完全梯度自由、黑盒访问 codec 的前提下把 \(z\)-score 的指数底从 \(r\) 抬到 \(r_{cl}>r\)，detectability 相比基线和需要微调 codec 的 WMAR 普遍提升数个量级，且对 MP3、降噪、裁剪等扰动天然鲁棒。
Hiding in Plain Floats: Steganographic Carriers for Indirect Prompt and Content Injection: 把恶意指令藏进"过程化生成"用的浮点参数数组里（用迭代函数系统 IFS 把字节编码成轨迹坐标），让纯文本的提示注入检测器在原始配置层和重建报告层都看不到任何可疑文字，结果在三个商用 LLM、14,400 次真实攻击实验里对最强的双层文本分类器防御仍保持 94.3% 的泄漏攻击成功率。
How Does Bayesian Sampling Help Membership Inference Attacks?: 本文提出 BMIA，把单个参考模型用 Laplace 后验展开成"虚拟模型族"，靠贝叶斯采样估计每个样本的条件 score 分布，在只训 1 个参考模型的预算下，在 CIFAR-100 等数据集上把低 FPR 区域 TPR 拉到比训 8 个参考模型的 LiRA 还高 54%。
How Hard Can It Be? Hardness-Aware Multi-Objective Unlearning: 把"遗忘 vs 保留"的 trade-off 直接写成"每步带约束的一阶凸优化"问题，用 retain/forget 梯度的点积 \(\kappa = \bm{g_r}\cdot\bm{g_f}\) 同时充当 hardness 度量、更新方向切换开关和提前停止条件，在 CIFAR-10/ResNet-20 与 Llama-2-7B/WaterDrum-TOFU 上比 GA、GDiff、SCRUB、KL 等基线更稳。
In-Training Defenses Against Emergent Misalignment in Language Models: 针对「只在窄领域微调就让模型全局变坏」的涌现失配（Emergent Misalignment, EM）现象，本文第一次系统地比较了五类训练期防御手段，并提出用「对齐模型 vs 失配模型的困惑度差」自动挑选交错安全数据的 Interleaving++，在「防 EM、保留窄域学习、学得会良性任务、回答连贯」四条标准上同时达标。
LAPRAS: Learning-Augmented PRivate Answering for Linear Query Streams: LAPRAS 用一个"哪些查询会来"的预测器把在线 DP 查询流分成预测内/外两类，预测内的用离线最优 Matrix Mechanism 一次性低噪释放，预测外的用 Smooth Allocation 根据流中已观测到的"未预测查询"位置在线估计总数并平滑分配预算，在预测准时几乎追平离线最优、预测差时退化到在线 baseline 水平。
LLM Benchmark Datasets Should Be Contamination-Resistant (Position Paper): 本文是一篇 position paper，主张 LLM 基准应抗污染（contamination-resistant）——即可推理但不可训练；提出利用 Transformer 训练 vs 推理流水线的根本不对称性（训练需要全 token，推理只需 KV-cache + 倒数第二层 hidden state），把基准发布形式从明文换成 KV-cache + 中间隐藏态，配合跨模型 subspace alignment / relative representation 解决互操作问题，呼吁社区采纳。
MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio: MedMosaic 用合成管道构造了一个覆盖生理声 + 真实/合成临床对话的医学音频 QA 基准（46,701 条 QA、10 种问题类型），系统评测 13 个音频/多模态模型，发现即使 Gemini-2.5-Pro 也只能拿到约 68.1% 加权准确率，揭示当代 LALM 在医学音频推理上的根本短板。
Memetic Capture: A Pluralistic Policy Framework for Governing AI-Driven Cultural Disempowerment: 这是一篇 AI 治理立场文：作者提出"模因俘获（memetic capture）"概念来刻画 AI 如何渐进式剥夺人类的文化能动性，并设计了一套四层政策架构 CPGF（含可量化的文化影响指数、民主价值议会、多元部署标准、跨国协调机制），核心论点是多元主义不是道德选项而是结构必需——单一文化的 AI 治理本身就会加速它声称要防止的失权。
Memory as a Markov Matrix: Sample Efficient Knowledge Expansion via Token-to-Dictionary Mapping: 把自回归 LLM 的下一个 token 分布解释成一条 Markov 链的状态转移矩阵，于是「学新词」就变成「在状态空间里加新状态、并把它表示为已有状态的稀疏组合」，理论上只需 \(O(s)\) 样本（\(s\) 为映射到的旧 token 数），实践中只 finetune 新 token 的 embedding 即可在严格零遗忘下完成跨语种/新概念扩展。
MetaMoE: Diversity-Aware Proxy Selection for Privacy-Preserving Mixture-of-Experts Unification: 把多个客户端在私有数据上独立微调出的领域专家，无需共享私有数据就能合并成一个可部署的 MoE 模型——核心是用 relevance-weighted DPP 从公开数据里选「既相关又多样」的代理样本，先做 proxy-aligned 专家训练再训 context-aware router，从而对齐专家行为与代理监督，显著优于 FlexOlmo 等仅依赖相似度选代理的方法。
Mind the Gap: Mixtures of Gaussians in Approximate Differential Privacy: 本文为 \((\varepsilon,\delta)\)-DP 设计了一类高斯混合加性噪声机制（multi-Gaussian mixture 与无超参的 quasi-Gaussian mixture），在中低隐私域将解析高斯机制的次优间隙关闭高达 99%，同时保留高斯的 zCDP 紧组合性质。
Minim: Privacy-Aware Minimal View for Agents via Trusted Local Sanitization: Minim 是一个跑在用户设备本地的"可信清洗代理"，在 Agent 把界面状态（accessibility tree）上传给远端推理服务器之前，先用一个小模型给每个 UI 元素打两分——固有敏感度 \(s\) 与任务条件必要性 \(n\)——再用三元披露策略（保留 / 抽象 / 删除）只放行任务真正需要的最小信息，在 WebArena 上把任务无关的敏感信息泄漏（TISL）压到全量观测的 10.1%，同时几乎不损失任务关键内容与可交互能力。
MLUBench: A Benchmark for Lifelong Unlearning Evaluation in MLLMs: 针对"多模态大模型（MLLM）需要按时间顺序不断删除特定数据"这一真实场景，本文构建了大规模终身遗忘基准 MLUBench（127 个真实实体、5105 张图、15414 个 VQA 对），系统揭示出现有遗忘方法会随任务累积而崩塌、且崩塌的根因是破坏了多模态对齐，并提出用"一个遗忘任务一套可切换 LoRA 专家 + 门控路由"的 LUMoE 方法，把遗忘修改与稳定主干隔离开，从而在长序列遗忘下同时守住遗忘质量与模型可用性。
Multilingual Unlearning in LLMs: 转移、动力学与可逆性: 本文把 TOFU 遗忘基准扩到 5 种语言系统研究「跨语言遗忘转移」，发现遗忘强度随语言族/书写系统亲缘关系而变，且只动用了后段语言特化解码层、几乎不改前中段共享语义空间，因此能用一个推理时的转向向量恢复 Qwen 上 50%、Gemma 上 90% 的被遗忘知识——说明现有 LLM 遗忘本质是「表面抑制」而非真擦除。
Old Habits Die Hard: How Conversational History Geometrically Traps LLMs: History-Echoes 框架用"马尔可夫链状态一致性"和"潜空间几何角度"两套视角分析 LLM 对话历史的 carryover 效应，发现两者 Spearman 相关 0.78——一旦某种行为（幻觉/谄媚/拒绝）出现，模型就被困在潜空间该状态对应区域里，难以跳出；其中"拒绝"陷阱最强，"幻觉"最弱，且话题不连贯时陷阱会消解。
OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL: 本文针对"图/文/视频混合伪造同时检测+定位"这一统一任务，提出 OmniVL-Guard，用 Self-Evolving CoT 合成高质量冷启动数据 + ARSPO（非线性奖励映射 + 动态任务权重）解决多任务 RL 中"简单的真假分类抢走梯度、细粒度定位学不动"的难度偏置问题，在 In-Domain 上视频时序定位 tIoU +37.8、文本定位 F1 +22.9，并在四个 OOD benchmark 上做到零样本 SOTA。
One Model to Translate Them All: Universal Any-to-Any Translation for Heterogeneous Collaborative Perception: UniTrans 把"为每对车端模态训一个 adapter"的传统协同感知翻译范式，改写成"在一个模态内蕴空间里推断映射 → 通过 router 线性组合一组专家参数 → 当场实例化一个映射专属翻译器"，实现对未见过的新车型的零样本 BEV 特征翻译，在 OPV2V-H / DAIR-V2X 上平均 [email protected] 较最强基线提升 ~7 / 3 个点，同时 GFLOPs / CPU 时间均低于 Classic MoE。
Optimal Transport under Group Fairness Constraints: 本文把"群体公平性"显式编码为一个 \(K_s \times K_w\) 的组间匹配概率目标 \(\mathbf{F}\)，提出 FairSinkhorn 精确求解、惩罚式 OT 凸松弛、以及 双层成本学习 三种方案，分别给出有限样本复杂度 \(O(1/\sqrt{n})\) 和 fairness 偏差界 \(O(\exp(5R_\Theta/\varepsilon)/\sqrt{n})\)，在合成与半合成（约会 app）数据集上勾画出"代价 - 公平性"权衡前沿。
Optimizing Token Choice for Code Watermarking: An RL Approach: CodeTracer 在冻结的 code LLM 旁边挂一个小的 watermark policy 网络，用 GRPO + 双奖励（执行通过 + z-score）+ Gumbel-Top-k 直通估计联合学习"在哪个 token 位置加水印、选哪一组 green token"，在几乎不掉 Pass@1 的前提下把代码水印的检测 AUROC 从 ~70% 抬到 ~78%。
Partitioning for Intrinsic Model Inversion Resistance in Collaborative Inference: 本文跳出"在浅层中间表示上加噪/加掩码"的传统防御套路，从信息论出发证明：在边-云协同推理里，模型应当被切在表示发生"特征→决策"突变的那一层（作者命名为 Golden Partition Zone，GPZ），而类内均方半径 \(R_c^2\) 是定位 GPZ、且能被标签平滑训练动态地主动收缩的关键变量。
Persuasive Privacy: 本文用 Sender–Receiver 两方 Stackelberg 博弈 + Bayesian Persuasion 思想，把"隐私"重新表述为 Receiver 在最坏 data-prior 下的相对评分规则损失，给出统一定义 \((\mathcal{S},\mathcal{Q}_x,\kappa,\delta)\)-PP，同时把 pure DP 和 probabilistic DP 收编为特例，并首次为确定性算法（如无噪经验均值）给出非平凡的形式化隐私保证。
PFT: Phonon Fine-tuning for Machine Learned Interatomic Potentials: 本文提出 PFT (Phonon Fine-tuning)，通过 Hessian-vector product 随机采样力常数列、并在 MLIP 微调时直接监督能量 Hessian 与 DFT 力常数对齐，配合 co-training 缓解灾难性遗忘，将 Nequix MP 在 MDR Phonon 基准上的声子热力学误差平均降低 55%，并将热导率 \(\kappa_{\text{SRME}}\) 从 0.446 降到 0.307，在 MPtrj 训练的模型中达到 SOTA。
PipeSD: An Efficient Cloud-Edge Collaborative Pipeline Inference Framework with Speculative Decoding: 本文提出 PipeSD：把投机解码（speculative decoding）从端云顺序执行改成 token-batch 流水线，并用双阈值 NAV 触发 + 贝叶斯自动调参替代固定 draft 长度，在 5G 带宽的真实端云测试床上拿到 1.16×–2.16× 加速、14–25% 云端能耗下降。
Position: Beyond Sensitive Attributes, ML Fairness Should Quantify Structural Injustice via Social Determinants: 这是一篇 ICML 立场论文：作者主张 ML 公平性研究不能只盯着 race/sex 这类"敏感属性"，而必须把"社会决定因素"（neighborhood、ADI、学校经费、医疗可及性等情境变量）也纳入审计，并用大学录取理论模型 + 美国人口普查数据 + 乳腺癌筛查半合成实验，证明只围绕敏感属性的缓解策略反而可能制造新的结构性不公。
Position: Embodied AI Requires a Privacy-Utility Trade-off: 本文是一篇 position paper，主张具身 AI 的隐私不能用单阶段补丁解决，必须当作横跨 instruction / perception / planning / interaction 全生命周期的架构级动态控制信号，并提出 SPINE 框架，用 L1-L4 四级隐私分类矩阵在每个阶段联动调整智能体行为。
Position: Generative Engine Optimization Creates Underexamined Risks, Governance Must Target Concentration, Disclosure, and Academic Blind Spots: 这是一篇立场论文：当用户从"看排序列表"转向"看 LLM 合成答案"，搜索引擎优化(SEO)随之演化成生成引擎优化(GEO)——它在 RAG 式答案引擎的证据池和生成环节里施加影响；作者形式化出一条通用 GEO 流水线，据此指出三类被忽视的风险（影响力集中、隐性商业影响、学术-工业盲区），并呼吁"答案级治理"：更强的可争议性、高精度披露、对实质影响的黑盒审计、以及与部署对齐的曝光持久性度量。
Position: Machine Learning for Heart Transplant Allocation Policy Optimization Should Account for Incentives: 这是一篇 ICML 2026 立场论文：作者结合 UNOS 历史数据，论证美国心脏移植分配系统的下一代 ML 策略必须把"器官获取组织/移植中心/医生/患者/监管"之间的激励错位当成一等公民来建模，呼吁把机制设计、战略分类、因果推断、社会选择整合进 ML 流水线，否则再强的预测模型也会在部署时被各方策略性行为反噬。
Position: Retire the "Positive Backdoor" Label -- Secret Alignment Requires Strict and Systematic Evaluation: 本文是一篇 position paper，主张废弃"positive backdoor"这一误导性标签，将触发器激活的隐藏行为统一重命名为 Secret Alignment，并通过 SudoLM / Instructional Fingerprinting / SafeTrigger 三个代表性方案在六项标准化属性（有效性、无害性、持久性、效率、鲁棒性、可靠性）上的系统评测，揭示这类机制在机密性/完整性/可用性（CIA）方面的脆弱性，呼吁社区默认视其为"不安全"，除非有严格、标准化的证据支持。
Position: Stop Chasing the C-index when Evaluating Survival Analysis Models: 作者审计了 2023–2025 年 92 篇生存分析论文，发现约 72% 的工作所用评估指标（尤其是被滥用的 C-index）与其建模目标和删失假设不对齐，并提出"双螺旋阶梯假设"（Ladder Hypothesis）：模型与指标必须站在同一级"删失假设"上，否则报告的性能与排名都可能是偏差伪影。
Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering: 这是一篇位置论文，核心论断：当前 LLM 不确定性量化（UQ）的主流方法（Semantic Entropy、图谱方法、P(true) 等）在机制上与无监督聚类同构——它们只衡量"模型生成的内部一致性"而非"外部正确性"，因此面对"自信幻觉"（confident hallucination）天然失效；作者诊断出参数敏感性、内部评估循环、缺乏 ground truth 三大病灶，并提出从评估、机制、grounding 三个支柱转向"监督式保障"的路线图。
PRISM: Gauge-Invariant Tangent-Space Differentially Private LoRA: PRISM 把 DP-SGD 从 LoRA 的 \((A,B)\) 因子空间搬到 rank-\(r\) 流形的切空间上做 clip+加噪+retract，从而获得 gauge invariant、无 bilinear 二阶噪声、且有闭式 \(\sigma C/b\cdot\sqrt{r(m+n-r)}\) 内禀噪声能量的 DP-LoRA 机制。
Privacy Amplification in Differentially Private Zeroth-Order Optimization with Hidden States: 作者给"差分隐私零阶优化（DP-ZOGD）"首次证出了收敛的 hidden-state DP 上界——通过设计一个"定向 + 各向同性"混合噪声机制并构造一个介于两条相邻轨迹之间的辅助过程，绕开了零阶更新缺乏全局 Lipschitz 性这一技术障碍，揭示出"扩大每步采样方向数 \(K\) 反而能降隐私损失"这一前所未知的 DP 算法设计准则。
Private Learning with Public Feature Conditioning: 针对带有公共（非敏感）特征的差分隐私回归问题，本文提出 Cond-DP——在 DP-SGD 前用一个由公共特征矩阵构造的条件矩阵 \(\bm{C}=\bm{V}\Sigma^{-1}\bm{V}^T\) 对嵌入参数空间做几何重塑，在不增加任何隐私开销的前提下放大低谱方向的信号噪声比，从而在高隐私（小 \(\epsilon\)）场景下显著优于现有标签 DP 回归方法。
PRPO: Paragraph-level Policy Optimization for Vision-Language Deepfake Detection: 作者用一个 115k 带推理标注的 DF-R5 数据集 + 把 CLIP ViT 换成 ConvNeXT 的 DX-LLaVA 架构，并提出 PRPO —— 段落级别 GRPO 变体，每段以 CLIP-文本-图像相似度（VCR）+ 推理-结论多数票一致性（PCR）为 reward，把跨域 deepfake 检测 F1 从 SOTA 75.26% 推到 89.91%，推理质量从 4.2/5 提到 4.55/5。
Rapid Poison: Practical Poisoning Attacks Against the Rapid Response Framework: 本文揭示部署在 Anthropic ASL-3 等生产系统中的 Rapid Response（RR）越狱检测框架可被系统性投毒：攻击者只需通过提示注入把毒样本送进 RR 的"增殖"流水线，在仅 1% 投毒率下就能让分类器对良性样本误报（最高 100% 假阳率）或对越狱样本漏报（最高 96% 假阴率），其中漏报攻击靠一个全新的"省略攻击（Omission Attack）"实现——只删不加、只改正类样本就能种下后门。
Red-Teaming Agent Execution Contexts: Open-World Security Evaluation on OpenClaw: 针对 OpenClaw 这类"会读文件/记忆/工具/技能等可变执行上下文"的智能体，提出自动化红队框架 DeepTrap：把"在干净上下文里注入对抗 payload"建成一个黑盒、离散、随机的轨迹级多目标优化问题（同时要触发风险、保住正常任务、还要隐蔽），用奖励引导的束搜索 + 反思式深探来挖出高价值的污染上下文；在 42 案例 × 6 类风险 × 9 个目标模型上证明——上下文投毒能让 agent 一边完成用户的正常任务、一边悄悄实现攻击目标，因此只看最终回复的安全评估根本不够。
REFLECTOR：把"边走边自省"内化进生成轨迹以抵御间接越狱: 针对会在长生成中后段才"暴露"的间接越狱攻击，作者用教师模型合成 <|reflect|>/<|explore|> 标注的反思轨迹做 SFT 冷启，再用安全奖励 + 反思有效性奖励的双奖 GDPO 把"search-and-recovery"行为内化到策略里，把 DRA 等四类间接攻击的防御成功率从 ~10% 拉到 ~90%+，并且 GSM8K 反涨 5.65%。
Regret-Based Federated Causal Discovery with Unknown Interventions: 本文提出 I-PERI：在客户端干预目标完全未知、且只能共享 regret 标量的联邦设置下，用"有向一致掩码 + 无向一致掩码"两阶段流程，恢复出一个比观测 MEC 更紧、比 I-MEC 更松的全新等价类 Φ-MEC，并通过 Laplace 噪声给出 ε-差分隐私保证。
Rethinking Evaluation Paradigms in IBP-based Certified Training: 作者指出 IBP 类认证训练长期以"挑一个偏心配置"的方式相互比较是不公平的，提出用多目标贝叶斯超参搜索画出每种方法的 Pareto 前沿，证明既有 SOTA 普遍欠调优——CROWN-IBP 干净精度可再涨约 \(6\%\)、Tiny ImageNet 上 MTL-IBP 同时涨 \(\sim2\%\) 干净精度和认证精度。
Right Predictions, Misleading Explanations: On the Vulnerability of Vision-Language Model Explanations: 提出 X-Shift——一个灰盒对抗攻击，在完全不改变 CLIP 预测的前提下，用人眼不可察的稀疏扰动把解释热力图整体挪到语义无关的区域，从而揭示 VLM 解释的忠实度可以和预测正确性被彻底解耦，"预测对但解释骗人"的攻击面此前几乎无人研究。
Robust In-Context Reinforcement Learning Under Reward Poisoning Attacks: 本文首次形式化了"测试时奖励投毒"这一针对上下文强化学习（ICRL）的新攻击面，并提出对抗训练框架 AT-DPT：让一群攻击者持续投毒、同时让 DPT 学会从被污染的上下文里推断最优动作，使学到的"上下文内学习算法"本身就抗投毒。
Rotation-Invariant Spherical Watermarking via Third-Order SO(3) Representation Coupling: TRIAD 把 360° 全景图当作球面信号，用三阶球谐系数张量积投影到 trivial 表示得到一个理论可证 SO(3) 不变的双谱标量，从而把水印藏在高阶 SH 系数里、再从这个不变量里读出来，在任意 3D 旋转下仍能保持近 100% 的比特准确率而不依赖数据增强。
Same Target, Different Basins: Hard vs. Soft Labels for Annotator Distributions: 在 CIFAR-10H 上把"标注者分布"以硬标签方式投喂给模型（multipass 按票循环 / SLS 每个 epoch 重采样），证明它和软标签交叉熵期望目标等价，但收敛到更平坦的 basin、在稀疏标注下更优、且 OOD 检测略胜。
Scaling Unsupervised Multi-Source Federated Domain Adaptation through Group-Wise Discrepancy Minimization: 针对现有联邦多源无监督域适应 (UMDA) 方法只能处理 2–6 个源、源数一多就训练不稳或算力爆掉的问题，作者提出 GALA：把所有源随机分成若干小组、组间对预测分布做差异最小化（把 \(O(N^2)\) 的两两对齐压成线性），再叠一个基于质心+温度的相似度加权挑出真正贴近目标域的源——在新建的 Digit-18 (18 源) 基准上稳定收敛，且把基线一一推开。
Semantic Router: On the Feasibility of Hijacking MLLMs via a Single Adversarial Perturbation: 本文提出一种新的威胁——语义感知劫持：用单张通用对抗扰动充当"语义路由器"，根据当前帧的视觉语义把同一个 MLLM 路由到攻击者预设的不同目标输出；通过对潜空间几何性质的理论分析推导出可行性边界，再用 SORT 优化算法把它造出来，在 Qwen 上用一张帧对 5 个目标实现 66% 的攻击成功率。
Singular Bayesian Neural Networks: 本文把权重矩阵直接参数化为 \(W=AB^\top\) 而不是对 \(W\) 本身做平均场分布，从而诱导出一个关于 Lebesgue 测度奇异的低秩后验，参数量从 \(O(mn)\) 降到 \(O(r(m+n))\)，PAC-Bayes 复杂度从 \(\sqrt{mn}\) 收到 \(\sqrt{r(m+n)}\)，并在 MLP/LSTM/Transformer 三类架构上实现 OOD 检测胜过 5-成员 Deep Ensemble 同时参数少 \(33\times\)。
SORA: Free Second-Order Attacks in Fast Adversarial Training: 本文从二阶视角重新审视单步对抗训练中的灾难性过拟合（CO），提出零成本曲率指标 PertAlign 来提前预警 CO，并据此推导出 SORA：一种用上一步反向传播梯度免费估计 Hessian、按通道随机化采样最优步长的自适应快速对抗训练算法，在 6 个数据集和 4 种架构上仅用同一组超参就稳定避免 CO 并刷新单步 AT 的鲁棒/干净精度 trade-off。
Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance: 本文指出现有 GFlowNet 红队的两大不稳定来源——partition function \(Z_\theta\) 估计带来的高方差，与 toxicity classifier 给 OOD gibberish 文本的噪声 reward 引发的 mode collapse——并用三件简单组件（pairwise 对比目标 CTB 消除 \(Z\)、Noisy Gradient Pruning 过滤无信息 pair、Min-K Fluency Stabilizer 卡掉 gibberish）让红队攻击在 Qwen2.5-1.5B 上独特攻击数从 17 飙到 134（约 7×），ASR 维持 92%，且跨模型/跨防御迁移性全面碾压 baseline。
TCAP: Tri-Component Attention Profiling for Unsupervised Backdoor Detection in MLLM Fine-Tuning: 针对 Fine-Tuning-as-a-Service 场景下多模态大模型被投毒微调的问题，本文发现"被触发样本会把首个生成 token 的注意力在 system / vision / text 三大组件之间畸形地极化"这一通用指纹，并据此提出无监督的 TCAP 框架：用 GMM 在 system 注意力上挑出 trigger-responsive 注意力头，再用 EM-based Dawid–Skene 投票聚合，跨 5 种触发模式、3 种 MLLM、5 个数据集都能把 ASR 从 90%+ 压到 ~0% 而几乎不损失 Clean Performance。
The Injection Paradox: Brand-Level Suppression in Safety-Trained LLM Recommendations via RAG Context Injection: 本文报告了安全训练 LLM 在 RAG 推荐里的一个可复现失效模式——"注入悖论":攻击者塞进检索文档的提示注入不但没把目标品牌推上去,反而被强安全训练的 Claude 当成违规、把该品牌压到基线以下,而且这种抑制会从被注入的那一篇文档蔓延到同品牌所有未改文档,Opus 4.6 上目标品牌从 54% 基线掉到 0。
The Unlearnability Phenomenon in RLVR for Language Models: 作者发现在 RLVR（GRPO）训练中存在一类「不可学习样本」：即便采样到正确 rollout、奖励信号非零，模型在整个训练过程中也始终学不会，根因不是优化端的正样本稀缺或裁剪/KL 正则，而是这些样本在初始策略下就是「梯度离群点」，背后是模型表征缺陷，需要靠 mid-training 而非 RL 后训练来修复。
TimeGuard: Channel-wise Pool Training for Backdoor Defense in Time Series Forecasting: TimeGuard 把多变量时间序列预测里的后门防御从"丢掉整条窗口"重构成"按通道+按时间步"的可靠样本池训练，先用反向一致性 (RCF) + 邻域多样性 (NDF) 交集初始化高纯度池子，再用距离正则的损失筛选 (DRLS) 渐进扩池，在不依赖任何干净数据的前提下把对 BackTime 等 SOTA 攻击的 \(\text{MAE}_{\text{P}}\) 提到最强基线 PDB 的 1.96 倍。
Towards Fine-Grained Robustness: Attention-Guided Test-Time Prompt Tuning for Vision-Language Models: A-TPT 用一种针对对抗扰动加固的 Gradient Attention Rollout 提取 CLIP 视觉端"语义锚点"，再以该注意力图为引导对多视图做空间非均匀增强、并按各视图注意力的 Total Variation 进行加权集成做 prompt tuning，在 9 个数据集上同时提升细粒度场景下的对抗精度和干净精度。
Training-Free Coverless Multi-Image Steganography with Access Control: 提出 MIDAS，一种基于预训练扩散模型的 training-free 无载体多图隐写框架，用 Random Basis 正交随机基替代传统 Noise Flip 实现按私钥的细粒度访问控制，配合 Latent Vector Fusion 消除拼接边界，在不传输任何与秘密相关的附加信息的前提下实现多图隐藏 + 抗隐写分析。
理解上下文连续学习中的泛化与遗忘: 首次为上下文连续学习建立理论框架——揭示注意力机制在处理多任务序列时必然产生的系统偏差与任务干扰，导致泛化性能与任务记忆与任务顺序相关的衰减现象。
遗忘并非删除：大语言模型机器遗忘中的可逆性调查: 本文通过表征层面的诊断工具系统分析 LLM 遗忘的可逆性——发现许多遗忘方法只是抑制而非真正删除信息，提出四层遗忘分类体系区分真正的信息擦除与表面性能退化。
机器遗忘的两个盲点：过度遗忘与原型重学习攻击: 本文揭示机器遗忘的两个关键盲点——过度遗忘（对边界附近样本的误伤）和原型重学习攻击（用少量样本复原遗忘知识），并提出 Spotter 框架通过边界掩膜蒸馏和类内散布损失同时缓解这两个问题。
VPD-100K: Towards Generalizable and Fine-grained Visual Privacy Protection: 作者构造了 10 万张图、33 个细粒度类别、19 万+ 实例的大规模视觉隐私数据集 VPD-100K（覆盖人脸/屏上 PII/物理证件/位置标记四大域），并提出三件套频域增强模块（FDAF + 自适应频谱门控 + 频域一致性损失）插入 YOLOv10 的 Neck，使 YOLOv10-L 在 VPD-100K 上 AP 从 53.8 涨到 58.6（+4.8），同时在 7.51ms 延迟下稳定跑直播流。
Watermarking LLM Agent Trajectories (ACTHOOK): ACTHOOK 把"软件 hook"思想搬进 agent 轨迹：在 action 边界处插入一个由秘密 key 触发的额外动作作为水印，被它训练过的 LLM 会在带 key 的 prompt 上以显著更高频率执行 hook，从而支持只通过黑盒查询就完成版权检测，平均 AUC 达 94.3 而几乎不影响下游任务表现。
When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents: 这篇论文研究"计算机操作智能体（CUA）在完全善意的输入下也会做出严重不安全行为"这一被忽视的风险，先给出意外行为的概念框架（四条判据 + 两大类危害），再提出 AutoElicit——一个用执行反馈迭代扰动善意指令、自动诱发并评估有害行为的智能体框架，在 Claude 4.5 Haiku / Operator / Claude 4.5 Opus 等前沿 CUA 上以最高 72.5%–86.7% 的成功率批量挖出长尾危害。
When Should an AI Scientist Stop? Verifiable Experiment Steering and Refusal for Autonomous Discovery: 本文提出 Cartograph——一个挂在自主"AI 科学家"循环里的验证层,它用同一套"未解子空间(unresolved subspace)"对象同时回答三件事:选哪个实验最能消歧(select)、什么时候算问题解决了(resolve)、以及——这是最关键的——当模型库本身结构性错误时该拒绝继续给出任何结论(refuse),并能在后续残差暴露失配时撤回早期已下的判定。
Where Rectified Flows Leak: Characterising Membership Signals Along the Interpolation Path: 作者发现 Rectified Flow（整流流）训练用的线性插值路径 \(X_\lambda=(1-\lambda)X_0+\lambda X_1\) 上，训练样本与测试样本的重建误差差距会随 \(\lambda\) 走出一条钟形曲线，并在高斯假设下推出钟峰位置 \(\lambda_F^*\) 的闭式解；这个"成员信号"在训练时悄悄累积、却被验证损失完全掩盖，最后作者拿这条 \(\lambda\) 分辨的误差曲线做成员推断攻击（MIA），在钢琴音乐数据集上拿到 0.91 AUC，碾压从扩散模型迁移来的基线。