ICML2026 优化/理论论文解读论文笔记联邦学习 LLM 对抗鲁棒 Agent 对齐/RLHF 压缩/编码

📐 优化/理论¶

🧪 ICML2026 · 88 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (22) · 🔬 ICLR2026 (220) · 🤖 AAAI2026 (21) · 🧠 NeurIPS2025 (126) · 📹 ICCV2025 (7) · 🧪 ICML2025 (61)

🔥 高频主题： 联邦学习 ×5 · LLM ×4 · 对抗鲁棒 ×2 · Agent ×2 · 对齐/RLHF ×2

A2SG: Adaptive and Asymmetric Surrogate Gradients for Training Deep Spiking Neural Networks: 针对深度脉冲神经网络（SNN）用替代梯度训练时「损失景观尖锐 + 跨时间步梯度互相打架」两大顽疾，这篇论文提出统一框架 A2SG，一方面用自适应有效窗宽（按空间梯度变异 SGV 和时序梯度一致性 TGC 自动调 \(\beta\)）压低梯度变异、对齐时间步方向，另一方面把对称替代函数改成「按膜电位高低分配梯度」的非对称形状，并从理论上证明非对称比对称变异更低、局部梯度变异越小损失景观越平坦，从而在 CNN 和 Transformer 型 SNN 上一致提升精度与能效。
A Fully First-Order Layer for Differentiable Optimization: 可微优化层的主流做法是对 KKT 条件做隐式微分，必须算 Hessian、解大型 KKT 线性系统，难以扩展到大规模问题；本文把可微优化重写成双层优化，构造"固定活动集 + 线性化活动约束"的 ghost 代理问题把不等式约束局部化简为等式约束，再用有限差分只靠一阶信息在近常数 \(\mathcal{O}(\log(1/\epsilon))\) 次调用内估出超梯度，并做成一个与任意凸求解器（含 GUROBI/MOSEK）即插即用的 PyTorch 库 FFOLayer——收敛与精确法相当，但计算时间和峰值显存随问题规模近乎亚线性增长。
A General Framework for Dynamic Consistent Submodular Maximization: 这篇论文给出了 fully dynamic 子模最大化的一般一致性框架，在允许插入和删除的流式环境中，首次为 cardinality 与 matroid 约束同时实现常数近似和次线性级别的 worst-case 每步解变动。
Accelerated Multiple Wasserstein Gradient Flows for Multi-objective Distributional Optimization: 这篇论文把 Multiple Wasserstein Gradient Descent 推广为连续时间梯度流，并引入 Nesterov 风格的动量加速，得到 A-MWGraD，在理论上把 geodesically convex 场景的收敛率从 \(O(1/t)\) 提升到 \(O(1/t^2)\)，实验上也让多目标采样和贝叶斯多任务学习更快收敛。
AdaGC: Enhancing LLM Pretraining Stability via Adaptive Gradient Clipping: 针对大模型预训练里反复出现的 loss spike，AdaGC 把"全局一刀切"的梯度裁剪换成"每个参数张量按自己历史梯度范数的 EMA 自适应裁剪"，在异常梯度污染优化器一阶/二阶动量之前就把它压下去，在 Llama-2 7B / Mixtral 8×1B / ERNIE 10B-A1.4B 上把 spike score 全部压到 0，同时下游精度比全局裁剪（GlobalGC）分别提升 +1.32% / +1.27% / +2.48%。
Adaptive Estimation and Inference in Semi-parametric Heterogeneous Clustered Multitask Learning via Neyman Orthogonality: 本文桥接双重机器学习与聚类多任务学习，提出自适应框架结合 Neyman 正交性与数据驱动的配对融合罚项，在异质（可能无限维）噪声的半参数设置中精确恢复任务潜在聚类、以汇总率达到预言水平，并建立渐近正态性，实现有效统计推断。
Adaptive Preconditioners Trigger Loss Spikes in Adam: 这篇论文把 Adam 训练中的 loss spike 归因于二阶矩预条件器与当前梯度平方的滞后解耦，并用预条件 Hessian 的梯度方向曲率解释和预测 spike 的发生。
Adaptive Sharpness-Aware Minimization with a Polyak-type Step size: A Theory-Grounded Scheduler: 这篇论文把 Polyak step size 推广到 USAM/SAM，给出不依赖手工学习率调参的 sharpness-aware scheduler，并在凸优化理论和 CIFAR 实验中验证其稳定性与性能。
Asymmetric Perturbation in Solving Bilinear Saddle-Point Optimization: 这篇论文证明只扰动双线性零和博弈中一方的 payoff，就能在足够小扰动下保持原始均衡不变，并据此构造 AsymP-GDA，在理论上获得线性 last-iterate 收敛，在普通型和扩展型博弈实验中比对称扰动更快、更准地逼近原始均衡。
Automatic Unsupervised Ensemble Outlier Model Selection–Extended Version: 提出 MetaEns 框架，通过元学习预测候选检测器的边际集成增益，结合多样性折扣和算法族风险正则化的代理目标函数，在无标签条件下自适应地贪心构建紧凑高质量的异常检测集成模型。
Balanced LoRA: Removing Parameter Invariance to Accelerate Convergence: 本文揭示了 LoRA 的过参数化导致不同低秩因子对 \((A,B)\) 具有不同条件数，证明了平衡最小值点（\(A^\top A = BB^\top\)）具有最优条件数，并据此提出 BaLoRA——在每步优化后将适配器投影到平衡流形上，以几乎零开销加速收敛并提升微调性能。
Balancing Learning Rates Across Layers: Exact Two-Step Dynamics and Optimal Scaling in Linear Neural Networks: 本文在两层和三层线性神经网络中推导出梯度下降一步和两步后测试损失的精确闭式表达式，揭示了一个相变现象：第一步更新时非对称学习率最优，而第二步后对称（平衡）学习率变为局部最优，为逐层学习率调度提供了理论基础。
Bayesian Gated Non-Negative Contrastive Learning: 针对非负对比学习（NCL）中共享背景特征导致的优化冲突（梯度振荡），提出 BayesNCL，通过贝叶斯门控头为每个特征维度学习 Bernoulli 分布来动态过滤高频公共特征，在 ImageNet-100 上语义一致性提升 142.1% 且不牺牲下游准确率。
Bregman meets Lévy: Stochastic Mirror Descent with Heavy-Tailed Noise in Continuous and Discrete Time: 本文提出 Lévy Mirror Flow（LMF）——一种由 Lévy 噪声驱动的随机镜像下降连续时间 SDE 模型，证明即使在无穷方差的重尾梯度噪声下，SMD 仍保持收敛保证（凸情形 \(O(\varepsilon^{-p/(p-1)})\)，强凸情形 \(\tilde{O}(\varepsilon^{-1/(p-1)})\)），并将连续时间结果无缝传递到离散时间算法。
Budget-Feasible Mechanisms for Submodular Welfare Maximization in Procurement Auctions: 首次给"预算受限 + 私有成本"的子模社会福利最大化采购拍卖给出有近似比保证的真值机制 BFM-SWM——用几何递增阈值的降序时钟拍卖 + 单点保护 + 价/付率参数 \(\beta\) 实现非负盈余 + 预算可行，一般子模函数 0.0328-近似、单调子模 0.0877-近似；副产品 BFM-VM 把估值最大化的确定性最佳近似比从 1/64 提升到 \(1/(12+4\sqrt{3})\approx 0.0528\)，并将运行时间从 \(\mathcal{O}(n^2\log n)\) 降到 \(\mathcal{O}(n\log n)\)。
Bulk-Calibrated Credal Ambiguity Sets: Fast, Tractable Decision Making under Out-of-Sample Contamination: 针对"Huber（线性-vacuous）污染集放进无界空间会让最坏风险变成 \(+\infty\)、DRO 目标失效"这一老问题，本文提出bulk-calibrated credal 模糊集——从数据学一个高概率质量的"主体集"\(\Xi_0\)、把污染预算只放进 \(\Xi_0\) 内、再用矩条件单独控住尾部，从而得到一个 闭式 \(\text{mean}+\sup\) 鲁棒目标，可化为常见损失下的 LP/SOCP 求解，又快又有限。
Can Adaptive Gradient Methods Converge under Heavy-Tailed Noise? A Case Study of AdaGrad: 首次证明 AdaGrad 在重尾噪声（\(p \in (4/3, 2]\)）下无需任何算法修改即可收敛，同时给出算法依赖的下界表明 AdaGrad 无法达到 minimax 最优速率，并证明 AdaGrad-Norm 在有界目标函数假设下可获得更快的 \(O(1/T^{(p-1)/(2p)})\) 速率。
CLoVE: Personalized Federated Learning through Clustering of Loss Vector Embeddings: CLoVE 用「每个客户端在所有候选模型上的损失向量」当作客户端嵌入来做聚类联邦学习，靠「同簇客户端损失模式相近、异簇损失模式迥异」这一观察，在不需要精心初始化模型的前提下，几轮通信内就恢复出正确的客户端簇并训练出各簇专属模型，在大量非 IID 设置下达到 SOTA。
Colorful Pinball: Density-Weighted Quantile Regression for Conditional Guarantee of Conformal Prediction: 本文通过 Taylor 展开揭示了标准 pinball 损失在条件覆盖率优化上的固有缺陷——忽视了异方差结构，提出密度加权 pinball 损失作为条件覆盖 MSE 的更紧代理目标，并设计三头分位数网络通过有限差分估计密度权重，在 8 个高维回归基准上大幅提升条件覆盖性能。
Conflicting Biases at the Edge of Stability: Norm versus Sharpness Regularization: 这是一篇分析性论文：作者指出梯度下降同时存在两种相互冲突的隐式偏置——小学习率倾向于压低参数范数、大学习率（Edge of Stability）倾向于压低损失锐度——学习率在二者之间插值，并通过实验观测到一个由临界学习率 \(\eta_c\) 划分的相变，再用对角线性网络的理论反例证明"任何单一隐式偏置都不足以解释泛化"。
Conservation Laws for Modern Neural Architectures: 这篇论文把"刻画训练动力学中所有守恒量"的问题重述为求解一个与数据无关的偏微分方程，并借助复分析里的亚纯延拓技巧，第一次给出了 GELU/SiLU/SwiGLU 前馈网、多头注意力（含正弦 PE 与 RoPE）、以及各种门控的 MoE 的完整守恒律清单，顺手解决了 Marcotte et al. (2025) 留下的多头注意力开放问题。
Convex Basins in Single-Index Model Loss Landscapes: Applications to Robust Recovery under Strong Adversarial Corruption: 在重尾噪声 + 常数比例强对抗污染下，作者证明了一大类非单调链接函数（GeLU、Swish、Tanh、Probit、Logistic、相位恢复…）的高斯单指标模型平方损失存在一个维度无关、常数半径的凸盆，并据此设计了一个 \(\tilde{O}(nd)\) 时间、\(\tilde{O}(d)\) 样本的鲁棒恢复算法，最终估计误差为 \(O(\sigma\sqrt{\epsilon})\)。
Cost-Aware Stopping for Bayesian Optimization: 作者把 Weitzman 的 Pandora's Box 停下原则推广到带相关性的贝叶斯优化场景，证明 PBGI/LogEIPC 这两个 cost-aware 采集函数在共同的"采集函数值越过当前最优"停下规则下，期望代价调整 simple regret 不会比"采一次就停"更差，从而给出首个对 cost-adjusted simple regret 有理论保证的自适应停下规则。
Delayed Momentum Aggregation: Communication-efficient Byzantine-robust Federated Learning with Partial Participation: 针对部分参与下"采样客户端中拜占庭客户端临时占多数"会击垮已有鲁棒聚合的痛点，本文提出延迟动量聚合原则——服务器把当轮新动量与未被采样客户端的最近一次缓存动量一起送入鲁棒聚合器，将全局拜占庭比例 \(\delta<1/2\) 永远延续到每一轮聚合，并据此设计 DeMoA 优化器，在 \(p=0.1\)、\(\delta=0.2\) 的极端设置下仍能稳定训练 ResNet-18/CIFAR-10。
Depth over Fidelity in Fixed-Budget Noisy Evolution Strategies: 在评估次数被严格限死（fixed budget）的噪声黑盒优化里，与其花预算反复测量去"洗干净"代际内排序（fidelity），不如把这些预算省下来多做几代分布更新（depth）；论文用 PEM（概率精英隶属度） 把硬排序权重换成"对排序不确定性求期望"的软权重，并用 残差自助（RB-PEM） 以接近零的额外开销估计它，在高错排、预算受限的场景上稳定跑赢"先去噪再排序"的主流做法。
Differentially Private Submodular Maximization with a Knapsack Constraint: 本文给出背包约束下子模最大化（SMK）的差分隐私算法：单调目标下达到最优的 \((1-1/e)\) 近似且把附加误差从「多项式依赖 \(n\)」改进到「polylog 依赖 \(n\)」、查询复杂度从指数级降到多项式级，并首次为非单调目标给出有可证保证（\(1/4\) 近似）的差分隐私算法。
Distilling Linearized Behavior into Non-Linear Fine-Tuning for Effective Task Arithmetic: 本文提出 DELTA：在线把"切空间线性化教师"的中间激活蒸馏到普通非线性学生 + EK-FAC 曲率正则 + 沿插值路径采样，让常规非线性 fine-tune 出来的 task vector 也具备线性化模型那种"可叠加、低干扰、对缩放鲁棒"的性质，同时不引入任何推理开销。
Distribution-Free Uncertainty Quantification for Continuous AI Agent Evaluation: 本文提出 AgentPulse 框架，将 split conformal、adaptive conformal inference (ACI)、Mondrian conformal 与 BH-FDR 组合，为 50 个 AI agent 的连续打分提供分布无关的覆盖率保证、组合管线的不确定性边界以及带 FDR 控制的排名弃权机制，把"测量不确定性"作为评测的一等输出。
Distribution Alignment for One-Shot Federated Learning via Optimal Transport: 本文提出 SLOT-Align，一个免训练、单轮的联邦特征对齐框架：各客户端用共享冻结编码器算出特征的一二阶统计量，服务器用 Bures–Wasserstein 重心聚成全局参考，客户端再用高斯间的闭式最优传输映射把本地特征对齐到该参考，在域偏移叠加标签偏移的极端 one-shot 联邦场景下稳定提升精度。
Diversity-Driven Offline Multi-Objective Optimization via Nested Pareto Set Learning: 针对"只能用固定离线数据集、不能再查询真目标函数"的离线多目标优化（offline MOO），本文提出 DOMOO：用嵌套 Pareto 集学习联合更新偏好与模型、并把分布外（OOD）风险抑制因子塞进偏好梯度，再配一个专为离线设计的 \(\text{IGD}_{\text{offline}}\) 指标做多样性筛选，从而同时拿到收敛性和多样性都更好的解集。
Dynamics and Representation Structure of Local Approximations to Gradient-Based Learning in Linear Recurrent Neural Networks: 本文在 student–teacher 数据对齐的线性 RNN 上，把 BPTT、one-step tBPTT、RFLO 的更新写成可解析的 ODE，比较它们的不动点流形、稳定性、收敛速率，发现 RFLO 缺少 BPTT/tBPTT 那条非最优鞍流形但代价是稳定性依赖符号、收敛更慢，并且局限于初始权重的低秩扰动——这一低秩限制可推广到非数据对齐的设定。
Efficient Stochastic Optimisation via Sequential Monte Carlo: 当损失的梯度写成"对一个依赖参数的难解分布 \(\pi_\theta\) 求期望"时，传统做法要在每步优化里跑一遍昂贵的 MCMC 内循环采样；本文提出 SOSMC，用序列蒙特卡洛(SMC)采样器把"随参数缓慢演化的一串分布 \((\pi_{\theta_k})_k\)"串起来采，复用上一步的粒子得到加权梯度估计，从而砍掉内循环，既省算力又有收敛理论保证，并在能量模型 reward tuning、图像去模糊等任务上优于单/双循环基线。
Enhancing LLM Training via Spectral Clipping: 本文提出 SPECTRA：一个 optimizer-agnostic 的包装层，对更新矩阵做后置谱裁剪、对原始梯度做可选的前置谱裁剪，在理论上等价于带权重正则的复合 Frank-Wolfe 算法，在 124M–1.5B LLM 预训练上把 AdamW / Signum / Mars / AdEMAMix 的验证损失一致地往下压。
ePC: Fast and Deep Predictive Coding in Digital Simulation: 本文指出"状态版预测编码（sPC）在数字仿真里会随网络深度指数衰减训练信号、导致深层学不动且收敛极慢"这一被忽视的根因，并提出把优化变量从状态改成误差的等价重参数化 ePC——它能算出与 sPC 完全相同的状态平衡和权重梯度，却用 reverse-mode AD 让信号一步直达所有层，深网收敛快 100 倍以上、并在深层架构上追平反向传播。
Flatland: The Adventures of Gradient Descent with Large Step Sizes: 本文给出一个只需"局部 Lipschitz / Hölder 梯度连续"的统一"大学习率"定义，并用非单调线搜索造出一种一阶自适应步长，使梯度下降从训练一开始就运行在 Edge of Stability（EoS）上、把 sharpness 压到全局最小 \(2/K\)；同时发现"太早进入全局平坦区反而有害"，再用自稳定约束把失败的训练救回来。
FOAM: Frequency and Operator Error-Based Adaptive Damping Method for Reducing Staleness-Oriented Error for Shampoo: FOAM 通过一个可在陈旧特征空间里廉价估算的"算子相对误差代理 \(h_t\)"，把 Shampoo 的阻尼系数 \(\epsilon\) 和特征分解（EVD）触发频率耦合成一个反馈控制回路，在大模型训练上把 EVD 调用次数砍掉 80%+ 同时保持收敛质量。
Follow-the-Perturbed-Leader for Decoupled Bandits: Best-of-Both-Worlds and Practicality: 本文给 decoupled multi-armed bandit 问题（每轮分别选一个臂"利用"、一个臂"探索"）设计了首个 Best-of-Both-Worlds (BOBW) FTPL 算法：用 Pareto 扰动做利用、用一个仅依赖累积估损排名的代理量 \(q_{t,i}\) 直接定义探索分布——既不需要 FTRL 的每步凸优化，也不需要 FTPL 标准做法中的几何重采样，对抗与随机两种环境下均达到与现有最优 FTRL 算法同阶的 \(\mathcal{O}(\sqrt{KT})\) / \(\mathcal{O}(K/\Delta_{\min})\) 后悔界，实测对 \(K=2\) 比基线快约 130×。
Full-Batch Gradient Descent Outperforms One-Pass SGD: Sample Complexity Separation in Single-Index Learning: 本文在二次激活的高斯单指标模型里严格证明：朴素二次激活下"重复使用全部数据"的全批量梯度下降并不比一遍式 SGD 更省样本（都要 \(n\gtrsim d\log d\)），但只要把激活截断一下，全批量 GD 就能在 \(n\gtrsim d\)（线性样本量）下实现弱恢复甚至强恢复，从而与仍需 \(d\log d\) 的一遍式 SGD 拉开一个 \(\log d\) 的样本复杂度差距。
Gradient Descent with Large Step Size Restores Symmetry in Deep Linear Networks with Multi-Pathway: 此前用梯度流（GF）分析多路径深度线性网络得出"赢者通吃"——信号会集中到单条路径、对称破缺；本文证明大步长的离散梯度下降（GD）讲的是另一个故事：单路径解是尖锐极小、把信号分摊到多条路径会按 \(H^{2/L-1}\) 的因子降低锐度，于是训练在 Edge of Stability 的振荡会推翻早期的对称破缺、进入"路径再平衡"阶段，最终偏好共享而非单路径独占的表示。
HO-SFL: Hybrid-Order Split Federated Learning with Backprop-Free Clients and Dimension-Free Aggregation: HO-SFL 通过拉格朗日变量提升把 split federated learning (SFL) 的客户端和服务端解耦——服务端继续做一阶反向传播 (BP)，客户端只做零阶 (ZO) 扰动前向，再借共享随机种子把每轮上行通信压到 \(\mathcal{O}(P)\) 个标量，从而在端侧把大模型微调的显存降到推理级、收敛率仍可达 \(\mathcal{O}(\sqrt{d_c/PT})\)。
Improved Convergence Analysis of Topology Dependence in Decentralized SGD: 这篇论文给 Decentralized SGD 做了一次更紧的收敛性分析：把决定收敛速度的拓扑量从"只看谱隙（第二大特征值）"换成"看混合矩阵的全部特征值"，从而首次在理论上解释了为什么在数据近同构时，环（ring）这类稀疏拓扑的训练表现远好于旧分析的悲观预言。
Interpretability and Generalization Bounds for Learning Spatial Physics: 论文用数值分析工具证明：在线性 PDE（1D Poisson 等）上学到的解算子 \(\mathbf{W}\) 只会收敛到真算子 \(\mathbf{A}\) 在训练函数空间上的投影 \(\mathbf{A}\mathbf{U}\mathbf{U}^\top\)，所以函数空间本身——而非数据量或网格细度——决定 OOD 泛化；并提出一种把权重矩阵作用在 one-hot 上即可看出"是否学到 Green 函数结构"的机械可解释技术，用 25×25 跨数据集 cross-evaluation 把 8 类 SciML 模型（含 PINN/DeepONet/FNO/PI-DeepONet）的失败模式逐个标出来。
Learning-Augmented Scalable Linear Assignment Problem Optimization via Neural Dual Warm-Starts: 训练一个轻量网络预测线性指派问题 (LAP) 的对偶变量 \(\hat{u}\)，用 Min-Trick 构造可行对偶 \(\hat{v}\)，将其作为 LAPJV 精确求解器的暖启动，从而在保持最优性的同时把 \(N=16{,}384\) 规模实例端到端加速 \(2\times\) 以上。
Learning a Zeroth-Order Optimizer for Fine-Tuning LLMs: 本文提出 ZO Fine-tuner：用一个"per-block 的轻量神经网络 PertNN"自动学习 LLM 各参数块的扰动方差，把 MeZO 中固定的 \(\mathcal{N}(0,I)\) 升级为按块自适应的非均匀扰动；在 OPT-30B 上辅助网络仅占 <2MB，却在 4 个 LLM × 7 个数据集（28 对）中 82.1% 跑赢现有零阶基线，且"一次训练、跨任务/跨衍生模型复用"。
Learning Context-Conditioned Predicate Semantics via Prototype Feedback: AlignG 把 PE-Net 的静态谓词原型改造成"图像条件化"的动态原型：先用关系候选给原型做 GRU 增量更新拿到 image-specific prototype，再反向用它去 recalibrate 关系特征，并把对齐损失锚定在静态全局原型上以防漂移，在 VG-150 / GQA-200 的 SGDet 设置上 F@100 分别涨 1.4 / 2.7。
Learning Dynamics of Zeroth-Order Optimization: A Kernel Perspective: 本文用 empirical NTK 作为统一视角，证明 zeroth-order SGD 引出的 eNTK 等价于把 first-order eNTK 投影到由微扰张成的随机子空间，从而通过 Johnson-Lindenstrauss 引理解释为何 ZO 方法在十亿参数 LLM 上仍然 work：误差只取决于输出维度 \(V\) 和微扰数 \(P\)，与模型维度 \(d\) 无关。
Learning Locally, Revising Globally: Global Reviser for Federated Learning with Noisy Labels: 本文观察到 FL 的全局模型对噪声标签存在"延迟记忆"现象（CIFAR-10 上记忆率 ≤30%，显著低于集中式训练），据此提出 FedGR——用服务器端 GMM 在所有客户端聚合损失代理上联合筛选并估计每个客户端的噪声比例，再用全局参数定期"修正"本地 EMA 教师以做蒸馏，并加入全局-本地表征一致性正则。三模块协同，在双重异质 (label noise × non-IID) 设定下相比 8 个 SOTA 基线在 CIFAR-10/100 + Clothing1M 上稳定取得显著增益。
Learning Randomized Reductions: 本文把"发现某个函数 \(f\) 的随机自归约 (RSR)"这一沉寂四十年的人工任务，形式化成一个带相关采样的学习问题，并构建了 Bitween 框架：先用稀疏线性回归在固定查询集 \(\{x+r, x-r, x \cdot r, x, r\}\) 内挖掘 RSR，再让 LLM 智能体在更大的查询函数空间里搜索，最终在 80 个数学/ML 函数构成的 RSR-Bench 上把 RSR 覆盖率从 54% 推到 80%，并首次给出 sigmoid 的 RSR 表达式。
Limits of Convergence-Rate Control for Open-Weight Safety: 作者把"开源权重安全"形式化为"如何延缓恶意 fine-tune 的收敛速度"，证明 Hessian 谱的最大奇异值由权重谱下界决定，由此设计了能严格减慢一阶/二阶优化的 SpecDef 算法，但同时证明任何此类收敛率控制方法都能被攻击者以"线性模型尺寸增加"的代价绕过。
LiMuon: Light and Fast Muon Optimizer for Large Models: LiMuon 把 STORM 风格的动量方差缩减和随机 SVD（RSVD）一起塞进 Muon 优化器，把矩阵参数的动量从 \(m \times n\) 压成 \((m+n)\hat{r}\)、同时把求 \(\epsilon\)-稳态点的 SFO 复杂度从 \(\mathcal{O}(\epsilon^{-4})\) 降到 \(\mathcal{O}(\epsilon^{-3})\)，在 Mamba-130M / Qwen2.5-0.5B / ViT 上同时取得更低 perplexity / 更高 accuracy 和更小显存。
LoRe: Adaptive Interaction-Evaluation Routing with Per-Step Interaction Budgets for Iterative Graph Solvers: LoRe 把凝聚态物理里的「集团 + 浴场」分解搬到扩散式图组合优化求解器，做成训练免修的推理时包装器，在每一步只评估固定比例的高冲突边并用一个 \(\mathcal{O}(N)\) 的全局召回项补偿被丢弃的部分，让 MIS 求解突破 baseline OOM 上限 \(3\times\)、单卡跑 \(n=50\mathrm{k}\) 实例，TSP \(n=1000\) 上拿到 \(\sim 15\times\) 加速和 \(44\times\) 显存压缩。
Lower Complexity Bounds for Nonconvex-Strongly-Convex Bilevel Optimization with First-Order Oracles: 本文为光滑「非凸-强凸」双层优化在标准（确定性 / 随机）一阶 oracle 下首次给出与条件数 \(\kappa\) 强相关的复杂度下界——确定性情形 \(\Omega(\kappa^{3/2}\epsilon^{-2})\)、随机情形 \(\Omega(\kappa^{5/2}\epsilon^{-4})\)，证明双层问题在本质上比单层非凸和 min-max 优化更难，并暴露出现有上界与下界之间巨大的 \(\kappa\) 幂次缺口。
Memory-Efficient LLM Pretraining via Minimalist Optimizer Design: 本文用"自底向上拆解 Adam"的方式找出真正必须的两个组件——逐列梯度归一化 + 只在最后一层加一阶动量——把它们组合成 SCALE 优化器，用接近 SGD 的内存 (LLaMA 7B 上 13.74 GB) 达到了 Adam 级甚至超越 Muon/APOLLO 的预训练困惑度。
Minibatch Selection via Partition Matroid Constrained Gradient Matching: PartitionSel 把「跨域 minibatch 选择」建模成在划分拟阵约束（逐域预算）下最大化一个验证引导的加权梯度匹配效用，证明该目标单调且弱次模、可用正交匹配追踪（OMP）求解并带近似保证，从而在不训练任何代理模型的前提下，于每一步训练在 batch 级诱导出隐式的数据混合，减少跨域冗余与梯度冲突。
Mirror Descent Under Generalized Smoothness: 本文提出一种基于任意范数及其对偶范数的 \(\ell*\)-广义光滑性概念，并通过"广义自界引理"把梯度对偶范数控制在初始次最优间隙之内，从而首次为镜像下降及其加速、乐观、Mirror Prox、随机、复合等变体在非欧几何下建立了与经典 \(L\)-smooth 下匹配的收敛率。
Mirror Mean-Field Langevin Dynamics: 本文把 mean-field Langevin dynamics (MFLD) 与 mirror Langevin dynamics (MLD) 缝合成"镜像 mean-field Langevin dynamics" (MMFLD)，第一次给出在凸约束域 \(X\subseteq\mathbb{R}^d\) 上最小化熵正则化泛函 \(\mathcal{L}(\mu)=F(\mu)+\lambda\,\mathrm{Ent}(\mu)\) 的全局收敛算法 —— 连续时间下用均匀 mirror LSI 证 \(e^{-2C_{\mathrm{LSI}}\lambda t}\) 线性收敛，离散化下用 \(N\)-粒子 + Euler-Maruyama 给出 uniform-in-time propagation of chaos。
Multi-Objective Bayesian Optimization via Adaptive ε-Constraints Decomposition: STAGE-BO 把 MOBO 重写成一串"由 fill distance 自适应选门限"的 ε-约束单目标贝叶斯子问题，用 cEI 求解，从而在不算 hypervolume 的前提下取得均匀的 Pareto 前沿覆盖，并天然兼容硬约束与用户偏好。
Muon in Associative Memory Learning: Training Dynamics and Scaling Laws: 本文在带 softmax 检索和分层频谱的线性关联记忆模型上，对 Muon 进行收敛速率与缩放律的理论刻画：相对 GD，Muon 在无噪声情形获得指数级加速，在幂律频谱噪声情形将损失收敛律从 \(\tilde{\Omega}(T^{-(1-1/\beta)})\) 提升到 \(\tilde{\mathcal{O}}(T^{-2})\)，并把这一加速归因于矩阵符号算子等价于一个自适应任务对齐的隐式预条件子。
Neural QAOA\(^2\): Differentiable Joint Graph Partitioning and Parameter Initialization for Quantum Combinatorial Optimization: 用一个生成-评估神经网络（GEN）一次性地把 QAOA² 的"图分割 + 量子电路参数初始化"两件事联合可微化：评估器学一个高保真的 quantum performance surrogate，生成器在它的梯度引导下吐出离散分区 + 参数初值，配合直通估计器 + 正交补头让端到端可训练；在 183 个 QUBO/Ising/MaxCut 实例（21-1000 变量）上超越启发式 baseline，101 个实例排第一。
On the Convergence Rate of LoRA Gradient Descent: 本文首次在不假设 adapter 矩阵有界、不要求重参数化损失 Lipschitz 平滑的前提下，证明了原始 LoRA 梯度下降的最小梯度范数以 \(O(1/\log T)\) 速率收敛（若参数范数有界则恢复经典 \(O(1/T)\)），并据此设计了与理论严格对应的自适应/归一化学习率，在 logistic regression、ResNet-18、TinyLlama 上验证了训练加速与稳定性提升。
On the Expressive Power of GNNs to Solve Linear SDPs: 本文从 Weisfeiler–Leman 层级的角度首次刻画了学习线性 SDP 解所需的最小 GNN 表达力，证明标准的变量-约束二部图消息传递（VC-WL）和高阶 VC-2-WL 都不够，而 2-FWL 等价的 VC-2-FWL 架构足以仿真 PDHG 求解器的更新步骤，并在合成与 SDPLIB 上把高质量预测用作 warm-start，最多带来约 80% 的加速。
On the Interaction of Batch Noise, Adaptivity, and Compression, under \((L_0,L_1)\)-Smoothness: An SDE Approach: 本文指出文献中标准一阶 / 二阶 SDE 在 \((L_0,L_1)\)-光滑下完全错失学习率稳定性约束（甚至预测发散区间也收敛），通过在漂移项中把曲率项符号翻正，作者构造出一族"稳定性忠实"的一阶弱近似 SDE，首次在统一框架内分析 DCSGD 与 DSignSGD 在压缩 + 仿射方差 + 重尾噪声下的收敛性，并给出归一化强度该如何选取的具体处方。
On the Provable Suboptimality of Momentum SGD in Nonstationary Stochastic Optimization: 本文从理论上证明：在最优点随时间漂移的非平稳强凸随机优化中，动量 SGD 因"惯性滞后"系统性劣于普通 SGD，性能恶化的代价是 \((1 - \beta)^{-2}\) 量级的放大因子；并通过信息论下界论证这种代价不是分析的产物，而是任何方法不可避免的根本障碍。
PathWise: Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs: PathWise 把 LLM 自动启发式设计（AHD）重新建模成一条在"蕴含图"上展开的序列决策过程，由策略 / 世界模型 / 双评价四个 LLM 智能体协作，用反思替代梯度更新，在 TSP、CVRP、KP、装箱等问题上以 50% 的评估预算超过 FunSearch、EoH、ReEvo、HSEvo、MCTS-AHD 等主流基线。
Probing Neural TSP Representations for Prescriptive Decision Support: 作者把训练好的 TSP 神经求解器视作"可迁移编码器",用冻结表征 + 轻量探针预测两类昂贵的运筹敏感性查询(节点移除与边禁用),系统证明探针准确率随求解器质量单调提升,可以与传统启发式集成达到 SOTA。
Provably Data-Driven Lagrangian Relaxation for Mixed Integer Linear Programming: 本文给"学预测 Lagrangian 乘子加速 MILP"这一经验路线第一次配上了严格的统计学习理论：导出 \(\mathcal{O}(s^{1.5}/\sqrt{N})\) 的 ERM 泛化上界 + \(\Omega(s/\sqrt{N})\) 的 minimax 下界 + 用 SGA 平均算法构造性达到 \(\Theta(s/\sqrt{N})\) 最优率，并证明转成"学暖启动初值"后样本复杂度可以提升到 \(\Theta(s/N)\)。
Pseudospectral Bounds for Transient Amplification in Coupled Gradient Descent: 本文为 block-triangular Jacobian \(J = \begin{bmatrix} A & 0 \\ C & D \end{bmatrix}\) 的耦合梯度下降建立尖锐的 Kreiss 常数界 \(K(J) \leq 2/(1-\gamma) + \|C\|/(4(1-\gamma))\)，并给出匹配下界——揭示了即使谱半径 < 1，瞬态放大也可能任意大；这套理论作为高维学习动力学的 scaling law，给出 \(O(K(J)^2 \log(1/\delta))\) 的有限时迭代复杂度，并扩展到 nearly self-referential 系统。
Rethinking the Flow-Based Gradual Domain Adaptation: A Semi-Dual Optimal Transport Perspective: 把"用流模型造中间域"的渐进域适应（GDA）重写成熵正则化的半对偶非平衡最优传输（E-SUOT）问题，绕开对目标域概率密度（PDF）的显式估计，直接学一串把源域样本逐步推到目标域的传输映射，在 Portraits / MNIST-rot / Office-Home 上稳定超过现有 GDA/UDA 方法。
RACO: Reward-free Alignment for Conflicting Objectives: RACO 把多目标 LLM 偏好对齐做成多目标优化问题——每个目标走自己的 DPO 损失，用 clipped CAGrad（CAGrad + 按用户权重剪裁系数）解决梯度冲突；理论证明收敛到尊重 user-specified 权重的 Pareto-critical 点（两目标场景下 clipping 严格加速），实证在 Qwen 3 / Llama 3 / Gemma 3 多模型族上一致拿到更好的 Pareto 折中。
RMNP: Row-Momentum Normalized Preconditioning for Scalable Matrix-Based Optimization: 本文基于 Transformer 层级 Hessian 的「行块对角占优」结构，把 Muon 优化器里昂贵的 Newton-Schulz 正交化换成一次行级 \(\ell_2\) 归一化，将每步预条件复杂度从 \(\mathcal{O}(mn\min(m,n))\) 降到 \(\mathcal{O}(mn)\)，在 GPT-2 / LLaMA 预训练上 wall-clock 提速 13–44×、ppl 不降反略升。
SPSsafe: Safeguarded Stochastic Polyak Step Sizes for Non-smooth Optimization: SPSsafe 把 Stochastic Polyak Step Size (SPS) 扩展到非光滑随机优化——既不需要 interpolation 假设也不需要知道最优值，配合动量（IMA = SHB 等价形式）仍保有严格收敛保证；在 DNN 训练上比已有自适应方法（AdaGrad、Adam、DecSPS 等）更稳健，且梯度范数不塌缩到近零（抗梯度消失）。
Selecting Samples on Graphs: A Unified Dataset Pruning Framework for Lossless Training Acceleration: 把数据集剪枝重新建模成一张带权图上的「最大权团问题」（节点权 = 样本自身价值、边权 = 样本间冗余/多样性关系），证明在温和条件下该统一目标是子模的，于是用一个带逼近保证的贪心算法求解，在 ImageNet-1k + ResNet-50 上把训练时间砍掉 40%+ 而精度不掉。
Sharp Description of Local Minima in the Loss Landscape of High-Dimensional Two-Layer ReLU Networks: 本文在教师-学生两层 ReLU 网络的高维 Gaussian 输入设定下，用一组关于权重重叠 \((Q,R)\) 的精确低维概要统计方程，给出 population loss 所有局部极小的层级化分类，并刻画过参数化如何把低阶 spurious 极小变成鞍点、把高阶极小保留下来，从而首次同时调和了 Safran–Shamir 的存在性结果、Arjevani–Field 的群论分类和 Safran 等人的 Hessian 失稳论。
Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression: 本文揭示训练后的权重符号矩阵在所有架构上都与 i.i.d. Rademacher 噪声难以区分，从而构成亚比特压缩的"一比特墙"，并用停时分析证明这种伪随机性其实是初始化符号的"锁定"——再据此提出低秩符号模板 + 间隙初始化 + 边界对数障碍正则的从头训练方案，把符号位摊销到接近 0 bit/weight。
Stability Analysis of Sharpness-Aware Minimization: 本文从动力系统视角剖析 SAM 在鞍点附近的收敛不稳定：先在确定性梯度流下证明只要邻域半径 \(\rho > -1/\lambda_1\)，鞍点就会变成 SAM 的吸引子；再在随机扩散框架下证明 SAM 的鞍点逃逸均方位移比 SGD 小 \(2\eta t^2|\lambda_j|^3\rho/B\)；最后用 SAM 扩散公式解释 momentum 和 batch size 为什么是 SAM 取得 SOTA 泛化性能的真正幕后功臣。
SVRG and Beyond via Posterior Correction: 论文证明了经典的方差缩减算法 SVRG 其实是贝叶斯"后验校正"（PoCo）在各向同性高斯后验下的一个特例，并由此自动推导出两类此前难以得到的新扩展——一个会同时校正 Hessian 的 Newton 型变体，和一个能扩展到深度学习的 Adam 型变体（IVON-PoCo）。
SyMerge: From Non-Interference to Synergistic Merging via Single-Layer Adaptation: 本文把"模型合并"的目标从"避免任务干扰"重新定义为"促进任务协同"，提出 SyMerge：只联合优化每个任务的一个 task-specific 层和编码器的层级 merging 系数，再用 fine-tuned 专家模型当软标签老师，避免熵最小化在测试时漂移，从而在视觉/密集预测/NLP 三类基准上把合并模型推到接近单任务上限的水平。
Taming the Loss Landscape of PINNs with Noisy Feynman-Kac Supervision: Operator Preconditioning and Non-Asymptotic Error Bounds: 在 PINN 损失里加入由 Feynman–Kac 公式蒙特卡洛模拟得到的少量内点伪标签，本质上就是给 PDE 算子做了一次预条件——本文同时给出"条件数在 collocation 数 \(N\) 上保持有界"的算子级证明和带 \(\tanh\) 激活的非渐近 \(L^2\) 误差界，且在 Schrödinger、Poisson、committor 等问题上让本来彻底失败的 PINN 重新可解。
Test time training enhances in-context learning of nonlinear functions: 本文给单层 softmax-attention transformer + LoRA 测试时微调的组合建立了首个严格泛化界，证明在 single-index 多项式任务上 TTT 把 ICL 的样本复杂度从 \(r^{\Theta(\mathrm{ie}(\sigma_*))}\) 压到 \(r^{\Theta(\mathrm{ge}(\sigma_*))}\) 并允许 link 函数逐任务变化、推理误差可随上下文长度 \(\to\) 噪声水平。
The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks: 本文证明：在光滑 \(L\)-同质模型 + 指数尾损失 + 学习率衰减的设定下，Muon（含 Muon-Signum、Muon-Adam）作为带动量的"归一化最速下降"会收敛到对应范数 max-margin 问题的 KKT 点；Adam（无稳定常数）则收敛到 \(\ell_\infty\) max-margin 的 KKT 点，从而把以往仅对线性模型成立的隐式偏置结论一次性提升到所有光滑同质网络。
Towards Understanding Adam Convergence on Highly Degenerate Polynomials: 本文挑出一类高阶退化多项式 \(L(x)=\tfrac{1}{k}x^k\)（\(k\ge 4\) 偶数）作为最小问题模型，证明在常数学习率下 Adam 通过 \(v_t\) 与 \(g_t^2\) 的"解耦"机制把有效学习率指数放大，从而实现局部线性收敛，而 GD 与动量在同一问题上只能拿到 \(\Theta(t^{-1/(k-2)})\) 的次线性速率，并完整刻画了 Adam 在 \((\beta_1,\beta_2)\) 平面上"稳定收敛 / spike / SignGD 振荡"三个相区。
Towards Understanding Continual Factual Knowledge Acquisition of Language Models: From Theory to Algorithm: 作者在简化单层线性注意力 Transformer 上推出闭式训练动力学，证明正则化方法只能改变收敛速度而无法挪动收敛点（因此在 cFKA 场景几乎注定失效），数据回放则能直接改变收敛点并加大震荡幅度从而稳住旧知识，进而提出按 token 注意力贡献裁切片段、引导预训练模型生成回放语料的 STOC，在合成 + KnowEdit + IndustryCorpus 法律语料上一致比 LAMOL 更能压制遗忘。
TPV: Parameter Perturbations Through the Lens of Test Prediction Variance: 作者把"训好模型对参数扰动的局部预测敏感度"形式化为 Test Prediction Variance（TPV），证明其在一阶近似下化为 \(\mathrm{Tr}(H_{\mathrm{eff}}C)\) 的迹形式，从而把 SGD 噪声、标签噪声、量化、剪枝放进同一个曲率–协方差框架，并给出一个完全用训练集就能估计 TPV 的稳定性定理，落地为 label-free 剪枝准则 JBR 和无需测试标签的模型选择信号。
Ubiquity of Emergent Hebbian Dynamics in Regularized Learning: 本文证明：在 L2 权重衰减附近的稳态附近，几乎任何学习规则（SGD、Adam、DFA，甚至随机网络）的学习信号都会自发朝 Hebbian 方向对齐，而足够强的噪声又会把它翻成 anti-Hebbian，并在 \(\gamma \propto \sigma^2\) 处出现明确的相变边界。
URS：统一的神经路由求解器: 提出统一数据表示（UDR）和混合偏差模块（MBM）来替代问题枚举——使单个神经模型能无需微调地零样本泛化到 110 个 VRP 变体（99 个未见过）。
Utility-Diversity Aware Online Batch Selection for LLM Supervised Fine-tuning: UDS 提出一种用于 LLM 监督微调（SFT）的高效在线批选择框架：仅靠前向传播得到的 logits 矩阵核范数同时刻画样本的「优化效用 + 句内多样性」，再用 logits 的低维双线性随机投影与历史样本内存缓冲区做相似度匹配来度量「句间多样性」，两者加权后选 top-K 训练——既不依赖参考模型/验证集等外部资源，也不做额外反传，因此比全量 SFT 更快、且在多个基准上稳定超过现有在线批选择 SOTA。
变分适配器跨模态相似度表示: 通过变分推理框架学习连续的跨模态相似度分布——用自适应不确定度权重缓解二元标注导致的虚假负样本问题，显著提升 VLM 在跨模态检索和域泛化任务中的性能。
\(α\)-PFN: Fast Entropy Search via In-Context Learning: 这篇论文用两阶段的 Prior-data Fitted Networks（PFN）把熵搜索（Entropy Search）这一类信息论采集函数"摊销"成单次前向传播——先训一个能在已知最优点信息条件下做预测的 base PFN，再训一个直接吐出信息增益分布的 \(α\)-PFN，从而绕过原来又慢又复杂的蒙特卡洛近似，在合成和真实 HPO 基准上性能与 SOTA 熵搜索相当，但提速最高 70 倍以上。