📐 优化/理论¶

🧠 NeurIPS2025 · 117 篇论文解读

📌 同领域跨会议浏览： 💬 ACL2026 (1) · 📷 CVPR2026 (10) · 🔬 ICLR2026 (45) · 🤖 AAAI2026 (24) · 📹 ICCV2025 (8) · 🧪 ICML2025 (58)

🔥 高频主题： 联邦学习 ×12 · LLM ×11 · 对抗鲁棒 ×9 · 推理 ×7 · 对齐/RLHF ×3

A Single-Loop First-Order Algorithm for Linearly Constrained Bilevel Optimization: 针对下层问题带耦合线性约束的双层优化问题，提出单循环一阶算法 SFLCB，通过罚函数 + 增广拉格朗日重构消除 Hessian 依赖，将迭代复杂度从 \(O(\epsilon^{-3}\log(\epsilon^{-1}))\) 改进至 \(O(\epsilon^{-3})\)。
A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning: 提出首个针对基于采样的测试时缩放方法的理论框架，将推理误差分解为估计误差和模型误差，揭示了Self-Consistency收敛慢、Perplexity模型误差大的局限，并提出RPC方法融合两者优势，在7个基准上以50%的采样成本达到同等推理性能。
A Unified Approach to Submodular Maximization Under Noise: 本文提出一个统一的元算法框架，能将任何满足"鲁棒性"条件的精确子模最大化算法作为黑盒，自动转换为持久噪声值预言机下保持近似比（仅损失 \(o(1)\)）的算法，首次实现了非单调子模函数在拟阵约束和无约束设置下的最优近似比。
A Unified Stability Analysis of SAM vs SGD: Role of Data Coherence and Emergence of Simplicity Bias: 通过线性稳定性分析框架，证明了"平坦极小值⇒好泛化"和"SGD偏好简单函数"是同一枚硬币的两面——数据一致性(coherence)同时控制着两者，且SAM通过更严格的稳定性条件进一步放大了简单性偏好。
Adaptive Algorithms with Sharp Convergence Rates for Stochastic Hierarchical Optimization: 提出Ada-Minimax和Ada-BiO两个自适应算法，通过将动量归一化技术与新型在线噪声估计策略结合，首次在无需预知梯度噪声水平的情况下，为非凸-强凹极小极大和非凸-强凸双层优化达到sharp收敛率Õ(1/√T + √σ̄/T^{1/4})。
An Adaptive Algorithm for Bilevel Optimization on Riemannian Manifolds: AdaRHD 是首个无需预知问题参数（强凸常数、Lipschitz 界、流形曲率）的黎曼双层优化自适应算法——通过逆累计梯度范数策略自适应选择步长，在三阶段框架中逐步求解下层问题/线性系统/上层更新，收敛速率 \(O(1/\epsilon)\) 匹配非自适应方法，对初始步长选择鲁棒性远超 RHGD。
Asymptotically Stable Quaternionic Hopfield Structured Neural Network with Supervised Projection-based Manifold Learning: 提出四元数值监督学习 Hopfield 结构神经网络 (QSHNN)，通过周期性投影策略保持权重矩阵的四元数结构一致性，并基于 Lyapunov 理论证明了不动点的存在唯一性和渐近稳定性，轨迹曲率有界保证机器人路径规划的平滑性。
Auto-Compressing Networks: Auto-Compressing Networks（ACN）用长程前向连接（所有层输出直接汇聚到最终输出）替代短残差连接，使得梯度的 Direct Gradient 成分远强于 Forward Gradient，隐式地将信息压缩到早期层——ViT 仅需 6 层达到标准 12 层性能，BERT 节省 75% 层数，还额外获得噪声鲁棒性（+6.4%）和持续学习抗遗忘（-18%）。
Automated Algorithm Design via Nevanlinna-Pick Interpolation: 提出基于频域鲁棒控制理论中 Nevanlinna-Pick 插值的自动化算法设计框架，用于求解带等式约束的强凸优化问题，获得了矩阵乘法次数与收敛速率之间的最优权衡。
AutoOpt: A Dataset and a Unified Framework for Automating Optimization Problem Solving: AutoOpt 构建了首个优化问题图像到代码的端到端框架——11554 张优化公式图像（手写+印刷）的 AutoOpt-11k 数据集 + M1 混合编码器（ResNet+Swin→mBART）图像转 LaTeX（BLEU 96.70）+ M2 DeepSeek-Coder LaTeX 转 PYOMO + M3 双层分解求解器，框架级成功率 94.20%。
Better NTK Conditioning: A Free Lunch from ReLU Nonlinear Activation in Wide Neural Networks: 证明 ReLU 激活函数对宽神经网络有一个此前未被注意的"免费"益处：(a) 在模型梯度特征空间中产生更好的数据分离（相似输入的角度在梯度空间中被放大），(b) 由此导致 NTK 矩阵条件数严格减小（相比线性网络）。深度进一步放大此效应——在无限宽然后无限深的极限下，所有数据对在梯度空间中等角分离（~75.5°），NTK 条件数收敛到仅依赖数据量 \(n\) 的固定值 \((n+4)/3\)。
Beyond Õ(√T) Constraint Violation for Online Convex Optimization with Adversarial Constraints: 研究带对抗约束的在线凸优化 (COCO)，通过引入可调参数 \(\beta\) 实现 \(\tilde{O}(T^\beta)\) 遗憾与 \(\tilde{O}(T^{1-\beta})\) 约束违反之间的精确权衡，突破了此前 \(\tilde{O}(\sqrt{T})\) 约束违反的已知最优界。
Brain-like Variational Inference: 提出 FOND 框架（Free energy Online Natural-gradient Dynamics），从自由能最小化的第一原理推导出脉冲神经网络推断动力学，并实现 iPVAE（迭代泊松 VAE），在重建-稀疏性权衡、生物合理性和 OOD 泛化上优于标准 VAE 和预测编码模型。
Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment: 本文提出 PrefCleanBench，首个系统评估 13 种偏好数据清洗方法在 LLM 对齐中效果的综合基准，覆盖多种数据集、模型架构和优化算法，揭示了数据预处理在负责任 AI 开发中被忽视但至关重要的角色。
Composing Global Solutions to Reasoning Tasks via Algebraic Objects in Neural Nets: 提出 CoGS 框架，证明二层二次激活网络在 Abelian 群乘法推理任务上的权重空间具有半环代数结构，损失函数中的 Sum Potential 是环同态映射，由此可从仅满足部分损失的局部解通过环加法和环乘法代数地组合出全局最优解，约 95% 的梯度下降解与理论构造精确匹配。
Composing Global Solutions to Reasoning Tasks via Algebraic Objects in Neural Nets: 揭示两层二次激活网络在 Abelian 群推理任务上训练时权重空间具有半环代数结构，提出 CoGS 框架通过环运算将部分解组合为全局最优解，约 95% 梯度下降解与理论构造精确匹配。
Constrained Network Slice Assignment via Large Language Models: 探索用LLM（Claude系列）解决5G网络切片资源分配的约束优化问题，提出零样本LLM直接分配和LLM引导整数规划两种方法，发现LLM单独使用可产生合理的初始分配但可能违反约束，与ILP求解器结合则能实现100%完备性和均衡利用率。
Contribution of Task-Irrelevant Stimuli to Drift of Neural Representations: 理论证明在线学习中任务无关刺激的统计特性（方差和维度）是表示漂移的重要驱动因素，在 Oja 规则、Similarity Matching、自编码器和监督两层网络中均观察到漂移率 \(D \propto \lambda_\perp^2 (n-m)\)，且学习噪声诱导的漂移具有各向异性几何特征，与高斯突触噪声的各向同性漂移定性不同。
Covariances for Free: Exploiting Mean Distributions for Training-free Federated Learning: 提出 FedCOF，仅利用客户端上传的类均值（class means）即可在服务器端无偏估计类协方差矩阵，从而在零训练、极低通信开销的条件下初始化全局分类器，性能媲美甚至超越需要传输二阶统计量的 Fed3R。
DartQuant: Efficient Rotational Distribution Calibration for LLM Quantization: DartQuant 提出基于分布校准的旋转矩阵优化方法，通过 Whip 损失将激活值分布推向均匀分布以减少量化误差，并用 QR-Orth 替代昂贵的流形优化器，在 70B 模型上实现 47× 加速和 10× 内存节省，首次在单张 3090 GPU 上完成大模型旋转校准。
Deep Taxonomic Networks for Unsupervised Hierarchical Prototype Discovery: Deep Taxonomic Networks 提出一种基于完全二叉树混合高斯先验的深度潜变量模型，通过变分推断自动从无标签数据中发现层次化分类体系和各级原型聚类，无需预设类别数量，并在多个数据集上大幅超越 TreeVAE 等基线。
Do Neural Networks Need Gradient Descent to Generalize? A Theoretical Study: 本文在矩阵分解（神经网络理论的经典测试平台）上证明了 Guess & Check（随机抽参数直到拟合训练集）的泛化能力随宽度增加而退化（首次证明存在 G&C 可证明劣于梯度下降的典范情况），但随深度增加而改善，揭示了宽度和深度对泛化的截然不同作用。
Doubly Robust Alignment for Large Language Models: DRPO 借鉴因果推断中的双重稳健估计方法，提出一种偏好优化算法，当偏好模型或参考策略任一正确指定时即可保持一致性，在理论和实验上均优于 PPO/DPO 及其变体。
DynaAct: Large Language Model Reasoning with Dynamic Action Spaces: DynaAct 将 LLM 推理中的动作空间构建建模为子集选择问题，通过兼顾效用和多样性的子模函数在每步动态构建紧凑动作空间，在 6 个基准上显著优于 rStar、RAP 等方法，MATH-500 上比 rStar 高 6.8%。
Effective Policy Learning for Multi-Agent Online Coordination Beyond Submodular Objectives: 提出 MA-SPL 和 MA-MPL 两个多智能体在线协调算法，通过"基于策略的连续扩展"技术突破次模性限制，首次在次模和弱次模目标函数上均实现最优 \((1 - c/e)\) 近似比，支持时变目标和仅局部反馈的实际约束。
Efficient Adaptive Experimentation with Noncompliance: 提出 AMRIV——首个面向带非依从性（noncompliance）的自适应实验的半参数高效、多重鲁棒的ATE估计器，结合方差最优的工具变量分配策略和序贯推断保证。
Efficient Adaptive Federated Optimization: FedAda2/FedAda2++ 提出在联邦学习中实现高效的服务器-客户端联合自适应优化：客户端本地预条件器从零初始化（无需服务器传输），并可选地用 SM3 等内存高效优化器压缩本地统计量，在理论上保持与完整联合自适应相同的 \(O(T^{-1/2})\) 收敛率，实测通信成本与 FedAvg 一致。
Efficient Federated Learning against Byzantine Attacks and Data Heterogeneity via Aggregating Normalized Gradients: 提出 Fed-NGA 算法，通过对客户端上传的梯度做归一化后加权平均来实现聚合，以 \(\mathcal{O}(pM)\) 的极低时间复杂度同时抵御 Byzantine 攻击与数据异质性，并在非凸损失函数下首次证明了特定温和条件下的零最优性间隙收敛。
Emergence and Scaling Laws in SGD Learning of Shallow Neural Networks: 本文对浅层神经网络在线 SGD 学习加法模型（多个单指标函数叠加）的过程进行了精确分析，证明了每个教师神经元的学习呈现尖锐相变（emergence），而大量相变曲线的叠加自然产生平滑的幂律 scaling law。
Escaping Saddle Points without Lipschitz Smoothness: The Power of Nonlinear Preconditioning: 本文提出统一的充分条件连接 \((L_0,L_1)\)-光滑性与各向异性光滑性两种广义光滑框架，证明非线性预条件梯度法（含梯度裁剪）在此放松条件下保持鞍点规避性质，并给出扰动变体以多项对数维数依赖达到二阶稳定点。
Estimation of Stochastic Optimal Transport Maps: 提出适用于随机OT映射的传输误差指标 \(\mathcal{E}_p\)（由优化间隙与可行性间隙组成），在无需Brenier映射存在或唯一性的最小假设下，构造了计算高效的rounding估计器达到近最优收敛率 \(\tilde{O}(n^{-1/(d+2p)})\)，并推广至Hölder连续核与对抗污染场景，建立了首个通用OT映射估计理论。
Evaluating LLMs for Combinatorial Optimization: One-Phase and Two-Phase Heuristics for 2D Bin-Packing: 本文提出一个结合 LLM 与进化算法的系统性评估框架，用于评估 LLM 在 2D 装箱问题上生成和优化启发式算法的能力，GPT-4o 在 2 轮迭代内即达到最优解，将平均箱数从 16 降至 15，空间利用率从 0.76-0.78 提升至 0.83。
Exact and Linear Convergence for Federated Learning under Arbitrary Client Participation is Attainable: 本文引入随机矩阵和时变图作为建模工具，将联邦学习的客户端参与和本地更新过程统一为矩阵乘法形式，并提出 FOCUS 算法（基于 push-pull 策略），在任意客户端参与和数据异构下首次实现精确收敛与线性收敛速率。
Exploring Landscapes for Better Minima along Valleys: 本文提出优化器适配器"E"，通过在梯度更新中加入梯度差分的指数移动平均 \(\mathbf{a}_k = \text{EMA}(\mathbf{g}_k - \mathbf{g}_{k-1})\) 使优化器能在到达局部极小值后继续沿损失景观的"山谷"探索更低更平坦的极小值，适配后的 ALTO 在大批量训练中平均提升 2.5% 测试准确率。
Extragradient Method for \((L_0, L_1)\)-Lipschitz Root-finding Problems: 本文在 \(\alpha\)-对称 \((L_0,L_1)\)-Lipschitz 条件下（放松经典 \(L\)-Lipschitz 假设）为 extragradient (EG) 方法提出自适应步长策略 \(\gamma_k = 1/(c_0 + c_1\|F(x_k)\|^\alpha)\)，建立了强单调（线性收敛）、单调（次线性收敛）和 weak Minty（局部收敛）三类根问题的首个完整收敛保证。
Faster Algorithms for Structured John Ellipsoid Computation: 针对对称凸多面体 \(P = \{x \in \mathbb{R}^d : -\mathbf{1}_n \leq Ax \leq \mathbf{1}_n\}\) 的 John 椭球计算问题，提出两个快速算法：基于 sketching 的近输入稀疏度算法 \(\widetilde{O}(\text{nnz}(A) + d^\omega)\) 每次迭代，和基于树宽的算法 \(O(n\tau^2)\) 每次迭代，均显著优于已有最优 \(O(nd^2)\)。
FedQS: Optimizing Gradient and Model Aggregation for Semi-Asynchronous Federated Learning: 提出 FedQS，首个同时优化半异步联邦学习（SAFL）中梯度聚合和模型聚合策略的框架，通过将客户端分为四类并自适应调整训练策略，在准确率、收敛速度和稳定性上全面超越基线。
FedRTS: Federated Robust Pruning via Combinatorial Thompson Sampling: 将联邦动态剪枝重新建模为组合多臂赌博机(CMAB)问题，提出基于 Thompson Sampling 的拓扑调整机制 TSAdj，通过概率性决策替代确定性决策来获得更鲁棒的稀疏模型拓扑，同时显著降低通信开销。
From Average-Iterate to Last-Iterate Convergence in Games: A Reduction and Its Applications: 提出 A2L (Average to Last-iterate) 黑箱规约，对效用函数关于自身策略和对手联合策略均线性的博弈，能将任意非耦合学习动力学的平均迭代转换为新动力学的末迭代，由此在多人零和多矩阵博弈中取得 \(O(\log d / T)\) 梯度反馈和 \(\tilde{O}(d^{1/5}T^{-1/5})\) bandit 反馈的 SOTA last-iterate 收敛率。
From Information to Generative Exponent: Learning Rate Induces Phase Transitions in SGD: 系统刻画了在学习高斯单指标模型时，学习率如何在"information exponent 主导"和"generative exponent 主导"两个样本复杂度体制之间引发相变，并提出了一种新的逐层交替 SGD 算法，无需复用样本即可突破 CSQ 下界。
From Linear to Nonlinear: Provable Weak-to-Strong Generalization through Feature Learning: 本文首次在非线性特征学习设定（线性 CNN → 两层 ReLU CNN）下严格分析了 weak-to-strong 泛化现象，揭示了数据匮乏和数据丰富两种机制下的不同行为：前者通过良性过拟合实现泛化（或因有害过拟合失败），后者通过早停的标签纠正实现泛化（但过训练会退化）。
Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules: 在幂律核回归模型中建立了 Functional Scaling Law (FSL)，通过引入"内在时间"概念统一刻画任意学习率调度下的完整 loss 轨迹，并推导出常数/指数衰减/WSD 三种调度在数据受限和计算受限条件下的显式 scaling 关系，理论解释了 WSD 优于纯衰减的经验现象。
Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers: 本文论证 LLM 的泛化能力和幻觉产生源于同一机制——脱语境推理（OCR），并在单层注意力模型上理论证明：分解参数化 \((W_O, W_V)\) 因梯度下降的核范数隐式偏差而能执行 OCR，而合并参数化 \(W_{OV}\) 因 Frobenius 范数偏差而不能，且 OCR 是样本高效的（仅需 \(m_{\text{train}}>0\)）。
Gradient Descent as Loss Landscape Navigation: a Normative Framework for Deriving Learning Rules: 提出将学习规则视为在（部分可观测的）损失景观中的最优导航策略，通过变分法求解连续时间最优控制问题，在统一框架下推导出梯度下降、动量、自然梯度、Adam及持续学习策略。
Implicit Bias of Spectral Descent and Muon on Multiclass Separable Data: 本文首次完整刻画了归一化最速下降（NSD）和归一化动量最速下降（NMD）在多分类线性可分数据上的隐式偏差：这些算法以 \(\mathcal{O}(1/\sqrt{t})\) 的速率收敛到相应 \(p\)-范数的最大 margin 解，涵盖 Spectral Descent（谱范数）和 Muon 作为特例，并扩展至 Adam（max-范数 margin）。
Improving the Straight-Through Estimator with Zeroth-Order Information: 本文提出 FOGZO（First-Order-Guided Zeroth-Order Gradient Descent），将 STE 梯度作为偏置源注入零阶梯度估计中，在保留 STE 的计算效率的同时利用零阶信息纠正 STE 的偶发错误方向，仅多 2 次前向传播即在 DeiT、ResNet、LLaMA 上实现 1-22 点的精度/困惑度改善。
In Search of Adam's Secret Sauce: 本文通过训练 1500+ 语言模型的大规模实验发现：(1) Signum 虽能缩小 96% 的 SGD-Adam 差距，但仍比 Adam 慢 25%；(2) 设 \(\beta_1 = \beta_2\) 是 Adam 的近最优简化；(3) 在 \(\beta_1 = \beta_2 = \beta\) 下 Adam 可被重新解读为基于在线高斯变分推断估计梯度均值和方差的信噪比自适应 Signum。
Isotropic Noise in Stochastic and Quantum Convex Optimization: 本文引入各向同性随机梯度预言机（ISGO）概念——噪声在每个方向上都以高概率有界——并设计随机切平面算法达到 \(\tilde{O}(R^2\sigma_I^2/\epsilon^2 + d)\) 的查询复杂度，较 SGD 在某些参数区间改进 \(d\) 倍，作为推论获得了 sub-exponential 噪声下的新 SOTA 复杂度，并通过量子各向同性化子程序改进了量子随机凸优化的维度依赖。
Kernel Learning with Adversarial Features: Numerical Efficiency and Adaptive Regularization: 提出在再生核希尔伯特空间（RKHS）中将对抗扰动从输入空间转移到特征空间的新范式，使内层最大化可精确求解，并通过迭代加权核岭回归高效优化，同时自适应正则化无需调参即可匹配交叉验证性能。
Large Language Bayes: 将 LLM 和概率编程语言（PPL/Stan）数学地"胶合"成联合分布 \(p(z,x,m|t) = p(m|t)_{\text{LLM}} \cdot p(z,x|m)_{\text{PPL}}\)，用户只需提供非形式化的问题描述和数据，系统自动从 LLM 采样候选形式模型、做贝叶斯推断、通过边际似然加权平均，无需用户编写概率模型。
Large Stepsizes Accelerate Gradient Descent for Regularized Logistic Regression: 证明了在线性可分数据上对 \(\ell_2\) 正则化逻辑回归使用大步长 GD（进入 Edge of Stability 区间），可将步复杂度从经典的 \(\widetilde{O}(\kappa)\) 加速到 \(\widetilde{O}(\sqrt{\kappa})\)，在小正则化下匹配 Nesterov 动量的加速率。
Layer-wise Update Aggregation with Recycling for Communication-Efficient Federated Learning: 提出 FedLUAR：基于梯度-权重比的层级优先级度量选择低优先级层复用上一轮梯度（而非丢弃），在仅 17% 通信开销下保持与 FedAvg 几乎相同的精度。
Learning at the Speed of Physics: Equilibrium Propagation on Oscillator Ising Machines: 首次将 Equilibrium Propagation（EP）完整映射到振荡器 Ising Machine（OIM）硬件上，利用 GHz 物理动力学实现无反向传播的局部学习，在 MNIST/Fashion-MNIST 上达到 97.2%/88.0% 精度，并展示在参数量化和噪声下的鲁棒性。
Learning from Interval Targets: 研究仅有区间标签（上下界）的回归问题，建立了基于假设类平滑性的非渐进泛化界（不依赖小 ambiguity degree 假设），并提出 minmax 学习框架利用平滑约束限制最坏情况标签，在 18 个真实数据集上显著优于无约束方法。
Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis: 证明正交多索引模型 \(f_*(\mathbf{x}) = \sum_{k=1}^P \phi(\mathbf{v}_k^* \cdot \mathbf{x})\) 可通过两阶段在线 SGD 以 \(\tilde{O}(dP^{L-1})\) 样本复杂度学习（\(L\) 为链接函数最低高阶 Hermite 阶），远优于仅用最低阶信息的 \(\tilde{O}(Pd^{L-1})\)——关键在于先用 2 阶项恢复子空间，再用 \(L\) 阶项恢复方向，联合利用不同阶的 Hermite 分量。
Learning Parameterized Skills from Demonstrations: 提出 DEPS，一种端到端从专家示范中发现参数化技能的算法，通过三层层次策略（离散技能选择→连续参数选择→底层动作）和信息瓶颈设计，学习可解释且可泛化的技能抽象，在LIBERO和MetaWorld上显著优于基线。
Learning Provably Improves the Convergence of Gradient Descent: 首次严格证明了基于unrolling的Learn to Optimize (L2O)框架（Math-L2O）的训练收敛性，利用NTK理论建立了线性收敛速率，并提出确定性初始化策略确保L2O可证明地改善梯度下降算法的收敛性能，实验验证相比标准GD提升超50%的最优性。
Learning Quadratic Neural Networks in High Dimensions: SGD Dynamics and Scaling Laws: 对高维情形下二次激活函数两层神经网络的梯度训练进行了精确分析，针对数据由 \(f_*(x) \propto \sum_{j=1}^r \lambda_j \sigma(\langle \theta_j, x \rangle)\) 生成的设定，在宽度 \(r \asymp d^\beta\) 和系数幂律衰减 \(\lambda_j \asymp j^{-\alpha}\) 下，推导出预测风险关于优化时间、样本量和模型宽度的缩放律。
Learning Reconfigurable Representations for Multimodal Federated Learning with Missing Data: 提出 PEPSY 框架，通过学习客户端侧的嵌入控制来编码数据缺失模式，将全局聚合表示重新配置为适应各客户端本地上下文的数据完整特征，在多模态联邦学习中处理模态缺失和特征缺失两类问题。
Learning Single-Index Models via Harmonic Decomposition: 提出以球谐函数（spherical harmonics）代替 Hermite 多项式作为单指标模型（SIM）的自然基底，利用旋转对称性刻画任意球对称输入分布下学习 SIM 的样本与计算复杂度，构造了两族最优估计器（张量展开 + 在线 SGD），并揭示了高斯情形之外出现的样本-运行时间权衡现象。
Learning Sparse Approximate Inverse Preconditioners for Conjugate Gradient Solvers on GPUs: 提出一种基于图神经网络（GNN）的稀疏近似逆（SPAI）预条件子学习方法，利用 SPAI 的局部性与 GNN 消息传递的天然兼容性，并引入尺度不变损失函数（SAI loss），在 GPU 上实现 40%-53% 的求解时间缩减（68%-113% 加速）。
Learning Theory for Kernel Bilevel Optimization: 首次为核双层优化（KBO）建立了有限样本泛化界，证明目标函数值和梯度的插入估计误差均以\(\mathcal{O}(1/\sqrt{m}+1/\sqrt{n})\)的参数速率一致收敛，并将该理论应用于双层梯度下降算法的统计精度分析。
Learning to Insert for Constructive Neural Vehicle Routing Solver: 提出 L2C-Insert，首个基于学习的插入式构造范式用于神经组合优化，通过允许在部分解的任意合法位置插入节点（而非仅追加到末尾），显著提升 TSP/CVRP 的构造质量和灵活性。
Least Squares Variational Inference: 提出 LSVI（Least Squares Variational Inference），一种无梯度、基于普通最小二乘回归的变分推断方法，在指数族内通过对温控 log-target 做 OLS 回归来迭代求解最优变分近似，对高斯族有高效的 \(O(d^3)\)（全协方差）或 \(O(d)\)（平均场）实现。
MAR-FL: A Communication Efficient Peer-to-Peer Federated Learning System: 提出 MAR-FL 系统，通过 Moshpit All-Reduce 机制和动态分组聚合，将 P2P 联邦学习的通信复杂度从 \(O(N^2)\) 降至 \(O(N \log N)\)，同时保持对网络抖动的鲁棒性。
MDNS: Masked Diffusion Neural Sampler via Stochastic Optimal Control: 提出 Masked Diffusion Neural Sampler (MDNS)，基于连续时间马尔可夫链（CTMC）的随机最优控制理论，通过对齐路径测度来训练离散神经采样器，在状态空间基数高达 \(10^{122}\) 的 Ising/Potts 模型上准确采样，大幅超越现有学习型基线。
MeCeFO: Enhancing LLM Training Robustness via Fault-Tolerant Optimization: MeCeFO 提出了一种面向 LLM 训练的容错优化算法，当计算节点故障时通过跳连接、选择性激活重计算和低秩梯度近似三个技术将额外开销降到最低，在高频故障下仅有 4.18% 的吞吐量下降。
Memory-Augmented Potential Field Theory: A Framework for Adaptive Control in Non-Convex Domains: 提出记忆增强势场理论（MAPFT），在随机最优控制中维护一个动态记忆模块来检测并编码状态空间的拓扑特征（局部最小值、低梯度区等），通过动态修改价值函数景观实现非凸环境下的自适应控制，在 Humanoid-v4 等任务上比最优 RL 方法（SAC）提升 27% 累积奖励，且局部最优逃逸率从 ~30% 提升到 ~72%。
MESS+: Dynamically Learned Inference-Time LLM Routing in Model Zoos with Service Level Guarantees: MESS+是首个将LLM请求路由形式化为带SLA约束的随机优化问题的框架，通过在线学习的请求满足度预测器+虚拟队列机制动态选择模型，在3个推理和5个问答基准上以满足SLA约束的前提下实现平均2倍的成本节省，并提供成本最优性和约束满足的理论保证。
MOBO-OSD: Batch Multi-Objective Bayesian Optimization via Orthogonal Search Directions: 提出MOBO-OSD算法，通过在逼近的个体极小值凸包（CHIM）上定义正交搜索方向来生成多样化的Pareto最优解，结合Pareto前沿估计和批量选择策略，在合成与真实基准上持续超越SOTA多目标贝叶斯优化方法。
Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent: 从梯度下降训练动力学出发，严格证明了单层多头 Transformer 通过 CoT 过程可学会树路径查找的前向和后向推理任务，并揭示不同注意力头会自主专业化以协调解决多阶段子任务。
Multiplayer Federated Learning: Reaching Equilibrium with Less Communication: 提出多人联邦学习（MpFL）框架，将FL中的客户端建模为博弈论中的理性玩家，并设计PEARL-SGD算法通过局部更新减少通信开销，同时收敛到Nash均衡。
Natural Gradient Descent for Improving Variational Inference Based Classification of Radio Galaxies: 研究使用自然梯度下降优化器 iVON 替代标准 SGD 来优化变分推断中的 BNN 参数，在射电星系分类中获得更好的不确定性校准，同时保持与 HMC 和 BBB-VI 相当的预测性能。
Natural Gradient VI: Guarantees for Non-Conjugate Models: 在 mean-field 参数化下，为非共轭模型的自然梯度变分推断（NGVI）建立了三个关键理论结果：变分损失的相对光滑性条件、带非欧投影的修正 NGVI 的全局收敛到驻点保证、以及在额外结构假设下的隐藏凸性和快速全局收敛保证。
Near-Exponential Savings for Mean Estimation with Active Learning: 提出 PartiBandits 算法，结合基于分歧的主动学习与 UCB 风格的分层抽样，在辅助信息 \(X\) 对目标变量 \(Y\) 有预测力时，实现了均值估计的近指数级标签节省。
Neural Thermodynamics: Entropic Forces in Deep and Universal Representation Learning: 建立一套"神经热力学"理论，证明 SGD 训练中由随机性和离散时间更新产生的涌现熵力会系统性地打破神经网络参数的连续对称性并保留离散对称性，导致类似热力学能量均分的梯度平衡现象，从而 (a) 首次理论证明 Platonic 表征假说（不同模型学到相似表征），(b) 调和深度学习优化中"趋向尖锐"与"趋向平坦"的矛盾观察。
NeuSymEA: Neuro-symbolic Entity Alignment via Variational Inference: 提出 NeuSymEA，一个基于变分 EM 算法的神经符号推理框架，将符号规则推理与神经网络嵌入统一在马尔可夫随机场中进行实体对齐，在 DBP15K 上实现了显著的性能提升和低资源鲁棒性。
Non-Stationary Bandit Convex Optimization: A Comprehensive Study: 系统研究了非平稳环境下的Bandit凸优化问题，提出两个算法（TEWA-SE和cExO），统一建立了三种非平稳度量（切换数S、总变差Δ、路径长度P）下的遗憾上下界，多个设定下达到极小极大最优。
On Minimax Estimation of Parameters in Softmax-Contaminated Mixture of Experts: 首次对带 softmax 门控的受污染混合专家（contaminated MoE）模型进行极小极大参数估计分析，提出"可区分性"概念刻画预训练模型与 prompt 的关系，证明可区分时 MLE 达到参数级 \(\tilde{O}(n^{-1/2})\) 最优速率，不可区分时速率显著变慢。
Online Two-Stage Submodular Maximization: 首次提出在线两阶段子模最大化（O2SSM）问题，针对加权阈值势函数（WTP）设计了 RAOCO 算法，通过分数松弛+随机管道舍入实现多项式时间运行下的次线性 \((1-1/e)^2\)-regret 保证，同时改进了离线问题的近似比。
Optimal Rates for Generalization of Gradient Descent for Deep ReLU Classification: 证明了深度ReLU网络上梯度下降的泛化速率达到 \(\widetilde{O}(L^4(1+\gamma L^2)/(n\gamma^2))\)，首次在深度ReLU网络上同时实现：(1) 对样本量 \(n\) 的最优 \(1/n\) 依赖，(2) 对深度 \(L\) 仅多项式依赖。
Optimality and NP-Hardness of Transformers in Learning Markovian Dynamical Functions: 从优化理论角度分析 Transformer 学习马尔可夫动态函数的 ICL 能力：推导单层线性自注意力的全局最优解（闭式表达），证明从扩展参数空间恢复 Transformer 参数是 NP-hard 的，并揭示多层 LSA 等价于预条件多目标优化。
Optimistic Online-to-Batch Conversions for Accelerated Convergence and Universality: 提出乐观在线到批量（O2B）转换框架，将乐观性从在线算法中释放到转换机制本身，使简单的在线梯度下降就能实现 \(O(T^{-2})\) 加速收敛率，并首次通过 O2B 转换实现强凸光滑目标的最优收敛，同时达到对光滑性的通用性。
Oracle-Efficient Combinatorial Semi-Bandits: 提出两种oracle高效框架（自适应和调度式），将组合半老虎机问题中的oracle调用次数从线性 \(\Theta(T)\) 降低到双对数 \(O(\log\log T)\)，同时保持近最优的遗憾界。
OrthoGrad Improves Neural Calibration: 本文首次系统研究了OrthoGrad（⊥Grad）——一种逐层将梯度投影到与权重正交方向上的几何约束优化方法——在神经网络校准任务中的效果。实验表明在CIFAR-10低数据场景下，OrthoGrad在不降低准确率的情况下显著改善校准指标（熵、损失、置信度），并证明了简化版本在标准假设下的收敛性。
Personalized Subgraph Federated Learning with Differentiable Auxiliary Projections: 提出FedAux框架，通过可微分的辅助投影向量（APV）将节点嵌入映射到一维空间并用高斯核进行软排序聚合，APV既作为局部子图的紧凑隐私保护摘要用于服务器端相似度计算，又参与客户端的联合优化，实现了个性化的子图联邦学习。
Perturbation Bounds for Low-Rank Inverse Approximations under Noise: 首次给出在加性噪声下低秩逆近似 \(\|(\tilde{A}^{-1})_p - A_p^{-1}\|\) 的非渐近谱范数扰动界，利用轮廓积分技术得到依赖特征间隙、谱衰减和噪声对齐的锐界，比经典全逆界改进高达 \(\sqrt{n}\) 倍。
Preference Learning with Response Time: Robust Losses and Guarantees: 将用户决策的响应时间信息融入偏好学习框架中，通过 Neyman 正交损失函数将奖励模型学习的误差从指数级缩减到多项式级。
Probing Neural Combinatorial Optimization Models: 首次系统性地将探针(probing)方法引入神经组合优化(NCO)模型的研究，提出CS-Probing工具来分析模型表示中编码的决策知识、归纳偏置和泛化机制，并发现关键嵌入维度可用于提升模型泛化性能。
Problem-Parameter-Free Decentralized Bilevel Optimization: 提出 AdaSDBO，一种完全无需问题参数先验知识的去中心化双层优化算法，通过基于累积梯度范数的自适应步长实现 \(\tilde{O}(1/\sqrt{T})\) 收敛率。
PROFIT: A Specialized Optimizer for Deep Fine Tuning: PROFIT 将微调视为时间维度上的多任务学习问题，通过将新任务梯度对"回归平衡点"方向做正交化投影，实现了无需额外数据或参数的抗遗忘微调优化器。
Projecting Assumptions: The Duality Between Sparse Autoencoders and Concept Geometry: 本文揭示了稀疏自编码器(SAE)架构与其能发现的概念结构之间存在根本性的对偶性——每种SAE隐式假设了特定的概念组织方式，当假设不匹配时会系统性地遗漏概念。据此提出了SpaDE，一种考虑非线性可分性和维度异质性的新SAE。
Purifying Shampoo: Investigating Shampoo's Heuristics by Decomposing its Preconditioner: 通过将Shampoo预条件矩阵分解为特征值和特征基两部分，揭示了学习率嫁接(grafting)实质上是弥补特征值的陈旧性和缩放偏差，并提出了特征值校正和自适应特征基更新频率来替代这些启发式技巧。
Quantitative Convergence of Trained Single Layer Neural Networks to Gaussian Processes: 为梯度下降训练的浅层神经网络提供了在任意正训练时间 \(t \geq 0\) 下向高斯过程收敛的显式定量上界，证明了二次Wasserstein距离以 \(O(\log n_1 / n_1)\) 的速率多项式衰减。
Rao-Blackwellised Reparameterisation Gradients: 提出 R2-G2 估计器作为重参数化梯度的 Rao-Blackwell 化版本，证明 Bayesian MLP 的局部重参数化是其特例，并将低方差梯度的优势推广到一系列概率模型。
Rethinking Neural Combinatorial Optimization for Vehicle Routing Problems with Different Constraint Tightness Degrees: 揭示了现有NCO方法严重过拟合固定约束紧度（如CVRP的固定车辆容量C=50），提出变约束紧度训练方案和多专家模块(MEM)，使模型能有效处理从极紧到极松的全范围约束。
Revisiting Orbital Minimization Method for Neural Operator Decomposition: 重新审视源自计算化学的经典轨道最小化方法（OMM），提供了简洁的线性代数一致性证明，揭示其与Sanger规则、流式PCA等的深层联系，并将其推广为训练神经网络进行正半定算子谱分解的通用框架。
Robust Estimation Under Heterogeneous Corruption Rates: 本文研究了异质污染率下的鲁棒估计问题——每个样本以不同的已知概率被污染——对有界分布和高斯分布的均值估计及线性回归建立了紧的极小极大率，发现最优估计器可以简单地丢弃污染率超过某阈值的样本。
Second-Order Optimization Under Heavy-Tailed Noise: Hessian Clipping and Sample Complexity: 首次系统研究重尾噪声条件下二阶随机优化的理论基础，建立了紧的样本复杂度下界，提出了基于梯度和 Hessian 裁剪的归一化SGD算法（Clip NSGDHess），并证明其近似达到信息论极限。
Set Smoothness Unlocks Clarke Hyper-stationarity in Bilevel Optimization: 本文提出"集合光滑性"(set smoothness)这一新的结构性质，证明它在非凸-PŁ双层优化中自然成立，并据此揭示超目标函数隐藏的弱凸/弱凹结构，首次建立了非光滑超目标函数Clarke稳定点的可计算性保证。
Sharper Convergence Rates for Nonconvex Optimisation via Reduction Mappings: 提出 Reduction Mapping 框架，利用最优解集的流形结构（由过参数化或对称性产生）重参数化优化问题，证明这能改善曲率性质并理论上加速基于梯度方法的收敛。
Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful: 本文系统研究了小批量（甚至batch size=1）在语言模型预训练和微调中的表现，提出了基于"token半衰期"固定的Adam β₂缩放规则，发现小批量不仅训练稳定，还使vanilla SGD具备与自适应优化器相当的竞争力，并建议避免使用梯度累积。
Stable Coresets via Posterior Sampling: Aligning Induced and Full Loss Landscapes: 提出基于后验采样的 coreset 选择框架，通过在 BatchNorm 层上采样权重扰动来平滑损失曲面，保证 coreset 与全数据集的损失景观对齐（包含 Hessian 和 Newton 步的近似），在高标签噪声下显著优于现有方法。
Stochastic Momentum Methods for Non-smooth Non-Convex Finite-Sum Coupled Compositional Optimization: 针对非光滑非凸有限和耦合复合优化 (FCCO) 问题，提出两种随机动量方法 SONEX（单循环）和 ALEXR2（双循环），通过外层 Moreau 包络平滑和嵌套平滑技术将迭代复杂度从 \(O(1/\epsilon^6)\) 改进至 \(O(1/\epsilon^5)\)，并在非凸不等式约束优化中取得同等最优复杂度。
Streaming Federated Learning with Markovian Data: 首次严格分析了非凸目标函数下具有马尔可夫数据流的流式联邦学习，证明 Minibatch SGD、Local SGD 和 Local SGD-M 均能实现与客户端数成反比的样本复杂度（线性加速），且 Local SGD-M 无需异质性假设即可匹配 Minibatch SGD 的通信复杂度。
The Implicit Bias of Structured State Space Models Can Be Poisoned With Clean Labels: 本文首次从理论上证明结构化状态空间模型 (SSM) 的隐式偏置可以被干净标签 (clean-label) 训练样本"投毒"——存在特殊的训练样本，尽管它们的标签由教师模型正确标注，但其加入会彻底扭曲 SSM 的隐式偏置，导致泛化彻底失败。
The Rich and the Simple: On the Implicit Bias of Adam and SGD: 本文理论和实验证明，SGD训练的神经网络倾向于学习简单线性特征（简单性偏置），而Adam训练则产生更丰富的非线性特征，使模型更接近贝叶斯最优预测器，在分布偏移下泛化更好。
Training-Free Bayesianization for Low-Rank Adapters of Large Language Models: 提出 TFB（Training-Free Bayesianization），通过在低秩各向同性高斯分布族中搜索最大可接受方差，将已训练好的 LoRA 适配器无需重训练即转化为贝叶斯版本，理论上等价于广义变分推断。
Training Robust Graph Neural Networks by Modeling Noise Dependencies: 提出依赖感知图噪声(DANG)和DA-GNN框架，通过建模节点特征噪声→图结构噪声→标签噪声的因果依赖链，利用变分推断推导ELBO来训练对多源协同噪声鲁棒的GNN。
Understanding Adam Requires Better Rotation Dependent Assumptions: 本文通过系统的实验研究揭示了 Adam 优化器对参数空间坐标基底的强依赖性，证明现有旋转不变的理论假设不足以解释 Adam 的优越性，并发现层更新的正交性是预测 Adam 在不同基底下性能的有力指标。
Understanding the Generalization of Stochastic Gradient Adam in Learning Neural Networks: 首次理论分析 mini-batch Adam 的泛化行为，证明大 batch Adam/AdamW 即使带 weight decay 也收敛到高测试误差的解，而小 batch 版本通过随机梯度的隐式正则化 + weight decay 的显式正则化可实现近零测试误差，且 Adam 的有效 weight decay 上界严格小于 AdamW。
Unveiling m-Sharpness Through the Structure of Stochastic Gradient Noise: 本文通过扩展的随机微分方程(SDE)框架揭示了SAM中m-sharpness现象的理论机制——更小的微批次尺寸m带来更强的随机梯度噪声(SGN)协方差隐式正则化，并据此提出了可并行化的Reweighted SAM (RW-SAM)方法。
Unveiling the Power of Multiple Gossip Steps: A Stability-Based Generalization Analysis in Decentralized Training: 本文首次从算法稳定性角度分析去中心化 SGD（DSGD）中多步 Gossip 通信（MGS）的泛化效果，证明 MGS 以指数速率减少优化误差从而收紧泛化界，但即使 Gossip 步数趋于无穷也无法完全弥合与中心化训练的泛化差距。
VERA: Variational Inference Framework for Jailbreaking Large Language Models: 将黑盒 LLM 越狱攻击形式化为变分推断问题，训练小型攻击者 LLM 近似目标 LLM 的对抗提示后验分布，一次训练后可高效、多样地生成越狱提示，无需依赖人工模板。
Verbalized Algorithms: Zero-shot Classical Algorithmic Reasoning for Correctness and Runtime Guarantees: 本文提出"语言化算法"（Verbalized Algorithms, VAs）框架，将经典算法的控制流保持不变，仅用LLM替换其中的原子操作（如二值比较），从而在自然语言推理任务中继承经典算法的正确性和复杂度保证，在排序、求最大值、聚类和子模最大化四个案例中验证了有效性。
VIKING: Deep Variational Inference with Stochastic Projections: VIKING 提出了一种基于 Fisher-Rao 度量核空间与像空间分解的变分近似后验族，通过随机交替投影算法实现可扩展的全相关贝叶斯训练，在多个基准上超越了现有贝叶斯深度学习方法。
Wasserstein Transfer Learning: 提出了首个针对Wasserstein空间中概率分布输出的迁移学习框架（WaTL），通过加权辅助估计、偏差校正和投影三步法，结合自适应信息源选择，从源域迁移知识以提升目标域分布回归的估计性能。