📐 优化/理论¶
🔬 ICLR2026 · 220 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (22) · 🧪 ICML2026 (88) · 🤖 AAAI2026 (21) · 🧠 NeurIPS2025 (126) · 📹 ICCV2025 (7) · 🧪 ICML2025 (61)
🔥 高频主题: 联邦学习 ×16 · LLM ×10 · 对抗鲁棒 ×5 · 布局/合成 ×4 · 压缩/编码 ×4
- A Block Coordinate Descent Method for Nonsmooth Composite Optimization under Orthogonality Constraints
-
本文提出 OBCD,一种在正交约束(Stiefel 流形)下求解"光滑 + 非光滑"复合优化的块坐标下降算法:每次只更新解矩阵的 \(k\ge 2\) 行、把问题压成一个 \(k\times k\) 的小型正交约束子问题精确求解,从而做到天然可行、单步开销低,同时给出比经典临界点更强的"block-\(k\) 稳定点"最优性、\(O(1/\epsilon)\) 迭代复杂度以及 KL 条件下的末迭代收敛率。
- A Convergence Analysis of Adaptive Optimizers under Floating-Point Quantization
-
本文建立了首个在浮点量化下分析自适应优化器收敛性的理论框架,对梯度、权重和优化器状态(动量、二阶矩)同时施加相对误差量化模型,证明了量化 Adam 和 Muon 在尾数长度仅需对数增长于迭代次数时即可保持与全精度相同的 \(\tilde{O}(T^{-1/4})\) 收敛率,并揭示了 Adam 对权重和二阶矩量化高度敏感而 Muon 更为鲁棒的理论机制。
- A Memory-Efficient Hierarchical Algorithm for Large-scale Optimal Transport Problems
-
提出 HALO——一个面向大规模最优传输(OT)问题的多尺度分层求解框架,用"粗到细 warm-start + 活跃支撑集剪枝 + factorization-free 一阶 LP 求解器"把内存压到 \(O(n)\),在 \(1024^2\) 像素图像上相比最强基线实现 8.9× 提速、70.5% 显存削减,并给出一个尺度无关的迭代复杂度上界。
- A Scalable Constant-Factor Approximation Algorithm for \(W_p\) Optimal Transport
-
本文给出第一个对所有 \(p\in[1,\infty]\)(含 \(p=\infty\))都成立的、真正平方时间的常数因子近似算法:在任意度量空间上,用 \(O(n^2+(n^{3/2}\varepsilon^{-1}\log n\log\Delta)^{1+o(1)}\log U)\) 时间算出一个 \((4+\varepsilon)\)-近似的 \(W_p\) 最优传输方案,把此前 \(O(\log n)\) 的近似比一举压成常数。
- A Schrödinger Eigenfunction Method for Long-Horizon Stochastic Optimal Control
-
对于「无控漂移是某势函数梯度」这一类随机最优控制(SOC)问题,本文证明其线性化后的 HJB 算子与一个谱纯离散的薛定谔算子酉等价,于是长程最优控制可由该算子的最大特征函数直接给出(修正项随时间跨度指数衰减);据此给出对称 LQR 的闭式解,并提出去掉「隐式重加权」偏差的相对特征函数损失,把长程 SOC 的内存/时间复杂度从 \(O(Td)\) 降到 \(O(d)\),控制精度提升约一个数量级。
- A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent
-
这篇论文用"两种几何 / 两种平滑度"统一刻画了 Adam/Shampoo 这类自适应优化器与 SignGD/Muon 这类归一化最速下降(NSD)的关系:两者都在利用损失函数的非欧几何,但自适应优化器依赖一个更强的「自适应平滑度」\(\Lambda_{\mathcal H}(f)\),而 NSD 依赖标准平滑度 \(L_{\|\cdot\|_{\mathcal H}}(f)\);论文把自适应平滑度的分析从凸推广到非凸,并证明这个更强的假设确实能换来"标准平滑度下拿不到"的好处——Nesterov 加速率 \(\tilde O(T^{-2})\) 与维度无关的随机收敛率。
- Activation Function Design Sustains Plasticity in Continual Learning
-
本文把"激活函数"重新定位为缓解持续学习中可塑性丧失的首要、与架构无关的杠杆,通过对负半轴斜率与饱和行为的逐属性分析,提炼出三条设计准则,并据此提出两个即插即用非线性 Smooth-Leaky / Randomized Smooth-Leaky,在监督持续分类和非平稳 MuJoCo 强化学习上一致提升后期适应能力。
- Adaptive Acquisition Selection for Bayesian Optimization with Large Language Models
-
本文提出 LMABO,把预训练大语言模型当作贝叶斯优化(BO)过程的"零样本在线策略师"——每一轮把优化状态序列化成结构化文本提示,让 LLM 从一个采集函数(AF)组合中挑出当下最合适的那个;在 50 个基准上稳定超过静态、自适应组合与其它 LLM-based 基线。
- Adaptive gradient descent on Riemannian manifolds and its applications to Gaussian variational inference
-
本文提出 RAdaGD——一族无需线搜索的黎曼流形自适应梯度下降方法,通过在线估计局部光滑常数自动调步长,在"局部测地光滑 + 广义测地凸"的弱假设下取得非遍历收敛率 \(f(x_k)-f(x^\star)\le O(1/k)\),并据此给出高斯变分推断在目标对数密度不满足全局 L-光滑时的首个收敛保证。
- Adaptive Rollout Allocation for Online RL with Verifiable Rewards (VIP)
-
提出 VIP(Variance-Informed Predictive allocation),通过高斯过程预测每个 prompt 的成功概率,据此用凸优化在计算预算约束下分配 rollout 数量以最小化梯度方差,在数学推理任务上一致提升 GRPO/RLOO 的采样效率,AIME24/25 上 Pass@32 最高提升 12.3 个点。
- Align-SAM: Seeking Flatter Minima for Better Cross-Subset Alignment
-
Align-SAM 把"泛化"重新理解为"同分布两个随机子集上的更新要彼此一致",在 SAM 寻找平坦极小值的基础上,额外引入一个辅助 mini-batch,让主训练 batch 的梯度与辅助 batch 的梯度变得更"同向"(congruent),从而在分类、噪声标签、小样本迁移、元学习等多种设定下稳定地小幅超过 SAM/ASAM。
- Angle k-means:用角度关系加速精确 k-means
-
本文提出 Angle k-means,通过预计算簇心之间的距离与角度,在赋值步骤里用一个仅含角度比较的几何不等式剪掉大量远处候选簇心,从而在不引入任何超参数、不改变聚类结果的前提下,把精确 k-means 跑得比 Ball k-means、Exp-ns 等 SOTA 更快。
- Arbitrary-Order Block SignSGD for Memory-Efficient LLM Fine-Tuning
-
本文提出 ABSignSGD——把 SignSGD 和"任意顺序的块坐标更新"结合起来的优化器:每步只更新一个 Transformer 层块、只存这一块的状态、只用梯度的符号更新,从而把全参数微调的显存压到接近推理水平,同时配一个深度偏置的块选择策略再省 20% 运行时;并给出统一的 \(O(1/\sqrt{K})\) 收敛证明和一个只传符号、通信量降 960× 的多卡 majority-vote 变体。
- AutoEP: LLMs-Driven Automation of Hyperparameter Evolution for Metaheuristic Algorithms
-
AutoEP 把"在线探索性景观分析(ELA)量化指标"喂给一条多 LLM 推理链,让大模型在零训练前提下逐代动态调节遗传算法/PSO/蚁群等元启发式的超参数,靠数据接地避免幻觉,使开源 30B 模型也能逼平 GPT-4 的调参效果。
- Bayesian Evidence-Driven Prototype Evolution for Federated Domain Adaptation
-
FedPTE 把服务器端的全局原型集合当成一个可动态演化的拓扑结构,用贝叶斯高斯混合模型(BGMM)和边际似然比作为"统计证据"来决定何时把原型簇分裂或合并,配合稳定性惩罚和客户端的拓扑感知对比学习,在跨域联邦学习中持续刻画类内细粒度结构、缓解域偏移。
- Bayesian Parameter Shift Rules in Variational Quantum Eigensolvers
-
把变分量子本征求解器(VQE)里用于估梯度的参数移位规则(PSR)改写成贝叶斯版本——用带 VQE 核的导数高斯过程来估梯度,从而能在任意位置复用历史观测、并拿到梯度的后验不确定度;再据此提出"梯度置信区域(GradCoRe)"自适应分配测量次数,使 VQE 的 SGD 优化在相同测量预算下显著更快收敛、超过包括 NFT 系在内的现有 SOTA。
- Beyond Aggregation: Guiding Clients in Heterogeneous Federated Learning
-
FedDRM 把联邦学习中服务器的角色从「被动聚合器」升级为「智能路由器」——用密度比模型加经验似然把异构性建模成一个可学习的客户端分类任务,从而在训练好各客户端本地模型的同时,让服务器能把新查询直接派给最擅长它的客户端,在 CIFAR 与真实眼底医学数据上同时提升本地精度与系统级路由精度。
- Beyond Short Steps in Frank-Wolfe Algorithms
-
本文把 Frank-Wolfe(FW)算法的分析从"只看原始进展的短步长"升级到"看原始-对偶间隙的统一框架",由此提出一个借用在线学习"乐观"思想的 Optimistic FW 算法(带 \(O(LD^2/t)\) 的原始-对偶收敛界与可计算停机准则),并推导出一类把短步长推广到对偶间隙、且能迁移到梯度下降的"原始-对偶短步长",实验上乐观变体在收敛阶上显著超过 heavy-ball FW、vanilla FW 乃至自适应线搜索。
- Beyond the Heatmap: A Rigorous Evaluation of Component Impact in MCTS-Based TSP Solvers
-
这是一篇"打假"性质的评估论文:作者系统拆解"Heatmap + MCTS"求解 TSP 这条主流范式,用大量实验证明大家拼命卷的"热力图复杂度"其实没那么关键——被长期忽视的 MCTS 搜索超参才是性能主导因素,一个零学习、零参数的 k-近邻先验热力图(GT-Prior)配上调好的 MCTS 就能追平甚至超过 DIFUSCO 这类复杂学习模型。
- Bi-LoRA: Efficient Sharpness-Aware Minimization for Fine-Tuning Large-Scale Models
-
Bi-LoRA 用一个额外的"对抗 LoRA 模块"专门承载 SAM 的对抗扰动,把原本串行的"先算扰动再下降"两步合并成一次并行前反传,在几乎不增加成本的前提下让 SAM 真正能用于大模型 LoRA 微调,并跳出 LoRA-SAM 的受限子空间、找到更平坦的极小。
- Bilevel Optimization with Lower-Level Uniform Convexity: Theory and Algorithm
-
本文用"下层一致凸(LLUC,指数 \(p\ge 2\))"在下层强凸(\(p=2\))与一般凸之间架起一座可解的桥梁,建立了一致凸条件下的隐式微分定理(给出超梯度显式公式与 Hölder 光滑性),并设计随机算法 UniBiO,证明其找到 \(\epsilon\)-稳定点的 oracle 复杂度为 \(\widetilde{O}(\epsilon^{-5p+6})\),当 \(p=2\) 退化为最优的 \(\widetilde{O}(\epsilon^{-4})\)。
- Binomial Gradient-Based Meta-Learning for Enhanced Meta-Gradient Estimation
-
针对 MAML 这类基于梯度的元学习中"元梯度反向传播随适应步数 K 线性变贵"的痛点,本文把元梯度的连乘式 \(\prod_{k}(I-\alpha H_k)\) 做截断二项式展开而不是简单截断尾部,得到的估计器 BinomMAML 在相同截断阶数 \(L\) 下保留更多二阶信息、误差以超指数速度随 \(L\) 衰减,且可用并行 HVP 计算,在 miniImageNet/tieredImageNet 上以略增开销换来明显更接近完整 MAML 的精度。
- Birch SGD: A Tree Graph Framework for Local and Asynchronous SGD Methods
-
把每一种分布式/异步 SGD 方法都画成一棵带权有向"计算树",再用一条几何化的主定理把收敛分析归约成"量树上的距离",由此统一解释已有方法、批量设计出 8 个新方法(其中至少 6 个达到最优计算时间复杂度)。
- BoGrape: Bayesian optimization over graphs with shortest-path encoded
-
BoGrape 把"在图结构本身上做贝叶斯优化"这件难事,转化成一个混合整数规划(MIP)问题:用决策变量精确刻画未知图的最短路结构,再把最短路图核与高斯过程后验编码进 MIP,从而对采集函数做全局优化、并能塞进分子可行性等任务约束,在合成基准和 QM7/QM9 分子设计上都打过现有图 BO 方法。
- Byzantine-Robust Federated Learning with Learnable Aggregation Weights
-
把"检测并剔除恶意客户端"这件离散决策改写成对聚合权重 \(w\) 的连续优化,并与全局模型 \(\theta\) 联合求解,得到一个既能压制拜占庭客户端、又能在数据异质场景下自适应重加权诚实客户端的联邦学习框架 FedLAW,且带有可证明的鲁棒性与收敛保证。
- CALM: Co-evolution of Algorithms and Language Model for Automatic Heuristic Design
-
CALM 让"生成启发式的提示词进化"和"底层 LLM 本身"同时进化——在 LLM 驱动的进化式启发式设计循环里,把每轮"提示-响应-性能"三元组当作强化学习数据,用 GRPO 在线微调一个本地 7B INT4 模型,使得单张 24GB 显卡跑出来的启发式在多个组合优化任务上超过依赖 GPT-4o-mini API 的 SOTA 方法。
- Cautious Optimizers: Improving Training with One Line of Code
-
给任意动量优化器加一行代码:只在「更新方向」与「当前梯度」符号一致的坐标上更新,否则把这些坐标的更新清零并按比例放大补偿,由此得到 C-AdamW / C-Lion 等"谨慎版",在不动原超参的前提下持续加速 LLM 预训练和图像分类。
- Cautious Weight Decay
-
本文提出 Cautious Weight Decay(CWD),一行代码、与优化器无关的改动:只在「优化器更新方向」与「参数符号」一致的坐标上施加权重衰减,从而保留原始损失目标(不再隐式优化一个被正则化/约束的代理目标),并在到达驻点流形后产生滑模动力学、趋向局部 Pareto 最优的小范数解;在 ADAMW / LION / MUON 上不加新超参即可一致降低语言模型预训练和 ImageNet 的最终 loss 与提升精度。
- Celo2: Towards Learned Optimization Free Lunch
-
提出 Celo2——一个仅用 4.5 GPU 小时元训练的学习型优化器,通过归一化 MLP 更新规则和任务增强等简单配方,实现了到 10 亿参数级别模型(GPT-3 XL 1.3B)的稳定泛化(比元训练分布大 6 个数量级),性能超越了此前耗费 4000 TPU-month 的 VeLO 和精心调优的 AdamW 基线。
- Clipped Gradient Methods for Nonsmooth Convex Optimization under Heavy-Tailed Noise: A Refined Analysis
-
这篇论文对重尾噪声下的 Clipped SGD 给出一套更精细的收敛分析:通过更聪明地使用 Freedman 不等式、给出更紧的裁剪误差界,把已知最优的高概率收敛率再提速一个 \(\mathrm{poly}(1/d_{\mathrm{eff}})\) 因子(\(d_{\mathrm{eff}}\) 是作者定义的"广义有效维数"),并在期望收敛上得到能突破已知下界、且与作者新证下界完全匹配(即最优)的新速率。
- CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving
-
CogFlow 提出认知启发的三阶段视觉数学推理框架(感知→内化→推理),通过 Synergistic Visual Rewards 增强感知、Knowledge Internalization Reward 桥接感知与推理、Visual-Gated Policy Optimization 锚定视觉推理,解决了现有方法中"感知正确但推理漂移"的核心问题。
- COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics
-
提出 COLD-Steer,通过近似梯度下降在上下文示例上产生的表征变化来实现无训练的 LLM 激活转向,在仅用 50 分之一样本量的情况下达到 95% 的转向效果。
- Combination-of-Experts with Knowledge Sharing for Cross-Task Vehicle Routing Problems
-
针对车辆路径问题(VRP)"每个任务由若干基础约束组合而成"这一结构特性,本文提出 CoEKS:用「约束专属专家 + 组合器」按需激活并加权组合各约束的专家,再配一套「专家互蒸馏 + 共享变换层」的多视角知识共享,让一个统一模型既能在见过的约束组合上更准,又能零样本泛化到没见过的约束组合(相对 SOTA 提升约 12–18%),还能插入新专家适配全新约束(提升约 25%)。
- Combinatorial Bandit Bayesian Optimization for Tensor Outputs
-
针对"输出是一整块多模态张量"的昂贵黑箱系统,本文提出张量输出贝叶斯优化框架 TOBO(用一种能捕捉跨模态相关性的张量高斯过程 TOGP 当代理模型 + UCB 采样),并进一步把它扩展到"只有张量中一部分元素计入目标"的组合老虎机贝叶斯优化(CBBO)设定,设计 CMAB-UCB2 准则联合选输入点和子集,两者都给出了 \(\tilde{O}(\sqrt{T})\) 的次线性 regret 证明。
- Communication-Efficient Decentralized Optimization via Double-Communication Symmetric ADMM
-
针对无中心节点的去中心化复合优化,本文提出 DS-ADMM:用一对"对称共识约束"把"每次迭代两轮通信"嵌进 ADMM 的问题结构里,再配对称 ADMM 加速;虽然单次迭代通信翻倍,却让总迭代数大幅下降,从而整体通信量反而更省,并在度量次正则(metric subregularity)这一弱条件下证明线性收敛。
- Completed Hyperparameter Transfer across Modules, Width, Depth, Batch and Duration
-
作者把 μP/CompleteP 这套"小模型调参、大模型直接迁移"的缩放规则补全到四条最关键的训练轴——宽度、深度、批量、训练时长——并进一步证明:在正确的参数化下,连"逐模块"(每种张量、每层各自一组学习率/权重衰减/Adam 参数)的细粒度超参也能从 5000 万参数的小模型直接迁移到 72 亿参数的大模型,带来约 1.3× 的训练加速。
- Composite Optimization with Error Feedback: the Dual Averaging Approach
-
针对"误差反馈(Error Feedback)在带非光滑正则项/约束的复合优化里会失效"这个长期空白,本文用对偶平均(Dual Averaging)重塑迭代的求和结构,把它和最新的 EControl 误差反馈机制结合,首次给出复合凸优化下与无复合项情形完全匹配的收敛率。
- Compositional Generalization through Gradient Search in Nonparametric Latent Space
-
这篇论文提出 Abduction Transformer,把 few-shot 抽象推理任务中的隐藏规则表示为可变大小的非参数潜在混合分布,并在测试时对潜在假设做梯度搜索,从而在 1-D ARC、SRAVEN 和语言系统性任务上显著提升 OOD 组合泛化能力。
- Conformal Robustness Control: A New Strategy for Robust Decision
-
针对"用保形预测做鲁棒决策"中"覆盖约束过保守"的痛点,本文提出 Conformal Robustness Control(CRC),把预测集的构造直接放到显式鲁棒性约束下优化(而非要求覆盖率),用光滑代理 + 拉格朗日交替梯度求解,并给出非渐近理论保证与测试时有限样本校准,在组合投资、股票、电池储能等任务上拿到更低的风险证书和决策损失,同时把鲁棒性精准卡在目标水平。
- ConRep4CO: Contrastive Representation Learning of Combinatorial Optimization Instances across Types
-
ConRep4CO 把不同类型的组合优化(CO)实例统一归约成 SAT 形式作为"中介模态",再以"原始实例 ↔ 其 SAT 形式"为正对做免增强的对比预训练,从而学到跨问题类型通用的表示,把它嫁接进 MVC/MIS/MC/MDS 等专用神经求解器后,目标值 gap 平均缩小 32%~61%。
- Constraint Matters: Multi-Modal Representation for Reducing Mixed-Integer Linear programming
-
提出基于约束缩减的 MILP 模型简化框架:定义固定约束强度 \(\rho\) 并用信息增益 \(\Delta H=-\log\rho\) 识别关键紧约束(CTC),设计融合实例级双部图与抽象级类型图的多模态 GNN 表征来预测 CTC,在 4 个大规模基准上解质量(\(\text{gap}_\text{abs}\))平均提升 51.06%、收敛速度(PDI)平均加快 17.47%。
- Contextual Causal Bayesian Optimisation
-
本文提出 CoCa-BO,把"在哪些变量上做干预"(因果作用域选择)和"干预到什么值"(上下文贝叶斯优化)统一进同一个搜索过程,用多臂老虎机在所有"可能最优混合策略作用域"(POMPS)之间挑作用域、用高斯过程在每个作用域内部挑干预值,并给出了首个同时覆盖因果 BO 与上下文 BO 的亚线性后悔界。
- Convergence of Muon with Newton-Schulz
-
首次为实际使用的 Muon 优化器(使用 Newton-Schulz 近似而非精确 SVD 极坐标分解)提供非凸收敛保证:证明收敛速率匹配 SVD 理想化版本(差一个常数因子),该因子随 Newton-Schulz 步数 \(q\) 双指数衰减,且 Muon 比向量对应物 SGD-M 少 \(\sqrt{r}\) 倍秩损失。
- Convergence of Regret Matching in Potential Games and Constrained Optimization
-
本文首次证明了遗憾匹配 +(RM+)在「单纯形乘积上的约束优化」(含势博弈作为特例)中是一个可靠且快速的一阶优化器——\(O_\epsilon(1/\epsilon^4)\) 步收敛到 \(\epsilon\)-KKT 点;与此同时反向证明原始遗憾匹配(RM)在二人同利益博弈里都可能要指数步才能收敛,给出了 RM 与 RM+ 之间首个最坏情况(且是指数级)的分离。
- Convex Dominance in Deep Learning I: A Scaling Law of Loss and Learning Rate
-
从凸优化理论出发,证明深度学习训练损失以 O(1/sqrt(T)) 速率收敛,最优学习率以 1/sqrt(T) 缩放,在 GPT-2 到 12.5B 参数模型上验证了该缩放律(R^2 >= 0.978),并实现了 80 倍训练步数的学习率外推。
- Corner Gradient Descent
-
本文提出"围道视角",把带任意线性内存的广义 (S)GD 等价于复平面上的一条围道(响应映射 \(\Psi=P/Q\)),证明只要让围道在原点处形成一个外角为 \(\theta\pi\)(\(1<\theta<2\))的"尖角",就能把幂律二次问题上 SGD 的损失收敛率从 \(O(t^{-\zeta})\) 加速到 \(O(t^{-\theta\zeta})\),并给出了最优加速因子 \(\theta_{\max}=\min(2,\nu,\frac{2}{\zeta+1/\nu})\) 的精确相图,最后用有理逼近把理想的无穷内存"尖角算法"压成可落地的有限内存算法,在合成问题和 MNIST 上验证了加速。
- CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs
-
CurES 从强化学习梯度分析出发,证明"提示采样分布决定收敛速度、rollout 配额决定梯度更新的稳定性",并据此用一套贝叶斯(Beta-二项)难度估计动态地把采样概率和 rollout 预算往中等难度题上倾斜,在八个数学推理基准上比 GRPO 平均高 3.3(1.5B)/4.82(7B)分,且收敛快至 5.5 倍。
- Cutting the Skip: Training Residual-Free Transformers
-
本文从 Transformer Jacobian 的条件数出发,揭示残差(skip)连接的本质作用是改善网络条件数,并据此提出一套只改初始化、不改架构的方案,让完全去掉残差连接的 ViT 第一次能和带残差的模型一样快地训练,同时在密集预测任务上学到更抽象、层级更清晰的表征、反超带残差的基线。
- DADA: Dual Averaging with Distance Adaptation
-
DADA 把"动态估计初始点到最优解距离"的技巧嫁接到经典对偶平均(Dual Averaging)框架上,得到一个无需任何问题相关参数、对约束/无界域都成立、且能自动适应六大凸函数类的通用一阶方法,同时把误估初始距离的代价从乘性 \(\rho^2\) 降到对数级 \(\log^2\rho\)。
- Decentralized Nonconvex Optimization under Heavy-Tailed Noise: Normalization and Optimal Convergence
-
本文提出 GT-NSGDm——把梯度归一化、动量方差缩减与梯度跟踪三者结合的去中心化算法,首次在去中心化非凸设置下、仅假设梯度噪声有有限 \(p\) 阶矩(\(p\in(1,2]\))时,证明期望梯度范数能达到与中心化下界一致的最优收敛率 \(O(1/T^{(p-1)/(3p-2)})\)。
- Deep-ICE: The First Globally Optimal Algorithm for Minimizing 0–1 Loss in Two-Layer ReLU and Maxout Networks
-
本文用构造式算法学(list homomorphism + fusion law)推导出第一个对两层 ReLU/Maxout 网络在 0-1 损失下做经验风险最小化(ERM)的全局最优算法 Deep-ICE,最坏复杂度约 \(O(N D^{K+1})\),并在 11 个 UCI 数据集上用配套的 coreset 启发式做到了比 SVM 和梯度下降训练的 MLP 更高的训练与测试精度。
- Deep Latent Variable Model based Vertical Federated Learning with Flexible Alignment and Labeling Scenarios
-
把纵向联邦学习中"用户对不齐"的问题重新解释成经典的"块状缺失数据"问题,用一个深度潜变量模型 + 两阶段(无监督预训练 / 有监督微调)训练,第一次在多方场景下同时吃下不对齐、无标签、任意缺失机制(MCAR/MAR/MNAR)的数据,在 168 个配置里有 160 个超过最强基线,平均领先 9.6 个百分点。
- DeepAFL: Deep Analytic Federated Learning
-
提出 DeepAFL,通过设计无梯度的解析残差块并引入逐层联邦训练协议,首次实现了具有表征学习能力的深度解析联邦学习模型,既保持了对数据异质性的理想不变性,又突破了现有解析方法仅限于单层线性模型的局限,在三个基准数据集上超越 SOTA 5.68%-8.42%。
- DeMo: Decoupled Momentum Optimization
-
DeMo 把分布式数据并行里"每步同步全精度梯度"换成"只同步压缩后的局部动量"——通过解耦各 worker 的动量更新、用 DCT 正交变换 + top-k 稀疏化压缩动量、再用动量缓冲自身充当误差反馈,做到每步每卡通信量比 AdamW-DDP 少最多 85×,而下游精度与收敛基本持平。
- Derandomized Online-to-Non-convex Conversion for Stochastic Weakly Convex Optimization
-
这篇论文证明在随机弱凸优化中,可以去掉 O2NC 依赖的随机插值或随机缩放,直接在当前迭代点取随机次梯度,并通过带二次正则的在线增量学习得到最优的 Goldstein stationarity 复杂度,同时导出一个几乎等价于周期性重启动量的 SGDM 变体。
- DES-LOC: Desynced Low Communication Adaptive Optimizers for Foundation Models
-
DES-LOC 给自适应优化器的参数和各个动量状态分配各自独立的同步周期——参数同步得勤、动量按其"半衰期"同步得疏,在保持可证收敛的前提下把通信量压到比 DDP 少 170×、比之前 SOTA 的 Local Adam 少 2×,并在 1–13B 模型上拿到 1.3–2.1× 的端到端加速。
- DiffBED: Scaling Bayesian Experimental Design to High-Dimensions
-
DiffBED 指出贝叶斯实验设计(BED)在高维设计空间失效的根因不是 EIG 估计器不够好,而是似然在远离数据流形处被"过度自信"地利用(一种奖励黑客行为);它把一个扩散模型当作"现实性先验",用 EIG 的梯度去引导扩散的逆向 SDE,从而生成既高信息量又真实可行的设计,第一次把 BED 推到了 75 万维以上的图像设计空间。
- Difference Predictive Coding for Training Spiking Neural Networks
-
本文把"预测编码"这套生物启发的局部学习框架改造成完全脉冲原生的训练算法 DiffPC:层间不再传稠密浮点数,而是只在状态发生变化时发出稀疏的三值脉冲(-1/0/1),在 MNIST 99.3%、Fashion-MNIST 89.6%、CIFAR-10 上超过反向传播基线的同时,把训练时的通信量压低了两个数量级以上。
- Differentiable Model Predictive Control on the GPU
-
作者提出 DiffMPC——一个把可微模型预测控制(MPC)彻底搬上 GPU 的求解器:用序列二次规划(SQP)做前向、用带 stair 预条件子的共轭梯度(PCG)在时间维上并行求解 KKT 线性系统、再用隐函数定理复用同一 KKT 矩阵算梯度,相比 mpc.pytorch / trajax / Theseus 等基线在 GPU 上取得 4–7× 提速,并用它通过强化学习自动调参,让一辆丰田 Supra 稳健地漂移穿过路面水洼。
- Diffusion-DFL: Decision-focused Diffusion Models for Stochastic Optimization
-
这篇论文首次把扩散模型塞进决策聚焦学习(DFL)框架,用条件扩散模型刻画不确定参数的完整分布、再用从分布采样的样本求解随机优化,并给出两套端到端梯度算法——精确但吃显存的重参数化估计器,和用 ELBO 梯度近似评分函数、显存从 60.75 GB 砍到 0.13 GB 的轻量评分函数估计器;在三个真实优化任务上决策质量稳定超过所有基线。
- Directional Convergence, Benign Overfitting of Gradient Descent in leaky ReLU two-layer Neural Networks
-
首次证明了梯度下降(gradient descent)在 leaky ReLU 两层神经网络中的方向收敛性(directional convergence),并据此在远超近正交数据(nearly orthogonal data)的更广泛混合数据设定下建立了 benign overfitting 的充分条件,同时发现了一个新的相变(phase transition)现象。
- Directional Sheaf Hypergraph Networks: Unifying Learning on Directed and Undirected Hypergraphs
-
本文提出 Directional Sheaf Hypergraph Networks (DSHN),通过将 Cellular Sheaf 理论与有向超图的方向信息结合,构造了一种复值 Hermitian Laplacian 算子,统一并推广了现有的图和超图 Laplacian,在 7 个真实数据集上相对准确率提升 2%–20%。
- Distributionally Robust Linear Regression with Block Lewis Weights
-
本文为"经验群体分布鲁棒最小二乘"(即 min-max 群体回归)设计了一个迭代复杂度仅为 \(\tilde{O}(\min\{\mathrm{rank}(A),m\}^{1/3}\varepsilon^{-2/3})\) 的二阶算法,关键是用 block Lewis weights 构造一个最优逼近椭球几何,配合加速近端方法,使迭代次数几乎不依赖群体数 \(m\)。
- Distributionally Robust Optimization via Generative Ambiguity Modeling
-
把 DRO 的"模糊集"直接定义在生成模型(扩散模型 / VAE)的参数空间上,用重构损失约束生成分布与名义分布的一致性,再用对偶学习 + 策略优化求解内层最大化,得到一个既能跨支撑集搜索最坏分布、又可处理(tractable)的 DRO 算法 GAS-DRO。
- DNT: a Deeply Normalized Transformer that can be trained by Momentum SGD
-
本文从 Jacobian 矩阵分析出发,弄清了 Transformer 训练时"重尾梯度"的来源,并通过在合适位置加 / 调归一化算子(InputNorm + PreNorm + QKNorm + MidNorm)重新设计出 DNT 架构,使得用最朴素的动量 SGDW 就能训练,效果与 AdamW 持平(ImageNet 81.5% vs 82.1%,OpenWebText val loss 2.849 vs 2.863),同时省下优化器一半的显存。
- DR-Submodular Maximization with Stochastic Biased Gradients: Classical and Quantum Gradient Algorithms
-
本文系统研究"随机有偏梯度"下的连续 DR-submodular 最大化:把分析用的 Lyapunov 框架从精确梯度推广到带偏差+噪声的梯度,借此为一类新约束(带最大元的凸集)证明 \(1/e\) 近似、突破一般凸约束 \(1/4\) 的 hardness,并给出经典(\(O(\epsilon^{-3})\) 迭代)和量子(\(O(\epsilon^{-1})\) 迭代)两套零阶算法,从理论和数值上展示量子加速。
- Dual Optimistic Ascent (PI Control) is the Augmented Lagrangian Method in Disguise
-
证明了约束深度学习中广泛使用的 dual optimistic ascent(PI 控制)在单步一阶更新体制下数学等价于经典的增广拉格朗日方法(ALM),从而将 ALM 的鲁棒收敛保证(线性收敛到所有严格局部解)转移至 PI 控制,并为乐观系数 \(\omega\) 提供了原则性调参指导。
- Efficient Algorithms for Incremental Metric Bipartite Matching
-
本文给出了任意度量空间下增量最小成本二分图匹配的第一个常数因子近似算法:在固定服务器集合 \(S\)、请求点单边在线到达的设定下,用一套"距离缩放层级 + push-relabel"框架维护 \(O(1/\delta^{0.631})\) 近似的匹配,每次插入的摊还更新时间为 \(\tilde{O}(n^{1+\delta})\),并且天然可并行、可上 GPU。
- Efficient Submodular Maximization for Sums of Concave over Modular Functions
-
针对「凹函数复合模函数之和」(SCM) 这一子模函数子类,本文用「凹扩展 + 加速近似投影梯度上升 (AAPGA) + 随机舍入」三件套,把基数/背包/划分拟阵约束下的查询复杂度从 PGA 的 \(O(n^2\varepsilon^{-2})\) 降到 \(O(n^{1/2}\varepsilon^{-1/2}(T_1+T_2))\),实测最高加速 32.3 倍。
- Egalitarian Gradient Descent: A Simple Approach to Accelerated Grokking
-
论文把 grokking 的长平台归因到梯度谱严重不均衡,并提出 EGD:在不改变梯度主方向的前提下把各奇异方向更新速度拉平,从而将“先记忆后泛化”的延迟显著压缩到很少 epoch。
- Elastic Optimal Transport: Theory, Application, and Empirical Evaluation
-
本文提出弹性最优传输(ELOT),用"边缘不等式约束 + 混合符号代价矩阵"替代经典 OT 的等式约束,让传输质量完全由问题自身的几何结构自适应决定,在无监督域适应和部分域适应基准上大幅超越 POT/UOT 系列方法。
- Enhancing Communication Compression via Discrepancy-aware Calibration for Federated Learning
-
联邦学习里现有通信压缩(Top-k、ATOMO)都按"幅值大小"决定丢哪些参数,本文改用每个客户端的一小撮本地校准数据直接测量"丢掉某个压缩单元会让该层输出变化多少",按这个输出差异排序来丢,可即插即用增强主流压缩方案,在压缩比 0.1 时相对精度提升 18.9%。
- Enhancing Learning with Noisy Labels via Rockafellian Relaxation
-
本文提出 Rockafellian Relaxation Method (RRM),把任意监督训练损失包成一个可重加权的 min-min 优化问题,通过自动下调高损失可疑样本的权重,在真实噪声、合成噪声和部分对抗扰动场景下提升分类模型的鲁棒性。
- Entropic Confinement and Mode Connectivity in Overparameterized Neural Networks
-
揭示了低损失路径上曲率的系统性增长会产生熵力屏障,即使路径能量平坦,SGD噪声也会将优化动力学约束在最小值附近的平坦区域,从而解释了"模式连通但动力学受限"的悖论。
- Error Feedback for Muon and Friends
-
本文提出 EF21-Muon——首个把 error feedback 推广到非欧几里得几何的、带严格收敛保证的通信高效分布式 LMO 优化器,关掉压缩即退化为 Muon/Scion/Gluon,在 NanoGPT 上实现最高 7× 通信节省且精度无损。
- Evaluating Data Influence in Meta Learning
-
把影响函数从单层 M-estimator 推广到元学习的双层优化结构,提出 task-IF 和 instance-IF 两套闭式公式,用「总梯度 / 总 Hessian」精确刻画一个任务或一条样本对元参数的直接与间接贡献,并用 EK-FAC + Neumann 级数加速,实现免重训的有害数据识别与模型编辑。
- Exploring Diverse Generation Paths via Inference-time Stiefel Activation Steering
-
提出 STARS(Stiefel-based Activation Steering for Diverse ReaSoning),一种 training-free 的推理时激活转向方法,在每个 token 解码时于 Stiefel 流形上联合优化 N 条并行生成路径的正交 steering 方向,最大化隐状态的几何体积以促进发散的激活轨迹,在测试用例生成(TestEval)和科学发现(LiveIdeaBench)上以极低延迟一致超越温度采样的多样性,且不损失质量。
- Exploring Mode Connectivity in Krylov Subspace for Domain Generalization
-
本文跳出"找平坦极小值"的主流思路,转而利用损失曲面的全局几何性质——模态连通性(mode connectivity),提出模拟台球运动的 Billiard Optimization Algorithm (BOA),在低维 Krylov 子空间里沿低损失隧道从一个普通极小值"走"到泛化更强的极小值,在 DomainBed 上全面超越 SAM 等锐度感知方法。
- Fantastic Pretraining Optimizers and Where to Find Them
-
在统一公平的超参数调优和端到端评测协议下系统对比 11 个深度学习优化器,揭示新优化器宣称的 1.4–2× 加速大多源于"弱基线",真实加速不超过 1.4× 且随模型规模增大衰减到 1.1×;同时确认矩阵类优化器(Muon/Soap/Kron)确实优于标量类。
- Fast Convergence of Natural Gradient Descent for Over-parameterized Physics-Informed Neural Networks
-
本文为训练两层 PINN 的自然梯度下降 (NGD) 建立了首个收敛性理论,证明其学习率可取 \(O(1)\)、收敛速率与样本量和 Gram 矩阵最小特征值无关,并在光滑激活下达到二次收敛——比一阶梯度下降快得多。
- Fast Data Mixture Optimization via Gradient Descent
-
FASTMIX 把"选数据混合比例"重参数化成"给各数据源的 loss 加权重",从而让混合比例变得可微,只训练一个代理模型、用梯度下降同时优化模型和混合比例,把搜索成本从几百 GPU-hour 降到 1~2 GPU-hour 而性能反超。
- Fast Frank–Wolfe Algorithms with Adaptive Bregman Step-Size for Weakly Convex Functions
-
把 Frank–Wolfe 算法从"梯度 Lipschitz + 凸"的经典假设里解放出来——只要目标函数对某个核生成距离满足"相对光滑(L-smad)"且弱凸,本文用自适应 Bregman 步长就能在凸/非凸下给出从次线性到线性的收敛保证,并首次为一类非凸问题证明了 FW 的局部线性收敛。
- Faster Gradient Methods for Highly-Smooth Stochastic Bilevel Optimization
-
通过将 F2SA 方法重新解释为前向差分近似 hyper-gradient,提出利用高阶有限差分的 F2SA-p 方法族,在高阶光滑条件下将随机双层优化的 SFO 复杂度从 \(\tilde{\mathcal{O}}(\epsilon^{-6})\) 改进至 \(\tilde{\mathcal{O}}(p\epsilon^{-4-2/p})\),并证明了 \(\Omega(\epsilon^{-4})\) 下界表明该方法在 \(p\) 足够大时近乎最优。
- FedDAG: Clustered Federated Learning via Global Data and Gradient Integration for Heterogeneous Environments
-
提出 FedDAG 聚类联邦学习框架,通过融合数据和梯度信息进行加权类别级相似度计算来实现更准确的客户端聚类,并通过双编码器架构实现跨集群特征迁移,在多种异构性设置下一致超越现有基线。
- Federated Learning with Profile Mapping under Distribution Shifts and Drifts
-
FEROMA 把"模型该和谁聚合"这件事从"客户端/簇身份"解耦到"数据分布画像"上:每个客户端提取一个轻量、差分隐私的分布 profile,用 profile 间的相似度自动决定本轮该走聚类聚合、个性化还是全局聚合,从而在客户端间分布漂移(shift)和时间漂移(drift)同时存在时都能稳健工作,且开销与 FedAvg 相当。
- FedMC: Federated Manifold Calibration
-
针对联邦学习中"用全局线性几何先验(点/椭球)做校准会把样本推出流形、生成 OOD 伪样本"这一痛点,FedMC 用客户端局部 Kernel PCA 学非线性流形几何、在服务端聚合成隐私安全的"几何字典",让客户端按数据点查表做贴合流形的校准,作为即插即用模块稳定提升一众 FL/FPL 方法。
- FedMuon: Federated Learning with Bias-corrected LMO-based Optimization
-
本文指出把 Muon(基于线性最小化预言机 LMO 的优化器)直接当作 FedAvg 的本地优化器无法收敛(因为 LMO 是有偏算子),提出用类 SCAFFOLD 控制变量做偏差校正的 FedMuon,并首次证明它对任意次数的 Newton-Schulz 迭代都能收敛、迭代越多收敛越快。
- FIRE: Frobenius-Isometry Reinitialization for Balancing the Stability–Plasticity Tradeoff
-
FIRE 把"该把权重往回重置多少"这个长期靠手调的难题,重写成一个有闭式解的约束优化问题——在保持与旧权重最接近(最小化 Frobenius 误差)的前提下,把权重投影到正交(等距)流形上恢复可塑性,用 Newton–Schulz 迭代高效近似,几乎零调参地在视觉/语言/RL 三类持续学习任务上同时压过 naive 训练和标准重初始化方法。
- FMIP: Joint Continuous-Integer Flow for Mixed-Integer Linear Programming
-
针对现有生成式 MILP 启发式只建模整数变量、忽视整数-连续变量耦合的痛点,FMIP 用流匹配在「整数+连续」混合解空间上联合建模解的分布,并借助这一完整解候选设计 holistic 引导机制把生成轨迹推向"更优且更可行"的解,在 8 个标准基准上把 primal gap 平均压低 41.34%。
- From Gradient Volume to Shapley Fairness: Towards Fair Multi-Task Learning
-
针对多任务学习里梯度冲突导致"强任务霸占更新方向、弱任务被反复牺牲"的不公平问题,本文提出 SVFair:用归一化梯度张成的平行多面体体积(Gram 行列式)当 Shapley 合作博弈的效用函数,单次前向就能算出每个任务梯度偏离整体的程度,并据此重新分配更新权重,在监督学习和强化学习多个基准上同时拿到最好的 MR 和 \(\Delta m\%\)。
- From Sequential to Parallel: Reformulating Dynamic Programming as GPU Kernels for Large-Scale Stochastic Combinatorial Optimization
-
把"逐场景串行求解第二阶段整数子问题"的随机组合优化瓶颈,重写成 (min,+) 半环上的矩阵-向量乘法,并设计场景批处理的硬件感知 GPU 内核,让 Bellman 更新在单次 GPU pass 内并行评估超过 \(10^6\) 个场景,带来一到五个数量级的加速。
- From Sorting Algorithms to Scalable Kernels: Bayesian Optimization in High-Dimensional Permutation Spaces
-
把"比较型排序算法"重新解读为排列的特征生成器,从而把 SOTA 的 Mallows 核统一为枚举排序的特例,并用归并排序导出长度只有 \(\Theta(n\log n)\) 的 Merge Kernel,在高维排列贝叶斯优化中以数量级更小的特征维度大幅超越 Mallows 核。
- FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization
-
FrontierCO 是一个涵盖 8 类组合优化问题(TSP、MIS、CVRP 等)的大规模真实世界基准测试,评估了 16 个 ML 求解器(神经网络方法 + LLM Agent)与 SOTA 传统求解器的差距,发现 ML 方法在结构复杂和极大规模实例上仍显著落后于传统方法,但在部分场景有超越潜力。
- FZOO: Fast Zeroth-Order Optimizer for Fine-Tuning Large Language Models towards Adam-Scale Speed
-
FZOO 用「批量单边估计 + Rademacher(±1)扰动」把零阶优化器拉到接近 Adam 的收敛速度——既靠批损失标准差自适应步长把收敛所需前向次数砍掉一个量级,又靠 ±1 扰动把多次前向并成一次批量矩阵乘,让单卡全参数微调 LLM 在推理级显存下变得现实。
- Gen-DFL: Decision-Focused Generative Learning for Robust Decision Making
-
Gen-DFL 把传统决策聚焦学习(DFL)里的"单点预测"换成一个条件生成模型,让模型直接学出优化参数的完整条件分布并从尾部高风险区域采样,再用 CVaR 目标做端到端训练,从而在高维、风险敏感的决策问题上显著降低决策后悔(regret)。
- Generalizable Heuristic Generation Through LLMs with Meta-Optimization
-
MoH 把 LLM 生成启发式的层级从"用固定进化算法演化启发式"上抬一层,让 LLM 在外层迭代地"造优化器"——通过自调用产生一群多样的启发式优化器,再用多任务效用挑出最优的当作下一轮的元优化器,从而摆脱手工预设进化框架的约束、显著提升跨规模泛化能力。
- Generalization Below the Edge of Stability: The Role of Data Geometry
-
提出"数据可碎性"(data shatterability)原理统一解释数据几何如何控制梯度下降在稳定性边缘(EoS)附近的隐式正则化强度:对 Beta(α) 径向分布族推导出依赖 α 的泛化上下界谱,对低维子空间混合分布证明泛化率适应内在维度 \(m\) 而非环境维度 \(d\)。
- Generative Bayesian Optimization: Generative Models as Acquisition Functions
-
GenBO 把生成模型直接训练成「采样密度正比于采集函数」的提议分布,借鉴 DPO 的思路用噪声效用值一步训练,无需先拟合回归/分类代理模型,从而在高维、组合、大批量黑盒优化(如蛋白质设计)中既简单又可扩展。
- GIT-BO: High-Dimensional Bayesian Optimization with Tabular Foundation Models
-
GIT-BO 用冻结的 TabPFN v2 作为零训练贝叶斯优化代理模型,再从其预测均值梯度中估计低维主动子空间,并在该子空间内用 UCB 选点,从而在最高 500 维的合成与工程优化任务上取得比多种 GP-based 高维 BO 方法更好的性能-时间折中。
- Globally Aware Optimization with Resurgence
-
本文把数学物理里的 resurgence(再现/复活)理论搬进神经网络优化:先算参数空间配分函数 \(Z(g)=\int e^{-L(\theta)/g}\,d\theta\) 的发散渐近级数,再用 Borel 变换把级数的奇点一一对应到损失函数所有临界点的取值,从而为局部梯度优化器提供"目标损失值"这一全局信息,包成可即插的学习率调度器 SURGE。
- Gradient-Based Diversity Optimization with Differentiable Top-\(k\) Objective
-
把"top-\(k\) 集合的多样性"这个本来不可导的目标,用可微排序(soft-rank)松弛成可以直接塞进梯度训练的损失,再用 MGDA 自适应地平衡"相关性 vs 多样性"两个对立梯度,从而无需改模型结构、无需后处理就能在训练里同时优化两者;在五个推荐数据集上以几乎不掉精度的代价显著提升多样性。
- Gradient-Normalized Smoothness for Optimization with Approximate Hessians
-
本文提出"梯度归一化光滑性"(Gradient-Normalized Smoothness)这一与具体问题类无关的局部刻画,让带梯度正则化、使用近似 Hessian 的牛顿型方法自动适配到正确的光滑性类,从而在凸/非凸目标上恢复精确牛顿法的最优全局收敛率。
- Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models
-
提出 GradFix 方法,利用目标预训练模型上极少量样本计算的梯度符号构建二值掩码,逐坐标过滤源模型的任务向量,仅保留与目标损失景观下降方向一致的分量,在无需任何微调的情况下实现跨预训练模型的任务知识迁移,理论上提供严格的一阶下降保证,在视觉与语言基准上均大幅超越朴素迁移和少样本微调。
- Gradient Descent with Large Step Sizes: Chaos and Fractal Convergence Region
-
本文在矩阵分解问题上严格证明:当梯度下降使用接近临界的大步长时,参数空间会出现分形收敛边界与混沌动力学——最终收敛到哪个极小值(甚至是否收敛)对初始化极度敏感,常被假设的"平坦/最小范数/平衡"等隐式偏置统统失效。
- Harmonized Cone for Feasible and Non-conflict Directions in Training Physics-Informed Neural Networks
-
这篇论文把 PINN 多损失训练中的“可由非负损失权重实现”和“不会让任一损失上升”统一成谐和锥(harmonized cone),并提出 HARMONIC 用 Double Description 方法在该锥内构造更新方向,在多个 PDE / IDE 基准上通常优于现有重加权和多目标梯度方法。
- HBO: Hierarchical Balancing Optimization for Fine-Tuning Large Language Models
-
HBO 把 LLM 指令微调中的数据混合问题拆成“跨数据集怎么采样”和“每个数据集内部按难度怎么采样”两层,用 Global Actor 与 Local Actor 根据训练状态动态更新采样概率,在多语言和多任务微调上稳定优于静态采样与已有动态数据混合方法。
- HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization
-
HeuriGym 把 LLM 丢进一个"读题—写代码—执行反馈—迭代修正"的 agentic 闭环里,让它从零为 9 个真实组合优化问题(EDA、生物、物流等)手写完整启发式算法,并用新指标 QYI 衡量解的质量与可行率——结果连最强的 GPT-o4-mini-high 和 Gemini-2.5-Pro 也只有 0.6 分(专家为 1.0),暴露出 LLM 在工具使用、长程规划和自适应推理上的硬伤。
- Hierarchical Multi-Stage Recovery Framework for Kronecker Compressed Sensing
-
本文为 Kronecker 压缩感知(KCS)提出"分层观测"视角,指出 Kronecker 积测量矩阵的每个因子矩阵实际在不同层级上探测信号稀疏,由此设计出一个把高维恢复拆成逐层 MMV 子问题的多阶段恢复框架(MSR),能统一处理标准/分层/Kronecker 支撑三种稀疏模型,并给出统一的 \((s,N)\)-RIP 理论保证;在精度持平 SOTA 的同时把运行时间降低一到三个数量级。
- High-dimensional limit theorems for SGD: Momentum and Adaptive Step-sizes
-
本文把 Ben Arous 等人的"有效动力学"高维标度极限框架推广到带 Polyak 动量的 SGD(SGD-M)和带标量预条件的自适应步长 SGD,证明 SGD-M 在临界步长下会放大高维涨落、与在线 SGD 仅差一个时间重标定,而一个把梯度归一化为单位范数的简单预条件(SGD-U)反而能拓宽可收敛步长范围、把不动点推得更靠近总体最优。
- High-dimensional Mean-Field Games by Particle-based Flow Matching
-
把高维平均场博弈(MFG)的求解重写成拉格朗日坐标下的粒子优化问题,用「粒子近端下降 + Flow Matching 拟合速度场」交替迭代来近似 fictitious play,既能高维可扩展地求解势博弈/非势博弈,又能证明其收敛速率。
- High-Probability Bounds for the Last Iterate of Clipped SGD
-
本文首次证明了 Clipped-SGD 在凸光滑目标、重尾噪声(仅有限 \(\alpha\) 阶矩,\(\alpha\in(1,2]\))下末次迭代(last iterate)的高概率收敛速率,并给出一套把"高概率界"转换成"期望界"的通用技术。
- High Probability Bounds for Non-Convex Stochastic Optimization with Momentum
-
本文为带动量的随机梯度下降(SGDM)在非凸设定下补齐了高概率的收敛界与泛化界:通过把噪声放宽到 sub-Weibull 重尾、并逐级叠加 PL 与 Bernstein 结构假设,得到一条从 \(\tilde O(1/\sqrt T)\)、\(\tilde O(1/T)\) 到维度无关 \(\tilde O(1/n^2)\) 的完整界层级,其中 SGDM 的泛化界属业界首次。
- Hinge Regression Tree: A Newton Method for Oblique Regression Tree Splitting
-
把斜回归树每个节点的劈分重写成"两个线性预测器取 max/min 包络"的非线性最小二乘问题,并证明交替拟合恰好等价于固定划分下的阻尼牛顿(高斯-牛顿)法,从而用带回溯线搜索的迭代更新得到既快又稳、还带 \(O(\delta^2)\) 通用逼近率的紧凑斜回归树。
- HOTA: Hamiltonian Framework for Optimal Transport Advection
-
HOTA 把广义 Schrödinger Bridge 的对偶问题重写成「Kantorovich 势 + HJB 值函数」的联合优化,用 RL 式的 replay buffer + 目标网络 + 自适应梯度平衡稳定训练,做到无需建模中间密度、能处理非光滑势函数,同时严格保证终端分布匹配。
- How does the optimizer implicitly bias the model merging loss landscape?
-
本文提出用单一物理量「有效噪声尺度」统一刻画学习率、权重衰减、批大小、动量、数据增强等优化超参对模型合并的影响,证明合并收益是该噪声的非单调函数(存在最优临界点),从而把优化器的隐式偏置从「单个极小点的平坦性」推广到「不同解之间的全局损失景观几何」。
- How Muon's Spectral Design Benefits Generalization: A Study on Imbalanced Data
-
本文把 Muon/Shampoo 抽象成 Spectral Gradient Descent(SpecGD),在高斯混合不平衡数据上给出闭式训练轨迹,证明 SpecGD 以相同速率学习所有谱分量(而 GD 优先学主分量),从而在早停时取得更优的最差类/类平衡泛化,并揭示这正是 Muon 在不平衡数据上超越 SGD 的机制。
- Hyperbolic Aware Minimization: Implicit Bias for Sparsity
-
HAM 用一个轻量的"双曲镜像步"和普通优化器步交替执行,在不增加任何参数/显存的前提下复现了
m⊙w逐点过参数化带来的稀疏隐式偏置,同时修好了它在原点附近"逆度量塌缩、参数卡死无法翻符号"的老毛病,让稠密训练和稀疏训练都涨点。 - Hyperparameter Trajectory Inference with Conditional Lagrangian Optimal Transport
-
这篇论文提出 Hyperparameter Trajectory Inference (HTI):把连续超参数看成“时间”,用条件 Lagrangian 最优传输学习神经网络输出分布随超参数变化的轨迹,从而在不重新训练原模型的情况下近似得到未观测超参数设置下的输出。
- Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime
-
首次证明mini-batch Adam的隐式偏差与full-batch不同:构造数据集使单样本Adam收敛到 \(\ell_2\) 最大间隔分类器(而full-batch Adam收敛到 \(\ell_\infty\)),并通过AdamProxy刻画一般数据集上的数据自适应Mahalanobis范数间隔最大化行为。
- Implicit Regularization of SGD Reduces Shortcut Learning
-
本文证明 SGD 的隐式正则化(强度正比于学习率÷批量大小 \(\epsilon/b\))会系统性压制模型对虚假特征的依赖,从而在不损失精度的前提下提升群组鲁棒性——而全批量 GD 不仅没有这种好处,反而可能加重捷径依赖。
- Improved ℓp Regression via Iteratively Reweighted Least Squares
-
这篇论文为 \(p\in(1,\infty)\) 的 \(\ell_p\) 回归设计了一套全新的、基于原始-对偶视角的 IRLS 算法:它用一个轻量的乘性更新规则就把迭代复杂度做到了 \(O\!\big(p^2 n^{\frac{p-2}{3p-2}}\log\frac{n}{\epsilon}\big)\),首次让一个实用的 IRLS 方法同时达到了此前只有复杂理论算法才有的最优迭代界,实验上比经典的 p-IRLS 和 CVX 都明显更快。
- Improving Feasibility via Fast Autoencoder-Based Projections
-
训练一个自编码器把复杂(非凸)可行集"拉直"成一个简单的凸隐空间(球),从而用一次前向解码就把神经网络的不可行输出快速校正回可行域,在亚毫秒级时间内拿到接近 100% 可行率,作为传统投影/求解器的低延迟替代品。
- Improving LLM-based Global Optimization with Search Space Partitioning
-
HOLLM 把搜索空间用 KD-tree 自适应切成一堆「子区域元臂」,靠一个 bandit 风格的打分函数挑出有希望的局部区域,再让 LLM 只在这些小区域里采样候选点——从而把 LLM 全局采样「撒不开、撒得偏」的毛病,转化为局部低维采样的优势,在多模态函数和超参优化上稳压全局 LLM 采样与传统贝叶斯优化。
- Improving Online-to-Nonconvex Conversion for Smooth Optimization via Double Optimism
-
在 Cutkosky 等人的 online-to-nonconvex (O2NC) 框架上,用"双重乐观"的提示函数替换原来复杂的不动点内循环,得到一个统一的一阶算法,复杂度 \(O(\varepsilon^{-1.75}+\sigma^2\varepsilon^{-3.5})\),同时拿到确定性的最优速率(去掉了对数因子)和随机情形的最优速率。
- In-Context Multi-Objective Optimization
-
TAMO 把多目标黑盒优化从“每个新任务重新拟合 surrogate + 优化 acquisition”的 MOBO 流程,改成一个离线训练好的维度无关 Transformer policy,在测试时只靠历史观测和候选池做一次前向传播就给出下一次查询,并在多个合成与真实任务上保持接近或更好的 Pareto 质量,同时把提案时间降低约 \(50\times\) 到 \(1000\times\)。
- Incentives in Federated Learning with Heterogeneous Agents
-
从博弈论视角分析异构联邦学习中的激励问题,证明在异构数据分布和 PAC 准确率目标下纯策略纳什均衡的存在性,并提出基于线性规划的近似算法来确定最优贡献量。
- Incorporating Expert Priors into Bayesian Optimization via Dynamic Mean Decay
-
把专家先验(关于最优点位置的分布 \(\pi(x)\))直接塞进高斯过程的均值函数里,再用一个随迭代衰减的权重让它早期发力、后期淡出,从而得到一个与任意采集函数兼容、几乎零额外开销、且对坏先验鲁棒的 prior-informed 贝叶斯优化框架 DynMeanBO。
- It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization
-
这篇论文提出 MIRAS,把 Transformer、linear RNN、TTT/Titans 等序列模块统一解释为“测试时在线优化的关联记忆”,并用 attentional bias 与 retention 两个设计轴扩展出 MONETA、YAAD、MEMORA 三个 attention-free 模型,在语言建模、常识推理和长上下文 needle recall 上超过多种现代 recurrent baseline。
- Jacobian Aligned Random Forests
-
JARF 用随机森林估计类概率梯度的期望雅可比外积(EJOP),得到一个全局共享的线性预条件矩阵,把"该斜着切"的方向旋转到坐标轴上,从而让普通的轴对齐随机森林一次性获得斜决策树的精度,却几乎不增加训练成本。
- Landing with the Score: Riemannian Optimization through Denoising
-
当流形只能通过数据样本隐式给出时,本文用扩散模型学到的 score 函数及其 Jacobian 来近似流形上的「最近点投影」和「切空间投影」,从而把经典黎曼优化搬到了只有数据、没有显式几何的场景,并给出两个推理期算法(DLF / DRGD)与非渐近收敛保证。
- LCA: Local Classifier Alignment for Continual Learning
-
提出 Local Classifier Alignment (LCA) 损失函数,通过在类原型高斯分布的局部区域内同时最小化分类损失和损失灵敏度,解决持续学习中 backbone 增量合并后分类器不匹配的问题,配合增量 PEFT 合并策略 (IM),在 7 个基准数据集上达到整体 85.6% 的平均精度,大幅超越 SOTA。
- LDT: Layer-Decomposition Training Makes Networks More Generalizable
-
LDT 把网络层按梯度方差细分为稳定层和不稳定层,再用双分支交叉冻结与动态 EMA 更新切断不稳定层对稳定层的梯度扰动,从而在超分、分类、语义分割和 NLP 域泛化任务上提升跨域泛化能力。
- Learning from Algorithm Feedback: One-Shot SAT Solver Guidance with GNNs
-
用一次 GNN 前向给 SAT 公式里每个变量打出"权重+极性",把它乘进求解器现有的分支打分函数里,再用求解器本身的求解代价当奖励、拿 GRPO 这种策略梯度方法端到端训练这个 GNN——作者把这套范式叫 RLAF(Reinforcement Learning from Algorithm Feedback),在多种 SAT 分布上把基础求解器加速最多 2 倍以上,且超过基于人工启发式(backbone / UNSAT core)的监督学习方案。
- Learning of Population Dynamics: Inverse Optimization Meets JKO Scheme
-
本文提出 iJKOnet,把"从离散时刻的种群快照反推能量泛函"这件事重写成一个逆优化(inverse optimization)问题——通过最大化 JKO 步的最优值与真实测度处取值之间的间隙,得到一个 min-max 目标,用常规对抗式端到端训练即可学到驱动 Wasserstein 梯度流的能量泛函,无需输入凸神经网络、也无需预先计算最优传输耦合。
- Learning to Recall with Transformers Beyond Orthogonal Embeddings
-
在随机(非正交)嵌入条件下分析单层 Transformer 在 token 检索任务上经验梯度下降的"早期阶段",推导出模型存储容量的显式公式,揭示了样本量 N、嵌入维度 d 和序列长度 L 之间的乘法依赖关系,并证明这一缩放关系是信息论下界固有的。
- Learning to Solve Orienteering Problem with Time Windows and Variable Profits
-
提出DeCoST——一种学习式两阶段框架,将OPTWVP中耦合的离散路线决策和连续服务时间分配解耦:第一阶段并行解码器联合生成路径+初始服务时间,第二阶段LP精确优化服务时间(全局最优),通过pTAR反馈实现跨阶段协调。在50-500节点OPTWVP上优化间隙仅0.83%-3.31%,推理速度比元启发式快最高45倍。
- LEGACY: A Lightweight Dynamic Gradient Compression Strategy for Distributed Deep Learning
-
LEGACY 抛开需要调参或计算密集的自适应压缩器,仅凭"层大小"和"训练阶段"这两个免费可得的信号,为任意压缩器(Top-k、QSGD、PowerSGD 等)配上一个轻量动态调度器,在相同通信量下显著提升精度。
- Leveraging Discrete Function Decomposability for Scientific Design
-
DADO 把科学设计中的离散目标函数分解结构显式放进分布优化过程,用 junction tree 上的消息传递为每个局部生成因子提供协调后的权重,从而比普通 EDA 更高效地在巨大离散设计空间里找到高分设计。
- LMask: Learn to Solve Constrained Routing Problems with Lazy Masking
-
LMask 把神经路由求解器的「一次前向、不可回头」构造范式改成可前进可回溯的惰性掩码解码,配合搜索轨迹嵌入与训练期软约束惩罚,在带时间窗 / 吃水限制的约束 TSP 上把不可行率压到近 0%、同时拿到更优解。
- Local Entropy Search over Descent Sequences for Bayesian Optimization
-
把熵搜索(entropy search)的"信息增益"目标从全局最优点改成迭代优化器(如梯度下降)能从初始点走到的局部最优,通过把 GP 后验"喂"进优化器得到一族"下降序列"分布,每步选择让该分布信息增益最大的查询点,从而在高维高复杂度黑盒优化上更省样本。
- LoRA meets Riemannion: Muon Optimizer for Parametrization-independent Low-Rank Adapters
-
把 LoRA 的低秩更新当作"固定秩流形上的一个点"来直接优化,从而把 Muon 优化器搬上黎曼流形(称为 Riemannion),从根上消除 LoRA 因子分解带来的参数化歧义,并配套一套梯度对齐初始化和单次反传实现,在 LLM 与扩散模型微调上同时提升收敛速度和最终精度。
- Markovian Transformers for Informative Language Modeling
-
提出马尔可夫语言模型(MLM)框架,通过结构约束(答案预测时移除原始问题,仅从CoT推导)强制CoT成为因果必要的推理瓶颈——类似自编码器的窄潜层,配合GRPO风格策略梯度训练,在GSM8K上从19.6%提升到57.1%,且学到的CoT可跨模型架构(Llama→Mistral/Phi/GPT-2)迁移,证明CoT编码了自然语言推理而非隐写术。
- MASAM: Multimodal Adaptive Sharpness-Aware Minimization for Heterogeneous Data Fusion
-
把单模态里用来找平坦极小值的 SAM 改造成「模态自适应」版本:用一个自适应扰动分数挑出当前最强势的模态、只对它施加沿融合梯度方向的解耦扰动,从而在异构融合中同时缓解模态不平衡、把每个模态的编码器都拽进平坦区。
- Matched Data, Better Models: Target Aligned Data Filtering with Sparse Autoencoders
-
用稀疏自编码器把 CLIP 特征拆成"可计数"的单义概念,再把数据筛选建模成"让选中子集的概念分布去逼近目标分布"的子模最大化问题(SDM),在 DataComp-medium 上以更少样本和 5× 更少 GPU 时数逼近 SOTA。
- MILPnet: A Multi-Scale Architecture with Geometric Feature Sequence Representations for Advancing MILP Problems
-
把 MILP 实例从「二部图」改写成「几何特征序列」,再用多尺度混合注意力建模,从根上绕开 GNN 受 Weisfeiler-Lehman 测试限制而无法区分 Foldable MILP 的表达力瓶颈,并给出可行性/最优解/最优值映射的逼近理论保证。
- Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization
-
深入分析了 SAM 在线性对角网络上训练时的隐式偏差,揭示深度从 \(L=1\) 到 \(L=2\) 引发的质变:\(\ell_\infty\)-SAM 的极限方向对初始化高度敏感,\(\ell_2\)-SAM 则展现出"先弱后强"的序列特征放大(sequential feature amplification)现象,指出仅关注 \(t\to\infty\) 极限的分析不足以揭示 SAM 的完整动态行为。
- MT-DAO: Multi-Timescale Distributed Adaptive Optimizers with Local Updates
-
提出 MT-DAO,一种多时间尺度分布式自适应优化器,通过引入慢动量(高 \(\beta\))来解决低频通信训练中标准动量衰减过快导致的时间尺度失配问题,首次提供了收敛保证,在语言模型预训练中消除了与全同步 DDP 的性能差距,同时减少 6-27% 的端到端训练时间。
- \(\mu\)LO: Compute-Efficient Meta-Generalization of Learned Optimizers
-
本文为两种 SOTA 学习优化器(small_fc_lopt 与 VeLO)推导了最大更新参数化(\(\mu\)P),并配上一套低成本的"多宽度单任务"元训练配方,使得只在小 MLP 上元训练的优化器,能在零额外算力开销下泛化到远超训练规模的更宽、更深、训练更久的未见任务。
- Multi-Action Self-Improvement for Neural Combinatorial Optimization
-
MACSIM 把神经组合优化的自改进范式从"单步动作"扩展到"多智能体联合动作",通过并行预测全体智能体-任务分配 + 置换不变的集合预测损失,既显式利用智能体置换对称性提升样本效率与协同能力,又大幅压缩自改进循环里的解生成延迟。
- Multilevel Control Functional
-
本文提出多层控制泛函(MLCF),把非参数 Stein 控制变量(control functionals)嫁接到多层蒙特卡洛(MLMC)的望远镜求和上,在每一层用控制泛函进一步压低相邻保真度模型差值的方差,从而在被积函数与密度光滑、维度不太高时获得比 MLMC 更快的收敛率,并给出了最优样本分配与变分推断扩展。
- Muon Outperforms Adam in Tail-End Associative Memory Learning
-
本文从"联想记忆"视角揭示 Muon 比 Adam 快的机制:Muon 的更新规则把梯度奇异值归一化,正好匹配联想记忆的外积叠加结构,因而能在重尾数据上对低频"尾部"知识做更均衡的学习。
- MuonBP: Faster Muon via Block-Periodic Orthogonalization
-
MuonBP 在张量并行下让每张卡只对本地分片做正交化、每隔 P 步才做一次全局正交化,并用「块步」「全步」两个不同学习率,把 Muon 因正交化跨卡通信带来的吞吐损失抹平——8B 模型上比 Muon 提速约 8% 且效果不降反升。
- Nesterov Finds GRAAL: Optimal and Adaptive Gradient Method for Convex Optimization
-
本文把无需调参、无需线搜索的自适应梯度法 GRAAL 与 Nesterov 加速首次"正确地"融合,得到 Accelerated GRAAL,它能像非加速 GRAAL 一样让步长按几何(线性)速率自适应局部曲率,从而在 \(L\)-光滑和更一般的 \((L_0,L_1)\)-光滑下都达到接近最优的迭代复杂度 \(O(\sqrt{L\|x_0-x^*\|^2/\epsilon})\)。
- NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization
-
NeuCLIP 用凸共轭把对比损失改写成"带辅助变量的最小化问题",再用变分分析把 \(n\) 个逐样本辅助变量塌缩成一个轻量神经网络(NPN)来预测对数归一化项,从而摆脱 FastCLIP 那种随数据集/批量大小比例放大的优化误差,在百万到十亿规模 CLIP 训练上稳定超越现有方法。
- Neural Hamilton–Jacobi Characteristic Flows for Optimal Transport
-
本文把最优传输(OT)映射重写成 Hamilton–Jacobi(HJ)方程黏性解的梯度,借助"特征线法"把动力学积分塌缩成一条直线,于是只用单个网络、纯极小化损失就能得到闭式、双向、且保证最优的传输映射,彻底甩掉了对抗训练和 ODE 数值积分。
- Neural Multi-Objective Combinatorial Optimization for Flexible Job Shop Scheduling Problems
-
用单个偏好条件化的注意力网络 + 分解式 PPO,一次训练就能为多目标柔性作业车间调度(MOFJSP)生成覆盖各种 trade-off 的整条 Pareto 前沿,效果和速度都远超进化算法。
- Neural Networks Learn Generic Multi-Index Models Near Information-Theoretic Limit
-
证明在通用非退化假设下,标准两层神经网络通过分层梯度下降可以用 \(\tilde{O}(d)\) 样本和 \(\tilde{O}(d^2)\) 时间学习通用高斯 Multi-Index 模型 \(f(\bm{x})=g(\bm{U}\bm{x})\),样本和时间复杂度都达到信息论最优,首次证明神经网络可以高效学习层次化函数。
- Neural Optimal Transport Meets Multivariate Conformal Prediction
-
用神经最优传输学一个连续、循环单调的「向量分位数函数」(把参考分布搬运到条件分布),再把它诱导出的多元秩当作共形分数,构造出既有有限样本覆盖保证、又能自适应条件分布几何形状的多元预测区域。
- Neural Sum-of-Squares: Certifying the Nonnegativity of Polynomials with Transformers
-
用 Transformer 预测多项式的「紧凑单项式基」来大幅缩小 SOS 证书对应的半定规划(SDP)规模,再配一套带正确性保证的修复+扩展回退机制,使非负性证明相比 SOTA 求解器加速 100×~2000×。
- Never Saddle for Reparameterized Steepest Descent as Mirror Flow
-
本文提出"最速镜像流(steepest mirror flow)"统一框架,把重参数化下的 SignGF(≈Adam)到 GF(≈SGD)的整族最速下降算法都纳入镜像流视角,从几何上解释了为何更陡的下降能更快逃离鞍点、更好地学到稀疏特征,从而说明了 Adam/AdamW 在微调任务上常优于 SGD 的两个机制。
- New Hybrid Fine-Tuning Paradigm for LLMs: Algorithm Design and Convergence Analysis Framework
-
本文提出一种"混合微调"范式——用零阶优化更新庞大的基座 LLM、用一阶梯度更新轻量 PEFT 模块,并针对两类参数平滑度差异巨大的现象提出"混合平滑条件",首次给出广义平滑下随机重排 SGD 在多学习率下的最优收敛保证。
- Newton Method Revisited: Global Convergence Rates up to \(O(1/k^3)\) for Stepsize Schedules and Linesearch Procedures
-
本文用"三阶导 Hölder 连续"这个非常规视角重新分析带步长的 Newton 法,提出一族可显式计算的步长策略(RN),把经典 Newton 法的全局收敛率从 \(O(1/k^2)\) 一举推到 \(O(1/k^3)\),并给出无需预知光滑常数的线搜索/回溯版本(GRLS、UN),顺带首次证明了实践常用的贪心 Newton 线搜索的收敛保证。
- NExCO: Native Solution Expansion for Diffusion-based Combinatorial Optimization
-
NExCO 把「自适应扩展」从外挂在全局预测器上的包装器,重写成 CO 专用掩码扩散模型自身的内在解码机制:扩散的每一个中间态都是合法的部分解,模型通过逐步「解掩」高置信度变量并做可行性投影来构造完整解,在 TSP/MIS/CVRP 上同时拿到约 50% 的质量提升和最高 4× 的推理加速。
- Non-Asymptotic Analysis of Efficiency in Conformalized Regression
-
首次建立保形分位数回归(CQR)和保形中位数回归(CMR)在 SGD 训练下的非渐近效率界,明确刻画了预测集长度偏差与训练样本量 \(n\)、校准样本量 \(m\) 和误覆盖率 \(\alpha\) 的联合依赖关系。
- Non-Convex Federated Optimization under Cost-Aware Client Selection
-
为联邦优化提出一个把「不同客户端选择策略对应不同通信成本」显式建模的代价感知框架,并基于不精确复合梯度法 (I-CGM) 配上新的 RG-SAGA 梯度估计器,得到在该模型下非凸优化通信与本地计算复杂度均最优的方法。
- NRGPT: An Energy-based Alternative for GPT
-
提出NRGPT(eNeRgy-GPT),对标准GPT进行最小修改使其成为能量基模型:设计注意力能量和前馈能量函数,使每层前向传播等价于token在能量landscape上的梯度下降步,证明了渐近能量下降和稳定收敛性质,在ListOps/Shakespeare/OpenWebText上验证了与标准GPT可比的性能。
- On the Convergence Behavior of Preconditioned Gradient Descent Toward the Rich Learning Regime
-
本文从神经正切核(NTK)的特征值动力学出发,用理论与实验说明 Gauss-Newton / Levenberg-Marquardt 这类预条件梯度下降(PGD)能把谱偏置导致的"各频率模式收敛速度悬殊"拉平成均匀收敛,从而大幅压缩 grokking 的延迟泛化窗口;但 PGD 会粘在惰性(lazy)NTK 子空间里、最终泛化偏弱,需要在惰性阶段耗尽后切回一阶方法(如 Adam)才能恢复泛化。
- On the Convergence Direction of Gradient Descent
-
本文证明:当梯度下降(GD)收敛到一个局部强凸极小点时,它的轨迹并不是朝任意方向逼近,而是要么对齐到一个固定方向(小学习率),要么沿一条直线来回振荡收敛(大学习率),分界线恰好是 \(\eta = 2/(\lambda_1+\lambda_n)\);这个离散版"梯度猜想"还顺带为 Edge of Stability 里 sharpness 的振荡现象给出了一个解释。
- On the Surprising Effectiveness of a Single Global Merging in Decentralized Learning
-
在通信极度受限、数据高度异质的去中心化训练里,作者发现训练末期来一次「全局合并」(把所有节点模型平均一下)就能把全局测试性能拉到接近联邦学习的水平,并首次从理论上证明:去中心化 SGD 的全局合并模型可以达到并行 SGD 的收敛速率——关键在于把过去被当成「有害噪声」的节点间差异,重新解读为匹配该速率所必需的「建设性成分」。
- Online Black-Box Prompt Optimization with Regret Guarantees under Noisy Feedback
-
本文提出 AOZPT,首个把黑盒提示优化放进在线学习 + 含噪反馈场景的零阶方法:用一个自适应不确定性尺度调整机制压住「生成模型输出噪声 + 零阶梯度高方差」这两类不确定性,并在非凸设定下证明可达到亚线性 regret,在文本和图像生成任务上比离线/在线基线更稳更好。
- Optimizer Choice Matters for the Emergence of Neural Collapse
-
通过 3,900+ 次训练实验和理论分析,揭示了优化器选择(特别是权重衰减的耦合方式)对 Neural Collapse 现象涌现起关键决定性作用——AdamW(解耦权重衰减)无法产生 Neural Collapse,而 SGD 和 Adam(耦合权重衰减)可以。
- Personalized Collaborative Learning with Affinity-Based Variance Reduction
-
提出个性化协作学习框架 AffPCL,通过偏差校正和重要性校正机制,让异质智能体在无需先验知识的情况下协作学习个性化解,实现 \(O(t^{-1} \cdot \max\{n^{-1}, \delta\})\) 的自适应收敛率——智能体相似时获得线性加速,差异大时不差于独立学习。
- Πnet: Optimizing Hard-Constrained Neural Networks with Orthogonal Projection Layers
-
提出 Πnet 架构,通过在神经网络输出层附加基于 Douglas-Rachford 算子分裂的正交投影层来保证凸约束的严格满足,并利用隐函数定理进行高效反向传播,在训练时间、求解质量和超参数鲁棒性上大幅超越现有方法。
- Predictive Differential Training Guided by Training Dynamics
-
把 DNN 的训练过程当成一个高维权重空间上的非线性动力系统,用 Koopman/DMD 直接预测几个 epoch 之后的权重来跳过 SGD 迭代,并通过一套"动态一致性分析"掩码只采纳那些局部动态与全局动态一致的高保真预测权重,从而作为即插即用插件给各种优化器(SGD/Adam/LAMB 等)提速 10–40%、且不掉精度。
- Provable and Practical In-Context Policy Optimization for Self-Improvement
-
提出 In-Context Policy Optimization (ICPO) 框架,理论证明单层线性自注意力 Transformer 经充分预训练后可在上下文中模拟策略优化算法,并设计实用的 ME-ICPO 算法通过最小熵选择和自评估奖励实现测试时多轮自反思,在数学推理任务上取得显著提升(AIME 2024 上 Qwen2.5-Math-7B 从 11% 提升到 30%)。
- Provably Accelerated Imaging with Restarted Inertia and Score-based Image Priors
-
针对 RED 类成像重建算法收敛慢的问题,本文提出 RISP——给迭代加上「惯性步 + 重启机制」,在不要求先验凸性的前提下把收敛率从 \(O(n^{-1/2})\) 证明性地提升到 \(O(n^{-4/7})\),在大尺度成像上实测最高提速 24×,同时保持重建质量。
- Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction
-
这篇论文证明:在经典联邦学习(中心化分布式优化)里,一旦把"服务器→worker"方向的通信代价 \(\tau_s\) 算进来,再用无偏稀疏化压缩器也无法让"通信项 \(\tau_s d L\Delta/\varepsilon\)"和"方差项 \(h\sigma^2 L\Delta/\varepsilon^2\)"同时随 worker 数 \(n\) 改善——即便在所有 worker 共享同一函数的同质(i.i.d.)设定下,二者的可改善幅度也最多只有 \(n\) 的多项式对数 \(\mathrm{poly}\log n\) 倍;为此作者造了一个全新的链式 worst-case 函数并发展了把下界归约成"随机和集中不等式"的证明框架。
- Rapid Training of Hamiltonian Graph Networks using Random Features
-
本文提出 RF-HGN,通过随机特征采样(ELM/SWIM)构建 dense 层参数并求解线性最小二乘问题来训练哈密顿图网络,完全绕过梯度下降迭代优化,在 N 体物理系统上实现 150-600 倍加速,同时保持可比精度和强零样本泛化能力。
- Reducing Contextual Stochastic Bilevel Optimization via Structured Function Approximation
-
本文用一组表达力足够的基函数把上下文相关的下层解 \(y^\star(x,\xi)\) 参数化成 \(W(x)\Phi(\xi)\),从而把难解的上下文随机双层优化(CSBO)化归为一个标准随机双层优化(SBO)问题,既摆脱了对条件采样 oracle 的依赖,又把 CSBO 的样本复杂度从 \(\tilde O(\epsilon^{-4})\) 一举改进到与 SBO 持平的近最优 \(\tilde O(\epsilon^{-3})\)。
- Rethinking Consistent Multi-Label Classification Under Inexact Supervision
-
提出 COMES 框架,通过一阶(Hamming loss)和二阶(Ranking loss)策略,为不精确监督下的多标签分类提供一致性风险估计器,无需估计标签生成过程或均匀分布假设。
- Riemannian Federated Learning via Averaging Gradient Streams
-
这篇论文提出 RFedAGS,在黎曼流形上的联邦学习中不再平均客户端最终模型点,而是把本地随机梯度经向量传输搬回服务器切空间后做加权平均,从而在任意部分参与和非IID数据同时存在时仍能给出收敛保证,并在 PCA、双曲结构预测、SPD Fréchet mean 等任务上优于现有 Riemannian FL 方法。
- Riemannian Optimization on Relaxed Indicator Matrix Manifold
-
本文提出一种新的指示矩阵松弛——把列和约束从"等于某个固定值"放宽到"落在区间 \((l,u)\) 内",证明这个松弛集构成一个 \((n-1)c\) 维的嵌入子流形(RIM 流形),并配套给出一整套黎曼优化工具箱,使原本在双随机流形上需 \(O(n^3)\) 的梯度/Hessian 计算降到 \(O(n)\),在百万级变量的图像去噪与 Ratio Cut 聚类上比双随机流形方法快 70–200 倍且结果更优。
- Riemannian Zeroth-Order Gradient Estimation with Structure-Preserving Metrics for Geodesically Incomplete Manifolds
-
针对黎曼流形上度量"测地不完备"导致指数映射可能把扰动点送出流形、零阶估计器失效的问题,本文构造了一个保持原驻点结构、又测地完备的共形等价度量 \(g'\),并在纯内蕴(不依赖嵌入)视角下给出两点对称零阶估计器的均方误差上界(揭示其与流形曲率的关系),配合无偏的拒绝采样,最终把黎曼零阶 SGD 的最优收敛复杂度从欧氏度量推广到一般黎曼度量。
- Ringleader ASGD: The First Asynchronous SGD with Optimal Time Complexity under Data Heterogeneity
-
Ringleader ASGD 用“梯度表 + 分轮缓冲 + 每轮每个 worker 恰好更新一次”的异步机制,在非凸随机优化和任意数据异质场景下避免快设备主导训练,并在固定计算时间模型中达到并行一阶随机方法的最优时间复杂度。
- Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures
-
提出统一的理论框架,通过 saddle-to-saddle 学习动力学解释多种神经网络架构(全连接、卷积、注意力)中普遍存在的 simplicity bias——即梯度下降倾向于先学习简单解再逐步学习复杂解的现象。
- Scalable and Adaptive Trust-Region Learning via Projection Convex Hull
-
这篇论文提出 Projection Convex Hull(PCH),把难解的凸包信赖域学习 MINLP 转成带权重投影的可微代理优化,迭代学习少量支撑超平面,从而在高维数据中得到既紧、又可解释、还能直接嵌入下游优化模型的多面体信赖域。
- Scalable Second-Order Riemannian Optimization for K-means Clustering
-
本文把带非负约束的低秩 K-means SDP 松弛重写成一个乘积流形上的无约束光滑优化问题,用立方正则化的黎曼牛顿法求解,并通过流形分解把每步牛顿子问题的代价降到关于样本数 \(n\) 的线性级,从而在 \(n\cdot\epsilon^{-3/2}\cdot\mathrm{poly}(r,d)\) 时间内收敛到二阶临界点(在良性非凸假设下即全局最优),比一阶 SOTA 方法快 2–4 倍且统计精度相当。
- Scaling Laws of SignSGD in Linear Regression: When Does It Outperform SGD?
-
在幂律随机特征(Power-Law Random Features)模型下,系统分析了 SignSGD 的缩放定律,揭示了 SignSGD 相对于 SGD 的两个独特效应——漂移归一化和噪声重塑,并证明在噪声主导的情形下 SignSGD 的计算最优斜率可以超过 SGD。
- Scaling Multi-Task Bayesian Optimization with Large Language Models
-
BOLT 把大量历史贝叶斯优化轨迹蒸馏进 LLM,让 LLM 为新任务生成高质量初始解,再交给标准单任务 BO 继续搜索,从而在数据库查询计划优化和抗菌肽设计中突破传统多任务 BO 随任务数增加而收益饱和的问题。
- SCRAPL: Scattering Transform with Random Paths for Machine Learning
-
针对多变量散射变换(ST)作为可微损失函数时因路径数P过多导致计算代价过高的问题,提出SCRAPL——每步仅随机采样一条路径并通过P-Adam(路径自适应动量)、P-SAGA(路径随机平均梯度)和θ-重要性采样三种方差缩减技术来稳定梯度,在无监督声音匹配任务上以接近全路径ST的精度、MSS级别的低计算成本实现了Pareto最优。
- Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling
-
本文从理论上证明了「学习率衰减」与「batch size 增大」在 SGD(及作为 Adam 代理的 normalized SGD)下的有限样本等价性,并据此提出即插即用的 Seesaw 调度器——每当余弦调度本应把学习率减半时,改为把学习率乘以 \(1/\sqrt{2}\) 同时把 batch size 翻倍,在等 FLOPs 下匹配余弦衰减的 loss 曲线,却把串行墙钟时间缩短约 36%。
- SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration
-
本文为 AdaGrad 类自适应预条件 SGD 建立了一个统一收敛分析框架:通过把预条件算子约束在一个满足特定假设的算子子空间内,用一份证明同时复现 AdaGrad-Norm、AdaGrad、ASGO/One-sided Shampoo 的 SOTA 收敛率,并首次给出 DASGO 的收敛保证;进一步证明对角预条件(AdaGrad、DASGO)可以叠加 Nesterov 动量被可证加速,从而首次从理论上解释了 Adam「对角预条件 + 动量」双重机制为何高效。
- Shuffling the Data, Stretching the Step-Size: Sharper Bias in Constant Step-Size SGD
-
本文把两个经典启发式——随机重排(Random Reshuffling, RR1) 与 Richardson–Romberg 外推(RR2)——首次严格地组合进一个统一算法,证明在拟强单调变分不等式(VIP)上二者协同可以把常步长 SGD 的渐近偏差从 \(O(\gamma)\) 一路压到 \(O(\gamma^3)\),同时保持 RR1 带来的 \(O(\gamma^2)\) 均方误差,理论与实验都验证了这种"1+1>2"的协同。
- Sign-SGD via Parameter-Free Optimization
-
这篇论文提出 ALIAS,一个不需要手动调学习率的参数自由 Sign-SGD 系列算法,通过逐轮估计目标间隙和局部平滑常数来自动给出 sign 更新步长,在 LLaMA 预训练、Swin 微调和多种基准上接近或超过调参后的 Sign-SGD / AdamW,同时把网格搜索学习率的总训练成本降下来。
- Single-Loop Byzantine-Resilient Federated Bilevel Optimization
-
这篇论文研究有拜占庭客户端时的联邦双层优化,先给出由上下层异质性共同决定的渐近误差下界,再提出单循环算法 BR-FedBi 及 Momentum/PAGE 变体,用辅助变量估计超梯度并结合鲁棒聚合,在理论上达到最优拜占庭鲁棒性或最优样本复杂度,实验上明显优于需要子循环的 BILANTINE。
- Sobolev Gradient Ascent for Optimal Transport: Barycenter Optimization and Convergence Analysis
-
这篇论文把精确 Wasserstein barycenter 写成一个无约束的凹对偶问题,并在 \(\dot H^1\) Sobolev 几何中直接做梯度上升,从而省掉昂贵的 \(c\)-concavity 投影,同时给出与经典非光滑凸优化同阶的全局 \(O(T^{-1/2})\) 收敛保证。
- Solving the 2-norm k-hyperplane clustering problem via multi-norm formulations
-
这篇论文把 2-norm k-超平面聚类的非凸精确求解问题,转化为一个由 2-norm、1-norm 和 \(\infty\)-norm 约束共同强化的多范数混合整数模型,使空间分支定界更早得到非零下界,并在 LowDim/HighDim 基准上把中位求解时间最高加速约 \(41\times\)。
- SPREAD:基于采样的高效自适应扩散 Pareto 前沿精化
-
SPREAD 把条件 DDPM 当作多目标优化(MOO)的求解器:先用 Diffusion Transformer 学一个以"目标值"为条件的扩散过程,再在每一步逆扩散里注入一个"多梯度下降方向 + 高斯 RBF 排斥力"的引导项,让一批候选点既快速收敛到 Pareto 最优、又均匀铺开覆盖整条 Pareto 前沿,在在线、离线、贝叶斯三种设定下都匹配或超过专用 SOTA。
- Strongly Convex Sets in Riemannian Manifolds
-
这篇论文首次系统地把"集合的强凸性"从欧氏(Hilbert)空间推广到黎曼流形,给出三种互不等价的强凸集定义、它们之间的蕴含关系、一套构造性识别工具(光滑强凸函数的下水平集是强凸集),并证明了在(近似)黎曼 scaling 不等式下黎曼 Frank-Wolfe(RFW)算法可以线性收敛。
- Submodular Function Minimization with Dueling Oracle
-
在只能拿到"两个集合谁的函数值更大"这种带噪声成对比较反馈(dueling oracle)、完全没有函数值的情况下做子模函数最小化,作者用 Lovász 扩展 + SGD 构造子梯度估计器,针对线性传递函数给出 \(O(n^{3/2}/\sqrt{T})\) 的误差界并配上匹配下界(在受限算法类里最优),针对 sigmoid 传递函数用 Firth 偏差校正法给出 \(O(n^{7/5}/T^{2/5})\) 的误差界。
- Symmetry-Aware Bayesian Optimization via Max Kernels
-
当黑盒目标函数在某个群 \(G\) 作用下不变时,本文不再像主流做法那样对群轨道做"平均"得到不变核,而是取轨道间的"最大对齐"相似度 \(k_{\max}\),再用特征值裁剪 + Nyström 扩展把它救成一个合法的(半正定)GP 核 \(k_+^{(D)}\),在不增加渐进开销的前提下显著降低了贝叶斯优化的累积遗憾,且群越大优势越明显。
- Taming Curvature: Architecture Warm-up for Stable Transformer Training
-
本文先用「热启动幂迭代」把十亿参数 Transformer 的(预条件)Hessian 最大特征值在线追踪成本压到每步 <5 次 HVP,借此确认训练 loss 尖峰确实伴随曲率飙升、且曲率随深度增长,进而提出「架构预热」——训练早期把多数层冻结为恒等、随学习率衰减再逐步解冻——在不拖慢收敛的前提下显著压制大模型训练的发散与尖峰。
- The Polar Express: Optimal Matrix Sign Methods and their Application to the Muon Algorithm
-
Polar Express 把 Muon 中的极分解近似从启发式 Newton-Schulz 系数搜索,改成每轮求解最坏误差最优的奇多项式组合,在保持纯矩阵乘法和 bfloat16 友好的前提下,让 GPT-2 训练中的 Muon 更新方向更快、更稳地逼近有效的极因子。
- The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
-
这篇论文不设计新优化器,而是用 Jacobian-vector product 在 45M/150M 的 LLaMA 上真刀真枝地跑完整的 full Gauss-Newton(GN)预条件,把它当成二阶优化的「性能上界」来回答一个问题:现有 SOAP/Muon/Shampoo 这些用近似 Hessian 的二阶方法到底还差多少——结果发现 full GN 在大 batch 下把达到目标 loss 的迭代步数比 SOAP 砍掉 5.4×、比 Muon 砍掉 16×,而且只用逐层(layerwise)曲率、完全忽略跨层信息,就能几乎追平 full GN。
- The Power of Small Initialization in Noisy Low-Tubal-Rank Tensor Recovery
-
在带噪声、过估计 tubal-rank 的低秩张量恢复中,本文证明把因子化梯度下降(FGD)的初始化尺度取到接近 0(小初始化),就能让最终恢复误差只依赖于真实 tubal-rank \(r\)、而与被高估的秩 \(R\) 无关,从而逼近信息论 minimax 下界,并用验证集早停在无任何先验的情况下达到该误差。
- Tighter Performance Theory of FedExProx
-
本文重新审视联邦外推近端方法 FedExProx,指出其原有理论在二次问题上竟然不比最朴素的梯度下降(GD)更好,进而用「先证距离收敛、再翻译成函数值收敛」的新分析绕开了导致松弛的 \(L_{\max}\) 依赖,首次严格证明在通信主导计算的真实联邦场景下 FedExProx 的总时间复杂度可以严格优于 GD,并把结论推广到部分参与、自适应外推与 PŁ 条件。
- Toward Principled Flexible Scaling for Self-Gated Neural Activation
-
这篇论文从决策(多准则评分)视角揭示了自门控激活函数在 Transformer 等已经建模了细粒度上下文的层里"用不上劲"的根因——门控函数饱和导致重要特征拿到几乎一样的门控权重(trivially discriminative gating weights),并提出 FleS:用符号敏感的通道统计量经小 MLP 生成"垂直 + 水平"两个自适应缩放系数,动态调节门控曲线的上界与陡度,在 Swin/PoolFormer/ResNet 上一致刷过一众 SOTA 激活函数(如 Swin-Min 上 71.4% vs GELU 68.7%)。
- Towards Better Branching Policies: Leveraging the Sequential Nature of Branch-and-Bound Tree
-
本文提出 Mamba-Branching:把分支定界(B&B)求解过程显式地建模成一条"从根节点到最优解节点"的分支路径序列,用线性复杂度的 Mamba 做超长序列建模、再用对比学习预训练候选变量的判别性 embedding,从而在异构 MILP 上超越所有已有神经分支策略,并在困难实例上以更快收敛超过 SCIP 默认的 relpscost 规则。
- Towards Dynamic Interleaving Optimizers
-
DOIT 把"训练过程中该用哪个优化器"当成一个随训练状态变化的在线决策问题,用高斯过程代理模型预测每个优化器在当前参数状态下的短期收益、再用融合可迁移性与训练进程的采集函数挑选优化器,从而在多个优化器之间动态交替(interleave),相比单一/简单混合优化器收敛快 2%–10%、精度高 1%–3%。
- Towards Efficient Optimizer Design for LLM via Structured Fisher Approximation with a Low-Rank Extension
-
把 Adam、Shampoo、SOAP 等一众优化器统一解释成「对 Fisher 信息矩阵 (FIM) 做不同结构假设下的 Frobenius 最优近似」,并据此给出两条设计准则——精选结构与低秩扩展——分别导出两个新的内存高效优化器 RACS 与 Alice,在 LLaMA 预训练(最大 1.3B)上比 Adam 收敛快 2 倍以上且几乎不增加显存。
- Towards Understanding the Calibration Benefits of Sharpness-Aware Minimization
-
这篇论文从理论上证明了锐度感知最小化(SAM)之所以能缓解深度网络的"过自信",本质是在隐式地对预测分布的负熵做正则(等价于隐式最大熵),并据此提出一个改进版 CSAM,专门压制过自信样本,在多个数据集(含 ImageNet-1K)上取得比 SAM 和各类校准方法更低的校准误差。
- Trion: FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of LLMs
-
本文用一个固定的离散余弦变换(DCT)正交矩阵 + 动态列选择来替代 GaLore/Dion 等低秩优化器里昂贵的 SVD/QR 投影,每层只需存 \(r\) 个整数索引而非完整投影矩阵,由此得到运行时与秩无关、内存最多降 25% 而精度不掉的两款优化器 Trion 与 DCT-AdamW。
- Unbiased Gradient Estimation for Event Binning via Functional Backpropagation
-
针对事件相机把事件「分箱」成帧时分箱函数不连续、导致直接从原始事件学习时梯度有偏的问题,本文提出泛函反向传播(FBP):把分箱函数提升到泛函空间,借助分部积分让 cotangent 函数自然浮现,再从采样到的 cotangent 向量重建它,从而合成可证明无偏、且能逼近长程有限差分的弱导数——前向输出完全不变,只改反向传播,就让 egomotion、光流、SLAM 等任务一致受益。
- Unified Analyses for Hierarchical Federated Learning: Topology Selection under Data Heterogeneity
-
本文为层次联邦学习(HFL)的四种两层拓扑(Star-Star / Star-Ring / Ring-Star / Ring-Ring)建立了首个统一的非凸收敛框架,用同一套假设和"有效学习率"把它们的收敛界放进同一张表里直接比较,进而推导出三条可落地的拓扑选择原则,并在 CIFAR-10/CINIC-10/Fashion-MNIST/SST-2 上验证。
- Unifying Formal Explanations: A Complexity-Theoretic Perspective
-
提出统一框架将充分理由和对比理由(局部/全局、概率/非概率)归结为对统一概率值函数的最小化问题,揭示全局值函数具有单调性、子模性/超模性等组合优化关键性质,从而证明全局解释在多项式时间内可计算——即使对应的局部解释是 NP-hard 的。
- Unleashing LLMs in Bayesian Optimization: Preference-Guided Framework for Scientific Discovery
-
LGBO 把 LLM 对“哪里更值得试”的语义偏好持续转成 GP 代理模型的可控均值偏移,让 Bayesian optimization 在科学发现任务中既能借用领域知识加速冷启动,又不把最终选点权交给可能不稳定的 LLM。
- Unlocking the Potential of Weighting Methods in Federated Learning through Communication Compression
-
本文提出 ADI(Agnostic DIANA),把 DIANA 式的"差分压缩"嵌入到 agnostic 加权联邦学习的鞍点问题求解中,让"自动加权"与"通信压缩"两条原本互不兼容的路线第一次同时成立——既能用 \(\min_\theta\max_\pi\) 的加权框架对抗数据异质性,又只需上传压缩后的差分向量与一个标量损失,从而打破通信瓶颈;理论上覆盖精确梯度、随机梯度与部分参与三种场景,实验在 CIFAR-10 异质划分上收敛优于纯压缩 baseline。
- ViTSP: 用视觉语言模型引导求解大规模旅行商问题
-
ViTSP 把大规模 TSP 实例画成一张图喂给预训练 VLM,让 VLM "看图"框出有希望优化的小区域作为子问题,再交给现成精确求解器(Concorde)反复求解来改进全局解;在 1k–88k 节点的真实 TSPLIB 上平均最优性 gap 仅 0.24%,无需任何任务训练就超过了 LKH-3 和一众学习型求解器。
- Weight Decay May Matter More Than µP for Learning Rate Transfer in Practice
-
这篇论文用一个"相对更新"统一框架重新审视大模型训练里的学习率迁移,发现 µP 赖以成立的对齐假设在实际训练中很快失效,真正在大部分训练时间里稳住跨宽度特征学习、让学习率得以迁移的其实是独立形式的 weight decay;而 µP 的学习率缩放实质只起到了一个"隐式学习率 warmup"的作用,可以用更强的显式 warmup 大体替代。
- WSM: Decay-free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training
-
WSM 把"学习率衰减"和"checkpoint 加权平均"从理论上画了等号——只要恒定学习率训练,再把最近若干个 checkpoint 按推导出的权重合并,就能模拟出余弦/线性/1-sqrt 等任意衰减曲线,从而彻底去掉训练中的 decay 阶段,并在 MATH/HumanEval/MMLU-Pro 等基准上稳定超过主流的 WSD 方案。