\(\mu\)LO: Compute-Efficient Meta-Generalization of Learned Optimizers¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=f8z2bzOLK2
代码: https://github.com/bentherien/mu_learned_optimization
领域: 优化 / 学习优化器 / 元学习
关键词: 学习优化器(Learned Optimizer)、最大更新参数化(\(\mu\)P)、元泛化、超参数迁移、宽度外推

一句话总结¶

本文为两种 SOTA 学习优化器（small_fc_lopt 与 VeLO）推导了最大更新参数化（\(\mu\)P），并配上一套低成本的"多宽度单任务"元训练配方，使得只在小 MLP 上元训练的优化器，能在零额外算力开销下泛化到远超训练规模的更宽、更深、训练更久的未见任务。

研究背景与动机¶

领域现状：学习优化器（Learned Optimizers, LOs）用小神经网络替代手工设计的 Adam/SGD，理论上能大幅压缩神经网络的训练 wall-clock 时间。最有名的 VeLO 用了 4000 TPU·月的元训练，在无需调参的前提下超过精调的手工优化器。

现有痛点：即便是 VeLO 这样的重量级 LO，也存在严重的元泛化（meta-generalization）短板——当被用于优化比元训练时见过的网络更宽、更深，或训练步数更长的任务时，性能急剧崩塌甚至发散。元训练任务分布天然受限于"可负担的算力"，而下游任务的组合（架构×数据集×目标×规模）是组合爆炸的，靠"把所有规模都塞进元训练分布"的暴力路线被证明不可行（4000 TPU·月仍未解决宽度泛化）。

核心矛盾：元训练必须在小任务上做（可负担），但部署要在大任务上（实用）；而标准参数化（Standard Parametrization, SP）下，优化器在小任务上学到的更新规则无法随宽度正确缩放，导致大网络的预激活值爆炸、训练发散。

本文目标：把"超参数迁移"领域的 \(\mu\)P 思想搬到学习优化器上，回答两个问题——现有 LO 架构是否兼容 \(\mu\)P？在 \(\mu\)P 下元训练 LO 能否改善元泛化？

核心 idea：用 \(\mu\)P 把"宽度"这个分布偏移从根上消掉。\(\mu\)P（最大更新参数化）是 Yang et al. 提出的、唯一一种让每层都稳定学习特征的 abc-参数化，原本用于 Adam/SGD 的零样本超参迁移。本文把它推广到 LO 的更新公式上，让学习优化器在小宽度上学到的行为可以"免费"外推到大宽度。

方法详解¶

整体框架¶

方法由两部分构成：(1) \(\mu\)-参数化的推导——针对 LO 特有的更新公式（magnitude/direction + tensor-level 学习率），重新设计优化对象（optimizee）网络的初始化方差、前向预激活乘子、以及优化器更新的缩放规则，并从理论上证明满足 \(\mu\)P desiderata；(2) 低成本元训练配方——在多个宽度的单一任务（MLP 图像分类）上做 FLOP-matched 的元训练。两者结合，使 \(\mu\)LO 在元训练后即可零成本迁移到大任务。

flowchart TD
    A[选定 LO 架构<br/>small_fc_lopt / VeLO] --> B[推导 muP:<br/>初始化/预激活乘子/更新缩放]
    B --> C[理论证明满足 muP desiderata<br/>Prop 4.1 / 4.2]
    A --> D[多宽度单任务元训练配方<br/>width in 128/512/1024 MLP]
    C --> E[muLO]
    D --> E
    E --> F[零成本外推到更宽/更深/更久的 OOD 任务]

关键设计¶

1. 为 LO 更新公式定制的 \(\mu\) 参数化：把"宽度依赖"塞进三处缩放。 \(\mu\)P 的本质是让任意宽度 \(h\) 下每层都"恰好最大程度地学习特征"，这要求对每个权重矩阵 \(W \in \mathbb{R}^{n\times m}\) 按它是隐藏层、输入层还是输出层区别对待（依据 \(n\)=FAN_OUT、\(m\)=FAN_IN 对宽度的渐近依赖）。具体地，隐藏/输入层权重初始化为 \(\mathcal{N}(0, \tfrac{1}{\text{FAN\_IN}})\)，输出层初始化为 \(\mathcal{N}(0,1)\) 并在前向时把其预激活乘以 \(\tfrac{1}{\text{FAN\_IN}}\)。最关键的一步是把 LO 的更新公式本身重写——原始 LO 对每个参数输出 magnitude \(m\) 和 direction \(d\)，更新为 \(w_t = w_{t-1} - \lambda_W \alpha_1 d\exp(\alpha_2 m)\)；本文给隐藏层的更新额外乘上 \(\tfrac{1}{\text{FAN\_IN}}\)：

\[w_t = \begin{cases} w_{t-1} - \dfrac{1}{\text{FAN\_IN}}\big(\lambda_{W_l}\alpha_1 d\exp(\alpha_2 m)\big) & W_l \text{ 是隐藏层} \\ w_{t-1} - \lambda_{W_l}\alpha_1 d\exp(\alpha_2 m) & \text{其他} \end{cases}\]

这一步把宽度依赖直接编码进 LO 的输出，使得元训练时在小宽度学到的 \(m,d\) 行为能正确地随宽度缩放，从而避免大网络预激活爆炸。

2. 理论保证：证明两种 SOTA LO 架构都满足 \(\mu\)P desiderata。 本文并不止于"工程上加缩放因子"，而是把 small_fc_lopt（命题 4.1）和 VeLO（基于 LSTM 生成参数，命题 4.2）分别证明：在优化对象的参数与输入数据"对齐"导致大数定律（LLN）缩放的假设下，上述初始化 + 预激活乘子 + 更新缩放足以构成一个合法的最大更新参数化。这把 LO 从"经验调出来的黑盒"提升为"有迁移理论支撑的优化器"，也是 \(\mu\)LO 能宣称"宽度外推有理论保证"的根基（而深度/长训练的收益则明确标注为纯经验观察）。

3. 多宽度单任务元训练配方：用极少算力换强泛化。 与 \(\mu\)-transfer 里"在小代理任务上调超参再迁移"不同，LO 通常需要在一个任务分布上元训练。本文对比了两种配方：\(\mu\)LO\(_S\)（只在 width=128 的单一 MLP ImageNet 任务上元训练）与 \(\mu\)LO\(_M\)（在 width \(\in\{128,512,1024\}\) 三个宽度的 MLP 任务上元训练）。实验发现 \(\mu\)LO\(_M\) 在更宽、更长（5000 步）的任务上明显优于 \(\mu\)LO\(_S\)，于是把"多宽度"作为配方的固定组件。整套配方极其廉价——\(\mu\)LO\(_M\) 仅用 100 GPU·小时元训练，却能稳定训练宽达 8192 的 MLP（对照 8B 参数模型常用 width=4096），与 VeLO 的 4000 TPU·月形成鲜明对比。

实验关键数据¶

评测套件含 35 个任务，覆盖 CIFAR-10/ImageNet 上的 MLP 与 ViT 图像分类、以及 LM1B 上的 decoder-only Transformer 语言建模，系统性地变化宽度、深度、图像尺寸与训练步数。所有 LO 仅在 MLP 任务上元训练；手工优化器 AdamW / \(\mu\)Adam 则对每个任务做 >500 配置的网格调参。元训练 inner-problem 长度为 1000 步，超过即视为分布外（OOD）。

主实验表格（平均排名，越低越好，6 个优化器内排名）¶

优化器	1k步 Large	1k步 XL	1k步 XXL	3k步 XL	5k步 XL	5k步 XXL
AdamW（每任务精调）	3.00	3.60	4.40	2.60	2.40	3.80
\(\mu\)Adam（每任务精调）	3.40	2.20	2.20	2.40	2.60	2.60
VeLO\(_M\)（SP 基线）	4.60	4.00	5.00	5.40	5.40	5.80
LO\(_M\)（SP 基线）	5.60	5.40	5.60	4.80	4.80	5.20
\(\mu\)VeLO\(_M\)（本文）	2.60	1.60	1.80	2.00	1.40	2.00
\(\mu\)LO\(_M\)（本文）	1.80	2.00	2.00	1.60	2.20	1.60

两个 \(\mu\)LO 在几乎所有列上稳居第一、第二名；SP 学习优化器基线（VeLO\(_M\)/LO\(_M\)）排名最差，常在大宽度任务上彻底无法优化；精调手工优化器占据三四名。

消融实验表格（元训练分布配方，最终训练 loss 趋势）¶

配方	width 增大时 1000 步	5000 步（OOD 长训练）
\(\mu\)LO\(_S\)（单宽度 128）	随宽度尚可但弱于 \(\mu\)LO\(_M\)	明显落后
\(\mu\)LO\(_M\)（多宽度 128/512/1024）	随宽度平滑下降，更优	更优，长训练泛化更好
SP LO\(_M\)（对照）	width>2048 后发散	发散

关键发现¶

宽度外推（核心，有理论支撑）：\(\mu\)LO 在宽达 8192 的 MLP、4096 的 LM/ViT 上训练 5000 步（5×元训练 unroll）仍平滑降 loss；SP LO 普遍在 1000 步内发散或停滞。\(\mu\)LO 甚至超过对每个任务精调 >500 次的 AdamW/\(\mu\)Adam。
深度外推（意外，纯经验）：把层数从 3 加到 16（宽度仍 1024），\(\mu\)LO\(_M\)/\(\mu\)VeLO\(_M\) 稳定优化，而 LO\(_M\) 在深 MLP 上立即发散、VeLO\(_M\) 在 ViT/Transformer 上发散——尽管 \(\mu\)P 理论只覆盖宽度。
长训练外推（意外，纯经验）：训练 25000 步（25×元训练最长 unroll），\(\mu\)LO 稳定降 loss，SP LO 则失败/不稳/8000 步后发散。
预激活稳定性验证：\(\mu\)LO 与 \(\mu\)Adam 的逐坐标预激活标准差在各宽度下保持稳定，而 SP 模型的预激活会爆炸，从机理上解释了泛化差异。
零额外成本：以上全部收益相对 SP LO 不增加任何元训练或推理算力。

亮点与洞察¶

把"超参数迁移"和"元泛化"两个看似不同的问题接上：\(\mu\)P 原本解决"手工优化器超参随宽度迁移"，本文洞察到 LO 的"宽度元泛化"本质上是同一个缩放问题，于是把 \(\mu\)P 从超参迁移借力到学习优化器，理论与工程都很自洽。
理论 + 经验双轮驱动：对 small_fc_lopt 和 VeLO 都给出 \(\mu\)P 合法性证明（命题 4.1/4.2），同时诚实地把深度、长训练的收益标注为"无理论、纯经验"，分寸把握得当。
算力对比极具冲击力：100 GPU·小时 vs VeLO 的 4000 TPU·月，却在大 OOD 任务上反超精调手工优化器，说明"对的参数化"比"暴力堆算力"更关键。
意外的深度/长训练泛化给出可检验假设——\(\mu\)P 对优化对象激活的稳定作用，可能是宽度之外泛化的共同来源，为后续理论留了钩子。

局限与展望¶

元训练任务单一：只在 MLP 图像分类上元训练，未覆盖 CNN/Transformer 等更多架构的元训练分布，泛化结论的边界仍待拓展。
规模上限受学术算力约束：未评测宽于 8192（MLP）/ 3072·12288（Transformer hidden/FFN）的模型。
缺少 oracle 基线：未加入"在每个宽度都重新扫超参的 SP AdamW"作为更强对照。
参数化选择仍开放：\(\mu\)P 未必是元训练 LO 的最优参数化（Everett et al. 发现带层级学习率的 SP 在某些设置下胜过 \(\mu\)P），未来值得比较 CompleteP、单位缩放等其他可迁移参数化对 LO 的影响。

评分¶

新颖性: ⭐⭐⭐⭐ —— 首次为 SOTA 学习优化器推导并证明 \(\mu\)P，把超参迁移与 LO 元泛化优雅地接上，思路清晰且填补了"宽度元泛化"这一长期未解难题。
实验充分度: ⭐⭐⭐⭐ —— 35 任务、3 个泛化轴（宽/深/长）、1120 个网络、5 seeds，且对手工基线做 >500 次精调对照，结论扎实；扣分在元训练分布单一、未测更大规模。
写作质量: ⭐⭐⭐⭐ —— 问题动机、理论命题、经验发现层次分明，对"有理论 vs 纯经验"的边界标注诚实。
价值: ⭐⭐⭐⭐ —— 用 100 GPU·小时换来反超精调 Adam 的大规模泛化，且零额外开销，为低成本可泛化学习优化器指出务实路径，落地价值高。