ICLR 2026 强化学习作业车间调度 FJSP 元学习 MAML 无导数优化进化策略实例级自适应

Instance-wise Adaptive Scheduling via Derivative-Free Meta-Learning¶

会议: ICLR 2026
代码: https://github.com/calmQ/DF-META
领域: 强化学习 / 神经组合优化 / 调度
关键词: 作业车间调度、FJSP、元学习、MAML、无导数优化、进化策略、实例级自适应

一句话总结¶

针对深度强化学习调度模型"只优化平均性能、对单个实例不够好"的问题，本文用 MAML 元学习训练一个"专为微调而生"的初始化模型，并把内外两层优化全部换成无导数的进化策略（ES）、配合 GPU 并行，让模型能在测试时对每个实例做全参数自适应搜索，显著超越 Active Search / EAS 等测试时方法。

研究背景与动机¶

领域现状：深度强化学习（DRL）在 NP-hard 的作业车间调度（JSP）及柔性版本（FJSP）上取得进展，主流范式是用 DRL 学习优先级派遣规则（PDR），把调度建模成 MDP 并用 PPO 训练 GNN/注意力策略网络，推理时贪婪或采样即可快速出解。
现有痛点：现有方法沿用机器学习惯例，优化的是训练集上的平均性能，而调度的真实目标是把"每一个具体实例"都解好。由于 DRL 只能得到次优策略，即使是训练分布内的实例，训练好的策略也可能给出很差的解。测试时自适应（Active Search、Efficient Active Search）虽能针对单实例微调，但有两大缺陷：① 纯测试时机制，每个实例单独微调，自适应知识用完即弃、无法跨任务复用；② 依赖梯度优化，在 JSP/FJSP 这类组合优化的实例级搜索上容易陷入局部最优。
核心矛盾：训练目标（平均性能）与真实诉求（单实例最优）错位，而能弥合这一错位的测试时搜索又被"梯度优化在组合空间上易陷局部最优 + 知识不可复用"所拖累。
本文目标：学到一个面向微调的参数初始化，让模型在推理时能对每个未见实例快速收敛到高质量的实例专属解，且自适应过程具备强全局搜索能力、可跨实例共享知识。
核心 idea：【元学习显式建模微调】 用 MAML 在训练阶段就模拟"逐实例微调"，让元模型成为每个新实例的好起点；【全程无导数优化】 把 MAML 内外两层梯度全部换成进化策略（ES）估计，既绕开梯度法的局部最优、又规避原版 MAML 复杂的二阶求导；【GPU 群体并行】 把传统 ES 的 CPU 密集计算搬到 GPU 批量推理。

方法详解¶

整体框架¶

方法是一个"实例级无导数元学习"框架，建立在 MAML 之上：内循环对每个采样实例做 K 步 ES 梯度的"模拟微调"，捕捉实例专属特征；外循环聚合一个 mini-batch 内多个实例的微调结果，更新共享的元模型，使其成为利于快速自适应的初始化。训练目标写作 \(\theta_0^* = \arg\min_{\theta_0}\, \mathbb{E}_{G_\tau\sim\Omega}\big[F(\theta_\tau^{(K)}\mid G_\tau)\big]\)，其中 \(\theta_\tau^{(K)}\) 是从元模型 \(\theta_0\) 出发、在实例 \(G_\tau\) 上微调 K 步得到的模型，\(F\) 为目标（makespan）。整个框架与具体策略网络解耦（model-agnostic），可套用到不同的调度学习模型。

flowchart TD
    A[元模型 θ0<br/>训练实例集 Ω] --> B[采样实例 Gτ<br/>初始化 θτ⁰←θ0]
    B --> C[内循环: K 步 ES 梯度自适应<br/>群体采样 μ 个扰动 + MC 估计]
    C --> D[微调后模型 θτ^K]
    D --> E[外循环: 聚合 B 个实例<br/>一阶近似更新元模型 θ0]
    E -->|下一 epoch| A
    A -.部署.-> F[测试实例 G<br/>θ⁰←θ0 → K 步 ES 微调 → 最优调度]

关键设计¶

1. 内循环的无导数自适应与两种 MC 适应度估计：把"实例搜索"做成全局而非局部。 对训练实例 \(G_\tau\)，模型初始化为元模型 \(\theta_\tau^{(0)}\leftarrow\theta_0\)，随后做 K 步 ES 梯度更新。每步从参数分布采样 \(\mu\) 个扰动个体 \(\theta+\sigma\varepsilon_i\)，按 OpenAI ES 公式估计梯度 \(\frac{1}{\mu\sigma}\sum_i F_i\varepsilon_i\)。但调度环境随机性强，单次 rollout 估出的适应度方差太大，于是本文为每个个体并行采 \(L\) 个解，给出两种估计：MC 平均取 \(F_i=\frac{1}{L}\sum_l F_i^{(l)}\) 来降方差，适配贪婪推理；MC 最优样本取 \(F_i=\min_l F_i^{(l)}\)，把"采样模式下只关心最好解"的信息直接注入内循环梯度，与 NCO 常用的 sampling 推理对齐。消融显示 MC 最优样本带来最强的自适应能力。

2. 外循环的一阶近似元更新：用 FOMAML 思想砍掉"扰动套扰动"的高阶方差。 外循环把每个训练实例当作伪测试实例，最大化其经过 K 步 ES 自适应后的性能（元级 ES 梯度见论文 Algorithm 3）。问题在于内外两层都是群体扰动，形成"perturbation-on-perturbation"，类似高阶微分会放大 ES 梯度方差，加之无导数方法本就收敛慢，全二阶训练在实际中不可行。本文借用 FOMAML 的一阶近似，显式丢弃二阶项，把 Line 9 的完整元梯度 \(\nabla_{\theta_0}\) 替换为实例级梯度 \(\nabla_{\theta_\tau}\)：\(\theta_0\leftarrow\theta_0-\frac{\beta}{B}\sum_{\tau=1}^{B}\nabla_{\theta_\tau}\mathbb{E}_{\varepsilon}\big[F(\theta_\tau^{(K)}+\sigma\varepsilon\mid G_\tau)\big]\)，在保持效果的同时大幅降低计算开销。Table 5 显示同等条件下本方法全面优于 FOMAML。

3. GPU 群体并行：把传统 ES 的 CPU 瓶颈搬上 GPU 做批量推理。 传统 ES（Salimans 等）靠 Dask/Ray 在 CPU 集群上逐个体评估适应度，通信与同步成主要瓶颈、且无法发挥 GPU 算力。本文构造扰动矩阵 \(\varepsilon=[\varepsilon_1,\dots,\varepsilon_\mu]\in\mathbb{R}^{d\times\mu}\)，把整个群体拼成"群体网络" \(\Theta=\theta+\sigma\varepsilon\)，一次前向就为所有个体输出动作策略 \(\Pi=F(\Theta,S)\)；再把 FJSP 环境向量化为 \(E=[E_1,\dots,E_\mu]\) 并行交互、同步收集适应度 \(R=E(\Pi)\)，ES 梯度直接写成 \(\frac{1}{\mu\sigma}R\varepsilon^\top\)。整个适应度评估过程下放 GPU、几乎无 CPU 依赖，使无导数方法在速度上反而能超过以"快"著称的 EAS。

实验关键数据¶

主实验表格（FJSP，部署到 SOTA 模型 DANIEL；Gap 相对 OR-Tools）¶

设置	方法	10×5	20×10	30×10*	40×10*
SD2 贪婪	DANIEL	25.20%	32.09%	15.75%	2.59%
SD2 贪婪	EAS	16.65%	23.21%	10.51%	-1.64%
SD2 贪婪	Ours	13.18%	21.22%	9.47%	-1.94%
SD2 采样	EAS	8.80%	17.08%	6.83%	-3.72%
SD2 采样	Ours	6.59%	14.72%	5.10%	-5.20%

（* 为训练未见的大尺寸，用 20×10 模型泛化；负 Gap 表示优于 OR-Tools 限时解。本方法在所有尺寸/分布上一致领先，且贪婪模式用 MC 平均、采样模式用 MC 最优样本。）

跨分布公开基准（用 SD1 小模型）同样全面领先 DANIEL/AS/EAS，在 edata（OOD）任务上提升尤为明显。

消融实验表格¶

消融维度	关键结果
DFO vs 元学习拆解（Table 3，SD2 gap）	仅 ES 训练+微调（14.38%@10×5）已超 AS/EAS；再叠加元学习 → Ours 13.18%，证明两部分各有贡献
对比 FOMAML（Table 5）	同架构/初始化/200 epoch/10 微调步下，Ours 在所有尺寸全面优于梯度版 FOMAML，推理速度相当
内循环估计器（Fig 3）	单样本 NES ≈ AS/EAS；MC 平均、MC 最优样本显著拉升，MC 最优样本自适应能力最强
GPU vs CPU-Ray（Table 4，100 个体一次评估）	20×10 上 GPU 3.8s vs CPU-Ray 122.3s，规模越大优势越大

关键发现¶

元学习的价值在"显式建模微调"：元模型作为起点比纯测试时方法（AS/EAS）更利于实例级收敛，因为训练时就把微调过程考虑进去了。
无导数让全参数自适应可行：ES 不需反向传播，可对全部参数做自适应搜索，既躲开梯度法的局部最优，又在质量和速度上双双超过 EAS。
方法跨学习范式通用：除 FJSP（强化学习模型 DANIEL）外，作者把方法迁移到 JSP 的自监督模型 SPN（Self-labeling Pointer Network），同样有效，体现 model-agnostic 特性。

亮点与洞察¶

问题定位准：精准点出 DRL 调度"平均性能 vs 单实例最优"的错位，并把它落到"测试时自适应不可复用 + 梯度法易陷局部最优"两个具体瓶颈上，动机链条清晰。
方法组合有新意：首次在调度/组合优化的实例级自适应任务上用纯无导数优化，并把 MAML 的内外两层都"ES 化"，再用 FOMAML 一阶近似压住"扰动套扰动"的方差爆炸，是一套自洽的工程化设计。
效率论证扎实：GPU 群体并行不只是"能跑"，而是让无导数方法在速度上反超以快著称的 EAS，把 ES 长期被诟病的"慢"在推理侧实质性缓解。
两种 MC 估计器对齐推理模式：MC 平均配贪婪、MC 最优样本配采样，是对"训练目标该如何反映推理方式"的细致考量。

局限与展望¶

训练仍偏慢：作者自承无导数优化收敛慢于梯度法，虽用一阶近似与 GPU 并行缓解，训练开销仍是软肋，未来需更高效的训练方案。
超参跨尺寸固定但在最小尺寸调：所有超参在 10×5 上调好后固定到所有尺寸，泛化到超大实例（50×20、100×20）时是否仍最优需更系统验证。
依赖底层策略模型：方法 model-agnostic，但效果上限仍受所套用的 PDR 学习模型（如 DANIEL）质量制约，本质是"更好的自适应"而非"更强的基础策略"。
与连续空间搜索类方法正交未融合：作者指出与"在学到的连续空间里搜索解分布"的方法（如 latent search、T2T）正交、可结合，但本文未实际整合。

评分¶

新颖性: ⭐⭐⭐⭐ 首次在调度类组合优化的实例级自适应上引入全程无导数的元学习，把 MAML 内外层 ES 化并用一阶近似稳住方差，组合新颖、定位清晰。
实验充分度: ⭐⭐⭐⭐ 覆盖 SD1/SD2 两类合成数据 6 种尺寸 + 4 个公开基准的跨分布测试，含 DFO/元学习拆解、FOMAML 对比、内循环估计器、GPU/CPU 效率等多维消融，并跨 RL/自监督两种范式验证；唯训练效率自身未给出充分量化优化。
写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑顺畅，算法伪代码与公式完整，框架图清晰；部分附录内容（更大尺寸、统计分析）外置略影响自洽阅读。
价值: ⭐⭐⭐⭐ 对工业级调度的测试时优化有实用意义，model-agnostic 与 GPU 并行使其易于落地，且为"无导数 + 元学习"在组合优化中的应用提供了可复用范式。