ICLR 2026 机器人掩码生成动作 token 模仿学习并行解码非马尔可夫任务自适应重规划

Masked Generative Policy for Robotic Control¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=KFu4p3pd11
代码: 待确认
领域: 机器人操作 / 视觉运动模仿学习
关键词: 掩码生成、动作 token、模仿学习、并行解码、非马尔可夫任务、自适应重规划

一句话总结¶

把机器人动作离散化成 token，用图像生成里的"掩码生成 Transformer"一次并行预测整段动作、再只重采样低置信 token，从而同时甩掉扩散策略的多步去噪和自回归策略的逐 token 解码两个瓶颈，并借此在动态、缺观测、非马尔可夫任务上做到全局连贯的可靠控制。

研究背景与动机¶

领域现状：视觉运动模仿学习近年被统一成"对动作序列建条件生成模型"，主流是两条路线——扩散策略（Diffusion Policy、3D Diffusion Policy）把动作合成看成条件去噪过程，质量高但每步要跑多次去噪；自回归策略（QueST、VQ-BeT）把动作离散成 token、用 GPT 式 Transformer 逐 token 预测，结构上贴合机器人按序执行。

现有痛点：扩散策略每一步动作都要多步迭代采样，闭环实时控制时延迟高；Consistency Policy、FlowPolicy 等加速方案要么额外蒸馏、要么牺牲采样质量。自回归策略一次前向只出一个 token，延迟随序列长度线性增长；而且无记忆、前缀不可改——任何一处改动都要把后续 token 全部重新生成，导致它在缺观测、非马尔可夫任务上很脆弱。

核心矛盾：迭代采样带来的推理时延与长程、非马尔可夫操作所需的全局连贯性 / 鲁棒重规划能力，两者难以兼得——快的不稳、稳的不快。

本文目标：做一个既低延迟又高成功率、还能在执行过程中快速"改计划"的生成式策略，覆盖从短程马尔可夫到长程非马尔可夫的整谱任务。

核心 idea：[掩码生成 + 置信度重采样] 借鉴图像生成的 MaskGIT 思路，把动作表示成离散 token，用条件掩码 Transformer 一次并行生成全部 token，再只对低置信 token 做少量迭代精修；并据此设计两套采样范式——短程 MGP-Short 和带自适应 token 精修（ATR）的长程 MGP-Long。

方法详解¶

整体框架¶

MGP 分两阶段训练：先用 VQ-VAE 把连续动作序列压成离散 token（动作 tokenizer），再训练一个掩码生成 Transformer（MGT）学会"从被遮挡的 token 序列 + 观测条件"重建完整动作 token。推理时根据任务性质切两种采样范式：短程任务用 MGP-Short（少量 mask-and-refine 迭代），长程 / 非马尔可夫任务用 MGP-Long（一次预测整段轨迹，执行过程中依据新观测自适应精修未执行 token）。

flowchart LR
    A[专家演示动作序列] --> B[VQ-VAE 动作 Tokenizer<br/>连续动作→离散 token]
    O[观测 O_t / 状态 s_t] --> P[感知编码器]
    B --> M[掩码生成 Transformer MGT<br/>并行重建被遮挡 token]
    P --> M
    M --> S{任务类型}
    S -->|马尔可夫/短程| SH[MGP-Short<br/>2 次掩码精修]
    S -->|非马尔可夫/长程| LG[MGP-Long<br/>ATR 自适应 token 精修]
    SH --> D[VQ-Decoder 解码成动作]
    LG --> D

关键设计¶

1. 动作 Tokenizer：把连续动作压成可离散重建的 token，给掩码生成腾出离散潜空间。 用 VQ-VAE 把一段连续动作 \(a \in \mathbb{R}^{T\times j}\)（\(j\) 为末端执行器位置/旋转/夹爪状态维度）经两层残差 1D CNN 编码成 \(\hat{y}\in\mathbb{R}^{N\times d}\)，再到可学习码本里查最近邻 token，解码端用对称上采样 Conv1D 重建。训练目标是重建损失加 commitment 损失 \(L_{VQ}=\lambda_{rec}\|a-\hat{a}\|_1+\beta\|\hat{y}-\text{sg}[y]\|_2^2\)，码本用 EMA 更新并重置死码以保证利用率。训完即冻结，后续只在编码训练数据和解码 MGT 输出时用到——这一步把"生成动作"转成了"生成离散 token"，使图像生成那套掩码范式得以迁移过来。

2. 掩码生成 Transformer（MGT）：并行出全部 token，靠 mask 监督学会"补全"。 MGT 要在给定观测 \(O_t\)、历史状态 \(s_t\) 的条件下，从带 [MASK] 的序列里并行恢复 \(N\) 个未来动作 token（还用 [END]/[PAD] 标记终止与填充）。结构上感知编码器先把观测与状态经 MLP 编成条件特征拼接，再过 2 层 cross-attention（观测 embedding 与动作 token embedding 做交叉注意）加 2 层 self-attention，输出每个 token 的 logits。训练时随机遮一部分 token、并以固定比例扰动剩余 token，最小化真值 token 的负对数似然 \(L_{MGT}=-\mathbb{E}_{y\in K}\big[\sum_n \log p(y_n\mid y_M,c)\big]\)。与 GPT 的逐 token 不同，它一次前向就出整段，这是低延迟的根。

3. MGP-Short：短程马尔可夫任务的两步掩码精修。 简单任务可视为 MDP、无需长程状态依赖，MGP-Short 只基于当前观测 \(c_t\) 采样：第一轮把全 [MASK] 序列与 \(c_t\) 喂进 Transformer 并行出 logits，用 Gumbel-Max 采样 \(y=\arg\max_n(e_n/\tau+g_n)\)（\(g_n\) 为 Gumbel 噪声）保留多样性；随后把归一化概率当置信度排序，对最低置信的一批 token 重新遮挡、在第二轮重采样。只需两轮迭代就拿到高质量动作（消融显示 \(r=2\) 比 \(r=1\) 提升 14.3%，\(r=3\) 无明显收益），每步推理仅 3ms。

4. MGP-Long + 自适应 Token 精修（ATR）：长程 / 非马尔可夫任务的全局规划 + 在线精修。 任务一开始就基于初始观测 \(c_0\) 推断 \(p(y^{0:N}_0\mid c_0)\)、一次性采出覆盖整个 horizon 的完整 token 序列作为初始计划，机器人以可调步长执行。每执行 \(n\) 个 token 后收到新观测 \(c_i\)，触发后验置信度估计：用已执行 token 作为隐状态 \(H_i\)，让 Transformer 在新观测下重算先前采样结果的概率 \(S(y^{0:N}_{i-1})=\text{softmax}(e^{0:N})\)（类比贝叶斯后验预测），已执行 token 的分数排除在外，只对未执行段 \(n{:}N\) 归一化并把低分 token 重新遮挡 \(y^{n:N}_{i-1M}\leftarrow\text{MASK}(y^{n:N}_{i-1},S)\)，再连同已执行历史 token 一起喂回 Transformer 精修 \(y^{n:N}_i=\text{GumbelMax}(p(y^{n:N}_i\mid y^{0:N}_{i-1M},c_i,H_{i-1}))\)。这样既保留已执行 token 当"记忆锚点"维持全局连贯，又只针对性改不确定的未来 token——缺观测时甚至能跳过打分、靠已规划动作硬撑下去。

实验关键数据¶

评测覆盖 Meta-World（50 任务，Easy→Very Hard）、LIBERO-90、LIBERO-Long 共 150 个操作任务，外加缺观测、动态、非马尔可夫三类挑战环境；对比 10 个基线（DP、DP3、Simple-DP3、CP、FlowPolicy、QueST、VQ-BeT、PRISE、ACT、ResNet-T）。

主实验表格¶

Meta-World 单任务成功率与每步推理时延：

方法	Easy(28)	Medium(11)	Hard(5)	V.Hard(5)	Avg SR	Inf.T/step(ms)	Inf.T/seq(ms)
DP	0.836	0.311	0.108	0.266	0.380	106	4750
Simple-DP3	0.868	0.420	0.387	0.350	0.506	63	2830
DP3	0.909	0.616	0.380	0.490	0.599	145	6557
CP	0.912	0.627	0.400	0.510	0.612	5	230
FlowPolicy	0.902	0.630	0.392	0.360	0.571	19	850
MGP-Short	0.920	0.650	0.440	0.538	0.637	3	135

LIBERO 多任务成功率：

方法	LIBERO-90	LIBERO-Long
DP	0.754	0.501
VQ-BeT	0.813	0.593
QueST	0.886	0.680
MGP-Short	0.889	0.770
MGP-w/o SM	-	0.805
MGP-Long	-	0.820

MGP-Short 平均成功率 0.637，比 DP3 高 3.8%、比 FlowPolicy 高 6.6%，每步 3ms 比 DP3（145ms）快约 49×；整段推理时延较 DP3 缩短最高 35×。模型仅 7M 参数（比 DP3 的 262M 少 37×），训练 2000 epoch 仅 55 分钟（DP3 需 3 小时，同 RTX 4090）。

消融实验表格¶

长程方法对比与 MGP-Long 消融（Meta-World Hard/Very Hard）：

方法	Hard(5)	V.Hard(5)	Avg SR
DP3-Full Seq.	0.188	0.350	0.270
MGP-Full Seq.（无在线适配）	0.294	0.386	0.340
MGP-w/o SM（无打分掩码）	0.510	0.572	0.541
MGP-Long	0.540	0.586	0.563

挑战环境（成功率）：

方法	缺观测 Avg	动态 Avg	非马尔可夫 Button On/Off	Button Color Change
DP3	0.200	0.360	0.00	0.00
QueST	-	-	0.00	0.00
MGP-Short	0.205	0.430	0.00	0.00
MGP-Long	0.525	0.436	1.00	1.00

关键超参消融：MGP-Short 精修步 \(r=2\) 比 \(r=1\) 提升 14.3%；MGP-Long 掩码比例 70% 最优；打分策略 ATR 比 Random 高 10.68%、比 Score Reuse 高 5.53%；执行步长 12 最优（54%）；码本大小、离散粒度（4 actions/token 最优）敏感度都很低。

关键发现¶

MGP-Long 在两个非马尔可夫按钮任务上达到 100% 成功率，而 DP3 / QueST / MGP-Short 全部 0%——因为画面一帧看不出进度，只有保留全局计划 + 记忆锚点才能按规定颜色顺序按钮。
缺观测时 MGP-Long 比短程方法高约 22%–31%：短程方法遇到观测丢失只能"原地保持"、退化成静态分布外点云；MGP-Long 靠已规划的高置信未来 token 续命。
置信度可视化显示：置信度在接近物体时高、在精细抓取 / 反复尝试 / 环境变化（如篮筐移动）时骤降，精修恰好集中在"该改的地方"，说明打分掩码是有可解释依据的。

亮点与洞察¶

范式迁移很巧：把图像生成里成熟的"掩码并行生成 + 迭代精修"（MaskGIT 系）首次系统搬到机器人模仿学习，正好同时治了扩散的"慢"和自回归的"前缀不可改"两个病。
一套表示、两种采样：同一个 MGT 既能做短程闭环（MGP-Short）又能做长程全局规划（MGP-Long），ATR 让"改计划"变成"只重采样低置信 token"而非全序列重生成，这是它兼顾速度与鲁棒的关键。
后验置信度估计有清晰的贝叶斯解读：新观测下重算旧 token 的后验预测概率，等价于"哪些计划在新信息下不再可信就改哪些"，把重规划从启发式变成了可量化的机制。
小而快：7M 参数、分钟级训练、毫秒级推理，对真实闭环部署友好。

局限与展望¶

全部实验在仿真（Meta-World / LIBERO + 自建 LeRobot 仿真台），未见真机结果，sim-to-real 仍待验证。
依赖 VQ-VAE 动作离散化，动作精度受码本/离散粒度上限约束；论文虽显示敏感度低，但极高精度操作下离散误差可能成为天花板。
非马尔可夫任务实验只有两个自构按钮任务，泛化到更复杂的长程记忆 / 推理任务尚需更多样本。
MGP-Long 的执行步长、掩码比例、精修步数等需按环境调参，缺自适应选择机制。

评分¶

新颖性: ⭐⭐⭐⭐ 首次把掩码生成 Transformer 系统迁到机器人模仿学习，ATR + 后验置信度估计的在线重规划机制设计扎实，虽是跨领域迁移但落地点选得准、问题切得对。
实验充分度: ⭐⭐⭐⭐ 150 任务三基准 + 缺观测/动态/非马尔可夫三类挑战环境 + 10 基线 + 7 组消融，覆盖面广证据充分；扣分在全仿真无真机。
写作质量: ⭐⭐⭐⭐ 动机—矛盾—方法—实验链路清晰，两种采样范式与图示对应明确，公式与机制解释到位。
价值: ⭐⭐⭐⭐ 同时解决推理速度与长程鲁棒两大痛点，小模型毫秒级推理对真实部署吸引力强，非马尔可夫 0%→100% 的对比很有冲击力。