MOBODY: Model-Based Off-Dynamics Offline Reinforcement Learning¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=7c0YS3cuno
代码: 待确认
领域: 强化学习 / 离线 RL / 域适应
关键词: 离线强化学习, 动力学失配, 模型化 RL, 表示学习, 行为克隆
一句话总结¶
MOBODY 把"动力学失配下的离线 RL"从"过滤/惩罚高偏移源数据"转向"直接学一个准确的目标域动力学模型并 rollout 探索",用双动作编码器 + 共享状态/转移函数学到目标动力学,再配合目标 Q 加权的行为克隆做策略优化,在 MuJoCo/Adroit 上平均提升 25%–44%。
研究背景与动机¶
- 领域现状:off-dynamics offline RL 假设有大量源域(模拟器)离线数据和极少量目标域(真实/部署)数据,两者奖励函数相同但转移动力学 \(p_{src}(s'|s,a)\neq p_{trg}(s'|s,a)\),目标是仅用离线数据学出在目标域表现好的策略。典型比例 \(|D_{src}|/|D_{trg}|\) 高达 200。
- 现有痛点:主流方法分两类——奖励正则化(如 DARA 用域分类器估计动力学 gap 去惩罚源域奖励)和数据过滤(丢掉高偏移源转移)。两者本质都只用"低偏移区域"的数据训策略。
- 核心矛盾:当动力学偏移很大、或目标域的高回报轨迹恰好落在高偏移区域时,低偏移数据里根本没有这些状态,策略无法被引导去探索它们,于是这类方法直接失效。
- 本文目标:能不能直接用目标域转移优化策略,而不是局限于低偏移区,从而探索高回报、大偏移的区域?
- 核心 idea:[模型化范式] 不去过滤数据,而是学一个准确的目标域动力学模型来 rollout 生成目标域转移供探索。难点在于目标数据太少:直接用合并数据学到的动力学会被源域主导(更像源域),pretrain-finetune 又抓不住两域差异。MOBODY 的关键观察是——到达同一个 next state,两个域需要不同的动作,于是用分离的动作编码器吸收域差异,同时共享状态表示与转移函数借源数据补结构知识。
方法详解¶
整体框架¶
MOBODY 分两阶段:先用表示学习同时学源/目标两域的动力学(核心是"分离动作编码器 + 共享状态编码器 + 共享转移函数"),再做模型化离线 RL——用学到的目标动力学 rollout 出"假数据",结合正则化后的源数据与目标数据组成增强数据集,用目标 Q 加权的行为克隆训策略。
flowchart LR
subgraph DYN[动力学学习]
S[state s] --> PE[状态编码器 φE]
PE --> ZS[zs]
ZS --> AS[源动作编码器 ψsrc]
ZS --> AT[目标动作编码器 ψtrg]
AS --> SUM1[zs + ψsrc]
AT --> SUM2[zs + ψtrg]
SUM1 --> PT[共享转移 φT]
SUM2 --> PT
PT --> NS["ŝ′ (两域)"]
end
DYN --> ROLL[rollout 假数据 Dfake]
ROLL --> ENH[增强数据集: 正则源+目标+rollout]
ENH --> POL[目标Q加权BC策略优化]
关键设计¶
1. 动力学分解:分离动作编码器 + 共享状态/转移,借源数据补结构知识。 这是整篇文章的核心观察落地。两个域虽然转移不同,但共享大量结构知识(如机器人的高层运动、位置);而它们的差异体现在"达到同一 next state 所需的动作不同"。于是 MOBODY 把动力学拆成三件套:共享状态编码器 \(z_s=\phi_E(s)\)、两套分离的动作编码器 \(\psi_{src}/\psi_{trg}\)、共享转移函数 \(\phi_T\)。两域分别建模为 $\(\hat{s}'_{src}=\phi_T\big(z_s+\psi_{src}(z_s,a)\big),\quad \hat{s}'_{trg}=\phi_T\big(z_s+\psi_{trg}(z_s,a)\big),\)$ 其中"加性"形式 \(z_s+\psi(z_s,a)\) 对应模型化 RL 常用的 \(s'=s+f(s,a)\)。这样源域 1M 数据可以帮忙训共享的 \(\phi_E,\phi_T\),而域差异被压缩进各自的动作编码器,目标域只需极少数据就能学准。
2. 三种损失协同训练动力学:转移损失 + 编码器损失 + 循环转移损失。 单靠 MSE 转移损失 \(\mathcal{L}_{dyn}=\frac1N\sum\|s'-\phi_T(z_s+\psi(z_s,a))\|^2\) 难以让动作编码器吸收域差异。MOBODY 补两个表示学习损失:编码器损失让 state-action 表示逼近 next-state 表示 \(\mathcal{L}_{rep}=\frac1N\sum\||z_{s'}|_{\times}-(z_s+\psi(z_s,a))\|^2\)(\(|\cdot|_\times\) 为 stop-gradient),强迫 \(\psi\) 编码进转移信息;循环转移损失用 VAE 思路:把 \(\psi\) 置 0 时应有 \(\hat s=\phi_T(\phi_E(s))\) 还原回原状态,于是把 \(\phi_E\) 当编码器、\(\phi_T\) 当解码器训 $\(\mathcal{L}_{cycle}=\tfrac{1}{2N}\sum\sum_j(\mu^2+\sigma^2-\log\sigma^2-1)+\tfrac1N\sum\|s-\hat s\|^2.\)$ 循环损失既提升状态表示质量,又缓解只用编码器损失时的 mode collapse。三者合成的动力学目标见式 (6),表示项权重 \(\lambda_{rep}=1\)(对其取值不敏感)。
3. 奖励学习 + 不确定性惩罚。 由于奖励是 \((s,a,s')\) 的函数且跨域一致,用源+目标合并数据同时拿真 next state 和预测 next state 训奖励模型 \(\hat r(s,a,s')\)(推理时只有预测的 \(\hat s'\),所以训练就要见过它)。再按 MOPO 风格做不确定性量化:\(\tilde r=\hat r-\beta\,u(s,a)\),\(u\) 为 next-state 预测的不确定度,得到保守奖励避免在模型误差大的地方过度乐观。
4. 目标 Q 加权行为克隆做策略优化。 离线 RL 的核心难题是 OOD 动作的探索误差,off-dynamics 下更严重。普通行为克隆(TD3-BC)会把策略拉向源数据动作,但这些动作在目标域可能很差。受 AWR/IQL 启发,MOBODY 用目标 Q 值给 BC 加权——目标 Q 由增强数据 \(D_{enhanced}=D_{src\_aug}\cup D_{trg}\cup D_{fake}\)(正则源 + 目标 + rollout)训出,近似目标域 Q: $\(\pi=\arg\min_\pi -\mathbb{E}\big[\lambda Q(s,\pi(s))\big]+\mathbb{E}_{D_{src\_aug}\cup D_{trg}}\Big[\exp\!\big(\tfrac{Q(s,\pi(s))}{\frac1N\sum|Q|}\big)(\pi(s)-a)^2\Big].\)$ 这样高目标 Q 的动作被上权重,把策略推向"在目标动力学下表现好"的动作,而非高源 Q 或一视同仁地模仿所有离线动作。
实验关键数据¶
主实验(MuJoCo gravity/friction 偏移,medium 数据,3 seeds 归一化分数)¶
四个环境 × {gravity, friction} × {0.1, 0.5, 2.0, 5.0} 共 32 项设置;下表摘录有代表性的"大偏移"项:
| 环境/偏移 | 等级 | DARA | REAG | MOPO | TD3-BC | MOBODY |
|---|---|---|---|---|---|---|
| HalfCheetah Friction | 0.1 | 23.69 | 9.74 | 28.32 | 8.95 | 57.53 |
| Ant Gravity | 5.0 | 31.01 | 49.36 | 28.97 | 6.37 | 65.45 |
| Ant Friction | 5.0 | 7.80 | 9.53 | 13.89 | 10.06 | 31.17 |
| Walker2d Gravity | 0.1 | 20.12 | 26.56 | 41.98 | 36.48 | 65.85 |
| Walker2d Gravity | 5.0 | 5.44 | 4.61 | 5.65 | 5.12 | 46.05 |
- 总分上 MOBODY 相比第二好的 baseline REAG 提升 44%,在 32 项里 28 项做到最优或次优。
关键发现¶
- 大偏移场景优势最显著:在 gravity×5.0 / friction×5.0 等极端偏移下,所有 baseline 几乎崩到随机水平(~5 分),MOBODY 仍能拿到 27–65 分——印证"低偏移区域数据不够,必须模型化探索"。
- kinematic/morphology 偏移也有约 25% 平均提升,覆盖到 Adroit 的 Pen/Door 操作任务。
- MOPO 直接用合并数据学动力学失败(Figure 1),因为源转移主导导致学到的更像源动力学,验证了"分离动作编码器学准目标动力学"的必要性。
消融¶
| 移除组件 | 预期影响 |
|---|---|
| 分离动作编码器 → 单一编码器 | 退化为合并动力学,目标动力学不准 |
| 去掉循环转移损失 | 表示 mode collapse,动力学质量下降 |
| 目标 Q 加权 BC → 普通 BC | 克隆源域动作,目标域表现下降 |
| 目标 Q 加权 → AWR 风格 | 论文验证目标 Q 加权更优 |
亮点与洞察¶
- 范式转变:把 off-dynamics offline RL 从"挑数据/惩罚奖励"重新框定为"学准目标动力学再探索",第一个为该设定提出可行的模型化方案。
- "同 next state 需不同动作"这个观察非常干净:直接导出"共享状态/转移 + 分离动作编码器"的结构,把跨域共享与域特异性优雅解耦。
- 目标 Q 加权 BC 是一个轻量且通用的正则,把 AWR 的"用优势加权"迁移到 off-dynamics 的"用目标 Q 加权",思路简单且经验证。
局限与展望¶
- 极少量目标数据(5000 transitions)下学动力学仍依赖源域结构相似性假设,若两域共享结构很弱(奖励/状态语义都变),方法收益可能下降。
- 假设跨域奖励函数完全一致且为 \((s,a,s')\) 的函数,现实中奖励本身也可能偏移。
- 引入 VAE 表示 + 双编码器 + UQ,组件较多,超参(\(\beta,\alpha,\lambda_{rep}\))和工程实现较重;虽称对 \(\lambda_{rep}\) 不敏感,整体调参成本仍高于纯 model-free baseline。
- 仅在仿真(MuJoCo/Adroit)验证,真实 sim-to-real 部署的效果待考。
相关工作与启发¶
- off-dynamics offline RL:DARA、BOSA、SRPO、REAG 等奖励正则化/数据过滤方法,是本文要超越的主线 baseline。
- 模型化离线 RL:MOPO 提供了"rollout + 不确定性惩罚"的范式,MOBODY 在其上替换了动力学学习的核心。
- 表示学习 for dynamics:TD-MPC 系列的"state-action 表示逼近 next-state 表示"被借来当编码器损失;VAE(Kingma)思路被改造成循环转移损失。
- 行为克隆/AWR:TD3-BC 的 BC 正则与 IQL/AWR 的优势加权,被融合成目标 Q 加权 BC。
- 启发:在"大量分布外/源域数据 + 极少目标数据"的迁移问题里,与其过滤不可信数据,不如把分布差异显式建进一个轻量模块(这里是动作编码器),让模型主动生成目标域可探索的数据——这个思路可推广到更广的离线域适应场景。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次为 off-dynamics offline RL 提出可行的模型化范式,"同 next state 需不同动作 → 分离动作编码器"的切入点干净且有洞察。
- 实验充分度: ⭐⭐⭐⭐ 覆盖 MuJoCo 4 环境 × gravity/friction 4 等级 + kinematic/morphology + Adroit,与 7 个 baseline 对比,大偏移优势明确;3 seeds 略少。
- 写作质量: ⭐⭐⭐⭐ 动机—观察—方法逻辑清晰,损失函数与架构图配合到位。
- 价值: ⭐⭐⭐⭐ 在 sim-to-real / 域适应 RL 这一现实问题上给出实质提升,方法组件(目标 Q 加权 BC、分离动作编码器)可被后续工作复用。