DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration¶
会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 强化学习 / 世界模型
关键词: 世界模型, 哈密顿动力学, 内在好奇心, 对称性探索, 外推泛化
一句话总结¶
DreamSAC 给基于像素的世界模型(DreamerV3)换上一个 SE(3) 不变的哈密顿动力学先验,并用一个"主动做功打破对称性"的内在好奇心去采集物理信息量最大的数据,让模型不再只学像素统计相关性、而是学到守恒律,从而在质量/重力/摩擦力等未见物理参数上的外推泛化比 SOTA 高 22%–163%。
研究背景与动机¶
领域现状:以 Dreamer 系列为代表的世界模型已能从高维像素学到环境的预测表征,在"熟悉物体+熟悉动力学的新组合"上做插值泛化(interpolative generalization)很强——它本质是在抓取观测像素序列里的非参数统计模式。
现有痛点:一旦面对训练分布外的物理参数(如未见过的质量比碰撞、新接触动力学、1.5 倍重力、2 倍摩擦),这类模型的预测会急剧崩坏。原因是它们只学到了像素级动力学的统计相关性,成了"描述系统",对力、动量、能量守恒这些底层概念毫无内在理解。
核心矛盾:作者认为鲁棒外推的关键,是把学习目标从"建模像素统计"换成"发现环境的物理不变量"——即由底层对称性导出的守恒律。但要把哈密顿/拉格朗日这类物理结构嵌进端到端、从像素学习的在线智能体里有两大障碍:(1) 物理结构模型(HNN/LNN)以往只在低维状态输入或离线设定下成功,难以接像素;(2) 哈密顿要求一个视角无关的物理状态,而像素观测天生视角相关,二者目标直接冲突。还有一个更隐蔽的矛盾:要学"对称性=守恒(\(\Delta H\approx 0\))",被动观察系统自演化是学不到的,因为此时哈密顿本来就守恒、没有任何信息。
本文目标:让一个从像素学习的在线 MBRL 智能体,既能把视角无关的物理规律从视角相关的观测中分离出来,又能主动采集到"最能暴露自己物理理解错误"的数据。
切入角度:从受控哈密顿系统的物理直觉出发——智能体必须主动施加外力对系统做功去打破表观守恒,才能探测出哈密顿的结构(势垒、刚度等)。做功量恰好等于内部哈密顿的变化 \(|\Delta H_\phi|\),于是"挑战自己的守恒律理解"这件事可以直接量化成一个内在奖励。
核心 idea:用"哈密顿世界模型 + 对称性感知好奇心"替代"黑盒动力学预测器 + 统计新颖性好奇心"——前者把物理不变性写进模型结构(Lie Transformer 强制 SE(3) 不变 + 对比学习剥离视角),后者奖励智能体去做功打破对称性,从而主动采集物理信息量最大的数据来精修哈密顿。
方法详解¶
整体框架¶
DreamSAC 整体基于 DreamerV3,但把两处换成物理驱动的版本,整个学习分两阶段:先用对称性探索做无监督预训练学物理化的世界模型,再用外在奖励做下游任务微调。
世界模型这一侧:观测 \(x_t\) 经 SAVi 物体中心编码器映射成 \(N\) 个 object slots \(Z_t=\{z_t^i\}\),每个 slot 被结构化成广义坐标与正则动量 \(z_t^i=(q_t^i,p_t^i)\);动力学是双轨的——随机状态 \(Z_{t+1}\) 由积分一个 \(G\)-不变的内部哈密顿 \(H_\phi\) 得到,确定性状态 \(h_{t+1}\) 由 GRU 更新;一个视角鲁棒对比损失把视角因素从 \(Z_t\) 里剥掉,保证 \(Z_t\) 满足哈密顿的不变性要求。
探索这一侧:一个策略 \(\pi_\theta\) 完全在想象(imagination)中训练,去最大化对称性感知好奇心奖励 \(r_{sym}\),目标是"做功打破对称性";想象里学到的策略再拿到真实环境执行,采集"挑战世界模型"的数据回来精修 \(H_\phi\)。两侧交替迭代,把 \(H_\phi\) 逐步逼近环境真实的物理不变律。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["像素观测 x_t"] --> B["物体中心编码<br/>SAVi → slots (q,p)"]
B --> C["哈密顿世界模型<br/>SE(3)不变 H_φ + 辛积分"]
B --> D["视角鲁棒对比损失<br/>剥离视角、留物理"]
D --> C
C --> E["对称性感知好奇心<br/>r_sym ≈ |ΔH_φ| 做功打破对称"]
E -->|想象中训练策略 π_θ| F["真实环境采集<br/>物理信息量最大的数据"]
F -->|回灌 replay 精修 H_φ| C
C -->|预训练完成| G["差异化微调<br/>冻结编码器、小步精修 H_φ"]
G --> H["下游控制任务"]
关键设计¶
1. 哈密顿世界模型:把守恒律写进动力学先验,而不是让黑盒去猜
针对"标准 RSSM 的动力学预测器是纠缠的黑盒、是外推失败的主因"这一痛点,DreamSAC 把 RSSM 的动力学先验 \(p_\phi(Z_{t+1}\mid Z_t,a_t)\) 换成受控哈密顿过程。系统被建模成受控哈密顿系统,内部动力学由内部哈密顿 \(H_\phi(z)\) 支配、外部动作 \(a_t\) 经一个学到的输入矩阵 \(g(q)\) 施加外力:
推理时用辛积分器(symplectic integrator)求解以保证长期守恒(训练/推理用不同积分策略以平衡梯度稳定性与守恒性)。关键约束是让内部哈密顿对相关 3D 物理对称群 \(G\)(如 SE(3))变换 \(g\) 保持不变:\(H_\phi(g\cdot Z_t)=H_\phi(Z_t),\ \forall g\in G\),并用 Lie Transformer 这种构造上就满足该性质的 \(G\)-不变架构来实现 \(H_\phi\)。积分器确定地给出下一状态均值 \(\mu_{t+1}^i\),先验建成可学共享对角协方差的因子化高斯 \(p_\phi=\prod_i \mathcal{N}(z_{t+1}^i;\mu_{t+1}^i,\Sigma_\phi)\)。这样把"物理不变性"作为硬结构嵌进先验,外推时只需调隐含物理参数、不破坏已学的对称性,区别于 Dreamer 那种完全无物理接地的预测器。
2. 视角鲁棒对比损失:化解"重建要视角 / 哈密顿要视角无关"的核心冲突
重建损失 \(\mathcal{L}_{pred}\) 会逼 \(Z_t\) 去编码相机参数才能重建出 \(x_t\),而 \(G\)-不变哈密顿先验又要求 \(Z_t\) 对这些参数不变——只靠 ELBO 里 KL 项的隐式压力不够。作者引入一个基于自监督对比学习的视角鲁棒损失 \(\mathcal{L}_{vr}\),不需要同步多视角数据:对 replay buffer 里单张观测 \(x_t\) 施加强视角增广 \(\tau\)(随机透视变换、相机抖动)生成两个视图 \(x_t^A,x_t^B\),编码成 \(Z_t^A,Z_t^B\) 构成正对,batch 内其余 \(K-1\) 个作负对,用 InfoNCE 拉近正对、推远负对:
这显式训练编码器把视角变化因子化掉,给出"洁净的"视角鲁棒状态 \(Z_t\),刚好满足 \(G\)-不变哈密顿的输入要求。注意作者只用 2D 增广作为 3D 视角变化的实用代理,并不要求编码器对任意 2D 变换等变(那些往往没有 3D 物理意义)。
3. 对称性感知好奇心:奖励"做功打破对称",比统计新颖性更会采物理数据
针对"被动观察学不到守恒、且 RND/ICM 这类统计新颖性好奇心会被 noisy-TV 干扰"的痛点,作者把内在奖励定义成智能体动作对系统做的功 \(W_C\),由式(1)它正等于内部哈密顿的变化:
最大化 \(r_{sym}\) 等于鼓励智能体去找"需要显著做功"的交互,这类交互最能暴露 \(H_\phi\) 对刚度、势垒等结构性质的理解错误,从而生成信息量最大的数据。这解决了"学对称性"的悖论:对称意味着守恒(\(\Delta H\approx 0\)),但智能体只有主动挑战系统惯性才学得到这个不变性。策略 \(\pi_\theta\) 按 Dreamer 方式完全在想象轨迹上训练。
4. 退火好奇心 + 想象训练:稳住 \(H_\phi\) 未成熟时的联合优化
当 \(H_\phi\) 还没训好时 \(r_{sym}\) 又噪又非平稳,直接用会导致采的数据很差。作者把内在奖励从稳定的新颖性奖励退火到物理奖励:初期用 RND(对固定随机目标网络的预测误差)提供宽而稳的新颖性信号,随训练把权重 \(w_t\) 从 0 线性退火到 1:
同时 \(r_{sym}\) 用 EMA 目标哈密顿 \(H_{target}\) 计算以进一步降噪。这套混合退火奖励先用多样数据稳住先验 \(p_\phi\),再把探索从"找新颖"切到"探对称",把联合优化引导到稳定收敛。世界模型总目标是带 \(\mathcal{L}_{vr}\) 的改版 ELBO:\(\mathcal{L}_{total}=\sum_t[\mathcal{L}_{pred}+\beta_{dyn}\mathcal{L}_{dyn}+\beta_{rep}\mathcal{L}_{rep}+\gamma\mathcal{L}_{vr}]\),其中 \(\mathcal{L}_{dyn}/\mathcal{L}_{rep}\) 是 \(\mathrm{KL}(q_\phi\Vert p_\phi)\) 拆开的动力学/表征项(分别训先验去预测后验、训编码器变得可被先验预测)。
损失函数 / 训练策略¶
- 预训练:2M 环境步,纯无监督,最大化退火内在奖励 + ELBO(式5)。
- 下游差异化微调:约 500K 步。丢弃并重置内在策略/评论家;冻结视角鲁棒编码器 \(q_\phi\)(视觉属性没变);只对哈密顿世界模型 \((H_\phi,g)\) 用小学习率微调——作者假设 \(H_\phi\) 的不变架构充当强正则,把优化约束到只更新隐含物理参数(质量、摩擦)而不破坏已学对称性,从而做到快速系统辨识。
- 零样本评估:冻结整个世界模型(含 \(H_\phi\)),只在固定的预训练想象里学一个新任务策略,测纯靠预训练物理理解的泛化能力。
实验关键数据¶
环境:DeepMind Control Suite(DMCS)与 GymFetch 的 3D 物理基准。指标:图像重建 MSE(在 1M 步、各模型预测损失收敛后测)与最终任务奖励/成功率。Baseline 均建在 SOTA 世界模型 DreamerV3 + SOTA 探索 RND 之上;DreamSAC+Random 是去掉对称性探索、换随机策略的消融。
主实验:世界模型预测精度(MSE,越低越好,节选 H=16)¶
| 环境 (H=16) | DreamerV3+Policy | DreamerV3+RND | DreamSAC (Ours) |
|---|---|---|---|
| Cheetah | 0.798 | 0.636 | 0.405 |
| Acrobot | 0.772 | 0.211 | 0.206 |
| Hopper | 1.036 | 1.064 | 0.315 |
| Walker | 4.377 | 2.898 | 1.004 |
| FetchPush | 2.030 | 1.708 | 0.645 |
| FetchReach | 1.492 | 0.682 | 0.386 |
Acrobot(H=16) 上 DreamSAC 的 0.206 相对 DreamerV3+Policy 的 3.639 是 10 倍以上提升;FetchPush(H=8) 的 0.302 也只有 DreamSAC+Random(0.675) 的不到一半、远好于 DreamerV3+RND(0.976),说明对称性探索确实采到了更有物理信息量的数据。
OOD 外推泛化(FetchReach 为成功率,其余为平均奖励,节选)¶
| 任务 | DreamerV3+Policy | DreamerV3+RND | DreamSAC 0-shot | DreamSAC (Ours) |
|---|---|---|---|---|
| Reacher-hard / Unseen View | 265.3 | 314.0 | 149.6 | 321.9 |
| FetchReach / Unseen Goal | 919.7 | 927.4 | 934.2 | 967.6 |
| Walker-walk / Unseen Object | 0.65 | 0.70 | — | 0.80 |
| Cheetah-run / Unseen Goal | 0.76 | 0.72 | — | 0.91 |
| Walker / Unseen Gravity (1.5×) | 189.8 | 167.5 | 124.8 | 499.9 |
| Cheetah / Unseen Friction (2×) | 118.8 | 97.4 | 27.5 | 120.2 |
参数化 OOD(重力/摩擦/物性漂移)增益最大,例如 Walker Unseen Gravity 从 ~190 跳到 ~500,印证差异化微调能在哈密顿参数上做快速系统辨识。零样本版本(冻结整个世界模型)已能超过部分 DreamerV3 微调结果。
消融实验(表4,Reacher 为奖励、其余为 MSE)¶
| 配置 | Reacher Unseen View↑ | Walker 1.5×Gravity↓ | Avg. OOD MSE↓ | 说明 |
|---|---|---|---|---|
| Full | 321.9 | 1.004 | 0.705 | 完整模型 |
| w/o \(\mathcal{L}_{vr}\) | 212.4 | 1.068 | 0.793 | 去视角对比损失,Unseen View 大掉 |
| w/o \(H_\phi\) | 159.6 | 4.967 | 2.899 | Lie Transformer 换 MLP,重力外推崩坏 |
| w/o SAVi | 279.7 | 1.188 | 0.903 | 去物体中心编码,参数泛化变差 |
关键发现¶
- 哈密顿先验 \(H_\phi\) 贡献最大:换成普通 MLP 后 Walker 1.5× 重力 MSE 从 1.004 飙到 4.967、平均 OOD MSE 翻 4 倍,证明 \(G\)-不变架构是参数外推的关键。
- \(\mathcal{L}_{vr}\) 专管视角:去掉后正好在 Unseen View 任务上掉最多(321.9→212.4),与"它负责剥离视角"的定位精准对应;t-SNE 显示有它时不同相机视角聚成紧簇、没它则散开。
- 物理可解释证据:零动作 rollout 时学到的 \(H_\phi\) 近乎恒定,说明模型真的学到了能量守恒这一物理不变量;ID 物性下预训练/微调表征混在一起、OOD 物性下则清晰分离,说明隐状态 \((q,p)\) 有物理意识。
亮点与洞察¶
- 把"好奇心"从统计新颖性重定义为物理做功:\(r_{sym}\approx|\Delta H_\phi|\) 用模型自己当下(还不完美)的哈密顿当奖励信号,天然避开 noisy-TV,而且越是采到暴露自身物理错误的数据越能精修自己——一个很优雅的自举闭环。
- "想象中训练探索策略、真实环境执行采数据"的解耦,让昂贵的真实交互只花在最有信息量的动作上,可迁移到任何 Dreamer 式 MBRL 的主动数据采集。
- 退火 RND→物理奖励是个实用的稳定化技巧:物理化奖励在模型未成熟时不可靠,先借统计新颖性把先验稳住再切换,可推广到任何"奖励依赖于尚未训好的内部量"的自监督探索。
- 差异化微调把不变架构当正则:冻结编码器、小步只调 \(H_\phi\),把适应新任务收窄成"系统辨识隐含物理参数",是结构化先验带来快速适应的具体落地。
局限与展望¶
- 依赖辛积分与对称群先验:方法假设环境可被受控哈密顿系统刻画、且相关对称群(SE(3))已知,对强耗散、强接触不连续或非保守主导的系统是否成立存疑 ⚠️(论文主要在 DMCS/GymFetch 这类相对规整的物理仿真上验证)。
- canonical 坐标无形式保证:作者自己承认把 slot 拆成 \((q,p)\) 并无 ELBO 层面的正式保证对应真正的正则坐标,只是"功能性解耦"的假设。
- 只在仿真验证:22%–163% 的增益都来自 3D 物理仿真,未见真实机器人/真实像素的结果,sim-to-real 是开放问题。
- 大量实现细节在 Supp.:积分策略、增广集、退火超参等关键工程在正文被略过(多处 Supp. ?? 占位),复现门槛偏高。
相关工作与启发¶
- vs DreamerV3:同是从像素学的 MBRL 主干,DreamerV3 用黑盒 RSSM 预测器、缺物理接地,外推就崩;DreamSAC 把动力学先验换成 SE(3) 不变哈密顿 + 辛积分,把守恒律写进结构,故在未见物理参数上大幅领先(多任务 22%–163%)。
- vs HNN / LNN / SymODEN 等物理结构模型:这些把哈密顿/拉格朗日先验做得很纯,但以往只在低维状态或离线被动轨迹上成功;DreamSAC 的差异是端到端从像素学、且是在线主动采数据(对称性探索),不靠被动观测的自演化轨迹。
- vs RND / ICM 等新颖性好奇心:它们奖励统计新颖/不可预测状态,易被随机元素(noisy-TV)带偏;DreamSAC 的对称性感知好奇心奖励"对守恒律的挑战",目标直指物理信息量而非视觉新颖。
- vs SimCLR 式对比学习:借用 InfoNCE + 视角增广构建不变性,但把它专门用来调和"重建需视角 vs 哈密顿需视角无关"的冲突,作为 ELBO 之外的显式自监督信号。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把哈密顿世界模型 + 物理做功好奇心 + 对比视角剥离三者首次端到端缝进像素 MBRL,切入角度(主动做功打破对称才能学守恒)很扎实。
- 实验充分度: ⭐⭐⭐⭐ DMCS/GymFetch 多任务、结构+参数双类 OOD、消融与可视化都到位,但全是仿真、且大量细节在附录。
- 写作质量: ⭐⭐⭐⭐ 动机—机制—证据链条清晰,公式给得清;扣分在正文多处 Supp. ?? 占位、关键实现需翻附录。
- 价值: ⭐⭐⭐⭐ 为"物理接地的可外推世界模型"提供了一条可操作路线,主动数据采集与退火好奇心的思路可迁移到广义 MBRL。