DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 强化学习 / 世界模型
关键词: 世界模型, 哈密顿动力学, 内在好奇心, 对称性探索, 外推泛化

一句话总结¶

DreamSAC 给基于像素的世界模型（DreamerV3）换上一个 SE(3) 不变的哈密顿动力学先验，并用一个"主动做功打破对称性"的内在好奇心去采集物理信息量最大的数据，让模型不再只学像素统计相关性、而是学到守恒律，从而在质量/重力/摩擦力等未见物理参数上的外推泛化比 SOTA 高 22%–163%。

研究背景与动机¶

领域现状：以 Dreamer 系列为代表的世界模型已能从高维像素学到环境的预测表征，在"熟悉物体+熟悉动力学的新组合"上做插值泛化（interpolative generalization）很强——它本质是在抓取观测像素序列里的非参数统计模式。

现有痛点：一旦面对训练分布外的物理参数（如未见过的质量比碰撞、新接触动力学、1.5 倍重力、2 倍摩擦），这类模型的预测会急剧崩坏。原因是它们只学到了像素级动力学的统计相关性，成了"描述系统"，对力、动量、能量守恒这些底层概念毫无内在理解。

核心矛盾：作者认为鲁棒外推的关键，是把学习目标从"建模像素统计"换成"发现环境的物理不变量"——即由底层对称性导出的守恒律。但要把哈密顿/拉格朗日这类物理结构嵌进端到端、从像素学习的在线智能体里有两大障碍：(1) 物理结构模型（HNN/LNN）以往只在低维状态输入或离线设定下成功，难以接像素；(2) 哈密顿要求一个视角无关的物理状态，而像素观测天生视角相关，二者目标直接冲突。还有一个更隐蔽的矛盾：要学"对称性=守恒（\(\Delta H\approx 0\)）"，被动观察系统自演化是学不到的，因为此时哈密顿本来就守恒、没有任何信息。

本文目标：让一个从像素学习的在线 MBRL 智能体，既能把视角无关的物理规律从视角相关的观测中分离出来，又能主动采集到"最能暴露自己物理理解错误"的数据。

切入角度：从受控哈密顿系统的物理直觉出发——智能体必须主动施加外力对系统做功去打破表观守恒，才能探测出哈密顿的结构（势垒、刚度等）。做功量恰好等于内部哈密顿的变化 \(|\Delta H_\phi|\)，于是"挑战自己的守恒律理解"这件事可以直接量化成一个内在奖励。

核心 idea：用"哈密顿世界模型 + 对称性感知好奇心"替代"黑盒动力学预测器 + 统计新颖性好奇心"——前者把物理不变性写进模型结构（Lie Transformer 强制 SE(3) 不变 + 对比学习剥离视角），后者奖励智能体去做功打破对称性，从而主动采集物理信息量最大的数据来精修哈密顿。

方法详解¶

整体框架¶

DreamSAC 整体基于 DreamerV3，但把两处换成物理驱动的版本，整个学习分两阶段：先用对称性探索做无监督预训练学物理化的世界模型，再用外在奖励做下游任务微调。

世界模型这一侧：观测 \(x_t\) 经 SAVi 物体中心编码器映射成 \(N\) 个 object slots \(Z_t=\{z_t^i\}\)，每个 slot 被结构化成广义坐标与正则动量 \(z_t^i=(q_t^i,p_t^i)\)；动力学是双轨的——随机状态 \(Z_{t+1}\) 由积分一个 \(G\)-不变的内部哈密顿 \(H_\phi\) 得到，确定性状态 \(h_{t+1}\) 由 GRU 更新；一个视角鲁棒对比损失把视角因素从 \(Z_t\) 里剥掉，保证 \(Z_t\) 满足哈密顿的不变性要求。

探索这一侧：一个策略 \(\pi_\theta\) 完全在想象（imagination）中训练，去最大化对称性感知好奇心奖励 \(r_{sym}\)，目标是"做功打破对称性"；想象里学到的策略再拿到真实环境执行，采集"挑战世界模型"的数据回来精修 \(H_\phi\)。两侧交替迭代，把 \(H_\phi\) 逐步逼近环境真实的物理不变律。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["像素观测 x_t"] --> B["物体中心编码<br/>SAVi → slots (q,p)"]
    B --> C["哈密顿世界模型<br/>SE(3)不变 H_φ + 辛积分"]
    B --> D["视角鲁棒对比损失<br/>剥离视角、留物理"]
    D --> C
    C --> E["对称性感知好奇心<br/>r_sym ≈ |ΔH_φ| 做功打破对称"]
    E -->|想象中训练策略 π_θ| F["真实环境采集<br/>物理信息量最大的数据"]
    F -->|回灌 replay 精修 H_φ| C
    C -->|预训练完成| G["差异化微调<br/>冻结编码器、小步精修 H_φ"]
    G --> H["下游控制任务"]

关键设计¶

1. 哈密顿世界模型：把守恒律写进动力学先验，而不是让黑盒去猜

针对"标准 RSSM 的动力学预测器是纠缠的黑盒、是外推失败的主因"这一痛点，DreamSAC 把 RSSM 的动力学先验 \(p_\phi(Z_{t+1}\mid Z_t,a_t)\) 换成受控哈密顿过程。系统被建模成受控哈密顿系统，内部动力学由内部哈密顿 \(H_\phi(z)\) 支配、外部动作 \(a_t\) 经一个学到的输入矩阵 \(g(q)\) 施加外力：

\[\frac{dq}{dt}=\frac{\partial H_\phi(z)}{\partial p},\qquad \frac{dp}{dt}=-\frac{\partial H_\phi(z)}{\partial q}+g(q)a_t\]

推理时用辛积分器（symplectic integrator）求解以保证长期守恒（训练/推理用不同积分策略以平衡梯度稳定性与守恒性）。关键约束是让内部哈密顿对相关 3D 物理对称群 \(G\)（如 SE(3)）变换 \(g\) 保持不变：\(H_\phi(g\cdot Z_t)=H_\phi(Z_t),\ \forall g\in G\)，并用 Lie Transformer 这种构造上就满足该性质的 \(G\)-不变架构来实现 \(H_\phi\)。积分器确定地给出下一状态均值 \(\mu_{t+1}^i\)，先验建成可学共享对角协方差的因子化高斯 \(p_\phi=\prod_i \mathcal{N}(z_{t+1}^i;\mu_{t+1}^i,\Sigma_\phi)\)。这样把"物理不变性"作为硬结构嵌进先验，外推时只需调隐含物理参数、不破坏已学的对称性，区别于 Dreamer 那种完全无物理接地的预测器。

2. 视角鲁棒对比损失：化解"重建要视角 / 哈密顿要视角无关"的核心冲突

重建损失 \(\mathcal{L}_{pred}\) 会逼 \(Z_t\) 去编码相机参数才能重建出 \(x_t\)，而 \(G\)-不变哈密顿先验又要求 \(Z_t\) 对这些参数不变——只靠 ELBO 里 KL 项的隐式压力不够。作者引入一个基于自监督对比学习的视角鲁棒损失 \(\mathcal{L}_{vr}\)，不需要同步多视角数据：对 replay buffer 里单张观测 \(x_t\) 施加强视角增广 \(\tau\)（随机透视变换、相机抖动）生成两个视图 \(x_t^A,x_t^B\)，编码成 \(Z_t^A,Z_t^B\) 构成正对，batch 内其余 \(K-1\) 个作负对，用 InfoNCE 拉近正对、推远负对：

\[\mathcal{L}_{vr}(\phi)=-\mathbb{E}\!\left[\log\frac{\exp(\mathrm{sim}(Z_t^A,Z_t^B)/\tau)}{\sum_{j=1}^{K}\exp(\mathrm{sim}(Z_t^A,Z_j^B)/\tau)}\right]\]

这显式训练编码器把视角变化因子化掉，给出"洁净的"视角鲁棒状态 \(Z_t\)，刚好满足 \(G\)-不变哈密顿的输入要求。注意作者只用 2D 增广作为 3D 视角变化的实用代理，并不要求编码器对任意 2D 变换等变（那些往往没有 3D 物理意义）。

3. 对称性感知好奇心：奖励"做功打破对称"，比统计新颖性更会采物理数据

针对"被动观察学不到守恒、且 RND/ICM 这类统计新颖性好奇心会被 noisy-TV 干扰"的痛点，作者把内在奖励定义成智能体动作对系统做的功 \(W_C\)，由式(1)它正等于内部哈密顿的变化：

\[r_{sym,t+1}=\underbrace{|H_\phi(Z_{t+1})-H_\phi(Z_t)|}_{\text{对称性探测}}-\underbrace{\lambda_s\lVert a_t-a_{t-1}\rVert^2}_{\text{动作平滑}}\]

最大化 \(r_{sym}\) 等于鼓励智能体去找"需要显著做功"的交互，这类交互最能暴露 \(H_\phi\) 对刚度、势垒等结构性质的理解错误，从而生成信息量最大的数据。这解决了"学对称性"的悖论：对称意味着守恒（\(\Delta H\approx 0\)），但智能体只有主动挑战系统惯性才学得到这个不变性。策略 \(\pi_\theta\) 按 Dreamer 方式完全在想象轨迹上训练。

4. 退火好奇心 + 想象训练：稳住 \(H_\phi\) 未成熟时的联合优化

当 \(H_\phi\) 还没训好时 \(r_{sym}\) 又噪又非平稳，直接用会导致采的数据很差。作者把内在奖励从稳定的新颖性奖励退火到物理奖励：初期用 RND（对固定随机目标网络的预测误差）提供宽而稳的新颖性信号，随训练把权重 \(w_t\) 从 0 线性退火到 1：

\[r_{int,t+1}=(1-w_t)\cdot r_{RND,t+1}+w_t\cdot r_{sym,t+1}\]

同时 \(r_{sym}\) 用 EMA 目标哈密顿 \(H_{target}\) 计算以进一步降噪。这套混合退火奖励先用多样数据稳住先验 \(p_\phi\)，再把探索从"找新颖"切到"探对称"，把联合优化引导到稳定收敛。世界模型总目标是带 \(\mathcal{L}_{vr}\) 的改版 ELBO：\(\mathcal{L}_{total}=\sum_t[\mathcal{L}_{pred}+\beta_{dyn}\mathcal{L}_{dyn}+\beta_{rep}\mathcal{L}_{rep}+\gamma\mathcal{L}_{vr}]\)，其中 \(\mathcal{L}_{dyn}/\mathcal{L}_{rep}\) 是 \(\mathrm{KL}(q_\phi\Vert p_\phi)\) 拆开的动力学/表征项（分别训先验去预测后验、训编码器变得可被先验预测）。

损失函数 / 训练策略¶

预训练：2M 环境步，纯无监督，最大化退火内在奖励 + ELBO（式5）。
下游差异化微调：约 500K 步。丢弃并重置内在策略/评论家；冻结视角鲁棒编码器 \(q_\phi\)（视觉属性没变）；只对哈密顿世界模型 \((H_\phi,g)\) 用小学习率微调——作者假设 \(H_\phi\) 的不变架构充当强正则，把优化约束到只更新隐含物理参数（质量、摩擦）而不破坏已学对称性，从而做到快速系统辨识。
零样本评估：冻结整个世界模型（含 \(H_\phi\)），只在固定的预训练想象里学一个新任务策略，测纯靠预训练物理理解的泛化能力。

实验关键数据¶

环境：DeepMind Control Suite（DMCS）与 GymFetch 的 3D 物理基准。指标：图像重建 MSE（在 1M 步、各模型预测损失收敛后测）与最终任务奖励/成功率。Baseline 均建在 SOTA 世界模型 DreamerV3 + SOTA 探索 RND 之上；DreamSAC+Random 是去掉对称性探索、换随机策略的消融。

主实验：世界模型预测精度（MSE，越低越好，节选 H=16）¶

环境 (H=16)	DreamerV3+Policy	DreamerV3+RND	DreamSAC (Ours)
Cheetah	0.798	0.636	0.405
Acrobot	0.772	0.211	0.206
Hopper	1.036	1.064	0.315
Walker	4.377	2.898	1.004
FetchPush	2.030	1.708	0.645
FetchReach	1.492	0.682	0.386

Acrobot(H=16) 上 DreamSAC 的 0.206 相对 DreamerV3+Policy 的 3.639 是 10 倍以上提升；FetchPush(H=8) 的 0.302 也只有 DreamSAC+Random(0.675) 的不到一半、远好于 DreamerV3+RND(0.976)，说明对称性探索确实采到了更有物理信息量的数据。

OOD 外推泛化（FetchReach 为成功率，其余为平均奖励，节选）¶

任务	DreamerV3+Policy	DreamerV3+RND	DreamSAC 0-shot	DreamSAC (Ours)
Reacher-hard / Unseen View	265.3	314.0	149.6	321.9
FetchReach / Unseen Goal	919.7	927.4	934.2	967.6
Walker-walk / Unseen Object	0.65	0.70	—	0.80
Cheetah-run / Unseen Goal	0.76	0.72	—	0.91
Walker / Unseen Gravity (1.5×)	189.8	167.5	124.8	499.9
Cheetah / Unseen Friction (2×)	118.8	97.4	27.5	120.2

参数化 OOD（重力/摩擦/物性漂移）增益最大，例如 Walker Unseen Gravity 从 ~190 跳到 ~500，印证差异化微调能在哈密顿参数上做快速系统辨识。零样本版本（冻结整个世界模型）已能超过部分 DreamerV3 微调结果。

消融实验（表4，Reacher 为奖励、其余为 MSE）¶

配置	Reacher Unseen View↑	Walker 1.5×Gravity↓	Avg. OOD MSE↓	说明
Full	321.9	1.004	0.705	完整模型
w/o \(\mathcal{L}_{vr}\)	212.4	1.068	0.793	去视角对比损失，Unseen View 大掉
w/o \(H_\phi\)	159.6	4.967	2.899	Lie Transformer 换 MLP，重力外推崩坏
w/o SAVi	279.7	1.188	0.903	去物体中心编码，参数泛化变差

关键发现¶

哈密顿先验 \(H_\phi\) 贡献最大：换成普通 MLP 后 Walker 1.5× 重力 MSE 从 1.004 飙到 4.967、平均 OOD MSE 翻 4 倍，证明 \(G\)-不变架构是参数外推的关键。
\(\mathcal{L}_{vr}\) 专管视角：去掉后正好在 Unseen View 任务上掉最多（321.9→212.4），与"它负责剥离视角"的定位精准对应；t-SNE 显示有它时不同相机视角聚成紧簇、没它则散开。
物理可解释证据：零动作 rollout 时学到的 \(H_\phi\) 近乎恒定，说明模型真的学到了能量守恒这一物理不变量；ID 物性下预训练/微调表征混在一起、OOD 物性下则清晰分离，说明隐状态 \((q,p)\) 有物理意识。

亮点与洞察¶

把"好奇心"从统计新颖性重定义为物理做功：\(r_{sym}\approx|\Delta H_\phi|\) 用模型自己当下（还不完美）的哈密顿当奖励信号，天然避开 noisy-TV，而且越是采到暴露自身物理错误的数据越能精修自己——一个很优雅的自举闭环。
"想象中训练探索策略、真实环境执行采数据"的解耦，让昂贵的真实交互只花在最有信息量的动作上，可迁移到任何 Dreamer 式 MBRL 的主动数据采集。
退火 RND→物理奖励是个实用的稳定化技巧：物理化奖励在模型未成熟时不可靠，先借统计新颖性把先验稳住再切换，可推广到任何"奖励依赖于尚未训好的内部量"的自监督探索。
差异化微调把不变架构当正则：冻结编码器、小步只调 \(H_\phi\)，把适应新任务收窄成"系统辨识隐含物理参数"，是结构化先验带来快速适应的具体落地。

局限与展望¶

依赖辛积分与对称群先验：方法假设环境可被受控哈密顿系统刻画、且相关对称群（SE(3)）已知，对强耗散、强接触不连续或非保守主导的系统是否成立存疑 ⚠️（论文主要在 DMCS/GymFetch 这类相对规整的物理仿真上验证）。
canonical 坐标无形式保证：作者自己承认把 slot 拆成 \((q,p)\) 并无 ELBO 层面的正式保证对应真正的正则坐标，只是"功能性解耦"的假设。
只在仿真验证：22%–163% 的增益都来自 3D 物理仿真，未见真实机器人/真实像素的结果，sim-to-real 是开放问题。
大量实现细节在 Supp.：积分策略、增广集、退火超参等关键工程在正文被略过（多处 Supp. ?? 占位），复现门槛偏高。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把哈密顿世界模型 + 物理做功好奇心 + 对比视角剥离三者首次端到端缝进像素 MBRL，切入角度（主动做功打破对称才能学守恒）很扎实。
实验充分度: ⭐⭐⭐⭐ DMCS/GymFetch 多任务、结构+参数双类 OOD、消融与可视化都到位，但全是仿真、且大量细节在附录。
写作质量: ⭐⭐⭐⭐ 动机—机制—证据链条清晰，公式给得清；扣分在正文多处 Supp. ?? 占位、关键实现需翻附录。
价值: ⭐⭐⭐⭐ 为"物理接地的可外推世界模型"提供了一条可操作路线，主动数据采集与退火好奇心的思路可迁移到广义 MBRL。