Time Reversal Symmetry for Efficient Robotic Manipulations in Deep Reinforcement Learning¶

会议: NeurIPS 2025
arXiv: 2505.13925
代码: https://github.com/jyp9961/TR-DRL
领域: 强化学习
关键词: 时间反转对称, 数据增强, 奖励塑形, 机器人操作, 样本效率

一句话总结¶

提出 TR-DRL 框架，利用机器人操作任务中的时间反转对称性——通过轨迹反转增强（完全可逆的转移）和时间反转引导的势函数奖励塑形（部分可逆的转移）——显著提升 DRL 在成对任务（如开门/关门）中的样本效率和最终性能。

研究背景与动机¶

领域现状：DRL 中对称性利用主要集中在空间对称（反射、旋转、平移），且成功应用于状态和图像两种设定。然而时间对称——特别是时间反转对称——几乎完全未被探索

现有痛点： - 许多机器人操作任务天然具有时间反转对称性（如门的开↔关、抽屉的拉↔推），但当前 DRL 方法完全忽略了这种结构信息 - 简单取反动作 (\(\vec{a} = -a\)) 产生的反转转移经常无效。例如关门时只需推（不抓把手），反转后的"开门"动作不含抓把手步骤，物理上不成立 - 现有时间反转方法（Barkley et al., 2023）假设全局完全可逆且反转动作已知，限制太强

核心矛盾：时间反转对称性普遍存在但难以安全利用——无效的反转转移会污染训练数据

切入角度：区分完全可逆和部分可逆两种情况，分别用不同技术利用

核心 idea：完全可逆→学习逆动力学模型+动力学一致性过滤器做数据增强；部分可逆→利用可逆状态分量（如物体角度）做势函数奖励塑形

方法详解¶

整体框架¶

给定一对具有时间反转关系的任务（如开门/关门），TR-DRL 包含四个组件：(1) 逆动力学模型 \(h\)：从 \((s', s)\) 预测反转动作 \(\vec{a}\)；(2) 前向动力学模型 \(g\)：验证反转转移的物理有效性；(3) 轨迹反转增强：对通过验证的完全可逆转移做数据增强；(4) 奖励塑形：从反转任务的成功轨迹学习势函数引导策略学习。两种技术对两个任务都有益。

关键设计¶

完全时间反转（FTR）对称利用——轨迹反转增强：
- 功能：将任务A的有效转移 \((s,a,s')\) 反转为任务B的增强转移 \((s', \vec{a}, s)\) 加入 replay buffer
- 核心思路：训练逆动力学模型 \(a = h(s, s')\) 获取反转动作（ MSE 损失，Eq. 6）；训练前向动力学模型 \(g\) 做动力学一致性过滤：\(\hat{s} = g(s', h(s', s))\)，只有 \(\|\hat{s} - s\| < \epsilon\) 的转移才被保留
- 设计动机：不是所有转移都可逆——接触/摩擦/放开物体的瞬间就不可逆。动力学过滤器自动识别哪些转移可以安全反转，避免引入虚假数据
部分时间反转（PTR）对称利用——奖励塑形：
- 功能：对物体状态可逆但机器人状态不可逆的转移，利用可逆分量引导策略学习
- 核心思路：将状态分解为可逆分量 \(x\)（如门的角度）和不可逆分量 \(y\)（如末端执行器位置）。从反转任务的成功轨迹中学习势函数 \(\Phi(s)\)，构造势基奖励塑形 \(\mathcal{F}(s,a,s') = \gamma \Phi(s') - \Phi(s)\)
- 设计动机：Ng et al. 1999 证明势基奖励塑形不改变最优策略——理论上安全。即使整个转移不可逆，引导智能体朝"物体状态与成功反转轨迹匹配"的方向前进仍然有价值
部分时间反转（PTR）的形式化定义（本文新提出）：
- 功能：扩展 Barkley et al. 的 FTR 定义到部分可逆场景
- 核心思路：状态 \(s = (x, y)\) 分为可逆部分 \(x\) 和不可逆部分 \(y\)。如果存在某些 \(\vec{y}, \vec{y}'\) 使得 \(T(s'|s,a) = T(\vec{s}|\vec{s}', \vec{a})\) 成立（其中 \(\vec{x} = f_\mathcal{X}(x)\)），则称 PTR 对称
- 设计动机：现实中绝大多数机器人任务是 PTR 而非 FTR——推门关门时机器人手臂位置不可逆，但门角度可逆

损失函数 / 训练策略¶

基础 RL 算法：SAC（Soft Actor-Critic）
逆动力学模型损失：\(L_h = \hat{\mathbb{E}}[(h(s,s') - a)^2]\)
前向动力学模型损失：\(L_g = \hat{\mathbb{E}}[(g(s,a) - s')^2]\)
势函数通过成功轨迹的状态序列拟合（值函数近似）
两个相关任务共享动力学模型（因底层物理相同）

实验关键数据¶

主实验 — Robosuite 基准¶

任务对	SAC baseline	+仅反转增强	+仅奖励塑形	+TR-DRL完整	样本效率提升
Door Open/Close	收敛慢(~500K)	2x 快	1.5x 快	2.5-3x 快	显著
Lift/Place	收敛慢	1.5x 快	1.3x 快	2x 快	显著

消融实验 — 技术组件贡献¶

配置	样本效率	最终性能	说明
SAC baseline	基准	基准	无对称利用
+轨迹反转（无过滤）	有时有害	可能下降	无效转移污染训练
+轨迹反转（有动力学过滤）	显著提升	提升	过滤器是关键
+奖励塑形	中等提升	中等提升	对PTR场景更重要
+两者结合	最大提升	最高	FTR+PTR互补

主实验 — MetaWorld 多任务¶

设定	SAC	TR-DRL	说明
单任务 (Door Close)	部分收敛	完全收敛	FTR 增强有效
多任务 (4 pairs)	部分任务失败	全部成功	对称信息跨任务迁移

关键发现¶

没有动力学过滤的轨迹反转可能有害——这是核心发现。无效反转转移引入了虚假的动力学信息，导致策略学到错误的因果关系。过滤器的引入是从"可能有害"到"一致有益"的转折点
两种技术互补：FTR增强在完全可逆场景（抓取+移动）效果最大，PTR奖励塑形在部分可逆场景（推门/推杯子）效果最大。组合使用覆盖了两种情况
在多任务设定中 TR-DRL 的优势更明显——对称信息在任务对之间共享，一个任务的经验直接服务于另一个
逆动力学模型的质量直接决定增强效果——训练早期模型不准确时增强效果有限，随着数据积累逐步改善

亮点与洞察¶

区分完全/部分可逆性是关键概念贡献——现实中几乎没有完全时间可逆的操作任务（接触、摩擦、重力都破坏完全可逆性），PTR 的形式化大大扩展了时间对称利用的适用范围
动力学一致性过滤器将一个"可能有害"的技术变成"一致有益"——这种安全机制的设计思路对所有数据增强方法都有借鉴意义
势基奖励塑形与时间反转的结合是自然而优雅的——成功轨迹的反转天然提供了"好的状态序列"，作为势函数的训练信号
方法是对 SAC 的正交增强，可以与任何 off-policy 方法结合

局限与展望¶

需要预先知道任务对关系（哪两个任务是时间反转的）——自动发现对称对是开放问题
逆动力学模型在高维/高自由度系统中训练可能不稳定
PTR 的状态分解（哪部分可逆/不可逆）目前需要领域知识指定——自动分解值得研究
未考虑时间尺度不对称——打开很慢但关上很快的任务中，反转后的时间步长可能不匹配

评分¶

新颖性: ⭐⭐⭐⭐ PTR 的形式化定义是新贡献，完全/部分可逆的区分有概念深度
实验充分度: ⭐⭐⭐⭐⭐ Robosuite+MetaWorld 两个标准基准，单/多任务设定，详细消融
写作质量: ⭐⭐⭐⭐ FTR/PTR 的概念和示例清晰，方法流程图直观
价值: ⭐⭐⭐⭐ 对具有配对对称结构的机器人任务有直接实用价值