跳转至

Time Reversal Symmetry for Efficient Robotic Manipulations in Deep Reinforcement Learning

会议: NeurIPS 2025
arXiv: 2505.13925
代码: https://github.com/jyp9961/TR-DRL
领域: 强化学习
关键词: 时间反转对称, 数据增强, 奖励塑形, 机器人操作, 样本效率

一句话总结

提出 TR-DRL 框架,利用机器人操作任务中的时间反转对称性——通过轨迹反转增强(完全可逆的转移)和时间反转引导的势函数奖励塑形(部分可逆的转移)——显著提升 DRL 在成对任务(如开门/关门)中的样本效率和最终性能。

研究背景与动机

领域现状:DRL 中对称性利用主要集中在空间对称(反射、旋转、平移),且成功应用于状态和图像两种设定。然而时间对称——特别是时间反转对称——几乎完全未被探索

现有痛点: - 许多机器人操作任务天然具有时间反转对称性(如门的开↔关、抽屉的拉↔推),但当前 DRL 方法完全忽略了这种结构信息 - 简单取反动作 (\(\vec{a} = -a\)) 产生的反转转移经常无效。例如关门时只需推(不抓把手),反转后的"开门"动作不含抓把手步骤,物理上不成立 - 现有时间反转方法(Barkley et al., 2023)假设全局完全可逆且反转动作已知,限制太强

核心矛盾:时间反转对称性普遍存在但难以安全利用——无效的反转转移会污染训练数据

切入角度:区分完全可逆部分可逆两种情况,分别用不同技术利用

核心 idea:完全可逆→学习逆动力学模型+动力学一致性过滤器做数据增强;部分可逆→利用可逆状态分量(如物体角度)做势函数奖励塑形

方法详解

整体框架

给定一对具有时间反转关系的任务(如开门/关门),TR-DRL 包含四个组件:(1) 逆动力学模型 \(h\):从 \((s', s)\) 预测反转动作 \(\vec{a}\);(2) 前向动力学模型 \(g\):验证反转转移的物理有效性;(3) 轨迹反转增强:对通过验证的完全可逆转移做数据增强;(4) 奖励塑形:从反转任务的成功轨迹学习势函数引导策略学习。两种技术对两个任务都有益

关键设计

  1. 完全时间反转(FTR)对称利用——轨迹反转增强

    • 功能:将任务A的有效转移 \((s,a,s')\) 反转为任务B的增强转移 \((s', \vec{a}, s)\) 加入 replay buffer
    • 核心思路:训练逆动力学模型 \(a = h(s, s')\) 获取反转动作( MSE 损失,Eq. 6);训练前向动力学模型 \(g\)动力学一致性过滤\(\hat{s} = g(s', h(s', s))\),只有 \(\|\hat{s} - s\| < \epsilon\) 的转移才被保留
    • 设计动机:不是所有转移都可逆——接触/摩擦/放开物体的瞬间就不可逆。动力学过滤器自动识别哪些转移可以安全反转,避免引入虚假数据
  2. 部分时间反转(PTR)对称利用——奖励塑形

    • 功能:对物体状态可逆但机器人状态不可逆的转移,利用可逆分量引导策略学习
    • 核心思路:将状态分解为可逆分量 \(x\)(如门的角度)和不可逆分量 \(y\)(如末端执行器位置)。从反转任务的成功轨迹中学习势函数 \(\Phi(s)\),构造势基奖励塑形 \(\mathcal{F}(s,a,s') = \gamma \Phi(s') - \Phi(s)\)
    • 设计动机:Ng et al. 1999 证明势基奖励塑形不改变最优策略——理论上安全。即使整个转移不可逆,引导智能体朝"物体状态与成功反转轨迹匹配"的方向前进仍然有价值
  3. 部分时间反转(PTR)的形式化定义(本文新提出)

    • 功能:扩展 Barkley et al. 的 FTR 定义到部分可逆场景
    • 核心思路:状态 \(s = (x, y)\) 分为可逆部分 \(x\) 和不可逆部分 \(y\)。如果存在某些 \(\vec{y}, \vec{y}'\) 使得 \(T(s'|s,a) = T(\vec{s}|\vec{s}', \vec{a})\) 成立(其中 \(\vec{x} = f_\mathcal{X}(x)\)),则称 PTR 对称
    • 设计动机:现实中绝大多数机器人任务是 PTR 而非 FTR——推门关门时机器人手臂位置不可逆,但门角度可逆

损失函数 / 训练策略

  • 基础 RL 算法:SAC(Soft Actor-Critic)
  • 逆动力学模型损失:\(L_h = \hat{\mathbb{E}}[(h(s,s') - a)^2]\)
  • 前向动力学模型损失:\(L_g = \hat{\mathbb{E}}[(g(s,a) - s')^2]\)
  • 势函数通过成功轨迹的状态序列拟合(值函数近似)
  • 两个相关任务共享动力学模型(因底层物理相同)

实验关键数据

主实验 — Robosuite 基准

任务对 SAC baseline +仅反转增强 +仅奖励塑形 +TR-DRL完整 样本效率提升
Door Open/Close 收敛慢(~500K) 2x 快 1.5x 快 2.5-3x 快 显著
Lift/Place 收敛慢 1.5x 快 1.3x 快 2x 快 显著

消融实验 — 技术组件贡献

配置 样本效率 最终性能 说明
SAC baseline 基准 基准 无对称利用
+轨迹反转(无过滤) 有时有害 可能下降 无效转移污染训练
+轨迹反转(有动力学过滤) 显著提升 提升 过滤器是关键
+奖励塑形 中等提升 中等提升 对PTR场景更重要
+两者结合 最大提升 最高 FTR+PTR互补

主实验 — MetaWorld 多任务

设定 SAC TR-DRL 说明
单任务 (Door Close) 部分收敛 完全收敛 FTR 增强有效
多任务 (4 pairs) 部分任务失败 全部成功 对称信息跨任务迁移

关键发现

  • 没有动力学过滤的轨迹反转可能有害——这是核心发现。无效反转转移引入了虚假的动力学信息,导致策略学到错误的因果关系。过滤器的引入是从"可能有害"到"一致有益"的转折点
  • 两种技术互补:FTR增强在完全可逆场景(抓取+移动)效果最大,PTR奖励塑形在部分可逆场景(推门/推杯子)效果最大。组合使用覆盖了两种情况
  • 在多任务设定中 TR-DRL 的优势更明显——对称信息在任务对之间共享,一个任务的经验直接服务于另一个
  • 逆动力学模型的质量直接决定增强效果——训练早期模型不准确时增强效果有限,随着数据积累逐步改善

亮点与洞察

  • 区分完全/部分可逆性是关键概念贡献——现实中几乎没有完全时间可逆的操作任务(接触、摩擦、重力都破坏完全可逆性),PTR 的形式化大大扩展了时间对称利用的适用范围
  • 动力学一致性过滤器将一个"可能有害"的技术变成"一致有益"——这种安全机制的设计思路对所有数据增强方法都有借鉴意义
  • 势基奖励塑形与时间反转的结合是自然而优雅的——成功轨迹的反转天然提供了"好的状态序列",作为势函数的训练信号
  • 方法是对 SAC 的正交增强,可以与任何 off-policy 方法结合

局限与展望

  • 需要预先知道任务对关系(哪两个任务是时间反转的)——自动发现对称对是开放问题
  • 逆动力学模型在高维/高自由度系统中训练可能不稳定
  • PTR 的状态分解(哪部分可逆/不可逆)目前需要领域知识指定——自动分解值得研究
  • 未考虑时间尺度不对称——打开很慢但关上很快的任务中,反转后的时间步长可能不匹配

相关工作与启发

  • vs Barkley et al., 2023:他们假设全局 FTR 且反转动作已知(\(\vec{a}=-a\)),限制太强;TR-DRL 学习反转动作+引入 PTR 概念,大大扩展了适用性
  • vs TRASS (Nair et al., 2020):TRASS 只从目标状态出发反转探索;TR-DRL 利用整条轨迹的所有转移
  • vs Eysenbach et al., 2018:他们学习 reset 策略,TR-DRL 将两个配对任务独立处理但共享对称信息——互补而非替代
  • PTR 概念可以扩展到更多任务对:组装↔拆卸、抛出↔接住、涂抹↔擦除等

评分

  • 新颖性: ⭐⭐⭐⭐ PTR 的形式化定义是新贡献,完全/部分可逆的区分有概念深度
  • 实验充分度: ⭐⭐⭐⭐⭐ Robosuite+MetaWorld 两个标准基准,单/多任务设定,详细消融
  • 写作质量: ⭐⭐⭐⭐ FTR/PTR 的概念和示例清晰,方法流程图直观
  • 价值: ⭐⭐⭐⭐ 对具有配对对称结构的机器人任务有直接实用价值