RAVEN: End-to-end Equivariant Robot Learning with RGB Cameras¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=z8BN7KyaPl
代码: https://dmklee.github.io/raven (项目页，承诺录用后开源)
领域: 机器人 / 具身智能
关键词: 等变策略, SE(3)等变, 模仿学习, 射线表示, Flow Matching

一句话总结¶

RAVEN 把 RGB 图像的每个像素块看成一条带朝向的 3D 射线，从而在只有普通 RGB 相机（不需要点云、深度或俯视固定视角）的前提下构造出首个端到端 SE(3) 等变的机器人操作策略，在 MimicGen / DexMimicGen 仿真和真机上都大幅超过 Diffusion Policy 等强基线，且训练比已有等变方法还快 1.6×。

研究背景与动机¶

领域现状：模仿学习里 Diffusion Policy、大规模行为克隆这类视觉运动策略已经能在多样场景下学会操作，但要在传感器/场景变化下保持鲁棒，它们普遍需要大量演示数据。一条提升样本效率的成熟路线是把对称性（equivariance）显式编码进网络——如果策略对场景的空间变换（物体换个位姿、桌面换个布局）能一致地响应，那它就能从很少的演示里泛化出去。

现有痛点：可惜现有的等变操作方法都对输入模态提了苛刻要求——要么吃点云（EquiBot 需要 SIM(3) 等变 + 准确的物体分割），要么吃带已知对齐的俯视 RGB-D（EquiDiffPo 假设相机固定）。但真正流行的机器人学习装置（UMI、ALOHA、Mobile-ALOHA）用的是任意摆放的廉价 RGB 相机、拍出来就是原始 2D 图像，上面这些假设全都不成立。

核心矛盾：2D 像素只活在相机平面里，只支持 2D 平面变换；而 SE(3) 等变需要的是能被 3D 旋转+平移作用的量。图像与 3D 等变之间隔着一道「2D 像素 → 3D 几何」的鸿沟，过去要么靠点云绕过去（牺牲了「只用 RGB」），要么干脆不做 3D 等变。

本文目标：在只有 RGB 图像、相机数目和摆放任意的条件下，造出一个端到端的 SE(3) 等变策略网络。

切入角度：作者的关键观察是——一张图像不仅是「像素坐标 → RGB」的映射，更可以看成「从相机光心射向世界的一束射线」。给定相机内参 \(K\) 和外参 \(M=[R|t]\)，像素 \(u\) 对应的射线是 \(r=(t,\,RK^{-1}u)\)，origin 在相机位置、direction 是单位方向。射线天然定义在 3D 里：当场景被一个 \(g\in SE(3)\) 变换时，图像内容一点没变，但相机外参变了，于是射线被 SE(3) 作用了。这就把图像悄悄接进了 3D 等变的世界。

核心 idea：用「带朝向的射线特征」代替「2D 像素」作为输入表示，让 RGB 观测变成可被 SE(3) 等变层处理的几何 token，从而端到端地把等变性贯穿编码器到动作解码器。

方法详解¶

整体框架¶

RAVEN 要解决的是：输入是若干任意摆放 RGB 相机的多视角图像 + 机器人本体感知（末端位姿、夹爪状态），输出是一段未来的 SE(3) 夹爪动作轨迹；整条管线要对场景的全局 SE(3) 变换保持等变。它分三步走：先把每张图像用预训练 ResNet 下采样成特征图，给每个网格格子按相机投影赋一个 SE(3) 位姿，打包成「几何 token」（特征被位姿规范化到局部坐标系）；再用 GTA 风格的 SE(3) 几何 Transformer 融合所有相机和本体的 token，得到一份统一的 3D 场景表示；最后用一个 Flow Matching 训练的等变动作解码器，把这份表示解码成相对末端坐标系的速度场、积分出动作轨迹。等变性靠的是「规范化（canonicalization）」而非昂贵的群卷积：特征默认存在局部规范帧里、用位姿硬编码地解规范化到全局帧，所以前馈层作用在规范化特征上不破坏等变、注意力只看 token 之间的相对变换。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多视角 RGB 图像<br/>+ 相机内外参 + 本体感知"] --> B["射线几何 token<br/>像素块→带朝向射线<br/>ResNet 下采样 + 赋 SE(3) 位姿"]
    B --> C["SE(3) 几何 Transformer<br/>GTA 注意力按相对变换打分<br/>跨相机融合成统一场景表示"]
    C --> D["等变动作解码器<br/>末端坐标系动作 token<br/>Flow Matching 出速度场"]
    D --> E["SE(3) 夹爪动作轨迹"]

关键设计¶

1. 射线几何 token：把 2D 图像翻译成可被 SE(3) 作用的 3D 量

这一步直击「2D 像素无法被 3D roto-translation 作用」这个根本障碍。作者不把像素当平面上的点，而是当一条 3D 射线：依据已知相机内外参，像素 \(u\) 对应射线 \(r=(t,\,RK^{-1}u)\)。直接处理逐像素射线太贵，于是先用预训练 ResNet 把图像下采样成特征图——既快又强地抽特征，又减轻了后续 3D 运算负担。关键洞察在于：单条射线绕相机的 roll 轴是对称的、没有明确朝向，但下采样后一个格子代表一小块射线（a patch of rays），这一小块就有了明确的朝向——方向当作 z 轴、图像平面两轴当 x/y 轴，于是每个格子都能被赋上一个完整的 \(SE(3)\) 元素（origin + orientation）。这样一张图就被表达成一组带位姿的几何 token，SE(3) 变换作用在相机外参上、连带把这些 token 的位姿一起转动，图像数据本身不变。

2. 几何 token 与规范化：用一套统一表示承载多模态并保证等变高效

一个几何 token 是二元组 \(x=(z_x, g_x)\)：特征向量 \(z_x\in\mathbb{R}^d\) 加位姿 \(g_x\in SE(3)\)，约定特征是被位姿「规范化」过的——即 \(z_x\) 表达的是局部帧里的信息，要看全局信息就用位姿解规范化 \(\rho(g_x)z_x\)。特征进一步拆成标量、向量、点三类分量，各自对应不同的群作用：\(\rho(g_x)z_x=(\rho^s(g_x)z_x^s,\ \rho^v(g_x)z_x^v,\ \rho^p(g_x)z_x^p)\)，其中标量分量不变（\(\rho^s\) 为恒等）、向量分量只受 3D 旋转、点分量受旋转+平移。这套表示的好处是模态无关：图像 token 来自特征图格子；本体感知则每个机器人构造一个 token，特征由夹爪状态线性映射得到、位姿就设成末端位姿。规范化的价值在于绕开等变卷积的计算开销——它满足右补偿性质 \(C(\rho_g x)=C(x)g^{-1}\)，于是 \(x\mapsto f(\rho_{C(x)}x)\) 是 \(G\)-不变的，再在输出端解规范化 \(F(x)=\rho'_{C(x)^{-1}}f(\rho_{C(x)}x)\) 就恢复了等变。

3. SE(3) 几何 Transformer + GTA 注意力：只认相对变换的等变融合

把所有观测变成几何 token 后，用若干 Transformer block 处理。前馈层（两层 MLP）直接作用在 token 的规范化特征上、不动位姿——因为特征在局部帧里，所以前馈不破坏 SE(3) 等变。注意力层用 GTA（Geometric Transform Attention），核心是让相似度只取决于两个 token 间的相对变换 \(\rho_{g_i}^{\top}\rho_{g_j}\)：输出形如 \(O_i=\rho(g_i)\,\mathrm{softmax}_j\big[(\rho(g_i)^{\top}Q_i)^{\top}(\rho(g_j)^{-1}K_j)\big]\,\rho(g_j)^{-1}V_j\)。这样当所有 token 经历同一个全局变换 \(g_i\mapsto hg_i\) 时，内部相似度不变、输出整体按 \(\rho(h)\) 变换，等变自然成立。一个工程细节：点积相似度在 \(G=SE(3)\) 下会破坏等变，作者在标量/向量分量上用点积（训练更稳），在点分量上改用负欧氏距离来保证精确的 SE(3) 等变——因为模型工作在低数据régime，宁可在需要处换成欧氏距离也要把等变做严。正是 GTA 让三台相机的信息能基于几何关系被真正融合，而非像 DiffPo/EquiDiffPo 那样简单拼接各图特征向量。

4. 等变动作解码器：在末端坐标系里用 Flow Matching 生成轨迹

编码器输出的几何 token 构成了场景的 3D 表示，解码器要把它变成 SE(3) 夹爪动作。作者利用「特征始终被规范化在某个已知参考帧」这一性质来输出任意参考帧下的轨迹：要预测相对末端坐标系的动作，就把动作 token 的位姿设成当前末端位姿——当这些 token 过 SE(3) 几何 Transformer 时，动作特征天然适合在全局帧里表达轨迹、同时保留局部帧的精度。训练上，动作 token 的特征从正态分布采样初始化、位姿全设成当前夹爪位姿，用 Flow Matching 损失 \(L_{FM}=\mathbb{E}\big[\lVert v_\theta((1-t)a_0+ta_1,\,t)-(a_1-a_0)\rVert^2\big]\) 监督一个连续时间速度场（比 DDPM 的离散去噪采样更快更稳）。解码器结构对齐 DiffPo 的 transformer decoder：每个 block 是动作 token 间的因果自注意力 → 与编码器几何 token 的交叉注意力 → 前馈，共四个 block，最后投影成速度。整套编码器→解码器对机器人/传感器/物体的全局 SE(3) 变换端到端等变（注意：等变只覆盖整场景的统一变换，单台相机独立变动不在保证范围内，作者用实验单独测了这种泛化）。

损失函数 / 训练策略¶

核心训练目标是 Flow Matching 损失（式 4），只作用在预测的动作 token 特征上；预训练 ResNet 作为视觉骨干（与 DiffPo (Pre) 公平对齐）。仿真上 MimicGen 用 100 条演示、DexMimicGen 用 50/100 条演示，每任务 50 次 rollout、3 个随机种子。

实验关键数据¶

主实验¶

基准	配置	RAVEN	最强基线	提升
MimicGen（12 任务，100 demos）	agent-view + eye-in-hand	66	54 (EquiDiffPo)	+12%
DexMimicGen（6 双臂任务，50 demos）	双 eye-in-hand + 1 agent-view	82	65 (DiffPo Pre)	+17%
视角泛化（4 任务，扰动 agent-view）	±20° pitch / ±40° yaw	71	48 (EquiDiffPo)	+23%
真机（4 任务，平均 progress / 成功率）	UR5 + RealSense + GoPro	81 / 63	46 / 24 (DiffPo Pre)	全面领先

在 MimicGen 上 RAVEN 在 12 个任务里 11 个取得最高，剩下一个只落后 4%；即使和同样用预训练编码器的 DiffPo (Pre) 比也平均高 14%，说明优势来自架构设计而非单纯预训练。训练效率上，Threading D2 任务里 DiffPo 用 3.3 小时、EquiDiffPo 用 7.3 小时，而 RAVEN 只要 2.8 小时——比已有等变方法 EquiDiffPo 快约 1.6×。

消融实验¶

配置	平均成功率	说明
RAVEN（完整）	76	完整模型
w/o SE(3) 射线编码	72	射线块退化成 \(\mathbb{R}^3\times S^2\) 方向向量，掉 4%
w/o 等变解码器	72	GTA 换成普通点积注意力（保留绝对位置编码），掉 4%
w/o 等变编码器 & 解码器	58	同时去掉两边等变层，掉 18%

关键发现¶

等变层是主要贡献来源：去掉编码器+解码器等变层一次性掉 18%，远大于单去其一（各 4%），说明端到端等变的价值是协同的、不是局部的。
射线朝向有用但增量有限：把「带朝向的射线块」退化成单纯方向向量只掉 4%，因为测试任务都是桌面操作、出平面运动很少；作者预期在更不结构化的场景里 SE(3) 等变收益会更大。
数据效率突出：DexMimicGen 上 RAVEN 用 50 条演示就能追平甚至超过基线用 100 条，得益于 GTA 把三台相机按几何关系融合（基线只是拼接各图特征、不做 3D 推理）。
标定敏感性：RAVEN 对相机标定噪声敏感（尤其测试时引入），但在相机参数上加数据增强后变得鲁棒，仅掉约 1%。

亮点与洞察¶

「图像即射线集合」这个再表示是全文的支点：它把一个看似只能 2D 变换的输入，悄悄变成可被 SE(3) 作用的 3D 量，而且巧在「图像不变、外参变」——不需要深度、点云或任何 3D 传感，纯靠相机参数就接进了等变框架。
用 patch（而非单像素）拿到朝向：单条射线绕 roll 轴对称、定义不出朝向，下采样成一小块射线后朝向就出来了——下采样既省算力又顺手解决了「射线没朝向」的几何缺陷，一举两得。
规范化代替群卷积：用「特征存局部帧 + 位姿硬编码解规范化」实现等变，使得 RAVEN 比堆等变卷积的方法更轻、训练反而比非等变 DiffPo 还快，打破了「等变=慢」的刻板印象。
几何 token 的模态统一性可迁移：图像、本体感知都被塞进同一种 \((z,g)\) 表示，原则上 depth、点云也能同法 token 化——这套接口让「多源异构观测的等变融合」有了一个干净的落点。

局限与展望¶

作者承认：策略虽能泛化到新相机视角，但要求所有相机相对世界坐标系标定良好；目前只在 RGB 输入上验证，depth/点云的整合留作未来工作。
等变性只覆盖整场景的统一 SE(3) 变换，对单台相机独立变动无理论保证（视角泛化实验正是这种破坏全局等变的设定，性能确有下降）。
消融显示射线朝向的增益在桌面任务里只有 4%，方法的核心价值要在出平面运动多、更不结构化的场景才充分体现——现有 benchmark 偏结构化，可能低估也可能高估了不同情境下的收益。
对相机标定噪声敏感，需靠数据增强兜底；真机里 Beans Scooping、Coffee Cleanup 这类高精度任务成功率仍只有 45% 左右，远未饱和。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个纯 RGB 输入的端到端 SE(3) 等变操作策略，「图像即射线」的再表示既简洁又解决了真问题。
实验充分度: ⭐⭐⭐⭐⭐ 仿真（单臂/双臂/视角泛化/效率）+ 真机四任务 + 消融齐全，对比基线强。
写作质量: ⭐⭐⭐⭐ 背景到方法推导清晰，等变性分析严谨；部分细节散落在附录。
价值: ⭐⭐⭐⭐⭐ 让等变策略摆脱点云/固定视角束缚，直接适配 UMI/ALOHA 等廉价 RGB 装置，落地价值高。