跳转至

Efficient Hybrid SE(3)-Equivariant Visuomotor Flow Policy via Spherical Harmonics

会议: CVPR 2026
arXiv: 2603.23227
代码: https://github.com/zql-kk/E3Flow
领域: 3D Vision / Robot Manipulation
关键词: SE(3) Equivariance, Spherical Harmonics, Rectified Flow, Robot Policy Learning, Multi-Modal Fusion

一句话总结

提出E3Flow,首个基于球谐表示的等变flow matching策略框架,通过特征增强模块(FEM)动态融合点云和图像两种模态的视觉信息,结合rectified flow实现高效等变动作生成,在MimicGen 8个任务上平均成功率超过最强基线SDP 3.12%的同时推理速度提升7倍。

研究背景与动机

扩散策略(Diffusion Policy)在机器人策略学习中成效显著,但面临两大核心挑战:

数据效率低:依赖大量高质量专家演示数据,而数据采集成本高昂

等变方法的瓶颈:嵌入对称先验可大幅提升数据效率和泛化能力,但现有等变扩散策略存在: - 计算密集:需要大量迭代去噪步骤,叠加到已经复杂的等变网络上更加缓慢 - 单模态依赖:仅使用点云或图像,缺少精细视觉细节 - 快采样不兼容:直接将one-step diffusion或flow matching应用于等变策略会导致不稳定和性能下降

核心gap:尚无方法将等变学习的数据效率与flow matching的推理速度统一起来。

如图1(a)所示,当桌上玩具旋转到未见过的姿态时,非等变DP无法抓取,而等变的E3Flow可通过对应旋转原始轨迹成功执行。

方法详解

整体框架

E3Flow 想解决的核心矛盾是:等变网络数据效率高,但叠上扩散策略的多步去噪后推理太慢;而把 one-step 采样直接套到等变网络上又会崩。它的思路是同时换掉两个环节——用球谐表示承载严格的 SE(3) 等变结构,再用 rectified flow 取代扩散去噪来提速。

整条 pipeline(图2)从两路视觉输入起步:手眼相机图像经 ResNet 提取与旋转无关的不变特征,单视角点云经 EquiformerV2 提取多阶球谐等变特征。两路特征送进 FEM 融合,把图像语义注入到点云球谐表示的标量分量里;融合后的视觉特征再与本体感知状态一起映射到球谐空间,构成生成网络的条件;最后由等变 rectified flow 通过 ODE 求解,直接生成等变的动作序列。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    I1["手眼相机图像"] --> R["ResNet<br/>提取旋转不变特征"]
    I2["单视角点云"] --> SH["球谐视觉表示<br/>EquiformerV2 编码出<br/>标量 + 高阶球谐等变特征"]
    R --> FEM["Feature Enhancement Module(FEM)<br/>跨模态注意力 + 门控<br/>仅向 Type-0 标量分量注入图像语义"]
    SH --> FEM
    FEM --> COND["融合视觉特征 + 本体感知状态<br/>映射到球谐空间作为生成条件"]
    COND --> RF["等变 Rectified Flow<br/>直线插值速度场,10 步 ODE 求解"]
    RF --> OUT["等变动作序列<br/>位置 + 6D 旋转 + 夹爪"]

关键设计

1. 球谐视觉表示:让旋转在特征里"算得清楚"

非等变策略遇到桌上玩具旋转到未见姿态就抓不住,根子在于它的视觉特征不知道"旋转后该怎么变"。E3Flow 用球谐函数 \(Y_l^m(\theta,\phi)\) 作为单位球面上的正交基来承载方向信息——它的好处是旋转 \(R\) 作用时,同一阶 \(l\) 的球谐分量只发生线性混合 \(Y_l^m(R^{-1}\hat{\mathbf{r}}) = \sum_{m'} D_{mm'}^{(l)}(R) Y_l^{m'}(\hat{\mathbf{r}})\),旋转被干净地编码成 Wigner-D 矩阵的作用,等变关系在数学上严格成立。具体由 EquiformerV2 编码点云,得到标量分量 \(f_{pcd}^{(0)}\) 和高阶分量 \(f_{pcd}^{(>0)}\);相比 EquiBot 用 vector neurons 只能表达低阶方向,高阶球谐系数能保留更精细的方向与旋转细节,也比 SDP 只用稀疏点云多了一路视觉信息可融合。

2. Feature Enhancement Module(FEM):在不破坏等变性的前提下塞进图像语义

点云方向准但纹理粗,图像细节多但不等变,直接把两者拼起来(cat)反而会破坏球谐表示的等变结构,实验里平均成功率从 79.00% 掉到 72.36% 就是证据。FEM 的关键取舍是:只往标量分量(Type-0)注入图像,高阶分量原封不动,这样等变性天然不受影响——因为标量在旋转下本就不变,对它做任意运算都不会破坏整体的等变约束。融合写成 \(f_{fused} = \Pi[\Lambda(\mathcal{A}(f_{pcd}^{(0)}, f_{img}), f_{pcd}^{(0)}) \| f_{pcd}^{(>0)}]\)\(\mathcal{A}\) 是跨模态注意力,以点云标量特征作 query、图像特征作 key/value 去检索相关语义;\(\Lambda\) 是门控,自适应决定图像该贡献多少(避免无脑相加);\(\Pi\) 再把结果投影回球谐空间,与未动的高阶分量 \(f_{pcd}^{(>0)}\) 拼接。整个操作被限制在不变子空间里,所以既补上了图像细节,又保住了端到端的等变链条。

3. 等变 Rectified Flow:用直线路径换掉多步去噪

扩散去噪要几十步迭代,叠在等变网络上慢得离谱。E3Flow 改用 rectified flow,学习从噪声到动作分布的直线插值 \(x_t = (1-t)x_0 + ta\),训练损失为 \(\mathcal{L}_{RF}(\theta) = \mathbb{E}_{t,x_0,x_1}[\|v_\theta(x_t,t,s,v) - (a-x_0)\|^2]\),让速度场网络去拟合这条直线的方向。能这么换的前提是等变性不被破坏:由于速度场网络本身等变,满足 \(v_\theta(\rho*x_t, t, \rho*s, \rho*v) = \rho * v_\theta(x_t, t, s, v)\),而训练目标 \((a-x_0)\) 是等变动作的线性变换,损失在群作用下不变,因此等变最优解一定存在——这正是 rectified flow 能自然适配等变策略、而 one-step 方法会失稳的原因。默认 10 步采样、推理 0.51s,比 SDP(DDPM) 的 3.73s 快约 7 倍。

损失函数 / 训练策略

  • 优化器:AdamW,学习率 \(1 \times 10^{-4}\),批大小64
  • EMA衰减率0.95
  • 单卡NVIDIA H20 GPU训练500 epochs
  • 每20 epochs评估一次,每次50个episode,报告最大成功率
  • 动作表示:3D位置+6D旋转+1D夹爪状态(位置和旋转为等变信息)

实验关键数据

主实验

MimicGen 8任务成功率 (Table 1, 100个专家演示)

方法 等变类型 Coffee_D2 Nut_Asm Square Stack3 平均
DP 44 54 10 32 47.50
EquiDiff(voxel) SO(2) 65 67 39 76 68.50
SDP(DDPM) SE(3) 63 92 64 98 75.88
E3Flow SE(3) 64 94 70 100 79.00

推理时间 (Table 2)

方法 平均推理时间(s) 相对E3Flow
EquiBot 2.03 4.0×
DP 0.95 1.9×
EquiDiff(img) 2.51 4.9×
EquiDiff(voxel) 1.10 2.2×
SDP(DDPM) 3.73 7.3×
SDP(DDIM) 0.46 0.9×
E3Flow 0.51 1.0×

注:SDP用DDIM加速后成功率下降6.13%(75.88→69.75),而E3Flow以相近速度获得更高成功率。

消融实验

组件分析 (Table 4)

输入 融合 生成方式 平均成功率
PCD - RF 75.88
PCD - Diffusion 75.23
PCD+Img cat RF 72.36
PCD+Img FEM Diffusion 77.58
PCD+Img FEM RF 79.00

Flow方法对比 (Table 5)

方法 步数 推理时间 平均成功率
MeanFlow 1 0.17s 54.50
AlphaFlow 1 0.17s 64.62
RF-1 1 0.16s 69.00
RF-5 5 0.28s 71.00
RF-10 10 0.51s 79.00

关键发现

  • 简单拼接多模态特征(cat)反而降低性能(79.00→72.36),说明模态对齐至关重要
  • FEM通过仅操作不变子空间(Type-0特征)优雅解决了等变性与多模态融合的矛盾
  • 等变学习在复杂任务上优势明显:DP在Square_D2上仅10%,E3Flow达70%
  • 一步采样对等变模型不适用(MeanFlow仅54.50%),因单次前传不足以让高度抽象的等变特征引导精细动作
  • SE(3)变换泛化实验(Table 3):E3Flow在10°倾斜零样本测试中全面领先SDP
  • 数据效率:E3Flow用100个演示即可达到其他方法用200个演示的效果(图5)

亮点与洞察

  1. 等变性 + Flow Matching的首次成功统一:证明了rectified flow可自然适配等变网络——因为训练目标是等变动作的线性变换,损失在群作用下不变
  2. FEM的精妙设计:仅在Type-0不变子空间注入图像语义,不破坏高阶等变特征,解决了"多模态融合 vs 等变性保持"的两难
  3. 对one-step方法的深入分析:揭示了等变模型需要多步采样的原因——高度抽象的等变特征需要更多步来解码为精细动作
  4. 端到端等变证明:从输入到输出的完整等变链条有严格数学保证
  5. 实际部署潜力:0.51s推理时间 + 100演示数据效率 → 适合真实机器人场景

局限与展望

  • EquiformerV2的单次前传虽比ET-SEED快,但仍是推理瓶颈所在
  • 仅验证了SE(3)等变,对更一般的对称群(如尺度变换SIM(3))未探索
  • 点云下采样到1024点可能丢失细节,对精密装配任务可能不够
  • 真实环境实验仅4个任务,规模有限
  • 未讨论sim-to-real gap和域随机化的影响
  • FEM的图像编码器(ResNet)未使用预训练权重(如CLIP),可能限制语义理解

相关工作与启发

  • 在SDP框架上扩展:SDP使用球谐表示+扩散,E3Flow替换为rectified flow并增加图像输入
  • 与EquiDiff的对比揭示了连续等变(SO(3)球谐)vs 离散等变(SO(2)卷积)的差异
  • FEM的设计思路可推广到其他需要在等变表示中注入不变信息的场景
  • Rectified flow在机器人策略中的应用值得进一步研究(如更少采样步、蒸馏等)

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次统一等变学习和flow matching是重要贡献,但核心组件均建立在已有方法上
  • 实验充分度: ⭐⭐⭐⭐ — 8个仿真任务+4个真实任务,丰富的消融和基线对比
  • 写作质量: ⭐⭐⭐⭐ — 数学推导清晰,图表专业
  • 价值: ⭐⭐⭐⭐⭐ — 解决了等变策略的推理效率瓶颈,对机器人学习社区有直接实用价值