Efficient Hybrid SE(3)-Equivariant Visuomotor Flow Policy via Spherical Harmonics¶
会议: CVPR 2026
arXiv: 2603.23227
代码: https://github.com/zql-kk/E3Flow
领域: 3D Vision / Robot Manipulation
关键词: SE(3) Equivariance, Spherical Harmonics, Rectified Flow, Robot Policy Learning, Multi-Modal Fusion
一句话总结¶
提出E3Flow,首个基于球谐表示的等变flow matching策略框架,通过特征增强模块(FEM)动态融合点云和图像两种模态的视觉信息,结合rectified flow实现高效等变动作生成,在MimicGen 8个任务上平均成功率超过最强基线SDP 3.12%的同时推理速度提升7倍。
研究背景与动机¶
扩散策略(Diffusion Policy)在机器人策略学习中成效显著,但面临两大核心挑战:
数据效率低:依赖大量高质量专家演示数据,而数据采集成本高昂
等变方法的瓶颈:嵌入对称先验可大幅提升数据效率和泛化能力,但现有等变扩散策略存在: - 计算密集:需要大量迭代去噪步骤,叠加到已经复杂的等变网络上更加缓慢 - 单模态依赖:仅使用点云或图像,缺少精细视觉细节 - 快采样不兼容:直接将one-step diffusion或flow matching应用于等变策略会导致不稳定和性能下降
核心gap:尚无方法将等变学习的数据效率与flow matching的推理速度统一起来。
如图1(a)所示,当桌上玩具旋转到未见过的姿态时,非等变DP无法抓取,而等变的E3Flow可通过对应旋转原始轨迹成功执行。
方法详解¶
整体框架¶
E3Flow 想解决的核心矛盾是:等变网络数据效率高,但叠上扩散策略的多步去噪后推理太慢;而把 one-step 采样直接套到等变网络上又会崩。它的思路是同时换掉两个环节——用球谐表示承载严格的 SE(3) 等变结构,再用 rectified flow 取代扩散去噪来提速。
整条 pipeline(图2)从两路视觉输入起步:手眼相机图像经 ResNet 提取与旋转无关的不变特征,单视角点云经 EquiformerV2 提取多阶球谐等变特征。两路特征送进 FEM 融合,把图像语义注入到点云球谐表示的标量分量里;融合后的视觉特征再与本体感知状态一起映射到球谐空间,构成生成网络的条件;最后由等变 rectified flow 通过 ODE 求解,直接生成等变的动作序列。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
I1["手眼相机图像"] --> R["ResNet<br/>提取旋转不变特征"]
I2["单视角点云"] --> SH["球谐视觉表示<br/>EquiformerV2 编码出<br/>标量 + 高阶球谐等变特征"]
R --> FEM["Feature Enhancement Module(FEM)<br/>跨模态注意力 + 门控<br/>仅向 Type-0 标量分量注入图像语义"]
SH --> FEM
FEM --> COND["融合视觉特征 + 本体感知状态<br/>映射到球谐空间作为生成条件"]
COND --> RF["等变 Rectified Flow<br/>直线插值速度场,10 步 ODE 求解"]
RF --> OUT["等变动作序列<br/>位置 + 6D 旋转 + 夹爪"]
关键设计¶
1. 球谐视觉表示:让旋转在特征里"算得清楚"
非等变策略遇到桌上玩具旋转到未见姿态就抓不住,根子在于它的视觉特征不知道"旋转后该怎么变"。E3Flow 用球谐函数 \(Y_l^m(\theta,\phi)\) 作为单位球面上的正交基来承载方向信息——它的好处是旋转 \(R\) 作用时,同一阶 \(l\) 的球谐分量只发生线性混合 \(Y_l^m(R^{-1}\hat{\mathbf{r}}) = \sum_{m'} D_{mm'}^{(l)}(R) Y_l^{m'}(\hat{\mathbf{r}})\),旋转被干净地编码成 Wigner-D 矩阵的作用,等变关系在数学上严格成立。具体由 EquiformerV2 编码点云,得到标量分量 \(f_{pcd}^{(0)}\) 和高阶分量 \(f_{pcd}^{(>0)}\);相比 EquiBot 用 vector neurons 只能表达低阶方向,高阶球谐系数能保留更精细的方向与旋转细节,也比 SDP 只用稀疏点云多了一路视觉信息可融合。
2. Feature Enhancement Module(FEM):在不破坏等变性的前提下塞进图像语义
点云方向准但纹理粗,图像细节多但不等变,直接把两者拼起来(cat)反而会破坏球谐表示的等变结构,实验里平均成功率从 79.00% 掉到 72.36% 就是证据。FEM 的关键取舍是:只往标量分量(Type-0)注入图像,高阶分量原封不动,这样等变性天然不受影响——因为标量在旋转下本就不变,对它做任意运算都不会破坏整体的等变约束。融合写成 \(f_{fused} = \Pi[\Lambda(\mathcal{A}(f_{pcd}^{(0)}, f_{img}), f_{pcd}^{(0)}) \| f_{pcd}^{(>0)}]\):\(\mathcal{A}\) 是跨模态注意力,以点云标量特征作 query、图像特征作 key/value 去检索相关语义;\(\Lambda\) 是门控,自适应决定图像该贡献多少(避免无脑相加);\(\Pi\) 再把结果投影回球谐空间,与未动的高阶分量 \(f_{pcd}^{(>0)}\) 拼接。整个操作被限制在不变子空间里,所以既补上了图像细节,又保住了端到端的等变链条。
3. 等变 Rectified Flow:用直线路径换掉多步去噪
扩散去噪要几十步迭代,叠在等变网络上慢得离谱。E3Flow 改用 rectified flow,学习从噪声到动作分布的直线插值 \(x_t = (1-t)x_0 + ta\),训练损失为 \(\mathcal{L}_{RF}(\theta) = \mathbb{E}_{t,x_0,x_1}[\|v_\theta(x_t,t,s,v) - (a-x_0)\|^2]\),让速度场网络去拟合这条直线的方向。能这么换的前提是等变性不被破坏:由于速度场网络本身等变,满足 \(v_\theta(\rho*x_t, t, \rho*s, \rho*v) = \rho * v_\theta(x_t, t, s, v)\),而训练目标 \((a-x_0)\) 是等变动作的线性变换,损失在群作用下不变,因此等变最优解一定存在——这正是 rectified flow 能自然适配等变策略、而 one-step 方法会失稳的原因。默认 10 步采样、推理 0.51s,比 SDP(DDPM) 的 3.73s 快约 7 倍。
损失函数 / 训练策略¶
- 优化器:AdamW,学习率 \(1 \times 10^{-4}\),批大小64
- EMA衰减率0.95
- 单卡NVIDIA H20 GPU训练500 epochs
- 每20 epochs评估一次,每次50个episode,报告最大成功率
- 动作表示:3D位置+6D旋转+1D夹爪状态(位置和旋转为等变信息)
实验关键数据¶
主实验¶
MimicGen 8任务成功率 (Table 1, 100个专家演示)
| 方法 | 等变类型 | Coffee_D2 | Nut_Asm | Square | Stack3 | 平均 |
|---|---|---|---|---|---|---|
| DP | 无 | 44 | 54 | 10 | 32 | 47.50 |
| EquiDiff(voxel) | SO(2) | 65 | 67 | 39 | 76 | 68.50 |
| SDP(DDPM) | SE(3) | 63 | 92 | 64 | 98 | 75.88 |
| E3Flow | SE(3) | 64 | 94 | 70 | 100 | 79.00 |
推理时间 (Table 2)
| 方法 | 平均推理时间(s) | 相对E3Flow |
|---|---|---|
| EquiBot | 2.03 | 4.0× |
| DP | 0.95 | 1.9× |
| EquiDiff(img) | 2.51 | 4.9× |
| EquiDiff(voxel) | 1.10 | 2.2× |
| SDP(DDPM) | 3.73 | 7.3× |
| SDP(DDIM) | 0.46 | 0.9× |
| E3Flow | 0.51 | 1.0× |
注:SDP用DDIM加速后成功率下降6.13%(75.88→69.75),而E3Flow以相近速度获得更高成功率。
消融实验¶
组件分析 (Table 4)
| 输入 | 融合 | 生成方式 | 平均成功率 |
|---|---|---|---|
| PCD | - | RF | 75.88 |
| PCD | - | Diffusion | 75.23 |
| PCD+Img | cat | RF | 72.36 |
| PCD+Img | FEM | Diffusion | 77.58 |
| PCD+Img | FEM | RF | 79.00 |
Flow方法对比 (Table 5)
| 方法 | 步数 | 推理时间 | 平均成功率 |
|---|---|---|---|
| MeanFlow | 1 | 0.17s | 54.50 |
| AlphaFlow | 1 | 0.17s | 64.62 |
| RF-1 | 1 | 0.16s | 69.00 |
| RF-5 | 5 | 0.28s | 71.00 |
| RF-10 | 10 | 0.51s | 79.00 |
关键发现¶
- 简单拼接多模态特征(cat)反而降低性能(79.00→72.36),说明模态对齐至关重要
- FEM通过仅操作不变子空间(Type-0特征)优雅解决了等变性与多模态融合的矛盾
- 等变学习在复杂任务上优势明显:DP在Square_D2上仅10%,E3Flow达70%
- 一步采样对等变模型不适用(MeanFlow仅54.50%),因单次前传不足以让高度抽象的等变特征引导精细动作
- SE(3)变换泛化实验(Table 3):E3Flow在10°倾斜零样本测试中全面领先SDP
- 数据效率:E3Flow用100个演示即可达到其他方法用200个演示的效果(图5)
亮点与洞察¶
- 等变性 + Flow Matching的首次成功统一:证明了rectified flow可自然适配等变网络——因为训练目标是等变动作的线性变换,损失在群作用下不变
- FEM的精妙设计:仅在Type-0不变子空间注入图像语义,不破坏高阶等变特征,解决了"多模态融合 vs 等变性保持"的两难
- 对one-step方法的深入分析:揭示了等变模型需要多步采样的原因——高度抽象的等变特征需要更多步来解码为精细动作
- 端到端等变证明:从输入到输出的完整等变链条有严格数学保证
- 实际部署潜力:0.51s推理时间 + 100演示数据效率 → 适合真实机器人场景
局限与展望¶
- EquiformerV2的单次前传虽比ET-SEED快,但仍是推理瓶颈所在
- 仅验证了SE(3)等变,对更一般的对称群(如尺度变换SIM(3))未探索
- 点云下采样到1024点可能丢失细节,对精密装配任务可能不够
- 真实环境实验仅4个任务,规模有限
- 未讨论sim-to-real gap和域随机化的影响
- FEM的图像编码器(ResNet)未使用预训练权重(如CLIP),可能限制语义理解
相关工作与启发¶
- 在SDP框架上扩展:SDP使用球谐表示+扩散,E3Flow替换为rectified flow并增加图像输入
- 与EquiDiff的对比揭示了连续等变(SO(3)球谐)vs 离散等变(SO(2)卷积)的差异
- FEM的设计思路可推广到其他需要在等变表示中注入不变信息的场景
- Rectified flow在机器人策略中的应用值得进一步研究(如更少采样步、蒸馏等)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次统一等变学习和flow matching是重要贡献,但核心组件均建立在已有方法上
- 实验充分度: ⭐⭐⭐⭐ — 8个仿真任务+4个真实任务,丰富的消融和基线对比
- 写作质量: ⭐⭐⭐⭐ — 数学推导清晰,图表专业
- 价值: ⭐⭐⭐⭐⭐ — 解决了等变策略的推理效率瓶颈,对机器人学习社区有直接实用价值