Efficient Hybrid SE(3)-Equivariant Visuomotor Flow Policy via Spherical Harmonics¶

会议: CVPR 2026
arXiv: 2603.23227
代码: https://github.com/zql-kk/E3Flow
领域: 3D Vision / Robot Manipulation
关键词: SE(3) Equivariance, Spherical Harmonics, Rectified Flow, Robot Policy Learning, Multi-Modal Fusion

一句话总结¶

提出E3Flow，首个基于球谐表示的等变flow matching策略框架，通过特征增强模块（FEM）动态融合点云和图像两种模态的视觉信息，结合rectified flow实现高效等变动作生成，在MimicGen 8个任务上平均成功率超过最强基线SDP 3.12%的同时推理速度提升7倍。

研究背景与动机¶

扩散策略（Diffusion Policy）在机器人策略学习中成效显著，但面临两大核心挑战：

数据效率低：依赖大量高质量专家演示数据，而数据采集成本高昂

等变方法的瓶颈：嵌入对称先验可大幅提升数据效率和泛化能力，但现有等变扩散策略存在： - 计算密集：需要大量迭代去噪步骤，叠加到已经复杂的等变网络上更加缓慢 - 单模态依赖：仅使用点云或图像，缺少精细视觉细节 - 快采样不兼容：直接将one-step diffusion或flow matching应用于等变策略会导致不稳定和性能下降

核心gap：尚无方法将等变学习的数据效率与flow matching的推理速度统一起来。

如图1(a)所示，当桌上玩具旋转到未见过的姿态时，非等变DP无法抓取，而等变的E3Flow可通过对应旋转原始轨迹成功执行。

方法详解¶

整体框架¶

E3Flow（图2）的流程：

多模态编码：手眼相机图像→ResNet提取不变特征；单视角点云→EquiformerV2提取等变特征
FEM融合：将图像语义注入到点云的球谐表示中
球谐条件构建：融合视觉特征 + 本体感知状态映射到球谐空间
Rectified Flow生成：基于ODE求解高效生成等变动作序列

关键设计¶

球谐视觉表示：用球谐函数实现严格SO(3)等变
- 球谐函数 \(Y_l^m(\theta,\phi)\) 是单位球面上的正交基，在旋转R下，同一阶l的球谐函数发生线性混合：\(Y_l^m(R^{-1}\hat{\mathbf{r}}) = \sum_{m'} D_{mm'}^{(l)}(R) Y_l^{m'}(\hat{\mathbf{r}})\)
- 使用EquiformerV2编码点云获得多阶球谐特征（标量 \(f_{pcd}^{(0)}\) + 高阶 \(f_{pcd}^{(>0)}\)），保留精细方向和旋转细节
- 相比EquiBot的vector neurons方法，EquiformerV2编码高阶系数能捕获更精细的方向信息
- 相比SDP仅用稀疏点云，本方法引入混合视觉输入
Feature Enhancement Module (FEM)：跨模态动态融合
- 仅对标量分量（Type-0）注入图像特征，保持高阶分量的等变性不受破坏
- 核心公式：\(f_{fused} = \Pi[\Lambda(\mathcal{A}(f_{pcd}^{(0)}, f_{img}), f_{pcd}^{(0)}) \| f_{pcd}^{(>0)}]\)
- \(\mathcal{A}\)：跨模态注意力，将点云标量特征作为query、图像特征作为key/value
- \(\Lambda\)：门控机制，自适应平衡图像贡献——与简单拼接（cat）导致的性能下降（72.36%→79.00%）形成对比
- \(\Pi\)：投影回球谐空间
- 设计动机：纯粹拼接不同模态特征会破坏等变结构；FEM仅在不变子空间（Type-0）操作，优雅地保持等变性
等变Rectified Flow：高效动作生成
- 学习从噪声分布到动作分布的直线插值路径：\(x_t = (1-t)x_0 + ta\)
- 训练损失：\(\mathcal{L}_{RF}(\theta) = \mathbb{E}_{t,x_0,x_1}[\|v_\theta(x_t,t,s,v) - (a-x_0)\|^2]\)
- 由于速度场网络是等变的，满足 \(v_\theta(\rho*x_t, t, \rho*s, \rho*v) = \rho * v_\theta(x_t, t, s, v)\)
- 训练目标是等变动作的线性变换，损失在群作用下不变，因此存在等变最优解
- 默认10步采样，推理时间0.51s，比SDP(DDPM)的3.73s快7倍

损失函数 / 训练策略¶

优化器：AdamW，学习率 \(1 \times 10^{-4}\)，批大小64
EMA衰减率0.95
单卡NVIDIA H20 GPU训练500 epochs
每20 epochs评估一次，每次50个episode，报告最大成功率
动作表示：3D位置+6D旋转+1D夹爪状态（位置和旋转为等变信息）

实验关键数据¶

主实验¶

MimicGen 8任务成功率 (Table 1, 100个专家演示)

方法	等变类型	Coffee_D2	Nut_Asm	Square	Stack3	平均
DP	无	44	54	10	32	47.50
EquiDiff(voxel)	SO(2)	65	67	39	76	68.50
SDP(DDPM)	SE(3)	63	92	64	98	75.88
E3Flow	SE(3)	64	94	70	100	79.00

推理时间 (Table 2)

方法	平均推理时间(s)	相对E3Flow
EquiBot	2.03	4.0×
DP	0.95	1.9×
EquiDiff(img)	2.51	4.9×
EquiDiff(voxel)	1.10	2.2×
SDP(DDPM)	3.73	7.3×
SDP(DDIM)	0.46	0.9×
E3Flow	0.51	1.0×

注：SDP用DDIM加速后成功率下降6.13%（75.88→69.75），而E3Flow以相近速度获得更高成功率。

消融实验¶

组件分析 (Table 4)

输入	融合	生成方式	平均成功率
PCD	-	RF	75.88
PCD	-	Diffusion	75.23
PCD+Img	cat	RF	72.36
PCD+Img	FEM	Diffusion	77.58
PCD+Img	FEM	RF	79.00

Flow方法对比 (Table 5)

方法	步数	推理时间	平均成功率
MeanFlow	1	0.17s	54.50
AlphaFlow	1	0.17s	64.62
RF-1	1	0.16s	69.00
RF-5	5	0.28s	71.00
RF-10	10	0.51s	79.00

关键发现¶

简单拼接多模态特征（cat）反而降低性能（79.00→72.36），说明模态对齐至关重要
FEM通过仅操作不变子空间（Type-0特征）优雅解决了等变性与多模态融合的矛盾
等变学习在复杂任务上优势明显：DP在Square_D2上仅10%，E3Flow达70%
一步采样对等变模型不适用（MeanFlow仅54.50%），因单次前传不足以让高度抽象的等变特征引导精细动作
SE(3)变换泛化实验（Table 3）：E3Flow在10°倾斜零样本测试中全面领先SDP
数据效率：E3Flow用100个演示即可达到其他方法用200个演示的效果（图5）

亮点与洞察¶

等变性 + Flow Matching的首次成功统一：证明了rectified flow可自然适配等变网络——因为训练目标是等变动作的线性变换，损失在群作用下不变
FEM的精妙设计：仅在Type-0不变子空间注入图像语义，不破坏高阶等变特征，解决了"多模态融合 vs 等变性保持"的两难
对one-step方法的深入分析：揭示了等变模型需要多步采样的原因——高度抽象的等变特征需要更多步来解码为精细动作
端到端等变证明：从输入到输出的完整等变链条有严格数学保证
实际部署潜力：0.51s推理时间 + 100演示数据效率 → 适合真实机器人场景

局限与展望¶

EquiformerV2的单次前传虽比ET-SEED快，但仍是推理瓶颈所在
仅验证了SE(3)等变，对更一般的对称群（如尺度变换SIM(3)）未探索
点云下采样到1024点可能丢失细节，对精密装配任务可能不够
真实环境实验仅4个任务，规模有限
未讨论sim-to-real gap和域随机化的影响
FEM的图像编码器（ResNet）未使用预训练权重（如CLIP），可能限制语义理解

评分¶

新颖性: ⭐⭐⭐⭐ — 首次统一等变学习和flow matching是重要贡献，但核心组件均建立在已有方法上
实验充分度: ⭐⭐⭐⭐ — 8个仿真任务+4个真实任务，丰富的消融和基线对比
写作质量: ⭐⭐⭐⭐ — 数学推导清晰，图表专业
价值: ⭐⭐⭐⭐⭐ — 解决了等变策略的推理效率瓶颈，对机器人学习社区有直接实用价值