EquAct: An SE(3)-Equivariant Multi-Task Transformer for 3D Robotic Manipulation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=d1wuA8oIH0
代码: github.com/ZXP-S-works/EquAct
领域: robotics（机器人操作 / 等变策略学习）
关键词: SE(3)-等变, 多任务策略, 关键帧动作, 球谐傅里叶特征, 语言条件

一句话总结¶

EquAct 提出首个在单一统一模型里同时做到连续 SE(3) 等变（旋转+平移）的多任务、语言条件关键帧操作策略，通过等变点 Transformer U-Net + 球谐傅里叶特征 + SE(3)-不变的 iFiLM 语言调制层，在 18 个 RLBench 任务（含 SE(3) 扰动）和 4 个真机任务上达到 SOTA。

研究背景与动机¶

领域现状：主流多任务操作策略（PerAct、RVT、SAM2Act 等）依赖 Transformer 把语言、3D 观测、关键帧动作 tokenize 到共享嵌入空间，靠跨模态融合学策略。

现有痛点：tokenization 过程丢掉了底层 3D 几何结构，导致策略无法泛化到新颖的 3D 物体位姿——而真实任务（采摘不同朝向的果实、装管件到墙/天花板的夹具、装配到带角度的销钉）充满 SE(3) 位姿变化。现有方法只能靠海量机器人数据从头学几何先验。

核心矛盾：要么用共享嵌入空间获得强跨模态融合但破坏几何一致性，要么追求几何等变但已有等变方法都只能做单任务，或多任务方法只做到平移等变（不含旋转）。

本文目标：用单一统一模型实现连续 SE(3)（旋转+平移）等变的多任务语言条件策略，理论保证泛化到新 3D 场景变换，同时计算开销与非等变 baseline 持平。

核心 idea：把"观测↔动作"约束为 SE(3) 等变（\(\pi(g\cdot o, n)=g\cdot a\)），同时识别出"动作对语言指令应是 SE(3) 不变的"——指令不变时动作只随观测的刚体变换而变；用球谐傅里叶域里的等变架构实现前者，用不变 FiLM 层（iFiLM）实现后者。

方法详解¶

整体框架¶

EquAct 是一个隐式动作价值函数 \(Q_a(o,n,a)\in\mathbb{R}\)，给定观测 \(o=\{s,e\}\)（点云+夹爪状态）、语言目标 \(n\)、查询动作 \(a\) 评估其价值。推理分三步：等变 U-Net 把观测编码为每点的球谐隐特征 \(h\)；iFiLM 层把 CLIP+Transformer 的语言嵌入作为 type-0 特征注入 U-Net；等变 field network 把 \(h\) 的特征传播到任意查询动作，输出平移 \(Q_t\)、开合 \(Q_\text{open}\)、旋转 \(Q_r\) 价值，取最高价值动作作为最终输出。训练把策略学习当分类问题，用交叉熵让策略从均匀采样的候选动作中选出专家动作。

flowchart LR
    O["观测 o={点云 s, 夹爪 e}"] --> U["EPTU<br/>SE(3)-等变点 Transformer U-Net"]
    N["语言指令 n"] --> C["CLIP+Transformer<br/>→ type-0 嵌入 k"]
    C --> F["iFiLM 层<br/>SE(3)-不变语言调制"]
    F -.注入.-> U
    U --> H["球谐隐特征 h"]
    H --> FT["平移 field net → Q_t"]
    H --> FO["开合 field net → Q_open"]
    H --> FR["旋转 field net + 球面卷积 → Q_r"]
    FT --> A["最优动作 a*"]
    FO --> A
    FR --> A

关键设计¶

1. 等变点 Transformer U-Net（EPTU）：在球谐傅里叶域里做多尺度几何推理 相比非等变的 Point Transformer + U-Net，EPTU 用球谐傅里叶特征实现连续 SE(3) 等变。它在 EquiformerV2 的图注意力块之间插入两种新算子：球谐傅里叶 maxpooling——对每个点的 k 近邻，逐 degree \(l\) 选出 2-范数最大的傅里叶系数 \(c'_{l,x}=c_{l,p^*},\ p^*=\arg\max_{p\in knn(x)}\|c_{l,p}\|_2^2\)，靠 Wigner D-矩阵的正交性保证 SE(3) 等变；球谐傅里叶上采样——按距离加权对 k 近邻系数做 softmax 插值 \(c'_{l,x}=\text{softmax}_{p}(1/\|x-p\|)\,c_{l,p}\)，基于 Schur 引理证等变。配合 skip connection 压缩-重建点云特征。相比之前的等变点 U-Net（如带缓存图的 smaxpool），EPTU 无需缓存图、实现更简单。

2. 不变特征线性调制层（iFiLM）：让语言条件几何不变 标准 FiLM 不保证等变/不变。iFiLM 接收球谐特征 \(c\) 和 type-0 条件 \(k\)，先用 MLP 把 \(k\) 投影成调制量：\(\alpha_l,\beta,\gamma=\text{MLP}(k)\)，然后对 \(l>0\) 的特征只做缩放 \(c'_l=\alpha_l c_l\)，对 type-0 特征做仿射 \(c'_0=\beta c_0+\gamma\)。由于缩放因子与朝向无关，整层对 \(k\) 是 SO(3)-不变、对输入特征 \(c\) 是 SO(3)-等变（Schur 引理证），从而在保持几何等变的同时实现语义相关的语言调制。

3. 等变 field network：在整个 SE(3) 位姿空间评估动作 不同于把动作锚在点云每个点上，EquAct 在整个位姿空间 \(A_T\subset SE(3)\) 评估动作，把动作分解为平移与旋转 \(a_T=a_t\rtimes a_r\)。平移：以 \(h\) 为源、查询点 \(a_t\) 为目的建图做 EquiformerV2 图注意力聚合特征，输出对旋转不变的 type-0 特征作为价值 \(q_t(a_t,h)=q_t(a_t,g\cdot h)\)，并用 coarse-to-fine 逐步细化采样（449 个平移候选）。旋转：先在预测平移 \(a_t^*\) 处聚合得球谐特征 \(\hat\phi\)，再与可学习滤波 \(\hat\psi\) 做球面卷积 \(q_r(a_r,a_t,h)=(\phi\star\psi)[a_r]=\mathcal{F}^{-1}(\hat\phi\cdot\hat\psi)[a_r]\)，在 36,864 个 HEALPix 旋转候选上一次性评估，避免欧拉角的万向锁/不连续与扩散迭代的高开销。

实验关键数据¶

主实验¶

18 个 RLBench 任务、249 条语言指令、25 episodes/任务；三种设置：2D/100（SE(2) 初始化 100 demo）、2D/10（SE(2) 10 demo）、3D/10（SE(3) 初始化 10 demo）。

任务设置	指标	EquAct	SAM2Act	3DDA	Δ vs 次优
2D/100（SE(2), 100 demo）	平均成功率	89.4	86.8	81.3	+2.6
2D/10（SE(2), 10 demo）	平均成功率	60.1	52.2	50.3	+6.2（vs SAM2Act）
3D/10（SE(3), 10 demo）	平均成功率	53.3	37.0	37.9	+15.4（vs 3DDA）
真机 4 任务（11 变体）	平均成功率	65.0	—	12.5	+52.5

设置越难，EquAct 领先越多——SE(3) 设置下超 baseline 达 15.4%，体现强样本效率与 3D 泛化。在 place_cups、sort_shape 等高精度任务上优势显著；训练/推理时间、显存与 baseline 持平（推理 0.7s，21GB）。

消融实验¶

10 demo 设置，4 个 RLBench 任务平均成功率：

配置	平均成功率	说明
Ours（完整）	52.8	完整 EquAct
aug. → no aug.	50.5	去数据增强，略降（增强降低等变网络数值误差）
iFiLM → FiLM	50.3	换标准 FiLM，高精度任务（place_cups 62→24）明显掉
l=3 → 2	45.5	降球谐分辨率，掉 7.3，高阶系数对动作推理重要
EPTU → VN	22.0	换 VN-DGCNN（仅 type-1），掉 30+，高阶特征关键
equ. → no equ.	12.3	仅替换一层等变层即崩，几何结构最关键

关键发现¶

几何等变是核心：只替换一个等变层（equ.→no equ.）就导致最大幅度下降（52.8→12.3）。
高阶球谐特征（up to type-3）远胜仅 type-1 的 VN-DGCNN（+30%），分辨率 \(l\) 越高动作推理越准。
iFiLM 在高精度任务上优于 FiLM，但 FiLM 在动作近乎恒定的任务上易过拟合而偶尔更高。
真机：3DDA 常跳过关键帧动作导致失败，EquAct 从有限 demo 学到鲁棒 SE(3) 策略。

亮点与洞察¶

首个在单一统一模型里实现连续 SE(3)（旋转+平移）等变的多任务语言条件关键帧策略，并给出等变/不变性的数学证明。
识别出"语言指令对动作是 SE(3)-不变的"这一被忽视的对称性，并用极简 iFiLM 层落地，是把等变与自然语言条件结合的关键洞察。
用球谐傅里叶表示 + U-Net 风格池化/上采样，使等变模型计算开销与非等变 baseline 持平，破除"等变=慢"的刻板印象。
把动作评估放到整个 SE(3) 场而非点云锚点上，并用球面卷积一次性评估 3.6 万旋转候选，避免欧拉角离散化与扩散迭代。

局限与展望¶

在物体位姿固定的任务（如 sweep_to_dustpan）上反而略逊于非等变 baseline——等变归纳偏置对无位姿变化任务收益有限甚至有害。
数据增强仍能进一步提升，暗示等变网络存在数值误差，纯架构等变尚未完全严格。
关键帧动作公式依赖运动规划器生成轨迹，对接触丰富/连续控制任务的适配性未充分验证。
旋转候选 36,864 个的密集采样虽一次性评估，但 field network 的内存/扩展性在更大动作空间下的表现待考。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个单模型连续 SE(3) 多任务语言策略，iFiLM 识别语言不变性是原创洞察，球谐 U-Net 池化/上采样为新算子。
实验充分度: ⭐⭐⭐⭐ 18 任务×3 设置+4 真机+5 项消融+鲁棒性/等变误差测试，覆盖全面；但 baseline 仅 2 个、真机仅对比 3DDA。
写作质量: ⭐⭐⭐⭐ 动机清晰、命题与证明严谨、图示完整；个别拼写小错（rether/rether）不影响理解。
价值: ⭐⭐⭐⭐⭐ 在样本稀缺+SE(3) 泛化场景下大幅领先，且开销与非等变持平、开源，对真实机器人操作落地价值高。