Fourier Features Let Agents Learn High Precision Policies with Imitation Learning¶

会议: ICML 2026
arXiv: 2606.12334
代码: https://fourier-il.github.io/fourier-il （项目页，含代码与视频）
领域: 机器人 / 模仿学习
关键词: 模仿学习, 点云策略, 傅里叶特征, 频谱偏差, 高精度操作

一句话总结¶

把点云的笛卡尔坐标先做一次 NeRF 式傅里叶特征映射再喂给点云编码器，就能消除点云策略网络"先学低频、学不动高频"的频谱偏差，让扩散模仿学习策略在 RoboCasa、ManiSkill3 和真机的高精度操作任务上成功率大幅提升（真机归一化分数 14.8% → 40.2%），且对各种编码器和超参都鲁棒。

研究背景与动机¶

领域现状：基于扩散的模仿学习（IL）已是机器人视觉运动控制的主流框架——把动作生成当作去噪过程，能自然刻画人类示范里的多模态动作分布。其中观测编码器把场景几何"翻译"成 token，策略才能据此决定下一步动作。相比语义丰富但缺乏显式 3D 几何的 RGB，点云这类 3D 模态直接表达形状、距离和空间关系，给策略更强的几何先验。

现有痛点：可奇怪的是，纯点云策略的表现高度依赖任务——同样的编码器，有的任务很强、有的任务很差。为弥补这一点，社区涌现出大量混合 2D/3D 架构（用预训练图像基座抽 RGB 特征再和 3D 拼起来），把方法越做越复杂，却没人去追问"纯点云到底输在哪"。

核心矛盾：作者把根因落到频谱偏差（spectral bias）上。高精度任务（如把销钉插进插孔）需要一条很"陡"的决策边界——观测只差一点点，动作却要在"插入"和"重新摆放"之间二选一，这本质上要求策略是一个高频函数。但 MLP / 全连接层有先学低频、后学高频（甚至学不到）的倾向，而几乎所有点云编码器都用 MLP 把笛卡尔坐标编码成隐特征，恰恰踩在这个坑里。反观图像架构底层的卷积天生偏好高频，所以反而对细节更敏感。

本文目标：不改架构、不堆模块，而是从输入表示层面消掉点云编码器的频谱偏差，让任意点云策略都能学到陡峭的决策边界。

切入角度：NeRF / 新视角合成早就用傅里叶特征映射治好了 MLP 的频谱偏差，但近年的点云机器人基座几乎没用上这一招，只在个别架构里零星出现过。作者于是系统性地把傅里叶特征映射搬进点云扩散 IL。

核心 idea：把笛卡尔坐标投影到高维正弦空间——原本在坐标上几乎一样的相邻点，在傅里叶空间里被放大成可区分的特征，从而绕过 MLP 的频谱偏差。

方法详解¶

整体框架¶

方法本身极其轻量：在标准的"深度图 → 点云 → 点云编码器 → 扩散策略"管线里，只在点云坐标进编码器之前插入一层无参数的傅里叶特征映射，其余一概不动。具体地，多相机深度图经反投影、外参变换、拼接得到世界系点云 $X$；坐标 $XYZ$ 作为图节点特征喂进消息传递式点云编码器（论文统一在 PointPatch 系列上做实验），输出 token 序列；token 连同语言目标 token、噪声等级 token 一起送入 decoder-only Transformer 形式的扩散策略 $D_\theta$，迭代去噪出下一段动作 chunk。傅里叶映射的作用，就是在坐标进编码器前先把"慢变"的笛卡尔特征换成"快变"的高频特征。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多相机深度图<br/>反投影+外参→世界系点云 X"] --> B["傅里叶特征映射<br/>坐标→高维正弦空间，放大细微几何差"]
    B --> C["VariableJitter 数据增强<br/>随机噪声尺度，教网络忽略无用频率"]
    C --> D["即插即用点云编码器<br/>PointPatch / DP3 / PCM …→token"]
    D --> E["扩散策略 D_θ<br/>EDM 去噪动作 chunk"]
    E --> F["输出动作序列"]

关键设计¶

1. 傅里叶特征映射：用高频正弦嵌入放大相邻点的细微差异

这是全文的核心，直接针对"MLP 学不动高频决策边界"的痛点。作者采用 NeRF 式、按坐标轴对齐的傅里叶映射：对一个笛卡尔点 $\mathbf{p}=(x,y,z)$ 的每个坐标分量，用 $L$ 组不同波长的正弦函数编码：

\[\gamma_k(x)=\Big[\sin\big(\tfrac{2\pi x}{\lambda_k}\big),\ \cos\big(\tfrac{2\pi x}{\lambda_k}\big)\Big]^{\mathsf T},\qquad \lambda_k=\lambda_{\max}\Big(\tfrac{\lambda_{\min}}{\lambda_{\max}}\Big)^{\frac{k-1}{L-1}},\ k=1,\dots,L\]

即波长在 $[\lambda_{\min},\lambda_{\max}]$ 间对数等间隔分布，从 $\lambda_{\max}$ 的"全局编码"一路细到 $\lambda_{\min}$ 的"体素级编码"。每个点得到 $3\times 2L$ 维特征（实验里 $L{=}16$、$\lambda_{\max}{=}4.0\,\text{m}$、$\lambda_{\min}{=}2.0\,\text{cm}$，共 96 维）。为什么有效：笛卡尔空间里相邻点坐标几乎相同，MLP 很难把它们区分开；而高频正弦把这点微小差异在高维空间里"撑开"，编码器无需对抗频谱偏差就能直接读到细粒度几何，从而表示出陡峭的策略。注意：由于正弦映射是周期函数，点云需被限制在 $[-\lambda_{\max}/2,\lambda_{\max}/2]$ 内以保证特征唯一；若做不到，可把原始坐标和傅里叶特征拼接来保证唯一性。

2. 即插即用、与编码器无关：一招通吃整个 PointPatch 家族

不同于此前工作只给特定新架构加傅里叶特征，作者主张这个映射对几乎任意点云策略都有效，于是把它系统地套到一整族编码器上验证：PointPatch（不聚合 patch token）、PointPatch-attn（注意力池化成 3 个 token 降算力）、PCM（max pooling 聚合）、DP3（全局 max pooling 成单 token）、PointTransformer（迭代注意力聚合），以及 PointPatch+RGB 多模态变体。所有实验共用同一套扩散骨干，只换观测编码器，对每个架构只做最小必要改动、按需把傅里叶映射加到绝对/相对坐标上。这种"控制变量"式设计让"提升来自傅里叶特征本身、而非某个特定架构"的结论站得住脚——实验也确实显示几乎所有架构都获益。

3. VariableJitter 数据增强：用噪声替代逐任务调波长

波长选择本是傅里叶特征的一大敏感点：波长太短网络会过拟合，太长又压不住频谱偏差，前人甚至观察到某些超参下训练不稳定。作者不去为每个任务精调波长，而是固定一套对数等间隔波长，再用 VariableJitter 数据增强让网络"学会忽略不含信息的频率"。它对每个点云从均匀分布采一个噪声尺度 $\sigma\sim\mathcal U(0,\sigma_{\max})$ 再加抖动；相比固定幅度的均匀抖动，这避免了调噪声幅度的麻烦，在"增广以防过拟合"和"不拉开训练-测试分布差距"之间取得平衡（实验里 $\sigma_{\max}$ 取 ManiSkill 5 mm、RoboCasa 2 mm、真机 1 mm）。

损失函数 / 训练策略¶

策略用 Elucidated Diffusion Models（EDM）框架做基于分数的动作扩散：网络 $D_\theta(\mathbf a+\boldsymbol\epsilon,o,\mathbf g,\sigma_t)$ 通过分数匹配训练，目标为 $$\mathcal L_{\text{SM}}=\mathbb E_{\sigma,\mathbf a,\boldsymbol\epsilon}\big[\alpha(\sigma_t)\,\|D_\theta(\mathbf a+\boldsymbol\epsilon,o,\mathbf g,\sigma_t)-\mathbf a\|_2^2\big]$$ 采样时用 DDIM 形式的概率流 ODE 少步去噪。值得强调：傅里叶映射作用在场景几何上、而非动作上，让分数函数能成为场景几何的高频函数，但对动作仍保持平滑。

实验关键数据¶

主实验¶

在 RoboCasa（16 个强调精细几何对齐与接触的原子任务，每任务 50 条人类示范）、ManiSkill3（4 个抓取/工具任务，每任务 500 条专家示范）和 4 个真机任务上评测；每方法 5 个随机种子、报告自助法的四分位均值与 95% 置信区间。仿真里刻意不给颜色特征，以凸显傅里叶特征对纯 3D 表示的作用。

基准 / 任务	指标	无傅里叶	加傅里叶	提升
RoboCasa（16 任务平均，PointPatch）	成功率	13%	34%	+21pt
RoboCasa · CloseDrawer	成功率	34%	72%	+38pt
RoboCasa · TurnOffSinkFaucet	成功率	28%	63%	+35pt
RoboCasa · OpenDrawer	成功率	≈0%	12%	从几乎学不会到能做
真机（4 任务，PointPatch+RGB）	归一化分数	14.8%	40.2%	+25pt

ManiSkill3 上提升较小（PointPatch / PointPatch-attn 有小幅改善、其他架构不显著），作者归因于这些相对简单的任务上性能已饱和。真机上 Cup-Stacking 任务按杯径分组显示：杯子越小、傅里叶特征收益越大，直接支撑了"傅里叶特征帮助编码器在更小尺度上提取几何细节"的论断。

消融与分析¶

配置	平均成功率(%)	说明
Ours（对数傅里叶 + VariableJitter）	41.4 ± 2.4	完整方法
无 FF，无 jitter	17.5 ± 1.7	去掉傅里叶特征，性能腰斩
无 FF，VariableJitter	18.5 ± 2.1	只加增强、不加 FF，几乎无济于事
FF，无 jitter	39.9 ± 2.3	只加 FF、不加增强，仍接近满配
FF，random jitter	38.9 ± 2.2	增强方式不敏感

关键发现¶

提升的主力是傅里叶特征本身：去掉 FF 成功率从 41.4% 掉到 17.5%，而单独加 VariableJitter 只从 17.5% 到 18.5%——数据增强非必需，傅里叶映射才是关键。
点云越密、收益越大：用更大体素降采样减少点数后，FF 的优势随之缩小，到 2k 点时差距几乎消失；而基线在重降采样下几乎不变，说明它根本没在用被抹掉的几何细节。
即便抹掉细几何，FF 仍有效：对点云加 $\sigma{=}5\,\text{cm}$ 高斯抖动（基本删光精细几何）后，带 FF 策略仍达 24% vs 无 FF 的 13%，提示 FF 还能改善学习动力学，而不止是暴露高频细节。
超参鲁棒：对波长数 $L$ 和最小波长 $\lambda_{\min}$ 都不敏感；对数等间隔、轴对齐频率优于随机高斯采样（RFF），而把频率设为可学习（直接学或用 SPE）并无一致收益。图傅里叶谱分析显示，FF 让网络对高频（也包括中低频）的敏感度提升数个数量级，并加快了学习。

亮点与洞察¶

用"频谱偏差"重新解释了一个长期现象：为什么纯点云策略时好时坏、为什么社区要堆复杂的混合 2D/3D 架构——作者给出一个统一答案（MLP 编码器的频谱偏差），并用一个无参数映射就追平甚至超过复杂设计，这是最让人"啊哈"的地方。
零成本、强可迁移：傅里叶映射无参数、不需额外正则、对超参鲁棒，可以直接塞进任何以 MLP 编码坐标的点云模型，包括互联网规模训练的多模态基座——RGB+点云的多模态编码器即便已有卷积能表示高频，加上 FF 仍获益，暗示大模型也能受益。
可迁移思路：凡是用 MLP 直接吃低维连续坐标 / 慢变量的任务（位姿回归、隐式场、接触点预测），都可以套用"坐标先傅里叶再编码"来对抗频谱偏差。

局限与展望¶

作者承认：周期性映射要求点云被限制在 $[-\lambda_{\max}/2,\lambda_{\max}/2]$ 内才唯一，超出范围需拼接原始坐标；最小的杯子上两种策略都解不稳，说明 FF 不是万能，极端精度仍受限。
自己发现的局限：增益高度依赖"点云里有没有可提取的几何细节"——ManiSkill 这类简单/已饱和任务、或细几何被抹掉的场景里收益有限；"改善学习动力学"的机制只是假设，尚未给出严格解释。实验集中在 PointPatch 家族，对其他范式（如体素、隐式）的普适性还需更多验证。
改进思路：把波长设计与任务尺度自适应耦合、或在大规模多模态机器人基座预训练阶段默认引入傅里叶坐标编码，可能进一步放大收益。

评分¶

新颖性: ⭐⭐⭐⭐ 不是全新技术，但"用频谱偏差统一解释点云策略表现 + 一个无参数映射通吃"的视角很犀利。
实验充分度: ⭐⭐⭐⭐⭐ 横跨 3 个基准、5 类编码器、真机，含频谱分析与多组参数研究，结论扎实。
写作质量: ⭐⭐⭐⭐ 动机推导清晰、图表充分，个别公式与表述略显紧凑。
价值: ⭐⭐⭐⭐⭐ 近乎零成本、强可迁移，对点云机器人学习社区有直接实用价值。