跳转至

From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=0c7nAZjyr5
代码: https://vail-ucla.github.io/S2E(项目主页,代码待开源)
领域: 机器人 / 具身导航 / 导航基础模型
关键词: 导航基础模型, 强化学习后训练, 残差注意力, 锚点分布匹配, 3DGS 仿真 Benchmark

一句话总结

S2E 提出"从看到到体验"的混合学习框架:先在 100 小时真实导航视频上用锚点引导的高斯混合分布做预训练,再用一个零初始化的残差注意力模块在仿真中做 RL 后训练,只更新交叉注意力分支即可注入避障/避人的反应式能力,让导航基础模型突破纯离线数据的 scaling 天花板,并零样本迁移到真实轮式与四足机器人。

研究背景与动机

领域现状:导航基础模型(GNM、ViNT、NoMaD、CityWalker 等)靠 web 规模视频和人类示范做被动视觉模仿学习,能在不同环境和本体间泛化。但它们只学到了视觉统计相关性,没有学到物理因果——视频告诉智能体"动作长什么样",却没告诉它"环境变化时如何调整、恢复、推理反事实后果"。

现有痛点:纯离线训练的导航策略对周围环境反应迟钝,难以应对城市场景中的避障、避让行人等交互安全行为。论文用实验揭示了离线数据 scaling 的边际递减:把数据从 250k 扩到 750k,成功率只涨 2%。而 RL 虽然能交互学习,但单独用 RL 在狭窄合成环境训练采样效率低、缺乏归纳先验,无法泛化到真实世界。

核心矛盾:离线视频给出强泛化的视觉先验但缺交互能力;仿真 RL 给出交互能力但有严重的 sim-to-real 域差距,且全参数 RL 微调会遗忘预训练能力(FPC)并因仿真像素统计差异导致观测域偏移——编码器过拟合到仿真 RGB,部署到真实图像时特征漂移 \(\Delta_\text{feat}=\|\mathbb{E}_{o\sim D_\text{real}}[\mathcal{F}^\text{sim}(o)]-\mathbb{E}_{o\sim D_\text{real}}[\mathcal{F}^\text{pre}(o)]\|\) 迅速增大。

本文目标:在保留离线预训练泛化表征的前提下,用仿真 RL 注入反应式交互能力,实现可 scale、可泛化、可跨本体部署的导航基础模型。

核心 idea(1) 预训练用锚点引导分布匹配(AGDM) 学习多模态运动分布做稳定 backbone;(2) RL 后训练用残差注意力模块(RAM) 只微调交叉注意力的零初始化残差分支,既获反应行为又不毁预训练知识;(3) NavBench-GS 用 3DGS 重建带物理交互的真实场景做闭环评测。

方法详解

整体框架

S2E 是"预训练 + RL 后训练"的两阶段混合框架。模型接收过去 \(k\) 帧 RGB 作为上下文、目标点/目标图作为引导、空间锚点作为查询。上下文经自注意力融合后作为 K/V,锚点特征 \(f_P\) 作为 Q,经 RAM 块计算加权特征得到精炼的锚点特征,再由分类头和回归头解码出每个锚点的分数、归一化轨迹和速度尺度。预训练阶段端到端用 NLL + 回归损失训练全模型;微调阶段冻结主体、只用 PPO 策略梯度优化 RAM 块。

flowchart LR
    A[过去k帧RGB + 目标点/图] --> B[视觉编码器 + 自注意力融合]
    B -->|K,V| C[RAM交叉注意力块]
    D[空间锚点 f_P] -->|Q| C
    C --> E[分类头: 锚点分数]
    C --> F[回归头: 归一化轨迹+速度尺度]
    subgraph 阶段1 预训练
    G[100h真实导航视频] -.NLL+回归损失.-> B
    end
    subgraph 阶段2 RL后训练
    H[URBAN-SIM仿真+PPO] -.仅更新RAM残差分支.-> C
    end

关键设计

1. 锚点引导分布匹配(AGDM):用结构化高斯混合捕捉多模态导航行为。 机器人导航本质多模态——同一观测下"直行/转弯/避让"都是合法动作,而离散动作和单峰高斯表达力不足,扩散策略又过于灵活、难控制易产生碎片化轨迹。AGDM 在统一数据集上用 K-Means 生成 \(M\) 个代表性意图点(锚点)\(p_a\in\mathbb{R}^{M\times2}\),每个锚点对应混合模型中的一个高斯模态,把动作分布建为 \(q(w_t|o_{t-k+1:t})=\sum_{m=1}^{M} q_m\cdot\mathcal{N}_m(w_x-\mu_x^m,\sigma_x^m;\,w_y-\mu_y^m,\sigma_y^m;\rho^m)\),其中 \(q_m\) 是锚点被选中的分数,并额外预测每模态的速度尺度 \(v\)。锚点既是可解释的高层意图,又给出结构化的多模态分布,且因锚点均匀采样而天然支持跨本体部署。训练用 NLL 损失监督分类与轨迹头,并以"预测方向最贴近真值轨迹"的分配策略选中模态 \(h\) 做优化:\(\mathcal{L}_{nll}=-\log\mathcal{N}_h(\cdot)-\log(q_h)\),再加 L2 回归损失 \(\mathcal{L}_{reg}=\|\hat v-v\|_2^2\) 优化速度尺度。这种结构化设计显著降低学习不确定性,给后续在线适配提供可靠 backbone。

2. 残差注意力模块(RAM):只动交叉注意力,零初始化门控实现"渐进课程"。 全参数 RL 微调会引发遗忘和域偏移,因此需要更有选择性的微调。论文识别出交叉注意力层是理想目标——不同于处理原始场景纹理、对域偏移高度敏感的视觉编码器和自注意力,交叉注意力 \(\text{Attn}(Q,K,V)=\text{softmax}(QK^\top/\sqrt{d})V\) 显式建模"智能体状态(轨迹 token 作 Q)与环境观测(作 K/V)"的关系结构,在外观变化下远比原始视觉特征稳定。RAM 冻结预训练交叉注意力参数 \(\Theta_D\),复制一份可训练副本 \(\Theta_l\),用零初始化线性层 \(\mathcal{Z}\) 门控:\(Q'=\psi_D(Q;K,V;\Theta_D)+\mathcal{Z}(\psi_D(\mathcal{Z}(Q);K,V;\Theta_l))\)。零初始化保证微调初期残差分支贡献为零(\(Q'=\psi_D(Q;K,V;\Theta_D)\)),且回传到适配参数的梯度 \(\nabla_{\Theta_l}\mathcal{L}\propto\frac{\partial\mathcal{L}}{\partial\mathcal{Z}}\cdot W_\mathcal{Z}\) 初始消失——适配分支在早期高方差探索阶段保持休眠,随门控权重逐渐离零才激活,形成"渐进注入交互动态"的结构化课程。同时因满足 \(|\Delta\Theta_l|\ll|\Theta_0|\) 且跳过视觉编码器更新,既避开域偏移又大幅省参省算力。

3. 渐进式奖励 + PPO 后训练:从基本目标到高层精修。 奖励设计为 \(R=R_G+R_R+R_H\):全局目标 \(R_G\)(含稠密/稀疏的到达奖励与碰撞惩罚)鼓励高效安全抵达;规则正则 \(R_R\) 约束人行道居中与社会合规;类人性 \(R_H\) 鼓励平滑自然的人类式导航。预训练输出的 10×2 路点轨迹经可微控制器 \(F_d\) 转成速度指令喂给运动模块,只微调 RAM 分支参数 \(\Theta_r\)(上下文特征与锚点特征的梯度被截断),用带熵正则的 PPO 目标 \(\min_{\Theta_r}\mathcal{L}_\text{ram}=-\mathcal{L}_\text{policy}+\alpha\mathcal{L}_\text{value}-\beta\mathcal{H}_\pi\) 优化,其中 \(\mathcal{H}_\pi\) 是对 GMM 熵的简化近似(因 KL 散度无闭式解)。

4. NavBench-GS:基于 3DGS 的闭环交互评测 Benchmark。 既有评测靠离线 2D 视频做开环测试,无法评估反应式行为。NavBench-GS 在 Vid2Sim 的真实场景上用 3D 高斯泼溅重建出 26 个兼具照片级视觉外观和精确物理交互的场景,每个场景实例化为 4 类任务(空场景 / 随机静态障碍 / 移动行人 / 障碍+行人),用成功率 SR、路线完成度 RC、碰撞次数 CT 度量,标准化、可复现地评测导航模型的泛化性与安全性。

实验关键数据

方法 数据量 空场景 SR 障碍 SR 行人 SR 障碍+行人 SR
GNM 70h 0.23 0.16 0.09 0.07
ViNT 80h 0.28 0.13 0.07 0.08
NoMaD 100h 0.15 0.11 0.09 0.08
MBRA 700h 0.61 0.51 0.71 0.51
CityWalker 2000h 0.66 0.43 0.56 0.37
CityWalker* 100h 0.67 0.52 0.63 0.47
S2E 100h 0.82 0.57 0.74 0.51

S2E 仅用 100h 数据,在所有场景的 SR 和 RC 上全面超越用 2000h 数据训练的 CityWalker,空场景碰撞次数 CT 降到 0.00。

真实世界结果(轮式 + 四足机器人,SR↑/CT↓)

方法 轮式 SR 轮式 CT 四足 SR 四足 CT
NoMaD 0.25 0.76 0.26 0.75
CityWalker 0.28 0.78 0.31 0.79
S2E-BC 0.32 0.78 0.34 0.91
S2E-Full 0.51 0.60 0.55 0.62

仿真 RL 学到的交互能力零样本迁移到真实双平台,S2E-Full 比纯 BC 版本成功率近乎翻倍。

消融实验表格

微调策略(NavBench-GS-Obstacle) SR↑ CT↓
PPO(全参数 RL) 0.02 2.37
SFT 0.49 0.77
DecFT-RL(仅微调解码层) 0.39 0.91
Ours(RAM) 0.57 0.69
  • 全参数 PPO 几乎完全崩溃(SR 0.02),印证遗忘 + 域偏移问题;RAM 在有限模块适配下达到最高 SR、最低 CT。
  • 锚点引导的多模态匹配(S2E-BC)相比单模态版本(S2E-BC-Single)在障碍场景 SR +11%、CT −0.64。

关键发现

  • RL 突破离线 scaling 天花板:纯 BC 从 250k→750k 仅涨 2%,而不加任何离线数据、仅靠仿真 RL 就比预训练模型 SR 提升 15%。
  • RL 比 SFT 更省样本、更抗过拟合:训练成本增加时 RL 维持/提升成功率,SFT 严重过拟合(OOD 测试上尤其明显)。

亮点与洞察

  • 把 LLM 后训练里"RL vs SFT"的讨论第一次系统搬进机器人导航 scaling,并给出"RL 缓解离线 scaling 边际递减"的实证证据,立意清晰。
  • RAM 的"冻结主干 + 零初始化残差门控交叉注意力"是把 ControlNet/Flamingo 式残差适配思想用到 RL 后训练的巧妙落点:精准定位"交叉注意力对域偏移更鲁棒"这一归纳偏置,一举同时解决遗忘、域偏移和算力三个问题。
  • NavBench-GS 用 3DGS 把"照片级外观 + 物理交互 + 可复现"三者合一,解决了机器人端到端评测难以复现真实环境的长期痛点,是有独立价值的工程贡献。

局限与展望

  • 缺 3D 感知:纯视觉方案没有显式 3D 结构,即便 S2E 偶尔仍会撞上障碍,是 vision-only 导航的固有难题;作者提议引入深度/占据预测补 3D 线索。
  • 仿真 RL 仍依赖 URBAN-SIM/Vid2Sim 等特定仿真器,奖励项(社会合规、类人性)需人工设计,跨城市/跨文化的导航规范迁移性未充分验证。
  • 代码尚未开源(截至论文),可复现性有待社区验证。

相关工作与启发

  • 导航基础模型:GNM/ViNT/NoMaD/CityWalker 走"大规模视频被动模仿"路线,本文指出其缺因果交互,用 RL 补足。
  • 预训练 + RL 微调范式:延续 AlphaGo/AlphaStar 的"监督预训练 + RL 精调"和 LLM/VLM 的 RLHF 思路,但论证了机器人领域后训练 paradigm 仍待探索。
  • 参数高效残差适配:RAM 借鉴 ControlNet、Flamingo、LoRA 等冻结主干 + 旁路分支的思想,启发是"在 RL 后训练里选对要微调的子模块比微调多少参数更关键"。
  • 对后续工作的启发:把"结构化多模态动作表示(锚点 GMM)"和"对域偏移鲁棒的模块选择性微调"结合,可能是具身基础模型 sim-to-real 后训练的通用配方。

评分

  • 新颖性: ⭐⭐⭐⭐ 锚点 GMM + 零初始化残差交叉注意力的组合在导航 RL 后训练里是新颖落点,把 LLM 的 RL/SFT scaling 讨论引入机器人导航有概念贡献,单点技术多为已有思想的巧妙迁移。
  • 实验充分度: ⭐⭐⭐⭐ 自建 3DGS Benchmark + 仿真 4 任务 + 双真实机器人平台 + RL/SFT scaling 曲线 + 多组消融,证据链完整;但缺与更多 RL 后训练 baseline 的对比、奖励项消融。
  • 写作质量: ⭐⭐⭐⭐ 动机叙事(seeing→experiencing)清晰,FPC/域偏移的问题分析与公式推导到位,图表组织合理。
  • 价值: ⭐⭐⭐⭐ 给出"RL 突破离线 scaling 天花板"的实证 + 可复现的端到端评测 Benchmark + 真机零样本迁移,对导航基础模型与具身后训练社区有较强实践价值。