AURA: Multi-modal Shared Autonomy for Urban Navigation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 https://vail-ucla.github.io/aura/ （未见独立代码仓）
领域: 具身智能 / 机器人导航
关键词: 共享自治, 视觉-语言-动作 (VLA), 城市人行道导航, 扩散策略, 指令跟随

一句话总结¶

AURA 把城市人行道导航拆成「人给高层指令、AI 做低层控制」的分层共享自治，用一个 SIE 把文字/画线/箭头三类人类指令对齐到场景的语义与几何，再用锚点扩散策略生成轨迹，在仿真和真实世界把接管频率降了 44%、人类操作成本降了 70%+。

研究背景与动机¶

领域现状：人行道上的配送机器人、辅助轮椅等"移动机器"，目前普遍靠人在环（human-in-the-loop）远程遥操作或贴身监督来保证安全。学界提出的共享自治（shared autonomy）让 AI 在训练或测试阶段辅助人类操作机器，目标是把人解放出来只做"监控 + 失败兜底"。

现有痛点：现有共享自治方法几乎都假设人和 AI 工作在同一个低层动作空间——即都直接控制轮速/转向，于是人必须以和 AI 相同的频率持续操作。对城市人行道送货这类长程任务来说，这种耦合既低效又认知负担极重：人要一直盯着方向盘级别的细节。

核心矛盾：长程导航真正需要人介入的是高层策略判断（怎么绕过人群、走哪条替代路线），但现有框架却把人锁死在高频低层控制上；同时纯语言指令（RLHF/InstructGPT 那套离线对齐）只能表达高层意图，无法支撑导航所需的实时、高频、安全攸关的细粒度纠正。

本文目标：设计一个能理解多模态人类指令、又能自己干低层控制的共享自治系统，让人只在需要时用低带宽方式介入，从而大幅降低操作成本。

切入角度：把城市导航按抽象层级"分工"——人负责高层指令（推理 corner case、提议路线），AI 负责低层执行（车道保持、避障）。关键观察是：人类介入有三种天然的低带宽方式——打字（texting）说意图、在画面上画一条路径（drafting）、画箭头（arrowing）给速度方向，都比连续摇杆轻松。

核心 idea：用一个双系统 VLA 模型，把"理解多模态人类指令"和"扩散策略生成轨迹"接到一起，并专门设计 SIE 把指令里的几何信息显式接地到场景空间，让人用一句话/一条线/一个箭头就能引导机器人。

方法详解¶

整体框架¶

AURA 是一个端到端的共享自治框架，输入是机器人第一视角的 RGB 观测（过去 3 帧）加上可选的人类指令，输出是控制机器人的未来轨迹 waypoints。它提供两种模式：Autopilot（自动驾驶档）下输入稀疏 GPS 路点，自己做人行道跟随与避障；Takeover（接管档）下当 GPS 不可靠、目标含糊或遇到处理不了的 corner case 时，人通过 texting / drafting / arrowing 介入提示。整个系统只靠单目 RGB 感知，不需要预建地图或显式定位模块，把导航建模为序贯决策。

架构上是双系统：一个多模态编码器把观测和指令编码成 context 特征，一个基于扩散的策略执行器据此生成轨迹。具体地，过去/当前 RGB 帧先过 ViT 视觉编码器（resize 到 448×448，每帧投影成 256 个 image token）；人类指令经 SIE 编码后通过一个特殊的 <instruction> token 注入；两路 token 在 InternVL3-2B 这个预训练 LLM（挂 LoRA 适配器）里融合，从第 12 层抽中间表示 \(h_t\)（在推理速度和表示质量间折中），并挂一个轻量 text head 解码可读的推理 trace 做语言监督。最后 \(h_t\) 被 DiT 动作解码器交叉注意，条件化地生成连续轨迹。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["RGB 观测<br/>(过去 3 帧)"] --> V["ViT 视觉编码<br/>256 token/帧"]
    H["人类指令<br/>texting/drafting/arrowing"] --> S["SIE 空间感知<br/>指令编码器"]
    V --> F["双系统融合<br/>InternVL3-2B + LoRA"]
    S -->|"&lt;instruction&gt; token"| F
    G["导航目标 / GPS 路点"] --> D
    F -->|"context 特征 ht"| D["锚点扩散动作解码器<br/>64 条轨迹锚 + CDiT"]
    D --> O["未来轨迹 waypoints"]

关键设计¶

1. 分层共享自治与双系统架构：把人锁在高频低层控制里解放出来

针对"人和 AI 被迫共享同一低层动作空间、人要全程高频操作"这个痛点，AURA 把导航显式拆成两个抽象层：人只在 Takeover 档给高层指令，AI 在 Autopilot 档自己跑低层控制，两档之间按需切换（hierarchical takeover）。落到模型上就是双系统：多模态 VLM 编码器负责"读懂人想干什么"，扩散策略负责"算出怎么走"。这种 VLA 设计的好处是 AI 当"自动驾驶助手"可以无硬件改造地插进现有配送机器人，人不再需要连续摇杆，只要偶尔用低带宽指令纠偏；和"全人操作 ↔ 全 AI 控制"硬切换的旧范式相比，它把人类介入的粒度从"每帧控制"降到"偶发的高层提示"。

2. SIE 空间感知指令编码器：让 VLM 真正"接地"人类指令的几何

共享自治最难的是理解含糊的人类指令并把它接地到周围空间，而标准 VLM 语义强、空间几何弱。SIE（Spatial-Aware Instruction Encoder）专门补这块。它先把指令（轨迹线、转向箭头）渲染到观测图上当 visual prompt，用同一个视觉编码器编出指令视觉特征 \(V_c\)，借 ViT 现成的语义理解力；再为不同模态注入几何嵌入。对 drafting（画线），沿投影轨迹线在归一化图像空间采 \(K\) 个像素点 \(p_d=\{(u_i,v_i)\}\)，仿照 Segment Anything 用可学习高斯随机矩阵 \(w\) 的 Fourier 位置编码

\[PE(p_{d,i}) = [\sin(w^\top p_{d,i}),\ \cos(w^\top p_{d,i})]\]

并加可学习的序号嵌入保住点序：\(E^{(i)}_d = PE(p_{d,i}) + \mathrm{PosEmbed}(i)\)，再过 MLP + 自注意力得 \(E_d\)。对 arrowing（画箭头，给速度 \(v\) 与朝向 \(\omega\)），用一个对前后运动都成立的旋转不变编码

\[E_s = \mathrm{MLP}\big([\cos(\omega'),\ \sin(\omega'),\ \log(1+|v|)]\big),\quad \omega' = \omega + \pi\cdot \mathbb{1}_{v<0}\]

几何嵌入 \(E\in\{E_d,E_s\}\) 再与指令视觉特征 \(V_c\) 做带残差的交叉注意力，过 4 头自注意力和 MLP 得到 instruction-aware 特征注入 LLM。实验显示：visual prompt 管短期跟踪准、几何编码管长期空间一致与目标记忆——两者结合才能在指令过时（4 秒前下达）时仍稳。

3. 锚点扩散动作解码器：用运动基元锚点而非高斯噪声起步

低层控制要在连续长程轨迹上生成多模态可行解。AURA 用一个基于扩散的 DiT 策略，但不从高斯噪声起步，而是从 MM-CoS 聚类出的 \(m=64\) 条轨迹锚点（直行、转弯、停止等运动基元）初始化扩散过程。沿用作者前作 MIMIC，一个轻量 transformer 解码器在 context 特征 \(h_t\)、导航目标 \(g_t\)、扩散时间步嵌入 \(t_d\) 条件下去噪，输出精修轨迹及其置信分。训练时损失是模式分类 + 轨迹回归

\[L = L_{cls} + L_{reg}\]

其中 \(L_{cls}\) 用交叉熵选出离 GT 最近的模式，\(L_{reg}\) 最小化预测与 GT 轨迹的 L2 距离。从锚点起步既给扩散一个结构化先验、又天然支持多模态轨迹（anchor-based 回归 + 分类），比纯噪声起步更稳更快。

4. MM-CoS 数据集与自动标注流水线：把遥操作日志变成多模态指令监督

要训这套模型缺数据：现有数据集多在校园/室内/广场，缺真实人行道；且缺高质量、能解释动作的文字说明。AURA 复用作者前作 50 小时、3040 条真实人行道遥操作轨迹（CoS），再融合 RECON / SCAND / EgoWalk 构成 MM-CoS。自动标注分两步选帧：先用 InternVL3-8B 给视频帧按视觉复杂度（行人交互、障碍、地形变化）打"interestingness"先验，再融合滑窗内的运动统计（加速度、转向率）得到加权运动显著性，据此排序优先标注信息量大的帧；随后用 Qwen2.5VL-72B 生成 command 式指令加长描述。每帧产出三类互补标注——texting（短动词短语如"go straight / slow down"）、drafting（由 GT 未来轨迹渲染的路径）、arrowing（瞬时速度），正好镜像共享自治里的三种人类接口，让人能在不同抽象层介入而无需连续遥操作。

损失函数 / 训练策略¶

两阶段训练。第一阶段做指令条件化的 VLM 适配：冻结视觉编码器和原始视觉→语言投影 MLP，只训新引入的 SIE 模块，并对 LLM 用 LoRA 高效适配；用生成的轨迹 caption 上的语言建模损失训练，让 VLM 学会通过自然语言接地来编码语义-空间指令信号。第二阶段端到端训扩散策略：冻结多模态编码器，从头训扩散解码器和辅助编码器（目标、相机、轨迹锚编码器），损失即上面的 \(L = L_{cls} + L_{reg}\)。

实验关键数据¶

主实验¶

开环评测（MM-CoS 测试集，预测轨迹对比 GT；* 表示在本文数据集上重训）。AURA 四个变体分别用不同指令模态，arrowing 变体 L2 最低、drafting 变体 mAP 最高：

方法	minADE@1s↓	minFDE@1s↓	L2@1s↓	L2@2s↓	mAP↑
GNM‡	0.594	0.988	0.988	-	-
NoMaD‡	0.523	0.858	1.072	2.182	0.216
CityWalker	0.648	1.125	1.125	-	-
ViNT*	0.247	0.450	0.425	0.925	-
CityWalker*	0.180	0.353	0.353	0.786	-
AURA (arrowing)	0.108	0.220	0.150	0.473	0.750
AURA (drafting)	0.122	0.218	0.244	0.557	0.844

arrowing 变体 L2@2s 0.473，比最强基线 CityWalker（0.786）低 39.8%*；整体看几何指令（drafting/arrowing）比纯语言指令给出更强的空间引导。

真实世界闭环（8 场景 16 路线约 2.8 km），AURA 在所有人类成本指标上最低：

方法	HO(%)↓	NIR↓	ODR↓	TSR↑
NoMaD	9.74	43.2	11.3	89.0
CityWalker	14.56	48.29	20.0	80.3
Gemini	16.9	255.7	32.0	63.2
AURA	1.73	16.99	10.5	89.3

（HO=人类操作占比，NIR=每 100 米紧急介入次数，ODR=偏离距离比，TSR=有效自主时间率。）

消融实验¶

指令理解能力（ROUGE-L 与用 QwenVL2.5-72B 算的 Intent/Qwen Score）：

配置	Finetune	Visual Prompt	SIE	ROUGE-L↑	Intent Score↑
InternVL3-2B	✗	✗	✗	0.167	2.019
InternVL3-8B	✗	✗	✗	0.184	2.818
InternVL3-2B	✓	✓	✗	0.532	4.885
AURA	✓	✗	✓	0.534	4.842
AURA	✓	✓	✓	0.581	5.446

关键发现¶

微调 + 数据集贡献最大：在合成标注数据上微调后，小模型 InternVL3-2B 的指令跟随大幅超过未微调版，甚至超过更大的 InternVL3-8B（0.532 vs 0.184 ROUGE-L），说明任务对齐比单纯堆参数更关键。
visual prompt 和 SIE 几何编码互补：只用 SIE projector 就能逼平"原 VLM + visual prompt"；两者合用才最好（ROUGE-L 0.581 / Intent 5.446）。端到端规划里，缺语义表示的模型在预测 4 秒前的旧指令时最差、甚至不如无目标输入；几何编码在长程上靠稳定空间结构和目标记忆顶住，visual prompt 则随视野变化失效——二者结合短期准、长期稳。
共享控制成本大降：伪仿真里只给高层指令时人类操作时间降 9.9%、操作频率 0.498（相对降 44%）；真实世界 HO 仅 1.73%，远低于 NoMaD 的 9.74%。

亮点与洞察¶

三种低带宽人类接口的统一：texting/drafting/arrowing 既是推理时的人机交互方式，又被自动标注流水线镜像成三类训练标签，接口与监督信号同构——这个"交互即监督"的设计很值得迁移到其他需要人类介入的具身任务。
几何接地的巧法：把 SAM 式 Fourier 位置编码搬来编画线轨迹点、用旋转不变编码处理前后箭头，是把"VLM 语义强但空间弱"这个老问题落到可训练嵌入上的具体解法。
从运动基元锚点起步的扩散：用 64 条聚类锚点代替高斯噪声初始化，给扩散策略一个结构化先验，是在连续长程轨迹生成上提稳的实用 trick。

局限与展望¶

论文未给独立代码仓（仅项目页），可复现性依赖附录细节与前作 MIMIC/CoS。
真实世界 pilot 规模较小（8 场景 16 路线 2.8 km，单一轮式机器人），泛化到不同机型/极端天气仍待验证。
伪仿真用规则化 judgment 模块判定是否需接管，并假设每次接管固定 2 秒，人类介入的随机性被简化，⚠️ 与真实人类行为可能有差距。
横向比较需注意：表 1 中部分基线缺 mAP/L2@2s（确定性单轨迹输出或更短预测视野），不可直接按数值大小一概而论。

评分¶

新颖性: ⭐⭐⭐⭐ 把分层共享自治、多模态几何指令接地 (SIE) 与锚点扩散策略系统地组合到城市人行道导航，问题设定新颖。
实验充分度: ⭐⭐⭐⭐ 开环 + 伪仿真 + 真实世界三层评测，消融拆清 SIE 语义/几何分量，但真实世界规模偏小。
写作质量: ⭐⭐⭐⭐ 动机清晰、模块与公式交代到位，个别符号 (OCR 致) 需对原文核对。
价值: ⭐⭐⭐⭐ 对人行道配送/辅助机器人这类 human-in-the-loop 场景有直接落地价值，接口即监督的思路可迁移。