AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild¶
会议: ICLR 2026
arXiv: 2602.09657
代码: https://xiaolousun.github.io/AutoFly
领域: 遥感
关键词: VLA, UAV navigation, pseudo-depth, autonomous navigation, sim-to-real
一句话总结¶
提出 AutoFly,一个面向无人机野外自主导航的端到端 VLA 模型,通过伪深度编码器从 RGB 输入推断空间信息,配合新构建的自主导航数据集(13K+ 轨迹含 1K 真实飞行),在模拟和真实环境中比 OpenVLA 成功率高 3.9%,碰撞率低 2.6%。
研究背景与动机¶
领域现状:无人机 VLN(Vision-Language Navigation)主要依赖详细的逐步指令沿预定路线飞行,在受控环境中表现良好。
现有痛点:真实户外探索发生在未知环境中,无法提供详细导航指令,只能给出粗粒度的方向或位置指引。现有方法假设了完整的环境知识和详尽指令,这在实际中不成立。同时,现有数据集过度依赖指令跟随而非自主决策,且缺乏真实世界数据。
核心矛盾:2D 地面机器人的 VLA 方法不适用于 3D 空间的无人机导航——无人机需要精确的深度估计、全方向避障和海拔控制,仅靠 RGB 输入的空间推理能力不足。
本文目标 让无人机在只有粗粒度引导("飞向那棵树")的情况下完成自主导航、避障和目标识别。
切入角度:引入伪深度编码器增强空间理解(无需额外深度传感器),构建强调自主行为建模的导航数据集。
核心 idea:用伪深度增强的 VLA 模型 + 自主导航数据集,让无人机从指令跟随升级到自主导航。
方法详解¶
整体框架¶
AutoFly 以 RGB 观测和自然语言指令为输入,通过视觉-语言模型(LLaVA-based)+ 伪深度编码器生成深度感知特征,融合后由 LLM 输出离散 action token,再经 de-tokenizer 映射为连续速度指令。
关键设计¶
-
伪深度编码器(Pseudo-Depth Encoder):
- 功能:从单目 RGB 输入推断深度并编码为与视觉 token 对齐的空间表示
- 核心思路:用 Depth Anything V2 从 RGB 生成深度图,通过 patch embedding + 深度投影器将深度 token 投影到视觉特征空间。采用 Siamese MLP 投影器(与视觉编码器共享参数),强制深度和视觉特征学习一致的映射
- 设计动机:避免使用真实深度相机(1. AirSim 深度过于理想化,导致 sim-to-real gap;2. 减少无人机载荷和成本),Siamese 架构通过参数共享隐式正则化防止两个模态的表示发散
-
自主导航数据集构建:
- 功能:构建 13K+ 轨迹的数据集,强调自主行为而非指令跟随
- 核心思路:(1) 地面真值轨迹由 SAC RL 训练的采集 agent 生成(95% 成功率),配合专家示范;(2) 12 个 AirSim 环境 + 1K 真实飞行数据;(3) 轨迹再平衡——用分割函数将轨迹分为避障和目标寻找阶段,平衡两者的训练比例
- 设计动机:解决现有数据集的两个问题——过度依赖指令跟随 + 缺乏真实数据。再平衡解决了长时导航中避障行为占主导的类别不平衡
-
两阶段训练策略:
- Stage 1: Vision-Language 对齐(使用 Prismatic-VLMs 初始化)
- Stage 2: 带深度信息的 action fine-tuning(LLM backbone lr=2e-5,depth projector lr=1e-4,80K steps)
损失函数 / 训练策略¶
使用基础 LLM 的交叉熵损失(autoregressive action token prediction)。将 LLaMA2 词表最后 256 个 token 用作 action token 的映射空间。
实验关键数据¶
主实验¶
| 方法 | Overall SR↑ | CR↓ | PER↑ |
|---|---|---|---|
| RT-1 | 24.3 | 65.1 | 61.1 |
| RT-2 | 41.9 | 26.0 | 73.7 |
| OpenVLA | 44.0 | 24.5 | 75.1 |
| AutoFly | 47.9 | 21.9 | 77.3 |
真实环境 Sim-to-Real¶
| 场景 | Sim:Real 比例 | SR | CR | PER |
|---|---|---|---|---|
| 室内 | 0K:1K | 10 | 40 | 61.1 |
| 室内 | 10K:1K | 60 | 30 | 76.5 |
| 室外 | 10K:1K | 55 | 35 | 75.1 |
关键发现¶
- 伪深度编码器贡献 3.9% SR 提升和 2.6% CR 降低(对比无深度的 OpenVLA),在密集障碍物环境中优势明显
- Siamese 投影器优于 Non-Siamese 和直接深度融合——参数共享强制一致的特征映射
- 真实环境中室内 60% 和室外 55% 的成功率差距仅 5%,说明环境适应性较好
- 模拟数据量增加持续改善真实世界表现(10→25→60% SR),证实大规模模拟+少量真实数据的策略有效
- 数据再平衡对训练至关重要——避障行为的 KL 散度约 0.36,不平衡会导致学习偏差
亮点与洞察¶
- 从指令跟随到自主导航的范式转变:现有无人机 VLN 研究都在做"按步骤飞",本文首次系统地做"给个大方向自己飞",更接近真实需求
- 伪深度是聪明的工程选择:用 Depth Anything V2 替代深度相机,既避免了 sim-to-real gap 又减少硬件依赖
- 数据再平衡策略通用性强:长时序控制任务中行为分布不均衡是普遍问题,分阶段再平衡的方法可以迁移
局限与展望¶
- 成功率绝对值仍不高(模拟 47.9%,真实 55-60%),离实用还有距离
- 仅 3DOF 动作空间(线速度),未处理姿态角控制
- 数据集规模相对小(13K 轨迹 vs OpenFly 100K),语言指令也很简短(avg 12 words)
- 深度编码器依赖 Depth Anything V2 的质量,在极端环境下深度估计可能失效
相关工作与启发¶
- vs OpenVLA: AutoFly 在 OpenVLA 基础上增加伪深度编码器和导航专用数据集,在所有指标上稳定提升
- vs AerialVLN/OpenUAV: 这些数据集侧重指令跟随,平均指令 83-104 words;AutoFly 数据集仅 12 words,更贴合粗粒度引导的真实场景
- vs training-free 方法(VLM zero-shot): 不需要微调但在密集障碍物环境中缺乏高频反应控制能力
评分¶
- 新颖性: ⭐⭐⭐⭐ 自主导航范式和伪深度设计有新意
- 实验充分度: ⭐⭐⭐⭐ 模拟+真实环境、多消融,但绝对性能偏低
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据集描述详细
- 价值: ⭐⭐⭐⭐ 无人机自主导航方向的重要探索