跳转至

AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild

会议: ICLR 2026
arXiv: 2602.09657
代码: https://xiaolousun.github.io/AutoFly
领域: 遥感
关键词: VLA, UAV navigation, pseudo-depth, autonomous navigation, sim-to-real

一句话总结

提出 AutoFly,一个面向无人机野外自主导航的端到端 VLA 模型,通过伪深度编码器从 RGB 输入推断空间信息,配合新构建的自主导航数据集(13K+ 轨迹含 1K 真实飞行),在模拟和真实环境中比 OpenVLA 成功率高 3.9%,碰撞率低 2.6%。

研究背景与动机

领域现状:无人机 VLN(Vision-Language Navigation)主要依赖详细的逐步指令沿预定路线飞行,在受控环境中表现良好。

现有痛点:真实户外探索发生在未知环境中,无法提供详细导航指令,只能给出粗粒度的方向或位置指引。现有方法假设了完整的环境知识和详尽指令,这在实际中不成立。同时,现有数据集过度依赖指令跟随而非自主决策,且缺乏真实世界数据。

核心矛盾:2D 地面机器人的 VLA 方法不适用于 3D 空间的无人机导航——无人机需要精确的深度估计、全方向避障和海拔控制,仅靠 RGB 输入的空间推理能力不足。

本文目标 让无人机在只有粗粒度引导("飞向那棵树")的情况下完成自主导航、避障和目标识别。

切入角度:引入伪深度编码器增强空间理解(无需额外深度传感器),构建强调自主行为建模的导航数据集。

核心 idea:用伪深度增强的 VLA 模型 + 自主导航数据集,让无人机从指令跟随升级到自主导航。

方法详解

整体框架

AutoFly 以 RGB 观测和自然语言指令为输入,通过视觉-语言模型(LLaVA-based)+ 伪深度编码器生成深度感知特征,融合后由 LLM 输出离散 action token,再经 de-tokenizer 映射为连续速度指令。

关键设计

  1. 伪深度编码器(Pseudo-Depth Encoder):

    • 功能:从单目 RGB 输入推断深度并编码为与视觉 token 对齐的空间表示
    • 核心思路:用 Depth Anything V2 从 RGB 生成深度图,通过 patch embedding + 深度投影器将深度 token 投影到视觉特征空间。采用 Siamese MLP 投影器(与视觉编码器共享参数),强制深度和视觉特征学习一致的映射
    • 设计动机:避免使用真实深度相机(1. AirSim 深度过于理想化,导致 sim-to-real gap;2. 减少无人机载荷和成本),Siamese 架构通过参数共享隐式正则化防止两个模态的表示发散
  2. 自主导航数据集构建:

    • 功能:构建 13K+ 轨迹的数据集,强调自主行为而非指令跟随
    • 核心思路:(1) 地面真值轨迹由 SAC RL 训练的采集 agent 生成(95% 成功率),配合专家示范;(2) 12 个 AirSim 环境 + 1K 真实飞行数据;(3) 轨迹再平衡——用分割函数将轨迹分为避障和目标寻找阶段,平衡两者的训练比例
    • 设计动机:解决现有数据集的两个问题——过度依赖指令跟随 + 缺乏真实数据。再平衡解决了长时导航中避障行为占主导的类别不平衡
  3. 两阶段训练策略:

    • Stage 1: Vision-Language 对齐(使用 Prismatic-VLMs 初始化)
    • Stage 2: 带深度信息的 action fine-tuning(LLM backbone lr=2e-5,depth projector lr=1e-4,80K steps)

损失函数 / 训练策略

使用基础 LLM 的交叉熵损失(autoregressive action token prediction)。将 LLaMA2 词表最后 256 个 token 用作 action token 的映射空间。

实验关键数据

主实验

方法 Overall SR↑ CR↓ PER↑
RT-1 24.3 65.1 61.1
RT-2 41.9 26.0 73.7
OpenVLA 44.0 24.5 75.1
AutoFly 47.9 21.9 77.3

真实环境 Sim-to-Real

场景 Sim:Real 比例 SR CR PER
室内 0K:1K 10 40 61.1
室内 10K:1K 60 30 76.5
室外 10K:1K 55 35 75.1

关键发现

  • 伪深度编码器贡献 3.9% SR 提升和 2.6% CR 降低(对比无深度的 OpenVLA),在密集障碍物环境中优势明显
  • Siamese 投影器优于 Non-Siamese 和直接深度融合——参数共享强制一致的特征映射
  • 真实环境中室内 60% 和室外 55% 的成功率差距仅 5%,说明环境适应性较好
  • 模拟数据量增加持续改善真实世界表现(10→25→60% SR),证实大规模模拟+少量真实数据的策略有效
  • 数据再平衡对训练至关重要——避障行为的 KL 散度约 0.36,不平衡会导致学习偏差

亮点与洞察

  • 从指令跟随到自主导航的范式转变:现有无人机 VLN 研究都在做"按步骤飞",本文首次系统地做"给个大方向自己飞",更接近真实需求
  • 伪深度是聪明的工程选择:用 Depth Anything V2 替代深度相机,既避免了 sim-to-real gap 又减少硬件依赖
  • 数据再平衡策略通用性强:长时序控制任务中行为分布不均衡是普遍问题,分阶段再平衡的方法可以迁移

局限与展望

  • 成功率绝对值仍不高(模拟 47.9%,真实 55-60%),离实用还有距离
  • 仅 3DOF 动作空间(线速度),未处理姿态角控制
  • 数据集规模相对小(13K 轨迹 vs OpenFly 100K),语言指令也很简短(avg 12 words)
  • 深度编码器依赖 Depth Anything V2 的质量,在极端环境下深度估计可能失效

相关工作与启发

  • vs OpenVLA: AutoFly 在 OpenVLA 基础上增加伪深度编码器和导航专用数据集,在所有指标上稳定提升
  • vs AerialVLN/OpenUAV: 这些数据集侧重指令跟随,平均指令 83-104 words;AutoFly 数据集仅 12 words,更贴合粗粒度引导的真实场景
  • vs training-free 方法(VLM zero-shot): 不需要微调但在密集障碍物环境中缺乏高频反应控制能力

评分

  • 新颖性: ⭐⭐⭐⭐ 自主导航范式和伪深度设计有新意
  • 实验充分度: ⭐⭐⭐⭐ 模拟+真实环境、多消融,但绝对性能偏低
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,数据集描述详细
  • 价值: ⭐⭐⭐⭐ 无人机自主导航方向的重要探索