AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild¶

会议: ICLR 2026
arXiv: 2602.09657
代码: https://xiaolousun.github.io/AutoFly
领域: 遥感
关键词: VLA, UAV navigation, pseudo-depth, autonomous navigation, sim-to-real

一句话总结¶

提出 AutoFly，一个面向无人机野外自主导航的端到端 VLA 模型，通过伪深度编码器从 RGB 输入推断空间信息，配合新构建的自主导航数据集（13K+ 轨迹含 1K 真实飞行），在模拟和真实环境中比 OpenVLA 成功率高 3.9%，碰撞率低 2.6%。

领域现状：无人机 VLN（Vision-Language Navigation）主要依赖详细的逐步指令沿预定路线飞行，在受控环境中表现良好。

现有痛点：真实户外探索发生在未知环境中，无法提供详细导航指令，只能给出粗粒度的方向或位置指引。现有方法假设了完整的环境知识和详尽指令，这在实际中不成立。同时，现有数据集过度依赖指令跟随而非自主决策，且缺乏真实世界数据。

核心矛盾：2D 地面机器人的 VLA 方法不适用于 3D 空间的无人机导航——无人机需要精确的深度估计、全方向避障和海拔控制，仅靠 RGB 输入的空间推理能力不足。

本文目标 让无人机在只有粗粒度引导（"飞向那棵树"）的情况下完成自主导航、避障和目标识别。

切入角度：引入伪深度编码器增强空间理解（无需额外深度传感器），构建强调自主行为建模的导航数据集。

核心 idea：用伪深度增强的 VLA 模型 + 自主导航数据集，让无人机从指令跟随升级到自主导航。

AutoFly 以 RGB 观测和自然语言指令为输入，通过视觉-语言模型（LLaVA-based）+ 伪深度编码器生成深度感知特征，融合后由 LLM 输出离散 action token，再经 de-tokenizer 映射为连续速度指令。

伪深度编码器（Pseudo-Depth Encoder）:
- 功能：从单目 RGB 输入推断深度并编码为与视觉 token 对齐的空间表示
- 核心思路：用 Depth Anything V2 从 RGB 生成深度图，通过 patch embedding + 深度投影器将深度 token 投影到视觉特征空间。采用 Siamese MLP 投影器（与视觉编码器共享参数），强制深度和视觉特征学习一致的映射
- 设计动机：避免使用真实深度相机（1. AirSim 深度过于理想化，导致 sim-to-real gap；2. 减少无人机载荷和成本），Siamese 架构通过参数共享隐式正则化防止两个模态的表示发散
自主导航数据集构建:
- 功能：构建 13K+ 轨迹的数据集，强调自主行为而非指令跟随
- 核心思路：(1) 地面真值轨迹由 SAC RL 训练的采集 agent 生成（95% 成功率），配合专家示范；(2) 12 个 AirSim 环境 + 1K 真实飞行数据；(3) 轨迹再平衡——用分割函数将轨迹分为避障和目标寻找阶段，平衡两者的训练比例
- 设计动机：解决现有数据集的两个问题——过度依赖指令跟随 + 缺乏真实数据。再平衡解决了长时导航中避障行为占主导的类别不平衡
两阶段训练策略:
- Stage 1: Vision-Language 对齐（使用 Prismatic-VLMs 初始化）
- Stage 2: 带深度信息的 action fine-tuning（LLM backbone lr=2e-5，depth projector lr=1e-4，80K steps）

使用基础 LLM 的交叉熵损失（autoregressive action token prediction）。将 LLaMA2 词表最后 256 个 token 用作 action token 的映射空间。

方法	Overall SR↑	CR↓	PER↑
RT-1	24.3	65.1	61.1
RT-2	41.9	26.0	73.7
OpenVLA	44.0	24.5	75.1
AutoFly	47.9	21.9	77.3

场景	Sim:Real 比例	SR	CR	PER
室内	0K:1K	10	40	61.1
室内	10K:1K	60	30	76.5
室外	10K:1K	55	35	75.1