Parse, Search, and Confirmation: Training-Free Aerial Vision-and-Dialog Navigation with Chain-of-Thought Reasoning and Structured Spatial Memory¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/QY6616/PSC-AVDN （待开源）
领域: 机器人 / 具身导航
关键词: 空中视觉对话导航, 无人机, 免训练, 思维链, 空间记忆

一句话总结¶

针对"高空无人机视觉对话导航（AVDN）以往都得监督微调、换环境就要重标重训"的痛点，本文提出免训练框架 PSC-AVDN：把 MLLM 的导航拆成"解析—搜索—确认"三段式思维链，再配一个结构化空间记忆（SSM）补足 MLLM 缺失的空间/历史信息，在 ANDH / ANDH-Full 上拿到免训练设定下的 SOTA，甚至追平或超过若干微调方法。

研究背景与动机¶

领域现状：空中视觉对话导航（AVDN）让无人机按自然语言指令飞行、并通过对话消歧。它是高空俯视视角（类似遥感图），覆盖范围广、地标小而稀疏，适合救灾、环境监测、地理测绘等场景。以往 AVDN 方法基本都靠监督微调。

现有痛点：监督微调代价高——算力、标注都贵，而且换新环境就得重标重训、跨域泛化差。一个自然的想法是直接拿 MLLM 免训练做：把当前视图+对话指令喂给 MLLM，用任务提示驱动它一步步搜目标。但这样朴素迭代搜索很不可靠，原因有二。① 方向 grounding 弱：MLLM 训练数据以近距离、地面视角为主，碰到"往右偏一点""朝你 10 点钟方向"这类抽象方位词，翻译不成反映无人机空间布局的几何线索，早早就走错；而且高空俯视下地标小、纹理稀疏，难对齐图文。② 缺全局空间理解和时序状态跟踪：AVDN 要记住去过哪、多步更新对环境的信念，但自回归、语言驱动的推理没有建图或长程一致性的结构化机制，每帧都被孤立地解释，复杂场景里导航不稳。

核心矛盾：MLLM 的视觉语言先验（近景、地面）和 AVDN 需要的几何空间推理（高空、俯视）之间存在域差，且语言驱动推理天生没有显式空间记忆。

本文目标：把上述两个限制分别破掉——(1) 让方向理解与高空目标定位解耦；(2) 给 MLLM 补一套显式的结构化空间记忆。

核心 idea：用"解析-搜索-确认"三段式思维链承载 (1)，用结构化空间记忆 SSM 承载 (2)，全程免训练，纯靠 MLLM 原生能力 + 提示工程。

方法详解¶

整体框架¶

AVDN 任务含 \(L\) 轮对话，每轮 \(l\) 收到指令 \(U_l\)，PSC-AVDN 执行一次完整的"解析(Parsing)→搜索(Search)→确认(Confirmation)"循环，输出该轮目标框 \(B_l=(x^1_l,y^1_l,x^2_l,y^2_l)\)，最后一轮的框是导航终点。解析阶段用一个通用 LLM 把含糊的对话指令转成稳定的几何方向线索和目的地描述；搜索阶段用 Search-CoT（S-CoT）在高空观测下分步探索、逐步收缩候选区域；确认阶段用 Confirmation-CoT（C-CoT）在候选区周围做细粒度核验、消歧定到唯一目标。贯穿搜索与确认两段的是结构化空间记忆 SSM，它持续提供多尺度视觉观测、空间视觉记忆、结构化几何记忆三路互补线索，给推理补上全局空间上下文和长程一致性。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["对话指令 Ul + 无人机当前视图"] --> B["解析阶段 + 航向解析 HR<br/>方向/目的地解耦，'10点钟'→绝对角 237°"]
    B --> C["搜索 S-CoT<br/>四步推理逐步收缩候选区域"]
    C --> D["确认 C-CoT<br/>候选区细粒度核验消歧，定唯一目标框 Bl"]
    E["结构化空间记忆 SSM<br/>MVO + SVM + SGM"] --> C
    E --> D
    D --> F["输出目标框 Bl，并更新 SSM 记忆"]

关键设计¶

1. 解析阶段 + 航向解析（HR）：把含糊方位词解耦成可执行的绝对角

痛点是 MLLM 翻译不了"10 点钟""往右偏一点"这类抽象方位。作者先用通用 LLM（DeepSeek-V3）把对话指令 \(U\) 结构化分解，抽出运动方向短语 \(s_{dir}\) 和目的地描述 \(s_{des}\)。但 \(s_{dir}\) 形式五花八门（"3 o'clock"、"120°"、"north-east"），于是设计 Heading Resolution（HR） 模块用基于规则的解析把时钟式、度数式、罗盘式统一映射成 \([0,2\pi)\) 内的绝对角 \(\alpha\)；再结合无人机当前方位 \(\phi\) 算相对航向：

\[\delta = \mathrm{wrap}(\alpha - \phi),\]

\(\mathrm{wrap}(\cdot)\) 把角归一到 \([0,2\pi)\)。比如图中"10 点钟"被转成绝对"237°"。这样把"方向理解"从"高空目标定位"里剥出来单独、可靠地解决，后续推理拿到的是稳定可执行的几何信号 \(\delta\) 加目的地描述 \(s_{des}\)，避免方向歧义导致早期失败。

2. 搜索思维链 S-CoT：把目标搜索拆成四步可解释推理

朴素让 MLLM"看图找目标"在高空大场景里很飘。S-CoT 把搜索拆成四个串行子步：① 目的地分析——对 \(s_{des}\) 做语义解析，抽出目标类别（"warehouse"）、显著参照（"red building"）、空间关系（"on the left side"）作为显式约束；② 场景理解——用 SSM 提供的多尺度观测 \(V_t\) 和空间视觉记忆 \(M_t\) 构建对当前视图的整体理解；③ 参考网格图生成——把主视图划成 \(N\times N\) 网格、给每格打预定义类别标签，生成结构化几何记忆 \(R_t\)，帮模型更结构化地理解场景；④ 目标定位——基于视觉特征和目的地信息在主视图里框出候选目标区域，命中后进入确认阶段。这套显式分步把候选区一步步收窄，提升了 MLLM 在复杂空中搜索里的稳定性和可解释性。

3. 确认思维链 C-CoT：候选区细粒度消歧定唯一目标

即便搜到目标附近，高空俯视下目标仍小、尺度变化大、地标弱、和周边空间语义关系复杂，光靠 S-CoT 难精确定位。C-CoT 的核心是用可解释推理链对候选区做核验和消歧：先强制模型基于目的地描述生成可验证的逐步推理，再用多尺度视图核对空间和关系约束，依据更细的局部结构、方向、邻接关系逐步排除错误候选。例如指令"left side 有红楼的大仓库"，模型先找大仓库、再查其左侧是否有红楼、最后验证两者的空间邻接关系，最终确定唯一目标区域、输出当前轮 bbox \(B\)（并附置信度和简短视觉证据）。C-CoT 里同样提示模型生成参考网格图辅助空间感知。

4. 结构化空间记忆（SSM）：给 MLLM 补三路显式空间/历史线索

痛点是只靠单帧主视图，MLLM 缺全局空间和时序状态。SSM 在推理链中渐进运行，提供三类互补线索：① 多尺度视觉观测（MVO）——对全局遥感图 \(I\) 按尺度因子 \(s_i\) 重采样得到不同尺度切片 \(V^i_t=\mathrm{Resample}(I,s_i)\)，拼成 \(V_t=[V^1_t,\dots,V^M_t]\)，让模型同时看大场景布局和细节（实现用尺度因子 3/5/7）；② 空间视觉记忆（SVM）——把历史主视图、轨迹和朝向融进一张全局坐标系下的记忆画布，更新式为 \(M_t=(M_{t-1}\oplus V_t)\oplus(T_t\oplus\theta_t)\)（\(\oplus\) 为拼接），用凸包生成统一空间掩码表示累计覆盖，维持对已探索区域的感知、抑制长程漂移；③ 结构化几何记忆（SGM）——提示模型把中尺度视图 \(V^m_t\) 划成 \(N\times N\) 网格、给每格赋语义标签 \(c_j\)（从对话里统计出的 12 个高频类别），得 \(\bar R_t=[r_1,\dots,r_{N^2}]\)（\(r_j=(p_j,c_j)\)），再 \(R_t=\mathrm{Update}(R_{t-1},\bar R_t)\) 持续更新，为多步空间推理提供稳定结构先验。三者一起喂给 S-CoT 和 C-CoT。

一个完整示例¶

以"head towards your 4 o'clock till you reach a large warehouse with a red building on the left side"为例：解析——LLM 抽出方向"4 o'clock"、目的地"left 有红楼的大仓库"，HR 把"4 点钟"转成绝对航向"190°"；搜索 S-CoT——目的地分析得（仓库 / 红楼 / 在左）三约束，场景理解用 MVO+SVM，生成 5×5 参考网格图（SGM），在主视图定位到候选仓库；确认 C-CoT——核验"中央灰顶建筑是大仓库""其左侧确有红楼""二者邻接"，排除其他候选，输出唯一目标 bbox 并更新 SSM 记忆，进入下一轮对话。

实验关键数据¶

主实验¶

在 ANDH（子轨迹）和 ANDH-Full（完整轨迹，更长程）上评测，指标为 SR（成功率）、SPL（按路径长度加权的成功率）、GP（目标进度）。下表取 ANDH Unseen Val.：

方法	设定	SPL	SR	GP
GPT-4o	免训练	3.4	3.9	-11.8
Qwen-VL-Max	免训练	8.7	9.2	5.5
PSC-AVDN（本文）	免训练	17.8	22.6	39.2
FELA	监督微调	17.2	20.6	63.0
HAA-LSTM	监督微调	18.3	20.0	54.4

本文在免训练设定下大幅超过 GPT-4o / Qwen-VL-Max 等通用 MLLM 基线，SPL/SR 上甚至追平或超过若干监督微调方法（如 FELA）；在更长程的 ANDH-Full 上同样取得整体 SOTA（如 Seen Val. SPL 19.1 / SR 22.3 / GP 75.1）。GP 仍低于部分微调法，说明长程进度上免训练还有差距。

消融实验¶

三段式推理（ANDH Unseen Val.，Table 2）：

配置	SPL	SR	GP
基线（Qwen-VL-Max 迭代搜索）	8.7	9.2	5.5
+ Parsing	13.5	14.6	26.2
+ Parsing + Search	15.6	17.5	25.8
+ Parsing + Search + Confirmation	16.3	19.3	35.7

SSM 组件（Table 3，在三段式之上叠加）：

配置	SPL	SR	GP
无 SSM	16.3	19.3	35.7
+ SVM	16.5	20.4	36.6
+ SVM + MVO	16.6	21.1	38.3
+ SVM + MVO + SGM（完整）	17.8	22.6	39.2

关键发现¶

三段式逐级有效：Parsing 贡献最大的一跳（SR 9.2→14.6、GP 5.5→26.2），印证"方向解耦"是朴素 MLLM 导航的最大短板；Search、Confirmation 继续累积增益。
SSM 三组件叠加单调涨点，SVM（历史记忆）先带来时空一致性，MVO（多尺度）补局部+全局感知，SGM（参考网格图）收尾把空间推理拉到最优。
参考网格大小敏感（Table 4）：5×5 最佳（SPL 17.8 / SR 22.6 / GP 39.2），过细（10×10）或过粗（3×3）都掉点，说明网格粒度要匹配高空地标的尺度。

亮点与洞察¶

"方向解耦"是朴素 MLLM 导航的最大收益点：消融里 Parsing 单步就把 SR 翻倍、GP 从 5.5 跳到 26.2——把抽象方位词用规则化 HR 转成绝对角，比让 MLLM 硬猜方向有效得多，这个 trick 可迁移到任何"语言里带方位词"的具身任务。
全程免训练却追平微调法：纯靠通用 LLM（解析）+ 通用 MLLM（搜索确认）+ 提示工程，不碰任何 task-specific 训练，换环境无需重标重训，这对实际无人机部署的资源效率很有价值。
让 MLLM 自己画网格当空间记忆：SGM 不依赖 Grounded-SAM、OpenGIS 等外部模型（对比 GeoNav），只在推理链里提示 MLLM 生成参考网格图，零外部依赖地补上了结构化空间先验。

局限与展望¶

GP（目标进度）仍明显低于部分监督微调法，长程进度上免训练有差距；高空小目标的精确终点定位仍是瓶颈。
依赖强通用 LLM/MLLM（DeepSeek-V3 + Qwen-VL-Max）的现成能力，整体性能受底座上限和推理成本约束；多步 CoT + 多尺度切片推理开销不小。
HR 是基于规则的方位解析，对训练集里未覆盖的非常规方位表达可能解析失败。
参考网格语义类别（12 类）和网格大小（5×5）从数据集统计得来，换到差异较大的新场景可能需要重调。

评分¶

新颖性: ⭐⭐⭐⭐ 首个三段式结构化推理的免训练 AVDN 框架，HR 解耦 + SSM 三路记忆组合有新意。
实验充分度: ⭐⭐⭐⭐ 两数据集三指标 + 三段式/SSM/网格大小多层消融完整，但缺对不同 MLLM 底座的系统横评（仅附录提及）。
写作质量: ⭐⭐⭐⭐ 动机—两限制—两对策的结构清晰，示例和公式交代到位。
价值: ⭐⭐⭐⭐ 免训练即可追平微调法，对资源受限的无人机导航部署有实际意义。