跳转至

Controllable Navigation Instruction Generation with Chain of Thought Prompting

会议: ECCV 2024
arXiv: 2407.07433
代码: https://github.com/refkxh/C-Instructor
领域: LLM推理
关键词: Navigation Instruction Generation, Chain of Thought, LLM, Style Control, Landmark

一句话总结

提出 C-Instructor,利用 Chain-of-Thought with Landmarks (CoTL) 机制引导 LLM 先识别关键地标再生成指令,结合空间拓扑建模任务 (STMT) 和风格混合训练 (SMT),实现风格可控和内容可控的导航指令生成,在四个室内外 benchmark 上全面超越 SOTA。

研究背景与动机

  1. 领域现状:导航指令生成是跨学科研究热点(机器人、认知科学),在人机协作、盲人辅助和安全导航中有重要应用。现有方法通常仅能从特定数据集生成单一风格指令。
  2. 现有痛点:现有指令生成模型缺乏可控性——无法控制指令风格(详细 vs 抽象)和内容(选择哪些地标)。大多数方法忽视导航环境的空间建模,对 3D 空间结构理解不足。
  3. 核心矛盾:一个实用的指令生成模型需要同时具备高质量可执行性和风格/内容可控性,但单一模型难以兼顾。
  4. 本文要解决什么:构建一个可控的导航指令生成器,能生成不同风格、不同地标关注的高质量指令。
  5. 切入角度:利用 LLM 的语言能力 + CoT 推理 + 适配器将路径信息注入 LLM + 多风格混合训练。
  6. 核心 idea 一句话:先用 CoT 识别地标 → 再据此生成完整指令 → 混合训练支持风格切换 → 空间拓扑建模增强空间理解。

方法详解

整体框架

C-Instructor 基于 LLaMA-Adapter 架构:(1) Trajectory Encoder 用 CLIP + ViT blocks 编码全景视觉特征和动作信息;(2) LLM Adapter 通过 zero-initialized attention 逐层注入轨迹特征到 LLM;(3) STMT 辅助任务增强空间认知;(4) CoTL 先预测地标再生成指令;(5) SMT 混合训练实现风格控制。

关键设计

  1. Trajectory Encoder(轨迹编码器)

    • 做什么:将导航路径的视觉和动作信息编码为 LLM 可用的特征。
    • 核心思路:每步 36 个子视图用 CLIP-ViT-L-14 提取视觉特征 + 线性投影 + LayerNorm。添加空间位置编码 \(pos_k^v\)、历史编码 \(pos_t^h\),以及区分动作视图/非动作视图的特殊 token。\(M\) 个 aggregator tokens 与子视图特征拼接后送入 8 层 ViT blocks 聚合。
    • 设计动机:区分动作方向和观察方向的编码让模型理解 "去了哪里" vs "看到了什么"。
  2. Spatial Topology Modeling Task (STMT)(空间拓扑建模任务)

    • 做什么:辅助训练任务,增强模型对环境空间连通性的理解。
    • 核心思路:给定轨迹 \(\{r_1, ..., r_t\}\),模型预测从 \(r_t\) 返回 \(r_{t-1}\) 的动作 \(a_t^p\)。引入特殊 token \(\mathbf{x}_0^a\),在 LLM 第 \(L_s\) 层之后通过 cross-attention 聚合视觉特征,用注意力机制预测 36 个子视图上的动作分布。交叉熵损失与主任务联合优化。
    • 设计动机:LLM 和视觉编码器在网络数据上预训练,空间认知能力有限。预测回退动作迫使模型理解空间拓扑关系。
  3. Chain of Thought with Landmarks (CoTL)(地标思维链)

    • 做什么:引导模型先识别关键地标,再据此生成完整指令。
    • 核心思路
    • 地标选择:从两个角度选择地标——时间角度(场景变换处的视点,用全景特征余弦距离度量 \(\delta_t^\tau\))+ 空间角度(动作视图中独特的物体,用与其他候选视图的余弦距离度量 \(\delta_{t,n}^a\))。最终分数 \(\delta_{t,n} = \delta_{t,n}^a \cdot \delta_t^\tau\),超过阈值 \(\beta=0.25\) 的被选中。
    • 训练:先用 \(prompt_\lambda\) 训练地标预测,再用 \(prompt_w\) + 预测地标训练指令生成。
    • 推理:两阶段——先预测地标 \(\Lambda\),再以地标为条件生成指令。
    • 设计动机:认知心理学研究表明人类描述路线时先在认知地图中识别关键导航点;CoT 范式让模型显式关注地标。修改地标可控制指令内容。
  4. Style-Mixed Training (SMT)(风格混合训练)

    • 做什么:在单一模型中支持多种指令风格的生成。
    • 核心思路:混合不同风格的指令数据集(如 R2R 的步骤级指令、REVERIE 的高层描述、RxR 的细粒度指令)进行联合训练。不同风格用不同 textual prompt 区分,推理时切换 prompt 即可切换风格。
    • 设计动机:单风格训练数据有限易过拟合;多风格混合增加数据量且让 LLM 利用先验知识区分风格。

损失函数 / 训练策略

  • 主损失:自回归交叉熵损失(指令 tokens + 地标 tokens)
  • 辅助损失:STMT 的交叉熵损失 \(\mathcal{L}_a\)
  • 预训练:在 PREVALENT 240K iterations (batch 16)
  • 微调:在多数据集联合 120K iterations (batch 4)
  • 参数:仅微调 LLM 最后 2 层 + adapter 参数,冻结前 30 层和 CLIP 视觉编码器

实验关键数据

主实验

R2R Val Unseen 指令生成对比:

方法 SPICE↑ CIDEr↑ Meteor↑ BLEU-4↑
BT-speaker 0.113 0.113 0.167 0.149
CCC-speaker 0.108 0.120 0.164 0.139
Lana 0.174 0.295 0.213 0.236
C-Instructor 0.212 0.447 0.239 0.266

REVERIE Val Unseen:

方法 SPICE↑ CIDEr↑ Meteor↑
Lana 0.107 0.327 0.239
C-Instructor 0.139 0.464 0.259

消融实验

各组件对 R2R Val Unseen 的贡献:

设置 SPICE↑ CIDEr↑
Baseline (w/o CoTL, STMT, SMT) ~0.19 ~0.38
+ STMT ~0.20 ~0.41
+ CoTL ~0.21 ~0.44
+ SMT (full) 0.212 0.447

关键发现

  • C-Instructor 在 R2R Val Unseen 上 SPICE 提升 21.8%(vs Lana),CIDEr 提升 51.5%
  • CoTL 的地标先识别后生成范式显著提升指令中的地标准确性
  • SMT 混合训练不仅支持风格控制,还整体提升了指令质量
  • STMT 辅助任务对 CIDEr 的提升最显著,说明空间理解改善了方向描述
  • 生成的指令作为数据增强可提升 VLN 导航器性能

亮点与洞察

  • 可控性:单一模型通过 prompt 切换实现风格控制 + 通过修改地标实现内容控制
  • 认知科学驱动:CoTL 设计源自人类路线描述的认知机制,不是简单的工程优化
  • 地标选择算法:结合时间(场景转换)和空间(视角独特性)两个维度选择地标,设计合理
  • 实用性:可根据接收者的环境熟悉度调整指令抽象程度

局限性 / 可改进方向

  • 仅用 CLIP 特征的余弦距离选择地标,可尝试更精细的物体级选择
  • 风格混合训练中各数据集的比例未仔细调优
  • LLM 仅微调最后 2 层,参数效率极高但可能限制了表达能力
  • 未引入 3D/BEV 特征,空间理解仍基于 2D 视觉特征

相关工作与启发

  • 与 BEVInstructor 是同期工作,C-Instructor 侧重可控性而非 3D 感知
  • LLaMA-Adapter 的架构在导航指令生成中被证明有效
  • CoT 范式在指令生成中的应用是自然且有效的扩展
  • 启发:指令生成不仅要追求质量,可控性也是实用化的关键

评分

  • ⭐⭐⭐⭐ 新颖性:CoTL + STMT + SMT 的组合设计新颖,风格控制是独特贡献
  • ⭐⭐⭐⭐⭐ 实验充分度:4 个 benchmark、多 baseline、消融完整、导航器评估和人类评估
  • ⭐⭐⭐⭐⭐ 写作质量:动机清晰,各组件设计动机阐述充分
  • ⭐⭐⭐⭐ 价值:可控指令生成是实用价值极高的研究方向,全面 SOTA 证明方法有效