跳转至

Hierarchical Dual-Change Collaborative Learning for UAV Scene Change Captioning

会议: CVPR2025
arXiv: 2603.12832
代码: 无
领域: 遥感
关键词: UAV, 变化描述, 视角变化, Transformer, 跨模态对齐

一句话总结

提出 UAV 场景变化描述(UAV-SCC)新任务及 HDC-CL 框架,通过动态自适应布局 Transformer 建模移动视角下的图像对重叠/非重叠区域,结合层级跨模态方向一致性校准增强视角偏移方向感知,并构建了专用基准数据集。

研究背景与动机

领域现状

领域现状:传统变化描述(Change Captioning)假设固定视角,图像对像素级对齐,仅描述时间维度的语义变化

现有痛点

现有痛点:UAV 场景中相机处于运动状态,图像对存在视角偏移**导致的空间布局不一致,仅有部分场景重叠

核心矛盾

核心矛盾:两大挑战:(1) 需有效建模重叠与非重叠区域的关系,处理视差效应;(2) 需捕捉视角运动带来的方向线索,以正确解释场景变化

解决思路

解决思路:现有方法主要处理对齐场景下的变化,无法应对 UAV 动态视角带来的部分重叠与空间布局不一致问题

方法详解

HDC-CL 框架三阶段

1. 图像对齐(Image Alignment)

  • Shift Voting 机制:估计图像对重叠区域的掩码

    • 计算两图 patch 间逐对特征相似度,找到每个 patch 的最佳匹配及相对位移 Δ
    • 投票统计各 Δ 出现频率,选择累积相似度最高的 Δ* 作为主导偏移量
    • 据此生成二值 common mask,区分重叠/非重叠区域
  • Dynamic Adaptive Layout Transformer (DALT)

    • 将每张图特征分解为全局(glo)、公共(com)、差异(diff) 三类区域
    • 为每类区域分配可学习 [CLS] token
    • 在统一的多头自注意力编码器中联合建模不同区域,获得区域感知特征

2. 场景变化蒸馏(Scene Change Distillation)

  • 上下文特征解耦:全局/公共/差异各用独立编码器(GE/CE/DE)提取 [CLS] 级语义
  • 层级一致性约束
    • 全局一致性(InfoNCE):对齐图像对的背景语义
    • 区域一致性(InfoNCE):对齐重叠区域的不变语义
    • 独立正则化(HSIC):降低前后差异特征的统计依赖,鼓励捕捉多样变化信息
  • 场景变化蒸馏:跨注意力建模公共区域的跨图对应,残差机制提取局部差异,与全局差异融合得到统一变化表示 D

3. 描述生成(Caption Generation)

  • Transformer 解码器基于变化表示 D 生成方向性描述
  • HCM-OCC(层级跨模态方向一致性校准)
    • 计算视觉方向向量 Δd = D_forward − D_reverse
    • 计算文本方向向量 Δt = T_forward − T_reverse
    • 双向 margin ranking loss 对齐视觉/文本方向语义

总损失

\(\mathcal{L} = \mathcal{L}_{cap} + \lambda(\mathcal{L}_{con} + \mathcal{L}_{align})\)

实验关键数据

UAV-SCC 数据集

  • UAV-SCCSimple:9,017 图像对,平均描述长度 ~27 词,3 条描述/对
  • UAV-SCCRich:7,054 图像对,平均描述长度 ~14 词,5 条描述/对

主实验(与 6 种基线对比)

方法 UAV-SCCSimple (B/M/R/C/S) UAV-SCCRich (B/M/R/C/S)
CARD 27.49/26.23/42.98/48.66/30.76 18.66/16.46/45.03/15.75/11.87
HDC-CL 31.13/27.34/44.58/54.68/33.09 19.26/18.45/44.32/19.16/13.00
  • CIDEr 分数在 Simple 上提升 6.02,Rich 上提升 3.41(相对最强基线 CARD)
  • BLEU-4 在 Simple 上提升 3.64

消融实验

  • 三种损失(global/region/HSIC)联合使用效果最佳
  • DALT 中 shift voting 机制的有效性通过消融验证
  • HCM-OCC 方向一致性校准带来稳定提升
  • 单独使用 HSIC 正则化在 Rich 上 CIDEr 提升 4.38(13.56→17.94)
  • 三损失联合在 Rich 上 CIDEr 最高达 19.16,验证了层级约束的互补性

亮点与洞察

  1. 新任务定义有实际价值:UAV-SCC 填补了移动视角变化描述的空白,比固定视角变化描述更接近真实 UAV 应用
  2. Shift Voting 机制巧妙:无需额外标注即可自适应估计重叠区域,处理视差问题
  3. 方向感知设计独到:HCM-OCC 通过正/反方向差异与文本方向的对齐,赋予模型视角偏移方向的感知能力
  4. 完整的新基准贡献:构建两个版本数据集(Simple/Rich),支持不同粒度评估

局限与展望

  1. 数据集规模相对有限(~9K 对),可能不足以训练大规模模型
  2. 仅使用 ResNet-101 提取特征,未尝试更强的视觉骨干或预训练 VLM
  3. Shift Voting 假设单一全局偏移,对复杂旋转/缩放变换的适应性有限
  4. 描述评估指标(BLEU/METEOR/CIDEr)可能无法完全反映方向描述的准确性
  5. 缺少与大型多模态模型(如 GPT-4V)的对比
  6. 数据集基于现有公开数据集的图像构造,场景多样性可能受限
  7. 前后描述的正反方向仅考虑 forward/reverse 两个方向,未建模更复杂的旋转方向关系

评分

  • 新颖性: ⭐⭐⭐⭐(新任务+整套方法+新数据集)
  • 实验充分度: ⭐⭐⭐⭐(对比充分,消融详细)
  • 写作质量: ⭐⭐⭐⭐(结构清晰,图示直观)
  • 价值: ⭐⭐⭐⭐(UAV 场景理解新方向,benchmark 贡献显著)