跳转至

AVION: Aerial Vision-Language Instruction from Offline Teacher to Prompt-Tuned Network

会议: CVPR 2026
arXiv: 2603.12659
代码: https://github.com/yuhu990424/AVION
领域: 遥感 / 视觉语言模型
关键词: Remote Sensing, 知识蒸馏, prompt tuning, 视觉语言模型, 跨模态检索

一句话总结

AVION 提出一种知识蒸馏框架,通过 LLM 生成语义丰富的遥感文本原型作为 Teacher 监督、同时在 Student 的视觉和文本编码器中注入可学习 prompt,实现三维度对齐蒸馏,在少样本分类和跨模态检索上显著优于现有 PEFT 方法。

研究背景与动机

领域现状:RemoteCLIP、GeoRSCLIP 等遥感专用 VLM 在下游任务上表现优异,但全量微调代价高昂。PEFT 方法(CoOp、MaPLe 等)通过学习少量参数适配新任务。

现有痛点:(1) 语义贫瘠——遥感数据集通常只有类名标签(如"airport"),无法描述同一类的巨大视觉差异(不同区域、季节、传感器);(2) 视觉刚性——多数 PEFT 方法只更新文本端 prompt 而冻结视觉编码器,无法捕获遥感特有的俯视角、尺度变化等特征。

核心矛盾:简单类名与遥感图像丰富视觉模式之间的鸿沟,以及冻结视觉编码器无法适配遥感域的问题。

本文目标 同时解决语义贫瘠和视觉刚性,让 PEFT 方法在遥感场景下有效工作。

切入角度:利用 LLM 生成丰富的类描述作为文本监督,通过视觉-文本-logit 三维蒸馏约束实现稳健适配。

核心 idea:用 LLM 丰富文本原型解决语义贫瘠,用双端 prompt + 三维蒸馏解决视觉刚性,通过 Teacher-Student 框架在推理时无额外开销。

方法详解

整体框架

Offline Teacher 阶段:大模型(GeoRSCLIP ViT-H/14)编码 LLM 生成的类描述,用视觉原型验证后聚合为文本原型 \(\mathbf{t}_k^{T*}\)。Training Student 阶段:小模型(GeoRSCLIP ViT-B/32)注入视觉和文本 prompt,通过三维度蒸馏对齐学习。推理阶段:仅用 Student 前向传播。

关键设计

  1. Selective Prototype Aggregation(选择性原型聚合):

    • 功能:从 LLM 生成的候选描述中筛选并聚合出每类的文本原型
    • 核心思路:先用 Gemini 2.5 Flash 为每类生成至多 50 条遥感视角描述,用 RS-Flag 标记遥感相关性。计算 Teacher 视觉原型 \(\hat{\mathbf{v}}_k^T = \frac{1}{|\mathcal{B}_k|}\sum_i \mathbf{v}_{k,i}^T\),评估每条描述与视觉原型的相似度 \(s_{k,j} = (\hat{\mathbf{v}}_k^T)^\top \mathbf{t}_{k,j}^T\),用 Median/MAD z-score 去除异常值,最后按 \(w_{k,j} \propto \exp(\beta s_{k,j} + \gamma \cdot \text{RS-Flag}_{k,j})\) 加权聚合为最终原型
    • 设计动机:LLM 可能产生非视觉或非遥感相关的幻觉描述,通过视觉原型验证和统计过滤确保文本原型的质量和遥感相关性
  2. 双端 Prompt Tuning:

    • 功能:在 Student 的视觉和文本编码器中同时注入可学习 prompt
    • 核心思路:文本端类似 CoOp 学习上下文 token,视觉端类似 VPT 在 ViT 每层注入 prompt token。两端 prompt 都保持 backbone 冻结,只更新 prompt 参数
    • 设计动机:视觉端 prompt 让编码器获得适配遥感倾斜视角等特征的灵活性,解决视觉刚性;文本端 prompt 吸收 Teacher 的丰富语义知识
  3. Tri-Aspect Alignment(三维度对齐蒸馏):

    • 功能:同时对齐视觉嵌入、文本嵌入和相似度 logit
    • 核心思路:\(\mathcal{L}_{\text{img}} = 1 - (\mathbf{v}_i^S)^\top \mathbf{v}_i^T\) 对齐视觉特征;\(\mathcal{L}_{\text{text}} = 1 - (\mathbf{t}_k^S)^\top \mathbf{t}_k^{T*}\) 对齐文本原型;\(\mathcal{L}_{\text{logit}} = \tau^2 \text{KL}(\sigma(\mathbf{s}^T/\tau) \| \sigma(\mathbf{s}^S/\tau))\) 对齐跨模态相似度分布。总损失 \(\mathcal{L} = \mathcal{L}_{\text{task}} + 0.5\mathcal{L}_{\text{img}} + 0.5\mathcal{L}_{\text{text}} + \mathcal{L}_{\text{logit}}\),logit 项有 30% 线性 warmup
    • 设计动机:仅对齐嵌入不够,还需对齐类间关系结构(通过 logit distillation),这样 Student 不仅学到单个类的表征,还学到类间的相对关系

损失函数 / 训练策略

总损失加任务分类交叉熵。AdamW 优化器 lr=5e-4,少样本 100 epochs,base-to-novel 50 epochs。蒸馏温度 \(\tau=2\),logit 权重有线性 warmup。

实验关键数据

主实验(6 数据集平均 Few-shot 分类精度)

方法 1-shot 2-shot 4-shot 8-shot 16-shot
GeoRSCLIP (zero-shot) 72.95
CoOp 69.98 78.95 84.52 87.57 90.24
CoCoOp 70.27 80.56 85.74 88.93 91.41
MMRL 70.57 79.47
AVION 73.12 82.34 87.21 90.48 92.85

消融实验(AID 数据集 16-shot)

配置 Base Acc Novel Acc HM 说明
AVION 完整 95.2 88.7 91.8 唯一在 base 和 novel 上都超过基线的方法
w/o 文本对齐 94.1 85.3 89.5 文本原型监督对新类泛化关键
w/o 视觉 prompt 94.8 86.1 90.3 视觉端 prompt 提升域适配
w/o logit 对齐 94.5 87.2 90.7 logit 蒸馏提供类间关系
w/o RS-Flag 94.9 87.5 91.1 RS 标记过滤改善原型质量

关键发现

  • AVION 是唯一在 base-to-novel 设置中 base 和 novel 精度都超过 GeoRSCLIP 基线的方法,说明蒸馏不损害泛化
  • 文本原型聚合中 RS-Flag 和视觉验证缺一不可,去掉导致 Novel Acc 下降
  • 跨模态检索上 mR 也有提升,说明三维蒸馏改善了整体的模态对齐质量

亮点与洞察

  • 语义贫瘠问题的诊断精准:遥感数据集仅有类名标签是 PEFT 失效的根本原因,通过 LLM 生成丰富描述是优雅的解决方案
  • 选择性原型聚合机制巧妙:像一个无参数的 cross-attention,视觉原型做 query,文本描述做 key/value,自动过滤不良描述并平衡聚合权重
  • 三维蒸馏保持泛化:logit 对齐保留了类间关系结构,是 AVION 在 novel 类上不退化的关键

局限与展望

  • 依赖 LLM 的描述质量,对非英语或非常规遥感类别可能产生低质量描述
  • Teacher 模型固定为 GeoRSCLIP ViT-H/14,换用其他 backbone 需重新构建原型
  • 未在检测/分割等更复杂的遥感下游任务上验证

相关工作与启发

  • vs CoOp/CoCoOp: 这些方法只学文本 prompt 且缺乏丰富语义监督,在遥感上严重受限于"语义贫瘠"
  • vs PromptKD: 也用蒸馏训练 prompt,但依赖无标签图像 logit,不解决文本端语义贫乏
  • vs MaPLe: 双端 prompt 有类似,但 MaPLe 缺少 LLM 文本增强和选择性聚合

评分

  • 新颖性: ⭐⭐⭐⭐ 问题诊断准确,解决方案系统且完整
  • 实验充分度: ⭐⭐⭐⭐ 六个数据集 + 三种任务设置 + 充分消融
  • 写作质量: ⭐⭐⭐⭐ 动机推导清晰,图表设计好
  • 价值: ⭐⭐⭐⭐ 遥感 VLM 适配的实用方案