AVION: Aerial Vision-Language Instruction from Offline Teacher to Prompt-Tuned Network¶
会议: CVPR 2026
arXiv: 2603.12659
代码: https://github.com/yuhu990424/AVION
领域: 遥感 / 视觉语言模型
关键词: Remote Sensing, 知识蒸馏, prompt tuning, 视觉语言模型, 跨模态检索
一句话总结¶
AVION 提出一种知识蒸馏框架,通过 LLM 生成语义丰富的遥感文本原型作为 Teacher 监督、同时在 Student 的视觉和文本编码器中注入可学习 prompt,实现三维度对齐蒸馏,在少样本分类和跨模态检索上显著优于现有 PEFT 方法。
研究背景与动机¶
领域现状:RemoteCLIP、GeoRSCLIP 等遥感专用 VLM 在下游任务上表现优异,但全量微调代价高昂。PEFT 方法(CoOp、MaPLe 等)通过学习少量参数适配新任务。
现有痛点:(1) 语义贫瘠——遥感数据集通常只有类名标签(如"airport"),无法描述同一类的巨大视觉差异(不同区域、季节、传感器);(2) 视觉刚性——多数 PEFT 方法只更新文本端 prompt 而冻结视觉编码器,无法捕获遥感特有的俯视角、尺度变化等特征。
核心矛盾:简单类名与遥感图像丰富视觉模式之间的鸿沟,以及冻结视觉编码器无法适配遥感域的问题。
本文目标 同时解决语义贫瘠和视觉刚性,让 PEFT 方法在遥感场景下有效工作。
切入角度:利用 LLM 生成丰富的类描述作为文本监督,通过视觉-文本-logit 三维蒸馏约束实现稳健适配。
核心 idea:用 LLM 丰富文本原型解决语义贫瘠,用双端 prompt + 三维蒸馏解决视觉刚性,通过 Teacher-Student 框架在推理时无额外开销。
方法详解¶
整体框架¶
Offline Teacher 阶段:大模型(GeoRSCLIP ViT-H/14)编码 LLM 生成的类描述,用视觉原型验证后聚合为文本原型 \(\mathbf{t}_k^{T*}\)。Training Student 阶段:小模型(GeoRSCLIP ViT-B/32)注入视觉和文本 prompt,通过三维度蒸馏对齐学习。推理阶段:仅用 Student 前向传播。
关键设计¶
-
Selective Prototype Aggregation(选择性原型聚合):
- 功能:从 LLM 生成的候选描述中筛选并聚合出每类的文本原型
- 核心思路:先用 Gemini 2.5 Flash 为每类生成至多 50 条遥感视角描述,用 RS-Flag 标记遥感相关性。计算 Teacher 视觉原型 \(\hat{\mathbf{v}}_k^T = \frac{1}{|\mathcal{B}_k|}\sum_i \mathbf{v}_{k,i}^T\),评估每条描述与视觉原型的相似度 \(s_{k,j} = (\hat{\mathbf{v}}_k^T)^\top \mathbf{t}_{k,j}^T\),用 Median/MAD z-score 去除异常值,最后按 \(w_{k,j} \propto \exp(\beta s_{k,j} + \gamma \cdot \text{RS-Flag}_{k,j})\) 加权聚合为最终原型
- 设计动机:LLM 可能产生非视觉或非遥感相关的幻觉描述,通过视觉原型验证和统计过滤确保文本原型的质量和遥感相关性
-
双端 Prompt Tuning:
- 功能:在 Student 的视觉和文本编码器中同时注入可学习 prompt
- 核心思路:文本端类似 CoOp 学习上下文 token,视觉端类似 VPT 在 ViT 每层注入 prompt token。两端 prompt 都保持 backbone 冻结,只更新 prompt 参数
- 设计动机:视觉端 prompt 让编码器获得适配遥感倾斜视角等特征的灵活性,解决视觉刚性;文本端 prompt 吸收 Teacher 的丰富语义知识
-
Tri-Aspect Alignment(三维度对齐蒸馏):
- 功能:同时对齐视觉嵌入、文本嵌入和相似度 logit
- 核心思路:\(\mathcal{L}_{\text{img}} = 1 - (\mathbf{v}_i^S)^\top \mathbf{v}_i^T\) 对齐视觉特征;\(\mathcal{L}_{\text{text}} = 1 - (\mathbf{t}_k^S)^\top \mathbf{t}_k^{T*}\) 对齐文本原型;\(\mathcal{L}_{\text{logit}} = \tau^2 \text{KL}(\sigma(\mathbf{s}^T/\tau) \| \sigma(\mathbf{s}^S/\tau))\) 对齐跨模态相似度分布。总损失 \(\mathcal{L} = \mathcal{L}_{\text{task}} + 0.5\mathcal{L}_{\text{img}} + 0.5\mathcal{L}_{\text{text}} + \mathcal{L}_{\text{logit}}\),logit 项有 30% 线性 warmup
- 设计动机:仅对齐嵌入不够,还需对齐类间关系结构(通过 logit distillation),这样 Student 不仅学到单个类的表征,还学到类间的相对关系
损失函数 / 训练策略¶
总损失加任务分类交叉熵。AdamW 优化器 lr=5e-4,少样本 100 epochs,base-to-novel 50 epochs。蒸馏温度 \(\tau=2\),logit 权重有线性 warmup。
实验关键数据¶
主实验(6 数据集平均 Few-shot 分类精度)¶
| 方法 | 1-shot | 2-shot | 4-shot | 8-shot | 16-shot |
|---|---|---|---|---|---|
| GeoRSCLIP (zero-shot) | 72.95 | — | — | — | — |
| CoOp | 69.98 | 78.95 | 84.52 | 87.57 | 90.24 |
| CoCoOp | 70.27 | 80.56 | 85.74 | 88.93 | 91.41 |
| MMRL | 70.57 | 79.47 | — | — | — |
| AVION | 73.12 | 82.34 | 87.21 | 90.48 | 92.85 |
消融实验(AID 数据集 16-shot)¶
| 配置 | Base Acc | Novel Acc | HM | 说明 |
|---|---|---|---|---|
| AVION 完整 | 95.2 | 88.7 | 91.8 | 唯一在 base 和 novel 上都超过基线的方法 |
| w/o 文本对齐 | 94.1 | 85.3 | 89.5 | 文本原型监督对新类泛化关键 |
| w/o 视觉 prompt | 94.8 | 86.1 | 90.3 | 视觉端 prompt 提升域适配 |
| w/o logit 对齐 | 94.5 | 87.2 | 90.7 | logit 蒸馏提供类间关系 |
| w/o RS-Flag | 94.9 | 87.5 | 91.1 | RS 标记过滤改善原型质量 |
关键发现¶
- AVION 是唯一在 base-to-novel 设置中 base 和 novel 精度都超过 GeoRSCLIP 基线的方法,说明蒸馏不损害泛化
- 文本原型聚合中 RS-Flag 和视觉验证缺一不可,去掉导致 Novel Acc 下降
- 跨模态检索上 mR 也有提升,说明三维蒸馏改善了整体的模态对齐质量
亮点与洞察¶
- 语义贫瘠问题的诊断精准:遥感数据集仅有类名标签是 PEFT 失效的根本原因,通过 LLM 生成丰富描述是优雅的解决方案
- 选择性原型聚合机制巧妙:像一个无参数的 cross-attention,视觉原型做 query,文本描述做 key/value,自动过滤不良描述并平衡聚合权重
- 三维蒸馏保持泛化:logit 对齐保留了类间关系结构,是 AVION 在 novel 类上不退化的关键
局限与展望¶
- 依赖 LLM 的描述质量,对非英语或非常规遥感类别可能产生低质量描述
- Teacher 模型固定为 GeoRSCLIP ViT-H/14,换用其他 backbone 需重新构建原型
- 未在检测/分割等更复杂的遥感下游任务上验证
相关工作与启发¶
- vs CoOp/CoCoOp: 这些方法只学文本 prompt 且缺乏丰富语义监督,在遥感上严重受限于"语义贫瘠"
- vs PromptKD: 也用蒸馏训练 prompt,但依赖无标签图像 logit,不解决文本端语义贫乏
- vs MaPLe: 双端 prompt 有类似,但 MaPLe 缺少 LLM 文本增强和选择性聚合
评分¶
- 新颖性: ⭐⭐⭐⭐ 问题诊断准确,解决方案系统且完整
- 实验充分度: ⭐⭐⭐⭐ 六个数据集 + 三种任务设置 + 充分消融
- 写作质量: ⭐⭐⭐⭐ 动机推导清晰,图表设计好
- 价值: ⭐⭐⭐⭐ 遥感 VLM 适配的实用方案