AVION: Aerial Vision-Language Instruction from Offline Teacher to Prompt-Tuned Network¶

会议: CVPR 2026
arXiv: 2603.12659
代码: https://github.com/yuhu990424/AVION
领域: 遥感 / 视觉语言模型
关键词: Remote Sensing, 知识蒸馏, prompt tuning, 视觉语言模型, 跨模态检索

一句话总结¶

AVION 提出一种知识蒸馏框架，通过 LLM 生成语义丰富的遥感文本原型作为 Teacher 监督、同时在 Student 的视觉和文本编码器中注入可学习 prompt，实现三维度对齐蒸馏，在少样本分类和跨模态检索上显著优于现有 PEFT 方法。

研究背景与动机¶

领域现状：RemoteCLIP、GeoRSCLIP 等遥感专用 VLM 在下游任务上表现优异，但全量微调代价高昂。PEFT 方法（CoOp、MaPLe 等）通过学习少量参数适配新任务。

现有痛点：(1) 语义贫瘠——遥感数据集通常只有类名标签（如"airport"），无法描述同一类的巨大视觉差异（不同区域、季节、传感器）；(2) 视觉刚性——多数 PEFT 方法只更新文本端 prompt 而冻结视觉编码器，无法捕获遥感特有的俯视角、尺度变化等特征。

核心矛盾：简单类名与遥感图像丰富视觉模式之间的鸿沟，以及冻结视觉编码器无法适配遥感域的问题。

本文目标 同时解决语义贫瘠和视觉刚性，让 PEFT 方法在遥感场景下有效工作。

切入角度：利用 LLM 生成丰富的类描述作为文本监督，通过视觉-文本-logit 三维蒸馏约束实现稳健适配。

核心 idea：用 LLM 丰富文本原型解决语义贫瘠，用双端 prompt + 三维蒸馏解决视觉刚性，通过 Teacher-Student 框架在推理时无额外开销。

方法详解¶

整体框架¶

Offline Teacher 阶段：大模型（GeoRSCLIP ViT-H/14）编码 LLM 生成的类描述，用视觉原型验证后聚合为文本原型 \(\mathbf{t}_k^{T*}\)。Training Student 阶段：小模型（GeoRSCLIP ViT-B/32）注入视觉和文本 prompt，通过三维度蒸馏对齐学习。推理阶段：仅用 Student 前向传播。

关键设计¶

Selective Prototype Aggregation（选择性原型聚合）:
- 功能：从 LLM 生成的候选描述中筛选并聚合出每类的文本原型
- 核心思路：先用 Gemini 2.5 Flash 为每类生成至多 50 条遥感视角描述，用 RS-Flag 标记遥感相关性。计算 Teacher 视觉原型 \(\hat{\mathbf{v}}_k^T = \frac{1}{|\mathcal{B}_k|}\sum_i \mathbf{v}_{k,i}^T\)，评估每条描述与视觉原型的相似度 \(s_{k,j} = (\hat{\mathbf{v}}_k^T)^\top \mathbf{t}_{k,j}^T\)，用 Median/MAD z-score 去除异常值，最后按 \(w_{k,j} \propto \exp(\beta s_{k,j} + \gamma \cdot \text{RS-Flag}_{k,j})\) 加权聚合为最终原型
- 设计动机：LLM 可能产生非视觉或非遥感相关的幻觉描述，通过视觉原型验证和统计过滤确保文本原型的质量和遥感相关性
双端 Prompt Tuning:
- 功能：在 Student 的视觉和文本编码器中同时注入可学习 prompt
- 核心思路：文本端类似 CoOp 学习上下文 token，视觉端类似 VPT 在 ViT 每层注入 prompt token。两端 prompt 都保持 backbone 冻结，只更新 prompt 参数
- 设计动机：视觉端 prompt 让编码器获得适配遥感倾斜视角等特征的灵活性，解决视觉刚性；文本端 prompt 吸收 Teacher 的丰富语义知识
Tri-Aspect Alignment（三维度对齐蒸馏）:
- 功能：同时对齐视觉嵌入、文本嵌入和相似度 logit
- 核心思路：\(\mathcal{L}_{\text{img}} = 1 - (\mathbf{v}_i^S)^\top \mathbf{v}_i^T\) 对齐视觉特征；\(\mathcal{L}_{\text{text}} = 1 - (\mathbf{t}_k^S)^\top \mathbf{t}_k^{T*}\) 对齐文本原型；\(\mathcal{L}_{\text{logit}} = \tau^2 \text{KL}(\sigma(\mathbf{s}^T/\tau) \| \sigma(\mathbf{s}^S/\tau))\) 对齐跨模态相似度分布。总损失 \(\mathcal{L} = \mathcal{L}_{\text{task}} + 0.5\mathcal{L}_{\text{img}} + 0.5\mathcal{L}_{\text{text}} + \mathcal{L}_{\text{logit}}\)，logit 项有 30% 线性 warmup
- 设计动机：仅对齐嵌入不够，还需对齐类间关系结构（通过 logit distillation），这样 Student 不仅学到单个类的表征，还学到类间的相对关系

损失函数 / 训练策略¶

总损失加任务分类交叉熵。AdamW 优化器 lr=5e-4，少样本 100 epochs，base-to-novel 50 epochs。蒸馏温度 \(\tau=2\)，logit 权重有线性 warmup。

实验关键数据¶

主实验（6 数据集平均 Few-shot 分类精度）¶

方法	1-shot	2-shot	4-shot	8-shot	16-shot
GeoRSCLIP (zero-shot)	72.95	—	—	—	—
CoOp	69.98	78.95	84.52	87.57	90.24
CoCoOp	70.27	80.56	85.74	88.93	91.41
MMRL	70.57	79.47	—	—	—
AVION	73.12	82.34	87.21	90.48	92.85

消融实验（AID 数据集 16-shot）¶

配置	Base Acc	Novel Acc	HM	说明
AVION 完整	95.2	88.7	91.8	唯一在 base 和 novel 上都超过基线的方法
w/o 文本对齐	94.1	85.3	89.5	文本原型监督对新类泛化关键
w/o 视觉 prompt	94.8	86.1	90.3	视觉端 prompt 提升域适配
w/o logit 对齐	94.5	87.2	90.7	logit 蒸馏提供类间关系
w/o RS-Flag	94.9	87.5	91.1	RS 标记过滤改善原型质量

关键发现¶

AVION 是唯一在 base-to-novel 设置中 base 和 novel 精度都超过 GeoRSCLIP 基线的方法，说明蒸馏不损害泛化
文本原型聚合中 RS-Flag 和视觉验证缺一不可，去掉导致 Novel Acc 下降
跨模态检索上 mR 也有提升，说明三维蒸馏改善了整体的模态对齐质量

亮点与洞察¶

语义贫瘠问题的诊断精准：遥感数据集仅有类名标签是 PEFT 失效的根本原因，通过 LLM 生成丰富描述是优雅的解决方案
选择性原型聚合机制巧妙：像一个无参数的 cross-attention，视觉原型做 query，文本描述做 key/value，自动过滤不良描述并平衡聚合权重
三维蒸馏保持泛化：logit 对齐保留了类间关系结构，是 AVION 在 novel 类上不退化的关键

局限与展望¶

依赖 LLM 的描述质量，对非英语或非常规遥感类别可能产生低质量描述
Teacher 模型固定为 GeoRSCLIP ViT-H/14，换用其他 backbone 需重新构建原型
未在检测/分割等更复杂的遥感下游任务上验证

评分¶

新颖性: ⭐⭐⭐⭐ 问题诊断准确，解决方案系统且完整
实验充分度: ⭐⭐⭐⭐ 六个数据集 + 三种任务设置 + 充分消融
写作质量: ⭐⭐⭐⭐ 动机推导清晰，图表设计好
价值: ⭐⭐⭐⭐ 遥感 VLM 适配的实用方案