GKD: Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation¶

会议: CVPR 2026
arXiv: 2603.02554
代码: https://github.com/Younger-hua/GKD
领域: 语义分割 / 知识蒸馏 / 域泛化
关键词: 知识蒸馏, 视觉基础模型, 域泛化分割, DINOv2, 多阶段蒸馏

一句话总结¶

提出 GKD 框架，通过将表示学习与任务学习解耦的多阶段蒸馏（先学通用特征 → 冻结编码器 → 再训任务头）+ 查询式软蒸馏机制（QSD），从 VFM 中蒸馏出具有跨域泛化能力的轻量学生模型，在 F2L 设置下平均 mIoU 提升 +10.6%，F2F +1.9%。

研究背景与动机¶

领域现状：知识蒸馏（KD）广泛用于语义分割模型压缩——从大教师模型蒸馏出轻量学生模型。传统 KD 方法（CWD/Af-DCD/CIRKD 等）专注于保留源域精度，在域内表现不错。VFM（DINOv2/EVA02）作为通用特征提取器 + 轻量解码器的范式已被广泛采用。

现有痛点：传统 KD 只关注源域（in-domain）精度，忽视了跨域泛化（domain generalization）能力。这一问题在 VFM 时代尤为严重——VFM 本身具有强泛化能力，但通过传统 KD 蒸馏后，学生模型的泛化能力反而下降。实验显示传统单阶段 KD 甚至可能损害学生泛化，部分方法弱于无蒸馏 baseline。

核心矛盾：单阶段 KD 中存在优化冲突——任务损失驱动学生拟合源域特异性决策边界，蒸馏损失鼓励学生逼近教师的域不变表示。两个梯度方向矛盾，导致训练不稳定（loss 曲线振荡）和泛化退化。这意味着"KD 压缩了容量但损害了鲁棒性"。

本文目标 从 VFM 蒸馏出紧凑模型时，在压缩模型的同时保留甚至提升跨域泛化能力。两个评估设置：F2F（VFM→小VFM，如 DINOv2-L→DINOv2-B）和 F2L（VFM→本地模型，如 DINOv2-B→ViT-S）。

切入角度：表示学习与任务学习不应耦合。先让学生纯粹学习教师的域通用表示（不接触任务标签），然后冻结编码器只训练任务头。

核心 idea：解耦表示学习与任务学习——第一阶段纯特征蒸馏获取域通用表示，第二阶段冻结编码器训练任务头，配合 QSD 选择性检索教师空间知识。

方法详解¶

整体框架¶

两阶段流程：阶段一（域通用蒸馏）——分两步，先在代理数据集 ImageNet 上做任务无关蒸馏（缩小 VFM 与学生的初始表示差距），再在源域上做域无关蒸馏（学习任务相关但域无关的特征），全程仅做特征蒸馏、不接触任务标签。阶段二（任务学习）——冻结学生编码器，仅训练 Mask2Former 解码器做语义分割，防止任务监督破坏已学到的泛化表示。

关键设计¶

多阶段解耦策略
- 功能：将通常耦合在一起的特征蒸馏和任务学习彻底分离
- 核心思路：阶段一分两步——(i) 在 ImageNet（代理数据集）上蒸馏，\(\min_{\theta_s} \mathbb{E}_{x_P \sim D_P}[\mathcal{L}_{QSD}(\mathcal{F}_{\theta_t}(x_P), \mathcal{F}_{\theta_s}(x_P))]\)，学习任务无关的通用视觉表示；(ii) 在源域上蒸馏，\(\min_{\theta_s} \mathbb{E}_{x_S \sim D_S}[\mathcal{L}_{QSD}(\mathcal{F}_{\theta_t}(x_S), \mathcal{F}_{\theta_s}(x_S))]\)，学习域无关的任务相关特征。阶段二冻结编码器 \(\theta_s\)，仅训练解码器 \(\theta_h\)：\(\min_{\theta_h} \mathbb{E}[\mathcal{L}(\mathcal{H}_{\theta_h}(\mathcal{F}_{\theta_s}(x_S)), y_S)]\)
- 设计动机：实验诊断发现任务梯度和蒸馏梯度互相干扰——单阶段 loss 曲线振荡不稳定（Fig.3b），两阶段后 loss 曲线平滑收敛。消融证实：单阶段 MSE 46.4 → 两阶段 MSE 53.1（+6.7 mIoU），效果显著
查询式软蒸馏（QSD）
- 功能：替代传统逐点特征匹配，实现选择性的空间知识检索
- 核心思路：学生特征 \(v_s \in \mathbb{R}^{B \times N \times C_s}\) 作为 query，通过注意力检索教师的全部空间特征 \(v_t\)——计算注意力 \(W = \varphi(v_s) \cdot v_t^\top\)，重构学生特征 \(v_s' = \sigma(\varphi(v_s) \cdot v_t^\top) \cdot \phi(v_s)\)，然后用 MSE 对齐 \(\mathcal{L}_{feat} = \|v_s' - v_t\|_2^2\)。其中 \(\varphi, \phi\) 是线性投影。这使学生不是简单模仿局部激活，而是内化教师的空间关系结构——注意力矩阵呈强对角线（保持空间对应）+ 离对角响应（选择性聚合相关语义）
- 设计动机：VFM 的关键优势在于域不变的空间结构（PCA 可视化证实），逐点 MSE 只对齐局部值忽略全局关系。QSD 让学生通过 attention 选择性获取教师的关系结构而非地学局部激活
三重蒸馏目标
- 功能：从特征、掩码、全局语义三个层面全面蒸馏
- 核心思路：\(\mathcal{L}_{QSD} = \alpha \mathcal{L}_{feat} + \beta \mathcal{L}_{mask} + \gamma \mathcal{L}_{cls}\)。\(\mathcal{L}_{feat}\) 是完整输入的空间特征蒸馏；\(\mathcal{L}_{mask}\) 是随机掩码输入后重构教师完整特征（揭示 VFM 隐藏知识，类似 DINOv2 的 MIM 思路）；\(\mathcal{L}_{cls}\) 是 CLS token 蒸馏传递全局语义。三者权重均默认 1.0
- 设计动机：多层次蒸馏互补——mask 蒸馏迫使学生学习从部分信息推断全局的能力，CLS 传递全局语义一致性

损失函数 / 训练策略¶

蒸馏阶段：AdamW，lr=5e-4，weight decay 0.05。F2L 设置：ImageNet 100 epochs（batch 512, 224×224）+ 源域 300 epochs（batch 128, 512×512）。F2F 设置：直接源域 300 epochs。任务阶段：Mask2Former，lr=1e-5（backbone冻结）/1e-4（decoder），40K iterations，batch 4，crop 512×512。

实验关键数据¶

主实验——F2L 设置（DINOv2-B → ViT-S）¶

方法	GTAV→Citys	GTAV→BDD	GTAV→Map	Avg	提升
Stu baseline (DeiT-S)	34.9	33.8	42.8	37.2	-
+Vanilla KD	45.0	44.2	49.9	46.4	+9.2
+G2SD	45.2	45.9	52.3	47.8	+10.6
+Proteus	47.4	44.6	50.2	47.4	+10.2
+GKD	54.9	49.8	57.8	54.1	+16.9

消融实验（GTAV→Citys+BDD+Map Avg, DINOv2-B→ViT-S）¶

配置	mIoU	说明
单阶段 MSE	46.4	传统 KD baseline
两阶段 MSE	53.1	+6.7，证实解耦至关重要
两阶段 QSD	54.1	+1.0，QSD 优于 MSE
单阶段 QSD	48.8	即使用 QSD，单阶段仍远弱于两阶段
去掉 \(\mathcal{L}_{mask}\)	53.5	掩码蒸馏贡献 +0.6
去掉 \(\mathcal{L}_{cls}\)	54.0	CLS 蒸馏贡献有限 +0.1

关键发现¶

多阶段解耦是最大贡献：单阶段→两阶段提升 +6.7 mIoU，远超任何蒸馏方法改进
1/16 标签效率惊人：F2L 设置下 GKD 仅用 1/16 标签达到 51.4 mIoU，超越 Af-DCD 全量标签的 47.1
F2F 也有效：DINOv2-L→DINOv2-B Avg 58.8→59.8（+1.0），DINOv2-B→DINOv2-S 53.9→55.6（+1.7）
PCA 可视化证实 GKD 蒸馏后学生特征的空间结构与 DINOv2 教师高度一致

亮点与洞察¶

首次系统性诊断 KD 的泛化瓶颈：发现传统 KD 甚至可能损害学生泛化能力，这一发现本身就有重要价值。以往所有 KD 工作都只关注源域精度
多阶段解耦简洁有效：先学通用特征 → 冻结编码器 → 训任务头，理念清晰且实验验证效果显著。这一范式可推广到任何 VFM 下游适配场景
F2L 场景的巨大优势：+10.6% 平均提升意味着 ImageNet 预训练的小模型几乎追上 VFM 的泛化能力
标签效率的实践意义：1/16 标签超过传统 KD 全量标签，对标注资源有限的实际部署场景价值重大

局限与展望¶

需要额外的 ImageNet 预蒸馏阶段（100 epochs），增加了训练时间和计算成本
仅验证了 ViT 架构，CNN 学生模型（ResNet/MobileNet）能否受益未知
冻结编码器做任务学习可能限制源域精度上限——实际上 GKD 的源域精度（GTAV mIoU）有时不如传统 KD
仅关注语义分割，全景分割、实例分割、目标检测等更复杂任务待验证
不同 VFM 教师（DINOv2 vs EVA02）的泛化传递效率差异原因未深入分析

评分¶

新颖性: ⭐⭐⭐⭐ 多阶段解耦不全新，但 QSD 和泛化导向的蒸馏诊断视角是新颖的
实验充分度: ⭐⭐⭐⭐⭐ 5 个基准、F2F/F2L 双设置、多 VFM、标签效率、多源域扩展，极其全面
写作质量: ⭐⭐⭐⭐⭐ 动机诊断→方法设计→验证的逻辑链完美，Fig.3 的 loss 曲线对比直观有力
价值: ⭐⭐⭐⭐⭐ 解决了 VFM 蒸馏中被忽视的泛化问题，对实际部署有重要指导意义