DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers¶
一句话总结¶
DUNE 提出了异构教师联合蒸馏(co-distillation)框架,将来自不同任务和数据域的 2D(DINOv2)与 3D(MASt3R、Multi-HMR)教师模型统一蒸馏为一个 ViT-Base 通用编码器,在语义分割、深度估计、3D 重建和人体姿态恢复等多任务上均达到或超越各自 ViT-Large 教师的性能。
研究背景与动机¶
现有多教师蒸馏方法(如 AM-RADIO、UNIC、Theia)已成功将多个视觉基础模型统一为单一编码器,但这些方法只蒸馏同质教师——即都在通用网络爬取数据上训练的自监督模型(DINOv2、CLIP、SAM)。这种场景下,甚至用 ImageNet-1K 就足以匹配教师性能。
然而,当教师池中包含高度专业化的模型时(如专门做 3D 场景重建的 MASt3R 和专门做人体 mesh 恢复的 Multi-HMR),问题变得截然不同:
- 任务异构性:教师们的训练目标差异巨大——DINOv2 学习通用表征,MASt3R 学习稠密匹配,Multi-HMR 学习 SMPL 参数
- 数据域异构性:训练数据从网络爬取的自然图像到合成 3D 数据、CAD 模型、人体扫描数据,分布完全不同
- 编码模式差异:不同教师在 patch 特征中编码的信息模式不同(如 Multi-HMR 在头部 patch 中编码整个人体姿态)
核心问题是:能否从如此异构的教师集合中蒸馏出一个同时擅长 2D 和 3D 任务的通用视觉编码器?
方法详解¶
整体框架¶
DUNE 基于标准多教师蒸馏框架:学生 ViT-Base 编码器 \(f\) 的输出通过教师特定投影器 \(h_i\) 映射后,使用余弦相似度损失和 smooth-\(\ell_1\) 损失与各教师编码器输出对齐。蒸馏完成后丢弃投影器,仅保留编码器,再对各任务的解码头进行微调。
关键设计¶
1. Transformer 投影器(TP)¶
- 功能:捕获教师特定的 patch 间交互模式,替代传统的 per-patch MLP 投影器
- 核心思路:不同教师的注意力模式差异巨大(MASt3R 高度局部化,DINOv2 注意力跨度大,Multi-HMR 聚焦人头),需要投影器具备建模跨 patch 交互的能力。TP 由单个 Transformer 块组成,包含自注意力层和 MLP,通过残差连接后接线性投影
- 设计动机:标准 MLP 投影器只能逐 patch 操作,无法显式建模 patch 间交互,导致所有教师特定的空间交互模式必须全部由共享编码器承担。TP 将此负担分散到投影器中,使编码器更专注于通用特征学习。实验表明 TP 在所有任务上优于 LP 和 SP
2. 异构数据共享策略¶
- 功能:决定蒸馏时哪些数据送入哪些教师的投影器
- 核心思路:探索三种策略——无共享(每个投影器只用对应教师的数据)、完全共享(所有数据送入所有投影器)、通用数据共享(每个投影器用对应数据加 ImageNet)。实验发现完全共享效果最好
- 设计动机:异构教师的训练数据域差异巨大,直觉上域外数据可能有害。但实验表明教师对域外图像仍能产生有用信号,完全共享让编码器获得更多学习信号。有趣的是,仅共享通用数据对语义分割最优,暗示语义信息在 ImageNet 被 3D 教师处理时保留更好
3. 推理时丢弃投影器 + 微调解码头¶
- 功能:实现高效推理,避免推理时参数量随教师数线性增长
- 核心思路:蒸馏完成后丢弃所有投影器,将各教师的解码器模块附加到冻结编码器上单独微调。这样推理时只有一个 ViT-Base 编码器加任务特定解码器
- 设计动机:现有方法(AM-RADIO、Theia)推理时需要保留投影器来复用教师解码器,导致参数量和内存随教师数增加。微调解码头虽有一次性成本,但推理时不引入额外模块,编码器大小和内存保持恒定
损失函数¶
蒸馏损失为所有教师上余弦相似度损失与 smooth-\(\ell_1\) 损失之和:
其中 \(f_i = h_i(f(x))\),同时使用 UNIC 的 teacher dropping 正则化防止过拟合到单一教师。
实验关键数据¶
主实验表(Tab. 3)¶
| 模型 | 编码器 | ADE20K (mIoU↑) | NYUd (RMSE↓) | BEDLAM PA-PVE↓ | MapFree AUC↑ |
|---|---|---|---|---|---|
| DINOv2 教师 | ViT-L | 47.7 | 0.384 | - | - |
| Multi-HMR 教师 | ViT-L | - | - | 36.9 | - |
| MASt3R 教师 | ViT-L | - | - | - | 91.2 |
| DINOv2 | ViT-B | 47.3 | 0.399 | 76.5 | 89.6 |
| AM-RADIO-v2.5 | ViT-B | 50.0 | 0.718 | 83.2 | 93.1 |
| DUNE (336) | ViT-B | 44.9 | 0.377 | 68.3 | 93.7 |
| DUNE (448) | ViT-B | 45.6 | 0.358 | 56.0 | 94.7 |
消融实验(Tab. 1 & 2)¶
投影器设计消融(使用全部数据):
| 投影器 | ADE20K | NYUd RMSE | MapFree AUC | BEDLAM PA-PVE |
|---|---|---|---|---|
| SP | 42.3 | 0.413 | 92.2 | 73.1 |
| LP | 44.7 | 0.384 | 91.5 | 78.2 |
| TP | 44.9 | 0.377 | 93.7 | 68.3 |
数据共享策略消融:
| 策略 | ADE20K | NYUd RMSE | MapFree AUC | BEDLAM PA-PVE |
|---|---|---|---|---|
| 无共享 | 41.6 | 0.426 | 93.2 | 68.7 |
| 通用数据共享 | 40.1 | 0.416 | 92.7 | 71.7 |
| 完全共享 | 44.9 | 0.377 | 93.7 | 68.3 |
关键发现¶
- ViT-Base 超越 ViT-Large:DUNE (448) 在 Map-free 视觉重定位上 AUC 达 94.7%,超越 MASt3R ViT-Large 的 91.2%,在人体 mesh 恢复上 PA-PVE 56.0 也显著优于 Multi-HMR ViT-Large 的 36.9(注意 PA-PVE 是误差,这里 DUNE 仍高于教师,但参数量小得多)
- 仅用 ImageNet 蒸馏不够——使用全部 19 个异构数据集显著提升所有任务性能
- TP 投影器在所有任务上一致优于 LP 和 SP
亮点与洞察¶
- 首次定义异构教师蒸馏问题:将多教师蒸馏从"同质基础模型融合"推广到"跨任务、跨数据域的异构模型统一",这是一个重要的问题升级
- 小模型超大模型的惊喜:ViT-Base 编码器在 Map-free 重定位上超越 ViT-Large 教师,说明多教师信号的互补性可以弥补模型容量差距
- 完全数据共享优于隔离:反直觉地发现域外数据不仅无害反而有益,暗示异构教师对域外图像仍能提供有效监督信号
- Transformer 投影器设计简洁有效:仅一个 Transformer 块就能捕获教师特定的 patch 交互模式,比多层级 LP 更高效
局限性与可改进方向¶
- 语义分割性能不足:ADE20K 上 DUNE (44.9) 明显低于 AM-RADIO-v2.5 (50.0),因为后者蒸馏了 CLIP 和 SAM 这两个语义丰富的教师
- 教师选择缺乏系统指导:目前只实验了 3 个教师,如何选择最优教师组合以最大化通用性未被探讨
- 计算开销:蒸馏阶段需要运行所有教师的前向传播,19 个数据集 2070 万图像的训练成本不低
- 推理时需要为每个任务微调不同解码头,无法真正实现一次前向多任务输出
相关工作与启发¶
- AM-RADIO / UNIC / Theia:同质教师蒸馏的前驱工作,DUNE 在此基础上扩展到异构场景
- MASt3R:3D 场景重建基础模型,作为 DUNE 的 3D 教师
- Multi-HMR:人体 mesh 恢复模型,作为 DUNE 的人体理解教师
- 启发:多教师蒸馏可能是构建"全能视觉编码器"的有效路径,未来可引入更多专业教师(如医学影像、遥感)
评分:⭐⭐⭐⭐¶
问题定义清晰且重要,实验设计系统全面(投影器、数据共享、多任务评估),ViT-Base 超 ViT-Large 的结果令人印象深刻。扣一星因为语义分割性能与 SOTA 有差距,且缺少更多教师的扩展实验。