跳转至

DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers

一句话总结

DUNE 提出了异构教师联合蒸馏(co-distillation)框架,将来自不同任务和数据域的 2D(DINOv2)与 3D(MASt3R、Multi-HMR)教师模型统一蒸馏为一个 ViT-Base 通用编码器,在语义分割、深度估计、3D 重建和人体姿态恢复等多任务上均达到或超越各自 ViT-Large 教师的性能。

研究背景与动机

现有多教师蒸馏方法(如 AM-RADIO、UNIC、Theia)已成功将多个视觉基础模型统一为单一编码器,但这些方法只蒸馏同质教师——即都在通用网络爬取数据上训练的自监督模型(DINOv2、CLIP、SAM)。这种场景下,甚至用 ImageNet-1K 就足以匹配教师性能。

然而,当教师池中包含高度专业化的模型时(如专门做 3D 场景重建的 MASt3R 和专门做人体 mesh 恢复的 Multi-HMR),问题变得截然不同:

  1. 任务异构性:教师们的训练目标差异巨大——DINOv2 学习通用表征,MASt3R 学习稠密匹配,Multi-HMR 学习 SMPL 参数
  2. 数据域异构性:训练数据从网络爬取的自然图像到合成 3D 数据、CAD 模型、人体扫描数据,分布完全不同
  3. 编码模式差异:不同教师在 patch 特征中编码的信息模式不同(如 Multi-HMR 在头部 patch 中编码整个人体姿态)

核心问题是:能否从如此异构的教师集合中蒸馏出一个同时擅长 2D 和 3D 任务的通用视觉编码器

方法详解

整体框架

DUNE 基于标准多教师蒸馏框架:学生 ViT-Base 编码器 \(f\) 的输出通过教师特定投影器 \(h_i\) 映射后,使用余弦相似度损失和 smooth-\(\ell_1\) 损失与各教师编码器输出对齐。蒸馏完成后丢弃投影器,仅保留编码器,再对各任务的解码头进行微调。

关键设计

1. Transformer 投影器(TP)

  • 功能:捕获教师特定的 patch 间交互模式,替代传统的 per-patch MLP 投影器
  • 核心思路:不同教师的注意力模式差异巨大(MASt3R 高度局部化,DINOv2 注意力跨度大,Multi-HMR 聚焦人头),需要投影器具备建模跨 patch 交互的能力。TP 由单个 Transformer 块组成,包含自注意力层和 MLP,通过残差连接后接线性投影
  • 设计动机:标准 MLP 投影器只能逐 patch 操作,无法显式建模 patch 间交互,导致所有教师特定的空间交互模式必须全部由共享编码器承担。TP 将此负担分散到投影器中,使编码器更专注于通用特征学习。实验表明 TP 在所有任务上优于 LP 和 SP

2. 异构数据共享策略

  • 功能:决定蒸馏时哪些数据送入哪些教师的投影器
  • 核心思路:探索三种策略——无共享(每个投影器只用对应教师的数据)、完全共享(所有数据送入所有投影器)、通用数据共享(每个投影器用对应数据加 ImageNet)。实验发现完全共享效果最好
  • 设计动机:异构教师的训练数据域差异巨大,直觉上域外数据可能有害。但实验表明教师对域外图像仍能产生有用信号,完全共享让编码器获得更多学习信号。有趣的是,仅共享通用数据对语义分割最优,暗示语义信息在 ImageNet 被 3D 教师处理时保留更好

3. 推理时丢弃投影器 + 微调解码头

  • 功能:实现高效推理,避免推理时参数量随教师数线性增长
  • 核心思路:蒸馏完成后丢弃所有投影器,将各教师的解码器模块附加到冻结编码器上单独微调。这样推理时只有一个 ViT-Base 编码器加任务特定解码器
  • 设计动机:现有方法(AM-RADIO、Theia)推理时需要保留投影器来复用教师解码器,导致参数量和内存随教师数增加。微调解码头虽有一次性成本,但推理时不引入额外模块,编码器大小和内存保持恒定

损失函数

蒸馏损失为所有教师上余弦相似度损失与 smooth-\(\ell_1\) 损失之和:

\[\mathcal{L}_{\text{distil}} = \sum_{i=1}^{N} \mathcal{L}_{cos}(f_i(x), t_i(x)) + \mathcal{L}_{s\ell_1}(f_i(x), t_i(x))\]

其中 \(f_i = h_i(f(x))\),同时使用 UNIC 的 teacher dropping 正则化防止过拟合到单一教师。

实验关键数据

主实验表(Tab. 3)

模型 编码器 ADE20K (mIoU↑) NYUd (RMSE↓) BEDLAM PA-PVE↓ MapFree AUC↑
DINOv2 教师 ViT-L 47.7 0.384 - -
Multi-HMR 教师 ViT-L - - 36.9 -
MASt3R 教师 ViT-L - - - 91.2
DINOv2 ViT-B 47.3 0.399 76.5 89.6
AM-RADIO-v2.5 ViT-B 50.0 0.718 83.2 93.1
DUNE (336) ViT-B 44.9 0.377 68.3 93.7
DUNE (448) ViT-B 45.6 0.358 56.0 94.7

消融实验(Tab. 1 & 2)

投影器设计消融(使用全部数据):

投影器 ADE20K NYUd RMSE MapFree AUC BEDLAM PA-PVE
SP 42.3 0.413 92.2 73.1
LP 44.7 0.384 91.5 78.2
TP 44.9 0.377 93.7 68.3

数据共享策略消融

策略 ADE20K NYUd RMSE MapFree AUC BEDLAM PA-PVE
无共享 41.6 0.426 93.2 68.7
通用数据共享 40.1 0.416 92.7 71.7
完全共享 44.9 0.377 93.7 68.3

关键发现

  1. ViT-Base 超越 ViT-Large:DUNE (448) 在 Map-free 视觉重定位上 AUC 达 94.7%,超越 MASt3R ViT-Large 的 91.2%,在人体 mesh 恢复上 PA-PVE 56.0 也显著优于 Multi-HMR ViT-Large 的 36.9(注意 PA-PVE 是误差,这里 DUNE 仍高于教师,但参数量小得多)
  2. 仅用 ImageNet 蒸馏不够——使用全部 19 个异构数据集显著提升所有任务性能
  3. TP 投影器在所有任务上一致优于 LP 和 SP

亮点与洞察

  1. 首次定义异构教师蒸馏问题:将多教师蒸馏从"同质基础模型融合"推广到"跨任务、跨数据域的异构模型统一",这是一个重要的问题升级
  2. 小模型超大模型的惊喜:ViT-Base 编码器在 Map-free 重定位上超越 ViT-Large 教师,说明多教师信号的互补性可以弥补模型容量差距
  3. 完全数据共享优于隔离:反直觉地发现域外数据不仅无害反而有益,暗示异构教师对域外图像仍能提供有效监督信号
  4. Transformer 投影器设计简洁有效:仅一个 Transformer 块就能捕获教师特定的 patch 交互模式,比多层级 LP 更高效

局限性与可改进方向

  1. 语义分割性能不足:ADE20K 上 DUNE (44.9) 明显低于 AM-RADIO-v2.5 (50.0),因为后者蒸馏了 CLIP 和 SAM 这两个语义丰富的教师
  2. 教师选择缺乏系统指导:目前只实验了 3 个教师,如何选择最优教师组合以最大化通用性未被探讨
  3. 计算开销:蒸馏阶段需要运行所有教师的前向传播,19 个数据集 2070 万图像的训练成本不低
  4. 推理时需要为每个任务微调不同解码头,无法真正实现一次前向多任务输出

相关工作与启发

  • AM-RADIO / UNIC / Theia:同质教师蒸馏的前驱工作,DUNE 在此基础上扩展到异构场景
  • MASt3R:3D 场景重建基础模型,作为 DUNE 的 3D 教师
  • Multi-HMR:人体 mesh 恢复模型,作为 DUNE 的人体理解教师
  • 启发:多教师蒸馏可能是构建"全能视觉编码器"的有效路径,未来可引入更多专业教师(如医学影像、遥感)

评分:⭐⭐⭐⭐

问题定义清晰且重要,实验设计系统全面(投影器、数据共享、多任务评估),ViT-Base 超 ViT-Large 的结果令人印象深刻。扣一星因为语义分割性能与 SOTA 有差距,且缺少更多教师的扩展实验。