DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers¶

一句话总结¶

DUNE 提出了异构教师联合蒸馏（co-distillation）框架，将来自不同任务和数据域的 2D（DINOv2）与 3D（MASt3R、Multi-HMR）教师模型统一蒸馏为一个 ViT-Base 通用编码器，在语义分割、深度估计、3D 重建和人体姿态恢复等多任务上均达到或超越各自 ViT-Large 教师的性能。

研究背景与动机¶

现有多教师蒸馏方法（如 AM-RADIO、UNIC、Theia）已成功将多个视觉基础模型统一为单一编码器，但这些方法只蒸馏同质教师——即都在通用网络爬取数据上训练的自监督模型（DINOv2、CLIP、SAM）。这种场景下，甚至用 ImageNet-1K 就足以匹配教师性能。

然而，当教师池中包含高度专业化的模型时（如专门做 3D 场景重建的 MASt3R 和专门做人体 mesh 恢复的 Multi-HMR），问题变得截然不同：

任务异构性：教师们的训练目标差异巨大——DINOv2 学习通用表征，MASt3R 学习稠密匹配，Multi-HMR 学习 SMPL 参数
数据域异构性：训练数据从网络爬取的自然图像到合成 3D 数据、CAD 模型、人体扫描数据，分布完全不同
编码模式差异：不同教师在 patch 特征中编码的信息模式不同（如 Multi-HMR 在头部 patch 中编码整个人体姿态）

核心问题是：能否从如此异构的教师集合中蒸馏出一个同时擅长 2D 和 3D 任务的通用视觉编码器？

方法详解¶

整体框架¶

DUNE 基于标准多教师蒸馏框架：学生 ViT-Base 编码器 \(f\) 的输出通过教师特定投影器 \(h_i\) 映射后，使用余弦相似度损失和 smooth-\(\ell_1\) 损失与各教师编码器输出对齐。蒸馏完成后丢弃投影器，仅保留编码器，再对各任务的解码头进行微调。

关键设计¶

1. Transformer 投影器（TP）¶

功能：捕获教师特定的 patch 间交互模式，替代传统的 per-patch MLP 投影器
核心思路：不同教师的注意力模式差异巨大（MASt3R 高度局部化，DINOv2 注意力跨度大，Multi-HMR 聚焦人头），需要投影器具备建模跨 patch 交互的能力。TP 由单个 Transformer 块组成，包含自注意力层和 MLP，通过残差连接后接线性投影
设计动机：标准 MLP 投影器只能逐 patch 操作，无法显式建模 patch 间交互，导致所有教师特定的空间交互模式必须全部由共享编码器承担。TP 将此负担分散到投影器中，使编码器更专注于通用特征学习。实验表明 TP 在所有任务上优于 LP 和 SP

2. 异构数据共享策略¶

功能：决定蒸馏时哪些数据送入哪些教师的投影器
核心思路：探索三种策略——无共享（每个投影器只用对应教师的数据）、完全共享（所有数据送入所有投影器）、通用数据共享（每个投影器用对应数据加 ImageNet）。实验发现完全共享效果最好
设计动机：异构教师的训练数据域差异巨大，直觉上域外数据可能有害。但实验表明教师对域外图像仍能产生有用信号，完全共享让编码器获得更多学习信号。有趣的是，仅共享通用数据对语义分割最优，暗示语义信息在 ImageNet 被 3D 教师处理时保留更好

3. 推理时丢弃投影器 + 微调解码头¶

功能：实现高效推理，避免推理时参数量随教师数线性增长
核心思路：蒸馏完成后丢弃所有投影器，将各教师的解码器模块附加到冻结编码器上单独微调。这样推理时只有一个 ViT-Base 编码器加任务特定解码器
设计动机：现有方法（AM-RADIO、Theia）推理时需要保留投影器来复用教师解码器，导致参数量和内存随教师数增加。微调解码头虽有一次性成本，但推理时不引入额外模块，编码器大小和内存保持恒定

损失函数¶

蒸馏损失为所有教师上余弦相似度损失与 smooth-\(\ell_1\) 损失之和：

\[\mathcal{L}_{\text{distil}} = \sum_{i=1}^{N} \mathcal{L}_{cos}(f_i(x), t_i(x)) + \mathcal{L}_{s\ell_1}(f_i(x), t_i(x))\]

其中 \(f_i = h_i(f(x))\)，同时使用 UNIC 的 teacher dropping 正则化防止过拟合到单一教师。

实验关键数据¶

主实验表（Tab. 3）¶

模型	编码器	ADE20K (mIoU↑)	NYUd (RMSE↓)	BEDLAM PA-PVE↓	MapFree AUC↑
DINOv2 教师	ViT-L	47.7	0.384	-	-
Multi-HMR 教师	ViT-L	-	-	36.9	-
MASt3R 教师	ViT-L	-	-	-	91.2
DINOv2	ViT-B	47.3	0.399	76.5	89.6
AM-RADIO-v2.5	ViT-B	50.0	0.718	83.2	93.1
DUNE (336)	ViT-B	44.9	0.377	68.3	93.7
DUNE (448)	ViT-B	45.6	0.358	56.0	94.7

消融实验（Tab. 1 & 2）¶

投影器设计消融（使用全部数据）：

投影器	ADE20K	NYUd RMSE	MapFree AUC	BEDLAM PA-PVE
SP	42.3	0.413	92.2	73.1
LP	44.7	0.384	91.5	78.2
TP	44.9	0.377	93.7	68.3

数据共享策略消融：

策略	ADE20K	NYUd RMSE	MapFree AUC	BEDLAM PA-PVE
无共享	41.6	0.426	93.2	68.7
通用数据共享	40.1	0.416	92.7	71.7
完全共享	44.9	0.377	93.7	68.3

关键发现¶

ViT-Base 超越 ViT-Large：DUNE (448) 在 Map-free 视觉重定位上 AUC 达 94.7%，超越 MASt3R ViT-Large 的 91.2%，在人体 mesh 恢复上 PA-PVE 56.0 也显著优于 Multi-HMR ViT-Large 的 36.9（注意 PA-PVE 是误差，这里 DUNE 仍高于教师，但参数量小得多）
仅用 ImageNet 蒸馏不够——使用全部 19 个异构数据集显著提升所有任务性能
TP 投影器在所有任务上一致优于 LP 和 SP

亮点与洞察¶

首次定义异构教师蒸馏问题：将多教师蒸馏从"同质基础模型融合"推广到"跨任务、跨数据域的异构模型统一"，这是一个重要的问题升级
小模型超大模型的惊喜：ViT-Base 编码器在 Map-free 重定位上超越 ViT-Large 教师，说明多教师信号的互补性可以弥补模型容量差距
完全数据共享优于隔离：反直觉地发现域外数据不仅无害反而有益，暗示异构教师对域外图像仍能提供有效监督信号
Transformer 投影器设计简洁有效：仅一个 Transformer 块就能捕获教师特定的 patch 交互模式，比多层级 LP 更高效

局限性与可改进方向¶

语义分割性能不足：ADE20K 上 DUNE (44.9) 明显低于 AM-RADIO-v2.5 (50.0)，因为后者蒸馏了 CLIP 和 SAM 这两个语义丰富的教师
教师选择缺乏系统指导：目前只实验了 3 个教师，如何选择最优教师组合以最大化通用性未被探讨
计算开销：蒸馏阶段需要运行所有教师的前向传播，19 个数据集 2070 万图像的训练成本不低
推理时需要为每个任务微调不同解码头，无法真正实现一次前向多任务输出

评分：⭐⭐⭐⭐¶

问题定义清晰且重要，实验设计系统全面（投影器、数据共享、多任务评估），ViT-Base 超 ViT-Large 的结果令人印象深刻。扣一星因为语义分割性能与 SOTA 有差距，且缺少更多教师的扩展实验。