MuM: Multi-View Masked Image Modeling for 3D Vision¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/davnords/mum
领域: 3D视觉 / 自监督预训练
关键词: 掩码图像建模, 多视图自监督, 3D特征学习, MAE, CroCo

一句话总结¶

MuM 把 MAE 的「掩码-重建」目标从单图直接推广到同一场景的任意多视图（最多 24 张），用一个轻量的多视图解码器在帧间做交替注意力，预训练出几何感强的特征编码器；在前馈三维重建、稠密匹配、相对位姿等 3D 任务上，用约 1/30 的训练算力超过了 DINOv3 和 CroCo v2。

研究背景与动机¶

领域现状：图像自监督学习（SSL）现在主要走两条路。一条是掩码自编码（MAE）家族——把图像随机遮一大半，让网络重建被遮的像素；另一条是自蒸馏/实例判别的 DINO 家族，DINOv3 是当下语义特征的 SOTA。3D 视觉的主流管线（VGGT、MapAnything、RoMa 等）越来越喜欢拿一个强预训练编码器当 backbone，再接几何头。

现有痛点：DINO 系列学到的特征被普遍认为偏「语义」而非「几何」，且训练极贵——DINOv3-7B 要 161,440 H100 小时，还得靠 Sinkhorn-Knopp 居中这类精心设计的启发式避免坍塌，外加几十亿张图的数据量，学术界基本玩不起。MAE 派里专门为 3D 设计的是 CroCo：它给重建任务额外条件化一张「未遮挡的参考视图」来逼网络学几何对应，但这要求两张图有大量共视区域，采样很脆弱；后续把任务改成共视分割又得依赖真值几何，反过来削弱了「自监督」的纯粹性。

核心矛盾：想要几何特征，CroCo 的双视图条件重建在「数据采样灵活性」和「几何监督强度」之间被卡死——参考视图必须共视、还很难自然推广到两张以上；想要省算力又拿不出 DINO 那种语义+几何兼顾的强度。

本文目标：设计一个简单、可扩展、对采样宽容的 SSL 目标，专门学 3D 任务要的几何特征，并且训练成本能压到学术可承受的量级。

切入角度：作者发现 CroCo 的「双视图」其实是个不必要的约束。既然 MAE 已经能从单图重建里学到不少东西，那干脆把「同场景多视图 + 统一掩码」喂进去，让网络在重建每张图时被迫去借助其他视图的可见信息——几何对应关系就在「跨视图帮忙补全」这个任务里自然涌现，而且 \(n=1\) 时无缝退化回标准 MAE，采样彻底不依赖共视。

核心 idea：把 MAE 重建目标从「一张图」扩展到「同场景任意多张图」，所有视图统一掩码、用一个带帧间交替注意力的轻量解码器联合解码，用极简的像素重建 loss 学几何特征。

方法详解¶

整体框架¶

MuM 是一个 ViT 编码器-解码器结构的自监督预训练框架。输入是同一场景的一串图像 \(I=(I_1,\dots,I_n)\)（训练时 \(n\) 在 2~24 间随机），每张图切成不重叠的 patch，按统一掩码率 75% 遮掉一部分；可见 patch 各自独立过一个共享权重的 ViT-L 编码器；编码后给每张图补回可学习的 mask token，所有视图的 token 一起送进一个轻量 ViT-B 多视图解码器，解码器用交替注意力让同一视图内部和跨视图之间都能通信；最后线性头把每个 patch 回归成归一化的 RGB 像素值，只在被遮位置算重建误差。整个目标在 \(n=1\) 时恰好等于原版 MAE，因此天然支持单图/多图混合训练。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["同场景 n 张图<br/>n=2~24"] --> B["多视图统一掩码<br/>每图遮 75%"]
    B --> C["共享 ViT-L 编码器<br/>各视图独立编码可见 patch"]
    C --> D["补回 mask token"]
    D --> E["多视图解码器<br/>帧内+跨帧交替注意力"]
    E --> F["线性头回归<br/>归一化像素重建"]
    F -->|仅在被遮 patch| G["重建 loss"]

关键设计¶

1. 多视图掩码图像建模：把 MAE 从单图推广到任意多视图

CroCo 的痛点在于它只接受「双视图 + 一张当参考的未遮图」，采样脆弱又难推广。MuM 直接把问题一般化：给定同场景序列 \(I=(I_1,\dots,I_n)\)，每张图按二值掩码 \(M_i\in\{0,1\}^N\)（masking ratio \(\omega_i\)）遮一部分，网络 \(\varepsilon_\vartheta\) 从可见部分预测目标表示，损失（去掉归一化常数）为

\[L(\vartheta)=\sum_{i=1}^{n}\big\|M_i\odot(\varepsilon_\vartheta(\tilde I_i)-f(I_i))\big\|^2\]

其中 \(f\) 指定重建目标，MuM 取最简单的「patch 内像素按均值方差归一化」，所以单视图时 \(L\) 完全退化成 MAE。关键差异是：MuM 统一用 \(\omega_i=0.75\)、不留任何未遮参考视图，\(n\) 在 2~24 间均匀采样。这样做有两个直接好处：一是采样彻底不依赖共视，实在采不到共视也能退回标准 MAE，不会像 CroCo 那样卡住；二是「向多视图扩展」是自然的，而 CroCo 一旦超过两视图，各视图掩码率该怎么配根本不明确。几何对应在这里不是靠显式条件化逼出来的，而是「重建被遮 patch 时不得不去其他视图找线索」自然涌现的。

2. 对称的帧间交替注意力解码器：在解码端做跨视图通信，且不指定参考帧

要让多视图真正互相帮忙，必须有跨视图的信息流，但放在哪、怎么放有讲究。MuM 把通信放在解码器：编码阶段各视图的可见 patch 独立过共享 ViT-L 编码器（互不干扰、可并行），补回 mask token 后，所有视图 token 一起进 ViT-B 解码器的 \(L=6\) 个交替注意力块，每块先做 (i) 帧内注意力（注意力限制在单视图内），再做 (ii) 全局注意力（token 跨所有视图互相 attend）。这套交替注意力沿用自 VGGT，但 MuM 用在 SSL 语境里，并刻意做成对称结构——不像 CroCo / DUSt3R 那样要钦定一张参考帧，所有视图地位平等。消融显示通信必须放解码器：放编码器里 EPE 从 10.6 恶化到 16.7，因为过早跨帧混合反而干扰了各视图自身可见 patch 的表示学习；而「加一张未遮参考视图」不但没收益，还让 EPE 从 10.6 略微变差到 11.9，等于白白增加架构复杂度。

3. 极简像素重建目标 + 现代 ViT 组件：用最便宜的监督学到最强几何特征

这篇最反直觉的发现是：在多视图 3D 数据上，朴素的像素重建竟然打过了 DINOv2 那套自蒸馏。作者把三个主流 SSL 目标（DINOv2、CroCo v2、MAE）在同等数据和训练预算下对照（ViT-B、MegaDepth、100K 步），结果 MAE 改成多视图后 EPE 从 18.7 降到 12.5，而 DINOv2 改多视图几乎没动（28.9→28.4）；更关键的是 MAE 目标在概念和算力上都简单得多，训练快 3 倍以上。作者也试过把重建目标从像素换成更高层表示，语义任务确实变好，但几何性能反而变差——这说明像素级、低层的重建恰好是几何特征要的「信号」。在此之上 MuM 还套了一批已被验证有效的现代组件：轴向 RoPE 位置编码（消融里 RoPE 的 EPE 10.6 优于绝对位置编码的 12.1）、75% 掩码率（65%/75%/85% 里 75% 最优）、归一化像素目标（带归一化 10.6 优于不带的 13.4）。这些单项收益不大，但叠起来让一个「便宜」的目标稳稳超过昂贵的 DINOv3。

损失函数 / 训练策略¶

预训练用 AdamW 跑 500K 步，25K 步线性 warmup + 余弦衰减，base lr \(1\times10^{-4}\)，按线性缩放规则在 batch size 6144 下峰值 lr 达 \(2.4\times10^{-3}\)。每个 batch 在 2~24 间随机选序列长度，再在不超过每 GPU 96 帧的约束下尽量多塞场景；图像 resize 到 \(256\times256\)，按帧随机水平翻转。训练数据混了约 2000 万帧的 11 个 3D 数据集（3DStreetView、ARKitScenes、CO3D、MegaDepth、ScanNet++、RealEstate10K 等），并以 10% 概率掺入纯单视图的 ImageNet-1K——这正是对称目标支持单/多视图混训带来的便利。预训练在 64×A100 上约三天。在做前馈重建评测时，还提供一种蒸馏微调：保留解码器、接上相机/深度/点云头，用无权 L2 loss 蒸馏 VGGT：\(L(\vartheta)=\sum_i\|P_t-P_s\|^2+\|C_t-C_s\|^2+\|D_t-D_s\|^2\)（\(P,C,D\) 为世界点、相机参数、深度图）。

实验关键数据¶

主实验¶

MuM 在多视图 3D 任务上全面超过 DINOv3 和 CroCo v2。多视图相机位姿与点云估计（冻结编码器）结果：

任务	指标	CroCo v2	DINOv3	MuM
相机位姿 CO3Dv2	AUC@30 ↑	58.2	66.9	71.5
相机位姿 Re10K	AUC@30 ↑	27.7	36.7	50.8
相机位姿 MegaDepth	AUC@30 ↑	60.7	59.3	73.0
点云 DTU	Acc. ↓	8.5	6.4	3.7
点云 ETH3D	Acc. ↓	0.9	0.9	0.8

稠密特征匹配线性探针（EPE 越低越好）对比一众 backbone：

方法	架构	MegaDepth EPE ↓	MegaDepth R ↑	ScanNet EPE ↓
DINOv3	ViT-L/16	19.0	86.4	28.7
CroCo v2 (DUSt3R 微调)	ViT-L/16	22.0	80.9	29.0
MAE	ViT-L/16	29.7	73.4	35.0
MuM (32×A100)	ViT-L/16	12.0	93.7	30.2
MuM (64×A100)	ViT-L/16	10.2	94.2	27.9

两视图相对位姿上 MuM 也领先：MegaDepth AUC@5° 达 26.7，远超 DINOv3 的 15.6 和 CroCo v2 的 13.9。值得注意的是，MuM 用约 4,608 A100 小时训练，对照 DINOv3-7B 的 161,440 H100 小时，算力约低 30 倍。

消融实验¶

ViT-B/16 在 MegaDepth 训 100K 步，报线性探针的 EPE（↓）与分类 Acc（↑）：

配置	EPE ↓	说明
默认 (75% mask, 2~24 帧, 解码器通信, RoPE, 归一化)	10.6	完整设置
序列长度 2,6 → 2,24	12.8 → 10.6	序列越长匹配越好
mask 65% / 85%	13.3 / 12.7	75% 最优
加未遮参考视图	11.9	反而变差，且复杂化架构
通信放编码器	16.7	必须放解码器
绝对位置编码	12.1	RoPE 更优
不做像素归一化	13.4	归一化重要

同等预算下的目标对比（ViT-B、100K 步）：MAE 单图 18.7 → 多视图 12.5，而 DINOv2 多视图仅从 28.9 微动到 28.4，且 MAE 训练快 3 倍以上。

关键发现¶

最反直觉的点：在多视图几何数据上，朴素像素重建（多视图 MAE）打过了昂贵的 DINOv2 自蒸馏；把重建目标换成高层表示会提升语义、却损害几何，说明几何特征要的是低层像素信号。
跨视图通信必须放解码器：放编码器会过早干扰各视图自身表示（EPE 16.7 vs 10.6）。
CroCo 的参考视图是负担：去掉它反而更好（10.6 vs 11.9），并且简化架构、让单/多视图混训成为可能。
序列越长越好、深层特征越好：2→24 帧单调提升匹配；线性探针取最后一层特征优于中间层。
代价分布：MuM 强在所有多视图/两视图几何任务；单视图语义任务（分类、分割、单目深度）仍落后 DINOv3，因为后者的实例判别 loss 专门偏向语义。

亮点与洞察¶

「少即是多」的范式宣言：用最朴素的像素重建 + 多视图扩展，以约 1/30 算力超过 DINOv3，强有力地说明几何特征不必靠昂贵的自蒸馏堆出来——对算力有限的学术界是很实在的解放。
对称设计去掉参考帧：CroCo/DUSt3R 都要钦定一张参考视图，MuM 让所有视图平权，既简化架构又支持单/多视图无缝混训，\(n=1\) 自动退回 MAE 这个性质非常优雅。
「编码独立、解码通信」的分工可迁移：编码端各视图独立过共享权重便于并行与扩展，把跨视图交互推迟到解码端，这套思路对任何「多输入 + 需要交互」的预训练都有借鉴价值。
目标决定特征性质：像素目标利几何、表示目标利语义这一观察，给「先想清楚下游要什么再设计预训练目标」提供了具体证据。

局限与展望¶

作者承认：受算力限制无法把预训练规模继续推大，也没资源完整复现 VGGT/MapAnything 那种大规模前馈重建管线，所以多视图重建的优势是「强烈暗示」而非端到端验证。
语义任务偏弱：单视图分类/分割/单目深度仍不及 DINOv3，纯几何目标牺牲了语义归纳偏置；作者把「融合 DINO 语义 + 多视图几何」列为未来方向。
自己的观察：消融主要在 ViT-B/MegaDepth/100K 步的轻量设定下做，结论是否在更大模型、更杂数据上同样稳健还需更多验证；24 帧上限和 96 帧/GPU 的约束也意味着超长序列的行为尚未被探索。
改进思路：作者提到引入等变性提升效率、以及用完整 MuM 替换 RoMa v2 编码器和多视图 transformer，都是值得做的工程化延伸。

评分¶

新颖性: ⭐⭐⭐⭐ 思路简单但精准——把 MAE 推广到多视图并去掉 CroCo 的参考帧约束，是「简化即创新」的好范例。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖前馈重建/匹配/位姿/深度/法线/分类分割六类任务，目标与架构消融详尽，对照 backbone 全面。
写作质量: ⭐⭐⭐⭐ 动机推导清晰、消融讲得透，公式与符号规范；个别下游协议细节压在附录。
价值: ⭐⭐⭐⭐⭐ 用 1/30 算力超 DINOv3，几何预训练对学术界的可复现性意义重大，且代码开源。