MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 https://g-1nonly.github.io/MoRE_Website/ （代码待确认）
领域: 3D视觉
关键词: 前馈3D重建, 混合专家(MoE), 视觉几何基础模型, 深度精炼, 多任务学习

一句话总结¶

MoRE 在 VGGT 这类前馈式稠密 3D 几何基础模型上引入混合专家（MoE）路由，让不同专家专精于室内/室外/物体/人体/动态等异质场景，再配上置信度引导的深度精炼和稠密语义特征融合，在点图、深度、相机位姿、法向四类任务上同时刷到 SOTA。

研究背景与动机¶

领域现状：3D 视觉几何重建正从「为每个场景单独优化」转向「前馈式基础模型」。以 DUSt3R / MASt3R / Fast3R / VGGT / Pi3 为代表的一类方法，直接从无位姿（unposed）图像回归点图、深度、相机参数、跟踪特征等多种几何量，把传统需要标定和全局对齐的流程压成一次前向传播，并展现出跨数据集的强泛化。

现有痛点：这类模型的成功很大程度依赖「大模型 + 大数据」的 scaling。但作者指出，3D 模型的继续放大比 LLM/2D 视觉更难——几何监督本身复杂（深度真值噪声大、不同任务的损失尺度不一），而 3D 数据高度异质（室内、室外、物体中心、人体中心、动态场景分布差异巨大）。单一稠密解码特征很难同时吃透这些差异巨大的域。

核心矛盾：想扩容（提升各域精度）就要堆参数和算力，但稠密激活的 Transformer 一旦放大，算力随参数线性甚至超线性增长，而且「一套权重打天下」在异质 3D 分布上会相互拖累。

本文目标：在不让算力随容量等比例膨胀的前提下，既扩大模型容量、又让容量按场景自适应分配，同时把噪声深度监督和多视图过度平滑这两个具体顽疾一并解决。

切入角度：借鉴 LLM 里的 MoE——每个 token 只激活少数专家，容量可扩而算力不爆，且专家天然会分化去专精数据的不同侧面。3D 场景的多样性正好契合「专家分工」的设定。

核心 idea：把 MoE 塞进前馈 3D 几何重建的预测管线，用路由器把特征动态分给域专精的专家；再用置信度掩码过滤掉不可信深度监督、用 DINOv2 语义补回多视图丢失的局部细节，最后用一组定制损失 + 自适应裁剪稳住大规模训练。

方法详解¶

整体框架¶

MoRE 是一个端到端前馈模型：输入是一段无位姿的 RGB 图像序列 \((I_i)_{i=1}^N\)，经过一个稠密视觉 Transformer 骨干（沿用 VGGT 结构），一次输出每帧的相机参数 \(C_i\in\mathbb{R}^9\)、点图 \(P_i\)、深度 \(D_i\)、跟踪特征 \(T_i\) 和法向图 \(N_i\)。在 VGGT 已有的点图/深度/相机/跟踪四个头之外，MoRE 额外加了一个法向预测头。训练分两阶段：第一阶段用多任务目标常规监督骨干和各任务头；第二阶段把骨干里交替的全局/帧注意力 FFN 复制成专家集合、插入 MoE 层继续训练，让模型按场景路由出专精表征。深度侧用置信度掩码精炼监督、法向侧用稠密语义融合补细节，整体由一组定制损失加自适应裁剪共同优化。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["无位姿 RGB 图像序列"] --> B["稠密视觉 Transformer 骨干<br/>(VGGT 结构, 交替全局/帧注意力)"]
    B --> C["MoE 专家路由<br/>token → top-K 域专精专家"]
    C --> D["多任务预测头<br/>点图 / 深度 / 相机 / 跟踪 / 法向"]
    D --> E["置信度引导深度精炼<br/>MoGev2 掩码过滤深度监督"]
    D --> F["稠密语义特征融合<br/>3D 特征 ⊕ DINOv2 语义"]
    E --> G["多任务损失 + 自适应裁剪<br/>k-sigma 异常 loss 截断"]
    F --> G
    G --> H["3D 点图 / 深度 / 法向 / 相机位姿"]

关键设计¶

1. MoE 专家路由：用条件计算让一套模型自适应吃下异质 3D 场景

这是论文的主创新，针对「单一解码特征吃不下多样 3D 域」的痛点。MoRE 把 MoE 层做成骨干里的模块化组件：初始化时把交替注意力结构（全局注意力、帧注意力）里的 FFN 复制成一组专家 \(\varepsilon_i\)，再用一个线性层做路由器预测每个 token 分到各专家的概率 \(P(x)_i = e^{f(x)_i}/\sum_j e^{f(x)_j}\)，其中 \(f(x)=W\cdot x\) 是路由 logits。每个 token 只走概率最高的 top-K 个专家，输出按概率加权求和 \(\text{MoE}(x)=\sum_{i=1}^{K} P(x)_i\cdot \varepsilon(x)_i\)。这样容量随专家数扩张、但每个 token 实际激活的算力不变，专家会自然分化去专精室内/室外/物体/人体/动态等不同分布。为防止「少数专家被挤爆、其余闲置」，每个 MoE 层加可微的负载均衡损失 \(L_{moe}=E\cdot\sum_{i=1}^{E} F_i\cdot G_i\)（\(F_i\) 是分给专家 \(i\) 的 token 比例，\(G_i\) 是其平均路由概率），鼓励 token 在专家间均匀分布。和「单稠密解码器硬扛所有场景」相比，专家分工让模型在不同域上互不拖累。

2. 置信度引导的深度精炼：别让模型去拟合带噪的深度真值

真实世界深度训练数据常含噪声和缺失测量，模型若硬拟合这些不可靠真值反而掉精度。作者观察到一个已校准训练数据的单目模型（MoGev2）仍能给出相当准的深度，于是用它来「过滤监督」：对每个深度样本算置信掩码 \(M_{conf}=\big[\,|D_{moge}-D_{gt}|/\max(D_{gt},\alpha) < \tau\,\big]\)（\(\alpha=0.5\) 防小深度数值不稳，\(\tau=0.1\) 为阈值），把低置信、含噪、缺失的真值区域剔掉。再加一个先验引导的深度项 \(L^{p}_{depth}=L_{grad}(\hat D_{M_{conf}}, D^{M_{conf}}_{moge})\) 到 VGGT 原有深度损失上，\(L_{depth}=L^{vggt}_{depth}+L^{p}_{depth}\)，即只在高置信区域监督。这样模型避免过拟合损坏数据，深度估计更准更稳。

3. 稠密语义特征融合：用语义线索补回多视图丢失的几何细节

单目/双目模型能给出锐利的单视图几何，但多视图模型为保 3D 一致性倾向于「平滑」预测，丢掉细粒度几何。作者把骨干输出的全局对齐 3D 特征 \(f_{3d}\) 与每张图用 DINOv2 抽的稠密语义特征 \(f_s\) 沿特征维拼接 \(f_n=f_{3d}\oplus f_s\)，再送进 DPT 头回归最终深度和法向。语义特征提供额外的局部几何线索，让法向/深度预测重新变锐利、更贴合细结构——消融里证实这一步对法向质量有实在贡献。

4. 多任务定制损失与自适应裁剪：在异质数据上稳住大规模训练

模型要同时学点图、相机、深度、跟踪、法向多种量，作者在 VGGT 的点图/相机/跟踪损失基础上，补了三个针对性损失：局部点损失 \(L_{pts\_local}\)（解决单目焦距-距离歧义，先解一个最优尺度 \(\hat s\) 对齐预测点云与真值，再算深度加权 L1 距离）；点法向损失 \(L_{pts\_n}\)（用相邻点叉乘算法向、按角度差监督，鼓励局部光滑表面）；预测法向损失 \(L_n=L1(N,\bar N)\)（直接监督法向头的视空间法向）。总损失把这些加权相加。由于训练数据质量参差，错误标注会偶发地把 loss 顶出尖峰，作者用自适应裁剪稳住：维护一个近期 loss 的滑窗、算均值 \(\mu_L\) 和标准差 \(\sigma_L\)，按 k-sigma 规则定阈值 \(T_L=\mu_L+k\sigma_L\)（默认 \(k=3\)），当前 loss 超阈即视作离群点裁到阈值，让训练由典型分布主导而非被极端值带偏。

损失函数 / 训练策略¶

总目标为 \(L = L_{pts} + L_{cam} + L_{depth} + \lambda_{track}L_{track} + \lambda_{moe}L_{moe} + \lambda_{pts\_local}L_{pts\_local} + \lambda_{pts\_n}L_{pts\_n} + \lambda_{n}L_{n}\)，权重设 \(\lambda_{moe}=0.01\)、\(\lambda_{pts\_local}=0.5\)、\(\lambda_{pts\_n}=1.0\)、\(\lambda_{n}=1.0\)。模型基于预训练 VGGT checkpoint 初始化，训练数据沿用 VGGT 并扩入一个覆盖室内/室外/物体中心/人体中心/动态场景的内部数据集。两阶段训练：先多任务监督，再插 MoE 续训。

实验关键数据¶

评测指标说明：Acc.（Accuracy，重建点到真值的距离误差，↓）、Comp.（Completion，真值到重建点的覆盖误差，↓）、N.C.（Normal Consistency，法向一致性，↑）；深度用 Abs Rel（绝对相对误差，↓）和 δ<1.25（阈值精度，↑）；相机位姿用 RRA/RTA@30（30° 内相对旋转/平移精度，↑）、AUC@30（min(RRA,RTA)–阈值曲线下面积，↑）、ATE/RPE（绝对轨迹误差/相对位姿误差，↓）。

主实验¶

点图重建（Acc./Comp. 取 Mean）上 MoRE 在多数数据集领先；下表节选 DTU 与 ETH3D：

数据集	指标	MoRE(本文)	Pi3	VGGT
DTU	Acc.↓	1.011	1.198	1.338
DTU	Comp.↓	1.482	1.849	1.896
DTU	N.C.↑	0.695	0.678	0.676
ETH3D	N.C.↑	0.782	0.768	0.766
NRGBD	N.C.↑	0.992	0.987	—

法向估计上提升最为显著（角度误差 Mean/Med ↓，δ11.25° ↑）：

数据集	指标	MoRE	StableNormal	Lotus
NYUv2	Mean↓	15.1	19.7	17.5
NYUv2	δ11.25°↑	63.5	53.0	58.7
ScanNet	Mean↓	16.1	18.1	18.1
IBims-1	δ11.25°↑	72.6	66.7	66.2

相机位姿上，RealEstate10K 零样本设定下 AUC@30 达 86.28（Pi3 85.90、VGGT 77.62），TUM-dynamics 的 ATE 降到 0.010（VGGT 0.012、Pi3 0.014），在多数据集刷新或持平 SOTA。单目深度上与专用单目模型（MoGe）相当。

消融实验¶

在 DTU（点图）、NYUv2（深度）、RealEstate10K（位姿）上逐步加组件：

配置	DTU Acc.↓	DTU Comp.↓	NYUv2 δ<1.25↑	RE10K AUC@30↑	说明
w/o L, w/o MoE（基线）	1.338	1.896	0.951	77.62	VGGT 基线
w/o MoE（仅定制损失）	1.297	1.625	0.953	85.14	加深度精炼等损失
Ours（全量）	1.011	1.482	0.957	86.28	再加 MoE

所有变体（含基线）训练步数相同，排除算力不公平。

关键发现¶

MoE 与定制损失各司其职：仅加定制损失（含置信度深度精炼）就把位姿 AUC 从 77.62 拉到 85.14、点图明显变好；再加 MoE 进一步把 DTU Acc. 从 1.297 压到 1.011，说明「容量自适应」和「监督质量」是两条互补的增益来源。
置信度深度精炼的价值在于「少即是多」：只在高置信区域监督，反而比硬拟合全部带噪真值更准——这是对「深度真值越多越好」直觉的反例。
多视图过平滑可被语义救回：DINOv2 稠密语义融合显著锐化法向/深度，法向在三个 benchmark 上全面领先，是提升幅度最大的任务。
Pi3 因 Transformer 学习不足常出「棋盘格」伪影，VGGT/Fast3R 跨场景泛化弱，而 MoRE 在稀疏视图和稠密视图下都更一致。

亮点与洞察¶

把 LLM 的 MoE 范式干净地迁到稠密 3D 几何回归：直接复制骨干里交替注意力的 FFN 当专家、线性路由 + top-K + 负载均衡，几乎零额外设计成本，却让一套模型按 3D 场景类型自适应分配容量——这是「扩容不扩算力」在 3D 基础模型上的一次实证。
「过滤监督」而非「增强监督」：用一个现成单目模型（MoGev2）当裁判生成置信掩码、剔掉脏深度真值，思路简单但反直觉，可直接迁移到任何被噪声真值困扰的稠密预测任务。
多视图一致性与局部锐度的矛盾用语义特征调和：3D 一致性导致的过平滑是前馈多视图方法的通病，拿 2D 自监督语义补几何细节是个轻量且通用的解法。
自适应 k-sigma loss 裁剪对在「质量参差的大杂烩数据集」上稳训很实用，是工程上可复用的 trick。

局限与展望¶

依赖外部模型当监督源：置信度精炼依赖 MoGev2 的预测质量，深度语义融合依赖 DINOv2，外部模型的偏差/盲区可能被继承。⚠️ 论文未深入讨论该耦合带来的失败模式。
专家专精的可解释性未充分展开：论文称专家会专精室内/室外/物体/人体/动态等域，但缺少「哪个专家学到了什么域」的定量证据，路由是否真按场景语义分化仍待验证。
MoE 第二阶段的训练/显存代价：专家集合由 FFN 复制而来，参数总量上升；虽宣称「无额外计算」用于下游，但训练侧成本和专家数 \(E\)、top-K 的敏感性未给充分 sweep。
改进方向：可探索专家数与场景类别的对齐监督、把置信掩码扩展到法向/点图等其它带噪监督、以及动态场景下时序一致性的专门专家。

评分¶

新颖性: ⭐⭐⭐⭐ 首次把 MoE 干净地引入前馈 3D 几何基础模型，思路清晰但更多是成熟范式的有效迁移而非全新机制。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖点图/深度/相机/法向四类任务、十余个 benchmark，消融拆解 MoE 与定制损失各自贡献。
写作质量: ⭐⭐⭐⭐ 结构清晰、公式完整；专家专精的可解释性证据稍欠。
价值: ⭐⭐⭐⭐ 给「3D 基础模型如何继续 scaling」提供了一条实用且可复现的容量扩展路径。