SAM 3D: 3Dfy Anything in Images¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://ai.meta.com/sam3d
领域: 3D视觉
关键词: 单图3D重建, 生成式重建, 流匹配, 数据引擎, 人类偏好对齐

一句话总结¶

SAM 3D 是一个从单张自然图像出发、为图中任意物体重建完整 3D 形状/纹理/布局的生成式基础模型，靠"模型在环 + 人类标注"的数据飞轮和 LLM 式多阶段训练突破了真实世界 3D 数据稀缺的壁垒，在真实物体与场景上对此前 SOTA 拿到至少 5:1 的人类偏好胜率。

研究背景与动机¶

领域现状：从单图重建 3D 一直是计算机视觉的难题。传统路线靠多视图几何拿 3D 信号，而近期的生成式方法（Trellis、Hunyuan3D 等）在孤立的合成物体上已经能给出不错的形状重建。

现有痛点：这些模型几乎都在"干净的单物体渲染图"上训练，一旦遇到自然图像里那种远距离、被严重遮挡、场景杂乱的物体就崩。本质问题是真实图像配对的 3D 真值极难大规模获取——给图片打"猫"标签或画掩码很容易，但让普通标注员造出一个物体的 3D 网格几乎不可能，专业 3D 艺术家做一个又要好几个小时。这就是作者反复强调的"3D 数据壁垒"。

核心矛盾：模型要在真实图像上泛化，就需要"真实图像 ↔ 3D 真值"的大规模配对数据；而这种数据恰恰是最贵、最难标的。合成数据管够但有域差，真实数据有用但标不起。

切入角度：作者借了两个老观察。其一是心理学里的"图像线索（pictorial cues）"——人类单凭一张图就能感知形状，其中关键的一条是识别（"熟悉物体"线索）：一旦认出这是什么，3D 形状和位姿就能被恢复，且因为新物体由见过的部件组成，识别能带来泛化。其二是标注的不对称性：人虽然造不出网格，却能从一组候选 3D 模型里挑出最像的那个、并把它的位姿对齐到图上。

核心 idea：把"识别驱动重建"做成生成模型，并用"模型出候选、人来挑选/评分"的数据引擎源源不断造出真实世界 3D 监督，再套 LLM 那套"合成预训练 → 真实后训练"的多阶段配方把模型对齐到真实图像和人类审美。

方法详解¶

整体框架¶

SAM 3D 把"拍照"看成一个把 3D 物体投影到 2D 像素的有损映射，目标是逆转它：给定图像 \(I\) 和物体掩码 \(M\)，建模条件分布 \(p(S, T, R, t, s \mid I, M)\)，并训一个生成模型 \(q\) 去逼近——其中 \(S\) 是形状、\(T\) 是纹理、\((R, t, s)\) 是相机坐标系下的旋转/平移/缩放（布局）。整个系统由三根支柱撑起：推理架构（双流 MoT + 两阶段流匹配，负责"怎么从图算出 3D"）、多阶段训练（合成预训练到真实后训练，负责"怎么把数据壁垒打穿"）、MITL 数据引擎飞轮（负责"真实监督从哪来"）。

推理侧是一个清晰的串行 pipeline：单图配掩码先用 DINOv2 编码出条件 token，几何模型先出粗形状和布局，纹理与精修模型再补细节和纹理，最后双 VAE 解码器把隐表示解成 mesh 或 3D 高斯，多个物体拼成可组合的整场景。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["单张图像 + 目标掩码"] --> B["DINOv2 双视图编码<br/>裁剪物体 + 全图，各带掩码"]
    B --> C["几何模型 1.2B MoT<br/>粗形状 + 6D位姿/平移/缩放"]
    C --> D["纹理与精修模型 600M 稀疏流<br/>细化几何 + 合成纹理"]
    D --> E["双 VAE 解码器<br/>Mesh / 3D 高斯"]
    E --> F["可组合的多物体 3D 场景"]
    P["可选点云<br/>LiDAR / 单目深度"] -.-> C

关键设计¶

1. 双流 MoT 架构与两阶段隐空间流匹配：先定形再上色，识别线索贯穿全程

直接一步从图回归 3D 既要管全局位姿又要管局部细节，很难兼顾，所以 SAM 3D 把任务拆成两阶段、并在编码上同时喂"局部清晰"与"全局语义"两路信息。输入编码用 DINOv2 提取四组条件 token：裁剪后的物体图 + 其掩码（提供物体的高分辨率聚焦视图），以及完整图像 + 全图掩码（提供裁剪视图里没有的场景上下文和识别线索）——后者正是"识别驱动重建"落地的地方。几何模型是一个 1.2B 参数的流变换器，采用 Mixture-of-Transformers（MoT）双流架构：用两条流分别处理几何 \(O \in \mathbb{R}^{64^3}\) 和布局 \((R,t,s)\)，仅在多模态自注意力层共享信息，建模 \(p(O, R, t, s \mid I, M)\)；旋转用 6D 表示 \(R \in \mathbb{R}^6\)。纹理与精修模型是一个 600M 参数的稀疏隐空间流变换器，从粗形状 \(O\) 里抽出活跃体素，建模 \(p(S, T \mid I, M, O)\) 来细化几何并合成纹理。最后两个共享同一 VAE 编码器（因而共享同一结构化隐空间）的解码器 \(D_m, D_g\) 把结果解成 mesh 或 3D 高斯。和只重建孤立物体的 Trellis 不同，SAM 3D 多预测了布局 \((R,t,s)\)，才能把若干物体摆成一个连贯的多物体场景。模型还可选地以点云 \(P\)（手机 LiDAR 或单目深度估计得到）为条件，方便接入其它 pipeline。

2. LLM 式多阶段训练：用合成预训练打底、真实后训练对齐，打穿 3D 数据壁垒

3D 真值数据比文本/图像/视频少几个数量级，硬训真实数据训不动。SAM 3D 直接搬 LLM 的多阶段配方："预训练 → 中训练 → 后训练"逐步把模型从合成域推到真实域。预训练用 270 万个 Objaverse-XL 等来源的物体网格、每个渲染 24 个视角的孤立合成物体（数据集 Iso-3DO，训练 2.5 万亿 token），让模型先学到丰富的形状/纹理"词汇"。中训练用"渲染-粘贴"造的半合成数据 RP-3DO（6100 万样本、280 万独立网格）：把渲染的纹理网格用 alpha 合成贴进自然图像，其中一类是遮挡者-被遮挡者配对、一类是把真实物体替换成相近位置尺度的合成物体——以此教会模型掩码跟随、遮挡鲁棒（被遮挡时补全形状）和布局估计。后训练才用真实图像，分 SFT 与偏好对齐两步：SFT 先用噪声较大的非专家标注（MITL-3DO）、再用少而精的 3D 艺术家标注（Art-3DO）来抑制悬浮碎片、无底网格、缺失对称等常见崩坏；偏好对齐用 DPO，拿数据引擎里的"优于/劣于"候选对去消除人类敏感却难被流匹配目标捕捉的瑕疵（对称、闭合等）。最后还有一个蒸馏阶段把推理的函数评估次数 NFE 从 25 降到 4，做到亚秒级出形状和布局。作者强调一个关键经验：只要真实后训练足够，合成预训练学到的能力能泛化过去。

3. 模型在环（MITL）数据引擎飞轮：把"人不会造网格但会挑网格"变成可规模化的监督

真实 3D 监督最难拿，这个数据引擎是全篇的灵魂。核心利用一个不对称事实：普通人造不出网格，但给定若干候选能挑出最像图中物体的那个。流程拆成三个子任务（见原文 Fig. 5）：Stage 1 选目标物体得到 \((I, M)\)；Stage 2 让标注员从候选里挑形状/纹理 \((S, T)\) 并打分 \(r\)，低于阈值 \(r < \omega\) 的拒掉、且这些差候选会变成偏好对齐的负样本；Stage 3 把物体相对点云对齐位姿，标出 \((R, t, s)\)。Stage 2/3 都是模型在环。为提高一次标注成功（\(r > \omega\)）的概率，引擎让标注员在 \(N=8\) 个候选里挑——这是一种"用人来做的 best-of-N 搜索"，候选越多期望质量越高，还会先用模型过滤再用人过滤来进一步放大 \(N\)。冷启动问题（第一轮模型几乎产不出好候选）靠一套现成的学习式 + 检索式模型集成来兜底出候选，随训练推进，自家最佳模型逐渐主导，最终约 80% 的标注数据由 SAM 3D 自己产出。极难的样本（没有任何模型能给出像样形状）小比例路由给专业 3D 艺术家直接标注（Art-3DO）。整个引擎可形式化成一个 API：吃进当前最佳模型 \(q(S,T,R,t,s \mid I,M)\)，吐出训练样本 \(D^+\)、质量评分 \(r \in [0,1]\) 和一组都劣于 \(D^+\) 的候选 \(D^-\)。这些数据回流训练、改进后的模型再回插引擎，形成"标注质量、标注率、模型性能同步上升"的良性循环——数据集本身是对齐过程的副产物。最终在近 100 万张图上标了约 314 万个无纹理网格和约 10 万个有纹理网格，规模空前。

实验关键数据¶

主实验¶

SAM 3D 在形状、纹理、布局三个维度都拿了大幅领先。形状上，SA-3DAO（真实图像，有几何真值）指标几乎翻倍，孤立物体集 ISO3D（无几何真值，用感知相似度）也持平或超过 SOTA。人类偏好测试中，真实物体对 SOTA 拿到约 5:1 胜率、场景级约 6:1。

数据集	指标	本文 SAM 3D	之前最佳	说明
SA-3DAO	[email protected] ↑	0.2344	0.1629 (Hi3DGen)	真实图像形状，大幅领先
SA-3DAO	vIoU ↑	0.2311	0.1531 (Hi3DGen)	体素 IoU
SA-3DAO	Chamfer ↓	0.0400	0.0844 (TripoSG)	几何误差减半
SA-3DAO	EMD ↓	0.1211	0.2049 (HY3D-2.0)	推土机距离
ISO3D	Uni3D ↑	0.3707	0.3698 (Trellis)	感知相似度，持平/略超

布局上，SAM 3D 的"联合生成形状+布局"开辟了新能力，在 ADD-S @ 0.1 这个指标上把"2% → 77%"，且即便给 pipeline 类方法换上 SAM 3D 的网格仍被其稳超：

数据集	范式	方法	3D IoU ↑	ADD-S @0.1 ↑
SA-3DAO	Pipeline	HY3D-2.0 + FoundationPose	0.2937	0.5396
SA-3DAO	Joint	SAM 3D	0.4254	0.7232
Aria Digital Twin	Joint	MIDI	0.0336	0.0175
Aria Digital Twin	Joint	SAM 3D	0.4970	0.7673

消融实验¶

按训练阶段累加做消融（SA-3DAO 形状 + 偏好集纹理胜率），近乎单调提升，验证了多阶段配方里每一段都有用：

累加阶段	[email protected] ↑	Chamfer ↓	纹理胜率 ↑	说明
预训练 (Iso-3DO)	0.1349	0.1036	–	仅合成孤立物体
+ 中训练 (RP-3DO)	0.1705	0.0760	60.7	加半合成贴图数据
+ SFT (MITL-3DO)	0.2027	0.0578	66.9	真实非专家标注
+ DPO (MITL-3DO)	0.2156	0.0498	66.4	偏好对齐
+ SFT (Art-3DO)	0.2331	0.0445	–	艺术家高质量数据
+ DPO (Art-3DO)	0.2344	0.0400	–	完整模型

关键发现¶

数据引擎迭代带来近线性的 Elo 提升：把数据引擎跑得越久、性能越好（400 分 Elo 差≈偏好测试 10:1），且必须"所有阶段同步扩"才有这个累积线性效应；只单独迭代 MITL-3DO 数据也涨但边际递减。
合成预训练能泛化：只要真实后训练充分，合成预训练打下的形状/纹理先验能迁移到真实图像——这是打穿数据壁垒的关键前提。
DPO 抓的是流匹配目标抓不到的东西：SFT 后再上 DPO，能消掉对称性、闭合性这类人类敏感但通用目标难刻画的瑕疵。
对深度估计器是模块化的：换一个训练时没见过的更好深度估计器，标注员反而更偏好其输出，说明系统不绑死在某个点云来源。

亮点与洞察¶

"人不会造、但会挑"是整个数据引擎的支点：把昂贵的"造 3D"换成廉价的"从 N=8 个候选里挑+评分"，再用模型集成解冷启动，这个不对称性设计可迁移到任何"生成易、验证/挑选更易"的标注任务上。
直接搬 LLM 的多阶段 + 数据飞轮配方到 3D，并明确给出"合成预训练能泛化"这一可被后续工作复用的经验结论，是把 3D 重建当"基础模型"来做的范式样本。
双流 MoT 把几何与布局解耦又共享，仅在自注意力层互通信息，是同时输出形状和场景布局而不互相干扰的巧妙折中。
顺手补了一个真实世界基准 SA-3DAO：1000 个艺术家从自然图像手工建的 3D 网格，代表"视觉接地 3D 重建"的人类专家上界，填补了真实场景缺评测的空白。

局限与展望¶

整套方法重度依赖大规模标注基础设施和算力：百万级图像标注、万亿 token 级训练、专业 3D 艺术家兜底——学术界很难复现这个数据飞轮规模。
布局评测（平移/缩放）需要真值深度/点云作参考，纯 RGB 下的布局精度上界仍受单目深度估计质量制约（⚠️ 论文称形状/纹理质量不依赖点云条件，但布局评测明确需要 GT 深度）。
数据引擎的质量阈值 \(\omega\) 随训练动态抬升（类似交叉熵方法），其调度对最终质量的影响、以及"约 80% 数据由自家模型产出"是否带来自我强化偏差，文中讨论有限。
⚠️ MoT 双流的注意力掩码、蒸馏（25→4 NFE）、DPO 的具体训练细节都放在附录，正文给的是高层描述，复现需对照附录。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 LLM 式多阶段训练 + 模型在环数据飞轮系统性引入单图 3D 重建，并用"人挑不人造"的不对称性绕开 3D 数据壁垒。
实验充分度: ⭐⭐⭐⭐⭐ 形状/纹理/布局三维度 + 自建真实基准 SA-3DAO + 逐阶段消融 + Elo 数据引擎分析，覆盖很全。
写作质量: ⭐⭐⭐⭐⭐ 从心理学"图像线索"和标注不对称性讲起，动机链条清晰，方法与数据引擎叙述到位。
价值: ⭐⭐⭐⭐⭐ 开源模型/代码/在线 demo/新基准，对机器人、AR/VR、游戏等下游有直接拉动，是 3D 基础模型的标志性工作。