CG-MLLM: Captioning and Generating 3D Content via Multi-modal Large Language Models¶
会议: ICML 2026
arXiv: 2601.21798
代码: 待确认
领域: 多模态VLM / 3D视觉
关键词: 3D生成, 多模态大语言模型, Mixture-of-Transformer, 空间智能, 3D理解
一句话总结¶
CG-MLLM 提出了一种基于 Mixture-of-Transformer 的多模态大语言模型,通过 TokenAR(逐token自回归)和 BlockAR(块级并行)双 Transformer 架构,结合预训练 VLM 骨干与 3D VAE 潜空间,首次实现在单一 MLLM 框架内端到端进行高分辨率 3D 内容生成与 3D 字幕理解,在 MLLM 类 3D 生成方法中达到 SOTA。
研究背景与动机¶
领域现状:大语言模型已在文本、图像、视频等模态取得突破性进展,众多 MLLM 在 2D 视觉-语言理解与生成任务上表现优异。然而,3D 内容生成领域进展缓慢,与 2D 多模态生成之间存在明显差距。
现有痛点:当前 MLLM 用于 3D 生成主要有两条路线:(1) 以文本/离散 token 形式生成网格,但 token 预算限制了网格的复杂度和分辨率;(2) 使用低分辨率体素 VAE 或乐高结构生成粗糙 3D 代理形状,仍需额外 3D 扩散模型才能获得精细几何。两者均无法在 LLM 阶段端到端生成高分辨率 3D 对象。
核心矛盾:3D 几何本质上形成长程、高度相互依赖的序列,纯 token 级自回归建模会导致严重的效率问题;而现有 MoT 方法将 Transformer 按任务(理解 vs 生成)绑定,不够灵活。
本文目标:构建一个统一的语言-图像-3D 多模态大语言模型,在单一模型内同时实现精确的空间理解和高保真空间内容生成。
切入角度:作者观察到 token 级串行建模与 block 级并行建模可以解耦到不同的 Transformer 分支,按生成模式(serial vs parallel)而非按任务绑定,从而灵活接入不同预训练编码器。
核心 idea:用双 Transformer 的 MoT 架构(TokenAR + BlockAR)整合预训练 Qwen3-VL 骨干与 Hunyuan3D-2.1 VAE 潜空间,在 MLLM 内原生实现高分辨率 3D 生成。
方法详解¶
整体框架¶
CG-MLLM 采用 decoder-only 架构,由三个阶段组成:(1) 多模态编码——文本使用 BBPE 分词器、图像通过 SigLIP-2 编码器 + 2层 MLP 压缩、3D 资产通过冻结的 Hunyuan3D-2.1 Spatial-VAE 编码为潜在表示;(2) MoT 建模——TokenAR Transformer 处理 token 级序列建模,BlockAR Transformer 处理 block 级并行建模,二者共享注意力机制;(3) 多模态解码——文本 token 通过分词器解码,3D token 通过 VAE 解码器还原为网格,再经材质生成器增强视觉质量。
关键设计¶
-
双 Transformer MoT 架构(TokenAR + BlockAR):
- 功能:解耦串行建模与并行建模,使模型同时具备 token 级语言/视觉理解和 block 级 3D 空间生成能力
- 核心思路:TokenAR 和 BlockAR 均从预训练 Qwen3-VL 权重初始化。TokenAR 保持原始 token 级自回归能力;BlockAR 对 3D 潜在 token 进行 block 级并行预测,各 block 内共享位置索引以保持点特征的排列不变性。采用混合掩码机制——因果掩码用于顺序 token,并行掩码用于同一 block 内的 token,二者在注意力层中自适应组合
- 设计动机:与按任务绑定(理解 vs 生成)不同,按生成模式绑定可灵活接入任意编码器,且 block 级并行在 4096 token 分辨率下实现约 3 倍加速
-
3D Spatial-VAE 集成与位置编码策略:
- 功能:将 3D 对象编码为高维潜在空间,并与 VLM 语义空间对齐
- 核心思路:采用 Hunyuan3D-2.1 的 Spatial-VAE(下采样因子 20,潜在维度 64),从 3D 物体表面提取点云并编码为潜在表示,通过 Connector 层与 LLM 隐藏维度对齐。对 3D token 故意省略 block 内位置嵌入,仅赋予 block 级位置索引,保持点特征排列不变性的同时维护全局空间结构。VAE 在训练中全程冻结
- 设计动机:复用成熟的 3D VAE 几何先验,避免从零训练 3D 编码器的高成本;位置编码策略确保点云特征的无序性不被位置信息破坏
-
渐进分辨率训练策略:
- 功能:分两阶段逐步提升 3D 生成分辨率,稳定训练过程
- 核心思路:第一阶段(对齐阶段)丢弃 90% 条件输入,以 512 token 分辨率训练无条件生成与初始理解能力;第二阶段(渐进分辨率阶段)将分辨率从 512 逐步提升至 4096 token,同时将丢弃概率从 90% 降低至 10%。使用 AdamW 优化器,学习率从 \(1 \times 10^{-4}\) 调整到 \(5 \times 10^{-5}\)
- 设计动机:直接训练高分辨率 3D token(4096)对 LLM 序列长度和显存压力过大,渐进策略使模型先掌握粗粒度结构再细化几何细节
训练策略¶
采用 Classifier-Free Guidance (CFG),推理时 CFG scale 设为 7.5,采样 50 步。时间步采用 logit-normal 采样器。训练在 16 块 NVIDIA H20 GPU 上进行,最大序列长度从 36,864 增至 51,200。
实验关键数据¶
主实验:3D 生成质量对比¶
| 方法 | 类型 | p-FID↓ | p-KID↓ | CLIP-IQA+↑ | MUSIQ↑ | CLIP↑ | User Study↑ |
|---|---|---|---|---|---|---|---|
| Michelangelo | Non-MLLM | 17.96 | 0.56 | 0.45 | 71.42 | 84.08 | 2.60 |
| CraftsMan | Non-MLLM | 14.09 | 0.40 | 0.45 | 71.09 | 84.86 | 3.15 |
| TRELLIS | Non-MLLM | 7.36 | 0.12 | 0.44 | 66.97 | 84.13 | 3.28 |
| SAR3D | MLLM | 30.07 | 1.00 | 0.42 | 66.01 | 82.86 | 2.93 |
| ShapeLLM-Omni | MLLM | 13.11 | 0.29 | 0.37 | 55.71 | 84.18 | 2.30 |
| CG-MLLM(本文) | MLLM | 12.55 | 0.27 | 0.45 | 71.65 | 84.47 | 3.32 |
CG-MLLM 在 MLLM 类方法中全面领先,p-FID 比 SAR3D 降低 58%,p-KID 降低 73%。
消融实验¶
| HY2.1-VAE | MoT | LLM 骨干 | #Tokens | p-FID↓ | p-KID↓ |
|---|---|---|---|---|---|
| ✗ | ✗ | Qwen2.5-0.5B | 512 | 53.66 | 1.76 |
| ✓ | ✗ | Qwen2.5-0.5B | 512 | 44.91 | 1.42 |
| ✓ | ✓ | Qwen2.5-0.5B | 512 | 30.60 | 0.77 |
| ✓ | ✓ | Qwen3VL-2B | 512 | 15.61 | 0.43 |
| ✓ | ✓ | Qwen2.5-0.5B | 4096 | 16.57 | 0.53 |
| ✓ | ✓ | Qwen3VL-2B | 4096 | 12.55 | 0.27 |
HY2.1-VAE、MoT 架构、更大 token 预算、更强 VLM 骨干均带来一致的增益,符合 scaling law 趋势。
3D 字幕理解对比¶
| 模型 | 输入 | BLEU-1↑ | ROUGE-L↑ | METEOR↑ |
|---|---|---|---|---|
| 3D-LLM | 3D 潜在 | 16.91 | 19.48 | 19.73 |
| ShapeLLM-Omni-7B | 3D 潜在 | 18.51 | 21.37 | 19.89 |
| Qwen3-VL-2B | 图像 | 3.13 | 7.21 | 11.92 |
| CG-MLLM-2B(本文) | 图像 | 13.51 | 19.13 | 14.28 |
在仅使用图像输入的条件下,CG-MLLM 的字幕能力大幅超越同规模 Qwen3-VL(BLEU-1 提升 4.3 倍),证明 3D 生成训练可以反哺感知能力。
亮点与洞察¶
- 生成反哺理解:联合 3D 生成训练不仅赋予模型生成能力,还显著提升了基于 2D 图像的 3D 结构推理能力,验证了"学会生成有助于理解"的假说
- 按模式绑定 vs 按任务绑定:将 Transformer 按生成模式(串行/并行)而非任务(理解/生成)绑定是一个简洁但关键的设计选择,保持了架构的可扩展性
- AdaLN 在 MLLM 中的失效:作者发现 AdaLN 在共享因果-并行注意力机制中引入额外缩放因子会破坏训练稳定性,这对后续 MLLM+扩散的工作有参考价值
局限性 / 可改进方向¶
- 整体质量仍未超越顶尖非 MLLM 方法(如 TRELLIS),缩小该差距是开放性问题
- 3D 字幕数据集质量有限(通常 < 20 词),限制了 3D 理解能力
- Hunyuan3D-2.1 VAE 的水密化预处理会损失数据精度,token 数仅 4K(高质量方法可达 40K+)
- 输入歧义或语义混淆时可能产生幻觉(如输入羊生成兔子)
相关工作与启发¶
- SAR3D / ShapeLLM-Omni:先前 MLLM 3D 生成方法,分别用 token 和体素 VAE,CG-MLLM 在所有指标上超越
- TRELLIS:非 MLLM 的 3D 生成 SOTA,p-FID 7.36 仍低于 CG-MLLM,说明纯 LLM 范式在 3D 精度上仍有差距
- Mixture-of-Transformers:MoT 思想被重新诠释为模式绑定而非任务绑定
评分¶
- 新颖性: ★★★★☆ — 双 Transformer 按生成模式绑定的设计新颖,3D MLLM 探索有价值
- 实验充分度: ★★★★☆ — 消融全面(5 组),但与非 MLLM SOTA 仍有差距
- 写作质量: ★★★☆☆ — 方法描述清晰但部分段落冗长
- 价值: ★★★★☆ — 首个端到端高分辨率 3D 生成 MLLM,开辟了新方向