MamTiff-CAD: Multi-Scale Latent Diffusion with Mamba+ for Complex Parametric Sequence¶
元信息¶
- 会议: ICCV 2025
- arXiv: 2511.17647
- 代码: 未公开
- 领域: 扩散模型 · CAD生成
- 关键词: 参数化CAD, Mamba, 长序列建模, 多尺度Transformer, 扩散模型
一句话总结¶
提出MamTiff-CAD框架,结合Mamba+编码器与Transformer解码器的自编码器学习CAD命令序列的潜表示,再用多尺度Transformer扩散模型生成,首次实现60-256命令长度的复杂CAD模型生成。
研究背景与动机¶
参数化CAD通过命令序列(草图、拉伸、布尔运算等)构建3D模型,是工业设计的核心。现有深度学习方法(如DeepCAD)受Transformer二次复杂度限制,仅能处理短序列(<60命令),无法生成工业级复杂CAD模型。
核心挑战: 1. 长序列建模瓶颈:Transformer的\(O(n^2)\)复杂度限制序列扩展 2. 局部-全局约束平衡:CAD模型同时包含局部几何细节和全局拓扑约束 3. 数据集缺失:现有数据集(DeepCAD平均15命令)不含复杂长序列CAD
方法详解¶
整体框架(两阶段)¶
阶段一:Mamba+编码器 + Transformer解码器的自编码器,将CAD序列编码为潜表示\(Z\)
阶段二:多尺度Transformer扩散模型在潜空间学习分布,生成新CAD
CAD参数化表示¶
每个命令\(m_i = (C_i, p_i)\),其中\(C_i\)为6种命令类型之一,\(p_i \in \mathbb{R}^{16}\)包含坐标、角度、拉伸参数等。连续参数归一化到\(2 \times 2 \times 2\)立方体并量化为256级离散token,序列固定长度256(不足则用EOS填充)。
Mamba+编码器(带遗忘门)¶
核心创新——双分支+遗忘门:
- 分支b1:1D卷积 + SSM块提取序列特征
- 分支b2:SiLU激活生成控制信号
- 遗忘门\(G_f\)调节历史信息保留,防止长距离依赖中关键信息丢失
4层Mamba+块堆叠,实现从60到256长度的CAD序列高效编码。
Transformer解码器(非自回归)¶
4层Transformer块,输入为潜向量\(Z\)和可学习位置嵌入。非自回归解码并行生成所有256个命令位置的预测:
自编码器训练损失¶
\(\beta=2\)平衡参数损失和命令类型损失。跳过填充命令和未使用参数。
多尺度Transformer扩散生成器(MST-D)¶
三个并行注意力分支,分别捕获不同尺度的依赖: - 窗口64:局部几何约束 - 窗口128:中程拓扑依赖 - 窗口256:全局语义一致性
自适应融合: $\(\mathbf{H} = \text{MLP}(\sigma(\mathbf{W}_g [\mathbf{H}_l \| \mathbf{H}_m \| \mathbf{H}_g]) \odot [\mathbf{H}_l \| \mathbf{H}_m \| \mathbf{H}_g])\)$
标准DDPM噪声预测损失: $\(L_{\text{diff}} = \mathbb{E}_{t,Z_0,\epsilon}[\|\epsilon - \epsilon_\theta(Z_t, t)\|_2^2]\)$
实验¶
自编码重建(ABC-256数据集)¶
| 方法 | 命令精度↑ | 参数精度↑ | MCD↓ | 无效率↓ | STEP率↑ |
|---|---|---|---|---|---|
| DeepCAD | 92.24% | 75.93% | 41.02 | 33.11% | 70.46% |
| MT-CAD | 89.72% | 66.87% | 121.35 | 39.89% | 63.97% |
| MamTiff-CAD | 99.99% | 99.93% | 0.75 | 8.50% | 93.93% |
命令精度和参数精度均接近100%,MCD从41.02降至0.75(降低98%),无效率从33.11%降至8.50%。
无条件生成¶
| 方法 | MMD↓ | JSD↓ | COV↑ | Unique↑ | Novel↑ | STEP率↑ |
|---|---|---|---|---|---|---|
| DeepCAD | 2.66 | 6.49 | 56.66% | 75.8 | 88.0 | 23.96% |
| SkexGen | 2.31 | 4.53 | 57.76% | 80.5 | 96.9 | 75.26% |
| MamTiff-CAD | 1.43 | 3.19 | 64.16% | 90.8 | 95.6 | 85.38% |
JSD(分布差异)3.19为最优,STEP转换成功率85.38%远超DeepCAD的23.96%。
ABC-256数据集贡献¶
13,705个CAD模型,平均序列长度99(DeepCAD的6.6倍),序列范围60-256。训练集10,964、验证集1,370、测试集1,371。
亮点与洞察¶
- 长序列突破:首次实现256命令的工业级CAD生成
- Mamba+的遗忘门设计:有效解决长距离依赖的信息遗忘问题
- 多尺度扩散:局部-中程-全局三级注意力同步几何和拓扑约束
- 数据集贡献:ABC-256填补了长序列CAD数据集的空白
局限性¶
- 固定256长度限制超长序列(>256)的建模
- 仅支持无条件生成,缺乏文本/图像引导
- 评估仅限几何质量,未评估工程可用性
- 计算开销:二阶段训练共需300+200K epochs
相关工作¶
- CAD生成: DeepCAD, SkexGen, HNC-CAD
- 长序列模型: Mamba, 稀疏注意力
- 3D扩散生成: 3DShape2VecSet, DiT-3D, DiffCAD
评分¶
- 新颖性:★★★★☆ — Mamba+与多尺度扩散的组合针对性强
- 技术深度:★★★★☆ — 架构设计合理,实验验证充分
- 实用性:★★★★☆ — 面向工业级CAD生成的实际需求