MamTiff-CAD: Multi-Scale Latent Diffusion with Mamba+ for Complex Parametric Sequence¶

元信息¶

会议: ICCV 2025
arXiv: 2511.17647
代码: 未公开
领域: 扩散模型 · CAD生成
关键词: 参数化CAD, Mamba, 长序列建模, 多尺度Transformer, 扩散模型

一句话总结¶

提出MamTiff-CAD框架，结合Mamba+编码器与Transformer解码器的自编码器学习CAD命令序列的潜表示，再用多尺度Transformer扩散模型生成，首次实现60-256命令长度的复杂CAD模型生成。

研究背景与动机¶

参数化CAD通过命令序列（草图、拉伸、布尔运算等）构建3D模型，是工业设计的核心。现有深度学习方法（如DeepCAD）受Transformer二次复杂度限制，仅能处理短序列（<60命令），无法生成工业级复杂CAD模型。

核心挑战： 1. 长序列建模瓶颈：Transformer的$O(n^2)$复杂度限制序列扩展 2. 局部-全局约束平衡：CAD模型同时包含局部几何细节和全局拓扑约束 3. 数据集缺失：现有数据集（DeepCAD平均15命令）不含复杂长序列CAD

方法详解¶

整体框架（两阶段）¶

阶段一：Mamba+编码器 + Transformer解码器的自编码器，将CAD序列编码为潜表示$Z$

阶段二：多尺度Transformer扩散模型在潜空间学习分布，生成新CAD

CAD参数化表示¶

每个命令$m_i = (C_i, p_i)$，其中$C_i$为6种命令类型之一，$p_i \in \mathbb{R}^{16}$包含坐标、角度、拉伸参数等。连续参数归一化到$2 \times 2 \times 2$立方体并量化为256级离散token，序列固定长度256（不足则用EOS填充）。

Mamba+编码器（带遗忘门）¶

核心创新——双分支+遗忘门：

\[G_f = 1 - G_{b2}\]

\[x'' = G_f \cdot x'\]

\[h_{\text{out}} = x'' + h_{\text{SSM}}\]

分支b1：1D卷积 + SSM块提取序列特征
分支b2：SiLU激活生成控制信号
遗忘门$G_f$调节历史信息保留，防止长距离依赖中关键信息丢失

4层Mamba+块堆叠，实现从60到256长度的CAD序列高效编码。

Transformer解码器（非自回归）¶

4层Transformer块，输入为潜向量$Z$和可学习位置嵌入。非自回归解码并行生成所有256个命令位置的预测：

\[p(\hat{M} | z, \Theta) = \prod_{i=1}^{N_c} p(\hat{C}_i, \hat{p}_i | z, \Theta)\]

自编码器训练损失¶

\[L = \sum_{i=1}^{N_c} \ell(p_i(t_i)) + \beta \sum_{i=1}^{N_c} \sum_{j=1}^{N_p} \ell(q_{i,j}(a_{i,j}))\]

$\beta=2$平衡参数损失和命令类型损失。跳过填充命令和未使用参数。

多尺度Transformer扩散生成器（MST-D）¶

三个并行注意力分支，分别捕获不同尺度的依赖： - 窗口64：局部几何约束 - 窗口128：中程拓扑依赖 - 窗口256：全局语义一致性

自适应融合： $$\mathbf{H} = \text{MLP}(\sigma(\mathbf{W}_g [\mathbf{H}_l \| \mathbf{H}_m \| \mathbf{H}_g]) \odot [\mathbf{H}_l \| \mathbf{H}_m \| \mathbf{H}_g])$$

标准DDPM噪声预测损失： $$L_{\text{diff}} = \mathbb{E}_{t,Z_0,\epsilon}[\|\epsilon - \epsilon_\theta(Z_t, t)\|_2^2]$$

实验¶

自编码重建（ABC-256数据集）¶

方法	命令精度↑	参数精度↑	MCD↓	无效率↓	STEP率↑
DeepCAD	92.24%	75.93%	41.02	33.11%	70.46%
MT-CAD	89.72%	66.87%	121.35	39.89%	63.97%
MamTiff-CAD	99.99%	99.93%	0.75	8.50%	93.93%

命令精度和参数精度均接近100%，MCD从41.02降至0.75（降低98%），无效率从33.11%降至8.50%。

无条件生成¶

方法	MMD↓	JSD↓	COV↑	Unique↑	Novel↑	STEP率↑
DeepCAD	2.66	6.49	56.66%	75.8	88.0	23.96%
SkexGen	2.31	4.53	57.76%	80.5	96.9	75.26%
MamTiff-CAD	1.43	3.19	64.16%	90.8	95.6	85.38%

JSD（分布差异）3.19为最优，STEP转换成功率85.38%远超DeepCAD的23.96%。

ABC-256数据集贡献¶

13,705个CAD模型，平均序列长度99（DeepCAD的6.6倍），序列范围60-256。训练集10,964、验证集1,370、测试集1,371。

亮点与洞察¶

长序列突破：首次实现256命令的工业级CAD生成
Mamba+的遗忘门设计：有效解决长距离依赖的信息遗忘问题
多尺度扩散：局部-中程-全局三级注意力同步几何和拓扑约束
数据集贡献：ABC-256填补了长序列CAD数据集的空白

局限性¶

固定256长度限制超长序列（>256）的建模
仅支持无条件生成，缺乏文本/图像引导
评估仅限几何质量，未评估工程可用性
计算开销：二阶段训练共需300+200K epochs

评分¶

新颖性：★★★★☆ — Mamba+与多尺度扩散的组合针对性强
技术深度：★★★★☆ — 架构设计合理，实验验证充分
实用性：★★★★☆ — 面向工业级CAD生成的实际需求