QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models¶

会议: ICLR 2026
arXiv: 2509.21420
代码: 无（计划公开 API）
领域: 3D生成 / 网格生成
关键词: quad mesh generation, autoregressive model, mixed topology, tDPO, Hourglass Transformer

一句话总结¶

提出 QuadGPT——首个端到端自回归生成原生四边形网格的框架，通过统一的混合拓扑tokenization（三角形面 padding 为4顶点块）、Hourglass Transformer 架构、以及基于拓扑奖励的截断 DPO (tDPO) 微调，在 Chamfer Distance、Hausdorff Distance、四边形比例和用户偏好上全面超越现有的三角形→四边形转换流水线和十字场引导方法。

研究背景与动机¶

领域现状：四边形 (quad) 网格是游戏和影视行业的标准——确保建模效率、细分曲面平滑、变形稳定和 UV 展开便捷。现有 3D 生成方法要么通过隐式表达 + 等值面提取（如 Marching Cubes）得到密集无结构三角形网格，要么通过十字场引导 (cross-field) 方法对已有网格做四边形化，但后者需要干净输入且不够鲁棒。

现有痛点：自回归网格生成方法（MeshAnything、BPT、DeepMesh、Mesh-RFT）已展示出生成具有 artist-like 拓扑的三角形网格的能力，但它们只能生成三角形。将三角形输出转换为四边形仍需依赖启发式合并算法（如三角形对合并），这种后处理往往破坏自然边流 (edge flow) 并引入拓扑伪影。即使高质量的三角形网格也很难翻译成生产可用的四边形布局。

核心矛盾：生成式方法能学会 artist-like 拓扑但被限制在三角形上，后处理方法能产出四边形但无法保证全局拓扑质量——问题在于四边形网格的生成与后处理被人为解耦。

切入角度：如果自回归模型能直接预测四边形面序列，就可以端到端地学习四边形拓扑的全局结构（边环、边密度分布），而不需要通过三角形中间步骤。关键挑战是：(1) 如何表示混合拓扑（真实 artist 网格通常是 quad-dominant + 少量三角形）；(2) 如何优化全局拓扑质量（cross-entropy loss 只优化局部 token 预测）。

核心 idea：用统一的面块表示 + 拓扑感知的 RL 微调实现首个原生四边形网格自回归生成。

方法详解¶

整体框架¶

QuadGPT 想解决的是"生成式方法只会出三角形、四边形得靠后处理"这个割裂：让自回归模型直接吐出四边形主导的面序列，端到端学到边环、边密度这些全局拓扑结构。整条 pipeline 围绕三个核心支柱（serialization / pretraining / tDPO）展开。训练侧，先把 artist 网格（四边形为主、夹少量三角形）用统一序列化压成定长 token 序列，喂给 Hourglass Transformer 做条件预训练（点云经 Michelangelo 编码器转成全局形状嵌入、用 cross-attention 注入），再用截断 DPO（tDPO）做 RL 微调把全局拓扑质量逼上去。推理侧，输入点云 (\(N_p = 40960\) 点 + 法线) 条件下自回归逐 token 生成面序列，再解码回原生四边形网格；上下文窗口 36,864 token，用 top-k=10、top-p=0.95、\(T=0.5\) 采样，单 A100 约 230 tokens/s。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["点云输入<br/>40960 点+法线"] --> B["Michelangelo 编码器<br/>→ 全局形状嵌入"]
    C["artist 网格<br/>四边形为主+少量三角"] --> D["统一混合拓扑序列化<br/>每面定长 12-token 块"]
    B --> E["Hourglass Transformer<br/>+ 课程学习预训练"]
    D --> E
    E --> F["tDPO 拓扑微调<br/>截断窗口偏好优化"]
    F --> G["自回归生成面序列"]
    G --> H["原生四边形网格"]

关键设计¶

1. 统一混合拓扑序列化：用固定长度面块吃下 quad 和三角形的混搭

真实 artist 网格几乎都是 quad-dominant 加少量三角形，自回归模型必须能同时表示两种面，否则只能退回纯三角形。QuadGPT 的做法是把每个面——不管三角形还是四边形——都序列化成长度恒为 12 的 token 块。四边形面直接展平 4 个顶点的 3D 坐标（\(4 \times 3 = 12\) tokens）；三角形面则在块首补 3 个 padding token \(\tau_{\text{pad}}\)（整数值 1024），再接 3 个顶点坐标（\(3 + 3 \times 3 = 12\) tokens），凑齐同样的 12 长度。顶点坐标先归一化到 \([-0.95, 0.95]^3\)、以 1024 级（10 bit）精度量化，所有顶点再按 \((z, x, y)\) 字典序排列，保证序列表示的确定性。

这样面类型完全由 padding token 是否出现来隐式编码，既不需要显式的类型 token、也不需要为两种面拉两条编码路径，模型直接从 padding 模式里学会"这是个三角形还是四边形"。固定长度块还让 tokenization 高度可并行、模型架构更规整，比分支编码简洁得多。

2. Hourglass Transformer + 课程学习预训练：先压长序列，再从三角形退火到四边形

高精度网格的 token 数可达数万，普通 Transformer 直接吃全长序列代价过高，因此架构采用多层级沙漏（Hourglass）结构。初始 token 嵌入 \(\mathbf{E}^{(0)} \in \mathbb{R}^{L \times D_0}\) 先过一组 Transformer Block，然后经因果保持的缩短层按因子 3 压到 \(\mathbb{R}^{(L/3) \times D_1}\)、再按因子 4 压到 \(\mathbb{R}^{(L/12) \times D_2}\)，在瓶颈层用很低的代价捕获全局上下文，最后上采样回原始长度。整个模型为 1.1B 参数、24 层 Transformer，点云经预训练的 Michelangelo 编码器转成全局形状嵌入，通过 cross-attention 注入解码器。

训练上不直接硬学四边形——预测一个四边形面其实相当于同时预测两个相关的三角形，从零训练很不稳定。于是先用纯三角形网格预训练的权重初始化，再用一个 quad-dominance 参数 \(r \in [0, 1]\) 逐步退火训练数据分布：从纯三角形（\(r=0\)）平滑过渡到 quad-dominant（\(r \to 1\)）。模型因此先掌握基础几何语法，再学更复杂的四边形拓扑规则，沙漏的分层压缩则保证这一切在长序列上仍算得动。预训练数据来自大规模策划的 130 万高质量四边形模型（ShapeNetV2、3D-FUTURE、Objaverse、Objaverse-XL 加专业授权资产，经自动三角→四边形转换和多阶段质量筛选），为退火课程提供了从简单到复杂的充足语料。

3. 截断 DPO（tDPO）拓扑微调：在局部窗口上做偏好优化，逼出全局边流

边环是否连贯、是否出现断裂这类拓扑质量，是整张网格涌现出来的全局属性，而 cross-entropy loss 只优化逐 token 的局部预测，管不到它。tDPO 为此设计了一个拓扑评分标准，主要奖励长连续边环的形成（\(L_{\text{avg}}\)）、惩罚生成断裂（\(R_{\text{frac}}\)）：从当前策略 \(\pi_\theta\) 采样候选网格，按拓扑奖励排序构建偏好对 \((y_w, y_l)\)，要求 \(L_{\text{avg}}(y_w) > L_{\text{avg}}(y_l)\) 且 \(R_{\text{frac}}(y_w) < R_{\text{frac}}(y_l)\)。

关键在"截断"二字：完整网格序列太长，没法整条做 DPO，于是在随机起始位置 \(m\) 上截一段长度 \(\tau = 36864\) 的窗口做优化，损失为

\[\mathcal{L}_{\text{tDPO}}(\theta) = -\mathbb{E}_{\mathcal{D}}\mathbb{E}_m\left[\log\sigma\left(\beta\left[\log\frac{\pi_\theta(y_{w,m:m+\tau}|x)}{\pi_{\text{ref}}(y_{w,m:m+\tau}|x)} - \log\frac{\pi_\theta(y_{l,m:m+\tau}|x)}{\pi_{\text{ref}}(y_{l,m:m+\tau}|x)}\right]\right)\right]\]

在局部窗口上做最优决策，换来的是全局更连贯的拓扑——这也让 DPO 第一次能扩展到高面数网格。偏好数据基于 500 个来自 Hunyuan3D 2.5 的高质量密集网格构建出约 2000 个偏好对，RL 微调在 64 张 A100 上仅需 4 小时。

实验关键数据¶

主实验¶

方法	Dense CD ↓	Dense HD ↓	Dense QR ↑	Dense US ↑	Artist CD ↓	Artist HD ↓	Artist QR ↑	Artist US ↑
QuadriFlow	0.045	0.099	100%	1.6	0.281	0.531	100%	0.3
MeshAnythingV2	0.153	0.394	53%	1.4	0.096	0.251	60%	2.1
BPT	0.115	0.283	43%	2.7	0.051	0.125	49%	3.1
DeepMesh	0.246	0.435	64%	3.3	0.236	0.417	66%	2.8
FastMesh	0.105	0.257	3%	1.1	0.052	0.141	17%	1.9
QuadGPT	0.057	0.147	80%	4.9	0.043	0.095	78%	4.8

QuadGPT 在所有指标上全面领先：CD 在 Dense 网格上比最佳基线低 46%+，用户研究评分 (US) 压倒性领先（4.9 vs 3.3），QR 达到 80%（仅 QuadriFlow 的 100% 更高但其几何质量差得多且经常失败）。

消融实验¶

训练策略	CD ↓	HD ↓	QR ↑	US ↑
From Scratch	0.081	0.203	75%	0.6
Finetune (课程学习)	0.065	0.167	72%	1.3
DPO (全序列)	0.073	0.188	74%	1.1
tDPO (截断)	0.061	0.156	78%	3.3
tDPO-Pro (完整奖励)	0.057	0.147	80%	3.7

对比设置	CD ↓	HD ↓	QR ↑	US ↑
TriGPT (三角形→四边形转换)	0.062	0.160	70%	0.2
TriGPT+RL (同上+RL微调)	0.051	0.138	72%	0.5
QuadGPT (原生四边形)	0.057	0.147	80%	1.3

关键发现¶

课程学习是稳定训练的关键：直接从零训练四边形生成 (From Scratch) 收敛困难，CD 高达 0.081，课程学习初始化 (Finetune) 将其降至 0.065。预测四边形面相当于预测两个相关三角形，需要先在简单任务上建立基础。
标准 DPO 无法泛化到复杂网格：全序列 DPO 在低面数网格上微调，但无法泛化到复杂高面数网格（CD 反而从 0.065 上升到 0.073）。tDPO 通过截断训练解决了这一问题。
原生生成 vs 转换的决定性差距：在完全控制变量的对比中（TriGPT 与 QuadGPT 共享架构、数据和 RL 策略），TriGPT+RL 虽然 CD/HD 略好，但 QR (72% vs 80%) 和用户偏好 (0.5 vs 1.3) 差距巨大——后处理转换无法恢复自然边流。

亮点与洞察¶

Padding 策略的极简优雅：用3个 padding token 将三角形统一为四边形的12-token块——无需类型 token、无需分支编码路径，模型从 padding 模式隐式学习面类型。这种设计最大化了序列的规整性和并行性。
课程学习的合理性：四边形面在拓扑上等价于两个相关的三角形，所以先学三角形再学四边形是符合认知梯度的自然课程——简单到复杂的训练策略在网格生成中首次被系统验证。
tDPO 的可扩展性设计：将 DPO 扩展到长序列生成的截断策略值得其他长序列 RL 任务参考（如长文本生成、音乐生成等）。

局限与展望¶

QR 未达 100%：80% 的四边形比例意味着仍有 20% 的三角形混入，距离纯四边形网格有差距。
数据依赖性强：130 万高质量四边形网格的策划成本高，且论文承认数据质量对性能至关重要——这使得复现困难。
仅支持点云输入：未展示从文本/图像到四边形网格的完整管线，需依赖外部模型（如 Hunyuan3D）先生成点云。
推理速度有限：230 tokens/s 对于 36864 token 的上下文意味着约 2.7 分钟/个网格，生产环境可能需要进一步加速。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个原生四边形网格自回归生成框架，统一序列化和 tDPO 均为创新性贡献
实验充分度: ⭐⭐⭐⭐⭐ 消融全面（课程学习/DPO变体/原生vs转换），基线丰富，含用户研究
写作质量: ⭐⭐⭐⭐ 结构清晰，方法描述详尽，图示直观
价值: ⭐⭐⭐⭐⭐ 填补了原生四边形网格生成的空白，对游戏/影视工业有直接应用价值