SpaceControl: Introducing Test-Time Spatial Control to 3D Generative Modeling¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=mEqsCVI5sN
论文: Project Page
代码: https://spacecontrol3d.github.io/ (项目页公开)
领域: 3D视觉 / 扩散模型
关键词: 3D 生成, 空间控制, 训练无关引导, rectified flow, 超二次曲面
一句话总结¶
SpaceControl 提出一种训练无关的测试时方法,把用户给定的 3D 几何(从粗糙的超二次曲面到精细网格)体素化后编码进预训练 3D 生成模型(Trellis)的潜空间,再用 SDEdit 式"加噪到 \(t_0\) 再去噪"的机制注入空间引导,并用单一参数 \(\tau_0\) 平滑调节"几何忠实度↔生成真实感",在不微调任何参数的前提下,几何对齐度(Chamfer 距离)大幅超过训练式与优化式 baseline。
研究背景与动机¶
领域现状:3D 资产生成最近进展飞快(Trellis、SAM 3D 等),已能生成质量空前的网格/高斯。但可控性——让用户可靠地把生成结果引导到想要的形状——一直是难点。主流可控方案靠文本或图像条件。
现有痛点:文本灵活但语义模糊,无法精确指定几何("一把椅子"说不清靠背角度和扶手位置);图像虽然更约束 3D 结构,但难以编辑、对细粒度控制不直观。两种模态都不允许艺术家直接操纵物体几何。
核心矛盾:现有的"空间可控 3D 生成"要么是训练式(如 Spice-E 微调 Shap-E 接受 cuboid 条件、LION 用 voxel 条件),保留推理速度但需要类别级微调、泛化差、且无法调节控制强度;要么是引导式/优化式(如 Latent-NeRF、Coin3D),无需重训练但每个样本要跑漫长的 test-time 优化,而且往往是把 3D 条件投影到多视角 2D 上间接约束,而非直接作用于 3D 体。
本文目标:把控制权移到 3D 空间本身——用 3D 几何当"三维草图"直接引导细节 3D 资产的合成;既要训练无关、又要直接在 3D 体上控制、还要能调节控制强度。
切入角度:作者注意到现代 3D 生成模型(Trellis)用 rectified flow 并把几何结构与外观解耦成两阶段生成,而其结构阶段自带一个平时推理用不到的预训练编码器 \(E\)。这恰好提供了一个把空间条件映射进共享潜空间的入口。
核心 idea:把图像编辑里的 SDEdit 思想搬到 3D——用 \(E\) 把体素化几何编码成潜变量,加噪到中间时刻 \(t_0\),再用原模型去噪,无需任何架构改动或训练,即可让生成在该几何附近成形;\(t_0\)(即 \(\tau_0\))的大小就是忠实度旋钮。
方法详解¶
整体框架¶
SpaceControl 接在预训练的 Trellis(rectified flow + 结构/外观两阶段)之上,输入是「空间控制(超二次曲面或网格)+ 文本提示 + 可选图像」,输出是与几何对齐的高质量 3D 资产(可解码为 3D 高斯 / 辐射场 / 网格)。整条管线分两步:结构生成阶段把空间条件注入潜空间引导粗几何成形,外观生成阶段在已生成几何上由文本/图像引导贴上纹理。关键在于:空间引导只在结构阶段以"加噪—去噪"的形式注入,全程不动模型权重。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["空间控制 (超二次曲面/网格)<br/>+ 文本 + 可选图像"] --> B["潜空间空间引导<br/>体素化→编码 E→加噪到 t0→去噪"]
B -->|"τ0 控制忠实度↔真实感"| C["τ0 强度旋钮"]
C --> D["解码 D 得体素结构 x0"]
D --> E["外观生成<br/>Trellis 两阶段·文本/图像条件"]
E --> F["输出: 3D 高斯 / 辐射场 / 网格"]
关键设计¶
1. 潜空间空间引导:把几何当"三维草图"加噪再去噪
针对"现有方法要么微调要么投影到 2D 间接约束"的痛点,SpaceControl 直接在 3D 潜空间里做 SDEdit 式干预,全程零训练。具体地,给定用户指定的 3D 几何,先体素化得到 \(x_c \in \{0,1\}^{64\times64\times64}\),喂进 Trellis 预训练编码器 \(E\) 得到干净潜变量 \(z_{c,0} \in \mathbb{R}^{16\times16\times16\times8}\);再按 rectified flow 的前向(加噪)公式,把它加噪到某个时刻 \(t_0\):
然后从 \(t_0\) 出发,用原始的 Structure Flow Model迭代去噪(速度场 \(v_\theta\),递推式 \(z_{t(i+1)} = z_{t(i)} - v_\theta(z_{t(i)}, t(i))(t(i)-t(i+1))\))得到 \(z_0\),再由解码器 \(D\) 还原成最终体素结构 \(x_0\)。这一步不需要任何架构改动或训练——因为 \(z_{t_0}\) 已经"携带"了用户几何的信息,模型在它附近做的去噪自然就把生成拉向该几何。同时用文本提示参与引导,帮助消解物体的语义歧义(让"这块几何是椅子还是桌子"明确下来)。和 Spice-E 必须按类别微调相比,这里换骨干、换几何类型都不用重训,泛化到训练时没见过的 Toys4K 类别也成立。
2. \(\tau_0\) 强度旋钮:用单参数平滑权衡忠实度与真实感
针对"现有空间条件方法无法调节控制强度"的痛点,SpaceControl 把加噪时刻 \(t_0\)(对应离散步 \(\tau_0\))本身当成用户可调的控制旋钮。\(\tau_0\) 越小,\(z_{t_0}\) 初始化得越靠近纯噪声 \(z_1\)、离控制信号 \(z_{c,0}\) 越远,模型要做的去噪步数越多,于是输出更贴合 Trellis 原始数据分布——更真实但更不忠实;\(\tau_0\) 越大,\(z_{t_0}\) 越偏向 \(z_{c,0}\),相当于跳过早期去噪步、保留更多注入的空间结构——更忠实但有时牺牲真实感。时间步还经一个尺度因子 \(\lambda\) 重标定 \(t(\tau) = \lambda t(\tau) / (1+(\lambda-1)t(\tau))\)。实验显示 \(\tau_0 \in [4,6]\) 一般是 Toys4K 上忠实度与质量的好折中。这种"一个标量在两端连续插值"的能力是训练式方法天生给不了的(它们一旦微调好强度就固定了)。
3. 复用 Trellis 解耦两阶段 + 多模态条件:只在结构阶段注入,外观阶段照常贴图
SpaceControl 之所以能"只动几何不动外观",关键是它寄生在 Trellis 结构/外观解耦的两阶段设计上。第一阶段(结构)生成二值占据栅格 \(x \in \{0,1\}^{64\times64\times64}\),空间引导只在这里注入;第二阶段(外观)把激活体素扩展成逐点噪声潜特征 \(s_1 \in \mathbb{R}^{L\times8}\),用 Appearance Flow Model 去噪,再经 \(D_{GS}/D_{RF}/D_M\) 解码成高斯/辐射场/网格。文本条件在两阶段都用(CLIP 文本编码),图像条件(DINOv2 编码)只进外观阶段,因此图像主要影响纹理、几乎不动几何——这让 SpaceControl 顺带支持"从 2D 图像到 3D 形状的风格迁移",在物体编辑时用图像保持视觉一致性。这种把控制信号精确落到"几何阶段"的解耦,是它能做到细粒度空间对齐(甚至非轴对齐旋转都能严格贴合)的结构性原因。
实验关键数据¶
主实验¶
在两类空间条件(粗糙超二次曲面 vs 精细网格)下评测,数据集横跨 ShapeNet 的 chair/table(Spice-E 训练见过)和 Toys4K(所有方法都没见过)。指标:CD(Chamfer 距离,越低越忠实于空间控制)、CLIP-I(文本对齐)、FID(纹理真实感)、P-FID(几何真实感)。SpaceControl 用 \(\tau_0=6\)。
| 条件 / 数据集 | 方法 | CD↓ | CLIP-I↑ | FID↓ | P-FID↓ |
|---|---|---|---|---|---|
| 超二次曲面 · Toys4K | Coin3D | 54.4 | 0.21 | 231 | 102.0 |
| 超二次曲面 · Toys4K | Spice-E† | 65.9 | 0.29 | 233 | 66.52 |
| 超二次曲面 · Toys4K | SPICE-E-T† | 39.1 | 0.32 | 223 | 53.51 |
| 超二次曲面 · Toys4K | SpaceControl | 14.0 | 0.32 | 221 | 81.3 |
| 超二次曲面 · Chair | SpaceControl | 0.98 | 0.30 | 146 | 34.06 |
| 网格 · Toys4K | SPICE-E-T† | 23.3 | 0.32 | 222 | 90.99 |
| 网格 · Toys4K | SpaceControl | 4.89 | 0.29 | 244 | 72.47 |
| 网格 · Table | SpaceControl | 0.48 | 0.28 | 130 | 42.33 |
†表示在 chair/table 类别上微调过。SpaceControl 在所有设置的 CD 上都显著领先,且 CLIP-I/FID/P-FID 与最好的 baseline 相当——即在不微调的前提下把几何忠实度拉到新高度,真实感不掉队。训练式 baseline 在见过的 chair/table 上还行,但到没见过的 Toys4K 就明显退化(泛化差),SpaceControl 不受此限。
消融实验¶
\(\tau_0\) 扫描(同样指标,P=超二次曲面、M=网格,下表取 Toys4K 列):
| \(\tau_0\) | CD↓ (P) | CD↓ (M) | FID↓ (P) | P-FID↓ (M) | 说明 |
|---|---|---|---|---|---|
| 0 | 117 | 75.4 | 217 | 79.4 | 几乎等于无控制(纯 Trellis) |
| 2 | 110 | 65.5 | 216 | 82.7 | 控制很弱 |
| 4 | 56.8 | 32.4 | 222 | 83.9 | 开始明显贴合 |
| 6 | 14.0 | 4.89 | 221 | 72.5 | 忠实度大幅提升,真实感仍好 |
| 8 | 9.04 | 1.57 | 257 | 77.0 | 更忠实,FID 开始升(真实感降) |
| 10 | 8.85 | 1.84 | 268 | 74.9 | 最忠实,但纹理真实感明显变差 |
关键发现¶
- \(\tau_0\) 单调权衡成立:随 \(\tau_0\) 增大,CD 持续下降(更忠实),但 FID 在 \(\tau_0>6\) 后开始上升(真实感变差),印证了"加噪时刻=忠实度旋钮"的设计,\([4,6]\) 是甜区。
- 训练无关反而更稳:训练式方法常生成"两个头的牛""背上长眼睛的象"或无法摆出特定姿态的物体;SpaceControl 因直接在 3D 体上约束,能严格贴合非轴对齐旋转的几何且保持质量。
- 用户研究:52 名志愿者、人均评约 20 组配对,SpaceControl 在整体偏好、忠实度、真实感三项上对 Spice-E / SPICE-E-T 均为最受偏好(如对 Spice-E 整体胜率 85%)。
- 图像条件:图像只进外观阶段,主要改纹理、几乎不动几何,可用于编辑时保持视觉一致性,相当于免费获得 2D→3D 风格迁移能力。
亮点与洞察¶
- 把 SDEdit 从 2D 图像精准搬到 3D 潜空间:核心洞察是"现代 3D 生成模型自带一个推理时闲置的编码器 \(E\)",正好做空间条件的入口——零训练、换骨干即用,工程上极轻。
- 一个标量买到连续可调的控制强度:\(\tau_0\) 直接复用 rectified flow 的加噪时刻语义,无需额外网络或损失,就把"忠实↔真实"做成用户旋钮,这是训练式方法天生缺的能力。
- 解耦架构是可控性的杠杆:因为 Trellis 把几何和外观分两阶段,空间控制能精确落到几何阶段而不污染纹理;这条思路可迁移到任何"结构/外观解耦 + flow/diffusion"的生成器(如 SAM 3D)。
- 可交互:作者还做了实时超二次曲面编辑界面,把"拖几何 → 直接生成带纹理资产"接进创作流,落地性强。
局限与展望¶
- \(\tau_0\) 需手动调:忠实度旋钮目前靠用户试,作者也承认未来可做类别/采样密度自适应的 \(\tau_0\) 调度。
- 全局控制、缺局部控制:当前 \(\tau_0\) 对整个物体统一作用,无法对一个物体的不同部件设不同忠实度;part-aware 局部控制是明确的未来方向。
- 依赖底座模型上限:质量、可解码格式都受 Trellis 限制,几何分辨率被 \(64^3\) 体素栅格约束,细小结构可能丢失(笔者观察)。
- 场景级未验证:方法天然可扩展到多物体场景(结合 SuperDec/场景图),但论文只在单物体上验证。
相关工作与启发¶
- vs Spice-E / SPICE-E-T:Spice-E 微调 Shap-E(SPICE-E-T 是作者为公平比较移植到 Trellis 的版本)接受 cuboid 条件,属训练式——保留推理速度但需类别微调、泛化差、强度不可调;SpaceControl 训练无关、可换几何类型、\(\tau_0\) 连续可调,CD 全面领先。
- vs Coin3D / Latent-NeRF:它们属引导/优化式,把 3D 条件投影到多视角 2D 再用 score distillation 优化出 3D,速度慢且是间接约束 2D 投影;SpaceControl 直接在 3D 体潜空间一次去噪,快且对齐更精确。
- vs SDEdit(2D 图像编辑):SpaceControl 是其 3D 类比——用 3D 几何代替 2D 笔画作为初始化并引导生成,核心机制(加噪到中间步再去噪)一脉相承。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把 SDEdit 思路干净地迁到 3D 潜空间、且给出可调强度旋钮,简单但抓住要害。
- 实验充分度: ⭐⭐⭐⭐ 两类条件 × 三数据集 + \(\tau_0\) 扫描 + 52 人用户研究,对比扎实;场景级与更高分辨率未覆盖。
- 写作质量: ⭐⭐⭐⭐ preliminaries 把 rectified flow / Trellis / 超二次曲面交代清楚,方法叙述简洁。
- 价值: ⭐⭐⭐⭐ 训练无关、即插即用、带交互界面,对 3D 创作工作流实用价值高。