Track, Inpaint, Resplat: Subject-driven 3D and 4D Generation with Progressive Texture Infilling¶

会议: NeurIPS 2025
arXiv: 2510.23605
代码: 项目页面
领域: 扩散模型 / 图像生成
关键词: 主体驱动生成, 3D/4D生成, 身份保持, 纹理填充, 视频跟踪

一句话总结¶

提出TIRE（Track, Inpaint, REsplat）三阶段管线，通过视频跟踪定位未观测区域、主体驱动修复模型渐进式填充纹理、多视图一致性反投影回3D，实现身份保持的3D/4D生成。

研究背景与动机¶

当前3D/4D生成方法（如LGM、L4GM、TRELLIS、Hunyuan3D等）主要关注逼真度、效率和美观性，但在多视角下语义身份(identity)一致性方面表现很差。给定一张参考图，生成的3D/4D资产在侧面和背面往往出现颜色偏差、纹理不一致等问题。

现有方案的局限：

SDS优化方法：时间开销极大，且优化过程中外观和动作会被平均化

多视图扩散模型：在新视角上存在系统性颜色和外观偏差（训练数据偏差导致）

原生3D生成（TRELLIS、Hunyuan3D-v2.5等）：虽然效率高，但仍无法满意地保持参考图的身份特征

核心矛盾：高效3D生成与身份保持之间的矛盾。现有方法在forward pass中只能根据有限的输入视角幻想未见区域，缺乏对主体身份的精确控制。

本文切入角度：不直接改进3D生成模型，而是将其作为起点，用强大的2D视频跟踪和修复工具来渐进式修补3D资产中不正确的区域，属于与现有前馈式3D生成方法正交互补的方向。

方法详解¶

整体框架¶

TIRE以现有3D/4D生成模型（如LGM、L4GM）的输出作为起点，渲染多视角观测，然后经过三个阶段：Track（追踪需修补区域）→ Inpaint（渐进式身份保持修复）→ Resplat（反投影回3D）。

关键设计¶

Track（追踪阶段）— 反向追踪定位修补区域：
- 将多视角渲染帧按相机运动顺序拼成视频
- 使用CoTracker视频跟踪模型寻找源视角与目标视角的对应关系
- 关键创新：采用反向追踪 (backward tracking)而非正向追踪。从目标视角追踪到源视角，因为源视角包含最丰富的主体身份信息，能建立尽可能多的对应关系
- 正向追踪会导致零碎的小修补区域，产生颗粒状伪影；反向追踪生成更准确、更适合修复的mask
- 此方法对3D表示类型无关，通用性强
Inpaint（修复阶段）— 渐进式身份保持纹理填充：
- 在预训练Stable Diffusion修复模型中注入LoRA权重
- 损失函数仅在前景有效区域内计算：\(\mathcal{L} = m_v \odot [\epsilon_\theta(x_t, t, p, m_i, (1-m_i) \odot x) - \epsilon]\)
- 渐进式策略的关键设计：
  - 第一步：只用原始源视角图+数据增强（翻转+15°小旋转）训练
  - 第二步：先修复"甜蜜点" \(\pm 20°\) 视角（探索与利用的平衡）
  - 第三步：以 \(\pm 20°\) 作为锚点，通过反向追踪扩展到 \(\pm 90°\)
  - 第四步：以 \(\pm 90°\) 作为锚点，继续修复到 \(\pm 180°\)
- 去噪只使用前30%的schedule，避免过度改变原有结构
- 设计动机：远离源视角的视图与源视角差异巨大，直接修复效果差，渐进式拓展确保每一步的修复都有可靠的上下文
Resplat（反投影阶段）— 多视图一致性3D重建：
- 各帧独立修复可能存在跨视角不一致
- 引入多视图扩散模型进行一致性精炼，采用mask-aware的潜变量更新：\(z_{t-1} = \tilde{z}_{t-1} \odot M + \hat{z}_{t-1} \odot (1-M)\)
- 源视角的潜变量保持不变（\(M=0\)），仅更新其他视角（\(M=1\)），强制保持源视角身份
- 同样只用前30%的去噪schedule
- 最后用LGM/L4GM将多视图观测反投影为3D高斯

损失函数 / 训练策略¶

训练损失为标准修复损失，但限制在有效前景mask内
LoRA注入预训练修复模型，参数高效
固定文本提示 "A photo of sks"
不需要额外3D数据或大规模微调

实验关键数据¶

主实验 — DINO身份相似度 (Video-to-4D)¶

方法	DINO (ViT-S/16) ↑	DINO (ViT-B/16) ↑
Customize-It-3D	0.5773	0.6087
SV4D	0.5213	0.5426
STAG4D	0.5287	0.5592
L4GM	0.5506	0.5694
TIRE (本文)	0.5665	0.5815

VLM多维度身份保持评估 (Image-to-3D)¶

方法	GPT-4o	o4-mini	Gemma 3 27B	Gemini 2.0	Qwen2.5-VL	Mistral	平均
TRELLIS	1.332	1.426	1.870	1.402	1.596	1.228	1.476
Hunyuan3D-v2.5	1.614	1.690	2.098	1.533	1.780	1.501	1.703
TIRE (本文)	1.777	1.834	2.103	1.793	1.880	1.739	1.854

消融实验¶

配置	效果
w/o 渐进式修复	模型在所有视角都填充源视角的正面纹理（如侧面出现猫脸胡须）
去噪schedule 15%	部分区域未被修改
去噪schedule 30% (默认)	最佳平衡
去噪schedule 50%	纹理变化过于剧烈，真实感降低

关键发现¶

即使是最先进的TRELLIS和Hunyuan3D-v2.5，在身份保持上仍然表现不佳，说明该问题尚未被解决
用户研究(18人×10样本)显示TIRE在整体质量上得分最高，且未提前告知评估重点
TIRE不仅改善了外观身份保持，还附带改善了几何质量（减少了跨视角不一致导致的伪影）
所有方法的VLM评分都远低于满分4分，说明主体驱动3D/4D生成远未解决

亮点与洞察¶

方法通用性强：只需操作2D渲染帧，不依赖特定3D表示，可适配任何3D/4D生成方法
渐进式策略设计精巧："甜蜜点"概念很好地平衡了探索(看到更多未见区域)和利用(修复质量可靠)
反向追踪的洞察：源视角信息最丰富，从目标反追回源能最大化利用已知信息
发现DINO指标的局限：Customize-It-3D的DINO分最高但定性效果最差，揭示了传统评估指标对3D身份保持评估的不适用

局限与展望¶

依赖现有3D生成模型的初始质量——如果初始3D资产几何严重错误则难以补救
多阶段管线，流程较复杂，端到端推理速度受限于修复模型微调
固定的去噪schedule比例(30%)可能对不同场景不是最优
背面区域完全靠幻想，严重遮挡场景可能效果有限
渐进修复的"甜蜜点"角度选择(\(\pm 20°\))是经验值，缺乏自适应机制

评分¶

新颖性: ⭐⭐⭐⭐ — 将2D视频跟踪+修复巧妙组合用于3D身份保持是新颖的思路
实验充分度: ⭐⭐⭐⭐ — 涵盖image-to-3D和video-to-4D，包含VLM评估和用户研究
写作质量: ⭐⭐⭐⭐ — 动机清晰，方法描述详尽，图示直观
价值: ⭐⭐⭐⭐ — 作为现有3D生成的后处理增强方案有实际意义，通用性好