跳转至

Track, Inpaint, Resplat: Subject-driven 3D and 4D Generation with Progressive Texture Infilling

会议: NeurIPS 2025
arXiv: 2510.23605
代码: 项目页面
领域: 扩散模型 / 图像生成
关键词: 主体驱动生成, 3D/4D生成, 身份保持, 纹理填充, 视频跟踪

一句话总结

提出TIRE(Track, Inpaint, REsplat)三阶段管线,通过视频跟踪定位未观测区域、主体驱动修复模型渐进式填充纹理、多视图一致性反投影回3D,实现身份保持的3D/4D生成。

研究背景与动机

当前3D/4D生成方法(如LGM、L4GM、TRELLIS、Hunyuan3D等)主要关注逼真度、效率和美观性,但在多视角下语义身份(identity)一致性方面表现很差。给定一张参考图,生成的3D/4D资产在侧面和背面往往出现颜色偏差、纹理不一致等问题。

现有方案的局限

SDS优化方法:时间开销极大,且优化过程中外观和动作会被平均化

多视图扩散模型:在新视角上存在系统性颜色和外观偏差(训练数据偏差导致)

原生3D生成(TRELLIS、Hunyuan3D-v2.5等):虽然效率高,但仍无法满意地保持参考图的身份特征

核心矛盾:高效3D生成与身份保持之间的矛盾。现有方法在forward pass中只能根据有限的输入视角幻想未见区域,缺乏对主体身份的精确控制。

本文切入角度:不直接改进3D生成模型,而是将其作为起点,用强大的2D视频跟踪和修复工具来渐进式修补3D资产中不正确的区域,属于与现有前馈式3D生成方法正交互补的方向。

方法详解

整体框架

TIRE以现有3D/4D生成模型(如LGM、L4GM)的输出作为起点,渲染多视角观测,然后经过三个阶段:Track(追踪需修补区域)→ Inpaint(渐进式身份保持修复)→ Resplat(反投影回3D)。

关键设计

  1. Track(追踪阶段)— 反向追踪定位修补区域

    • 将多视角渲染帧按相机运动顺序拼成视频
    • 使用CoTracker视频跟踪模型寻找源视角与目标视角的对应关系
    • 关键创新:采用反向追踪 (backward tracking)而非正向追踪。从目标视角追踪到源视角,因为源视角包含最丰富的主体身份信息,能建立尽可能多的对应关系
    • 正向追踪会导致零碎的小修补区域,产生颗粒状伪影;反向追踪生成更准确、更适合修复的mask
    • 此方法对3D表示类型无关,通用性强
  2. Inpaint(修复阶段)— 渐进式身份保持纹理填充

    • 在预训练Stable Diffusion修复模型中注入LoRA权重
    • 损失函数仅在前景有效区域内计算:\(\mathcal{L} = m_v \odot [\epsilon_\theta(x_t, t, p, m_i, (1-m_i) \odot x) - \epsilon]\)
    • 渐进式策略的关键设计:
      • 第一步:只用原始源视角图+数据增强(翻转+15°小旋转)训练
      • 第二步:先修复"甜蜜点" \(\pm 20°\) 视角(探索与利用的平衡)
      • 第三步:以 \(\pm 20°\) 作为锚点,通过反向追踪扩展到 \(\pm 90°\)
      • 第四步:以 \(\pm 90°\) 作为锚点,继续修复到 \(\pm 180°\)
    • 去噪只使用前30%的schedule,避免过度改变原有结构
    • 设计动机:远离源视角的视图与源视角差异巨大,直接修复效果差,渐进式拓展确保每一步的修复都有可靠的上下文
  3. Resplat(反投影阶段)— 多视图一致性3D重建

    • 各帧独立修复可能存在跨视角不一致
    • 引入多视图扩散模型进行一致性精炼,采用mask-aware的潜变量更新:\(z_{t-1} = \tilde{z}_{t-1} \odot M + \hat{z}_{t-1} \odot (1-M)\)
    • 源视角的潜变量保持不变(\(M=0\)),仅更新其他视角(\(M=1\)),强制保持源视角身份
    • 同样只用前30%的去噪schedule
    • 最后用LGM/L4GM将多视图观测反投影为3D高斯

损失函数 / 训练策略

  • 训练损失为标准修复损失,但限制在有效前景mask内
  • LoRA注入预训练修复模型,参数高效
  • 固定文本提示 "A photo of sks"
  • 不需要额外3D数据或大规模微调

实验关键数据

主实验 — DINO身份相似度 (Video-to-4D)

方法 DINO (ViT-S/16) ↑ DINO (ViT-B/16) ↑
Customize-It-3D 0.5773 0.6087
SV4D 0.5213 0.5426
STAG4D 0.5287 0.5592
L4GM 0.5506 0.5694
TIRE (本文) 0.5665 0.5815

VLM多维度身份保持评估 (Image-to-3D)

方法 GPT-4o o4-mini Gemma 3 27B Gemini 2.0 Qwen2.5-VL Mistral 平均
TRELLIS 1.332 1.426 1.870 1.402 1.596 1.228 1.476
Hunyuan3D-v2.5 1.614 1.690 2.098 1.533 1.780 1.501 1.703
TIRE (本文) 1.777 1.834 2.103 1.793 1.880 1.739 1.854

消融实验

配置 效果
w/o 渐进式修复 模型在所有视角都填充源视角的正面纹理(如侧面出现猫脸胡须)
去噪schedule 15% 部分区域未被修改
去噪schedule 30% (默认) 最佳平衡
去噪schedule 50% 纹理变化过于剧烈,真实感降低

关键发现

  • 即使是最先进的TRELLIS和Hunyuan3D-v2.5,在身份保持上仍然表现不佳,说明该问题尚未被解决
  • 用户研究(18人×10样本)显示TIRE在整体质量上得分最高,且未提前告知评估重点
  • TIRE不仅改善了外观身份保持,还附带改善了几何质量(减少了跨视角不一致导致的伪影)
  • 所有方法的VLM评分都远低于满分4分,说明主体驱动3D/4D生成远未解决

亮点与洞察

  • 方法通用性强:只需操作2D渲染帧,不依赖特定3D表示,可适配任何3D/4D生成方法
  • 渐进式策略设计精巧:"甜蜜点"概念很好地平衡了探索(看到更多未见区域)和利用(修复质量可靠)
  • 反向追踪的洞察:源视角信息最丰富,从目标反追回源能最大化利用已知信息
  • 发现DINO指标的局限:Customize-It-3D的DINO分最高但定性效果最差,揭示了传统评估指标对3D身份保持评估的不适用

局限与展望

  • 依赖现有3D生成模型的初始质量——如果初始3D资产几何严重错误则难以补救
  • 多阶段管线,流程较复杂,端到端推理速度受限于修复模型微调
  • 固定的去噪schedule比例(30%)可能对不同场景不是最优
  • 背面区域完全靠幻想,严重遮挡场景可能效果有限
  • 渐进修复的"甜蜜点"角度选择(\(\pm 20°\))是经验值,缺乏自适应机制

相关工作与启发

  • 与DreamBooth3D相比,TIRE不依赖image-to-image translation而是利用更精准的视频跟踪+修复
  • RealFill的主体驱动修复思想被扩展到3D场景
  • 提供了一个与前馈式3D/4D生成正交的研究方向,两者可以协同进步

评分

  • 新颖性: ⭐⭐⭐⭐ — 将2D视频跟踪+修复巧妙组合用于3D身份保持是新颖的思路
  • 实验充分度: ⭐⭐⭐⭐ — 涵盖image-to-3D和video-to-4D,包含VLM评估和用户研究
  • 写作质量: ⭐⭐⭐⭐ — 动机清晰,方法描述详尽,图示直观
  • 价值: ⭐⭐⭐⭐ — 作为现有3D生成的后处理增强方案有实际意义,通用性好