UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=oFsNco4aMm
代码: 论文称模型与代码将开源(暂未提供链接)
领域: 3D视觉
关键词: 着装人体重建, 非受限照片, 数据矫正器, 姿态相关特征聚合, SMPL-X
一句话总结¶
UP2You 提出"数据矫正器"范式,把一堆姿态/视角/裁剪/遮挡各不相同的随手照片,用一次前向在几秒内矫正成干净的正交多视图 RGB 与法线图,再交给传统重建算法生成高保真带纹理人体网格,整套流程 1.5 分钟、显存几乎恒定,几何与纹理指标全面超过此前需要数小时优化的方法。
研究背景与动机¶
领域现状:从图像重建着装 3D 人体已研究多年,输入形式从密集多视图、单目视频,逐步扩展到单图。近年扩散模型与 SDS(Score Distillation Sampling)让"重建即条件生成"成为主流,能从可见像素合理脑补出背面与遮挡区域。
现有痛点:这些方法几乎都假设输入是"干净的"——全身、姿态简单、相机同步标定。但真实场景里我们手头往往只有个人相册:人物被部分截取或遮挡、相机视角极端、身体姿态动态变化、长宽比五花八门。这种"非受限照片"里外观信息是有的,但散落在各张图中,且相机与身体姿态几乎从不同步,连最先进的人体估计器都难以建立可靠的 2D-3D 对应。
核心矛盾:面对这种乱糟糟的输入,已有的两条路都不够好。一条是 PuzzleAvatar 代表的"数据压缩器":把照片切成局部/全局块或拆成衣服/头发/脸等资产,用 DreamBooth 把它们蒸馏成可学习 token,再用 SDS 文本到 3D 组装出人体。但 DreamBooth 微调 + SDS 优化要数小时且不稳定,还得依赖真值 SMPL-X 网格初始化,更糟的是这种有损压缩会让扩散先验盖过个体特征,产生 PuzzleAvatar 自己承认的"不可预测的幻觉"。另一条是把单图补成正交环视图,但这些方法本质是"数据修补器"(从可见视图补不可见视图),只吃单图、无法利用多张非受限照片,精度也不随输入增多而提升。
本文目标:做第一个真正面向"非受限照片集合"的解决方案,需要同时啃下三块硬骨头——(1) 有效聚合姿态/视角/裁剪/遮挡差异巨大的多张参考图信息;(2) 处理数量不定的输入(1 张到几十张)而不让计算量爆炸;(3) 摆脱对真值人体形状的依赖。
切入角度:与其在表征层做有损压缩,不如做"数据矫正器"——把脏的、不完整的捕获直接矫正成干净完整的正交环视(带规范姿态),让传统重建算法接手。关键在于矫正过程不仅整理了输入数据,还通过在高保真 3D 人体合成多视图渲染上继续训练,refine 了生成模型的先验,从而在身份与视角上都更一致。
核心 idea:用"数据矫正器"替代"数据压缩器/修补器",把无约束照片一次前向矫正成正交多视图,再用传统算法重建——快、稳、且重建质量随输入照片数量增长。
方法详解¶
整体框架¶
UP2You 的目标是从相机参数与人体姿态都未知的非受限照片,重建出高质量带纹理网格。整条流水线串成四步:先从若干参考照片回归出 SMPL-X 形状参数并用预定姿态/表情初始化人体网格(提供后续的姿态条件),然后以 SMPL-X 法线图作为视角条件、用 PCFA 模块从参考图中选择性聚合特征,一次前向生成 6 张正交视角的干净 RGB 图,接着由这些正交 RGB 再生成对应的多视图法线图提供几何线索,最后做网格雕刻与纹理烘焙,得到最终网格。整套流程把"脏输入"在前两步就矫正成"干净正交视图",后两步就退化成传统重建算法擅长的标准问题。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["非受限照片集合 I<br/>姿态/视角/裁剪/遮挡各异"] --> B["多参考形状预测器<br/>perceiver 回归 SMPL-X β"]
B --> C["初始化 SMPL-X 网格<br/>预定姿态 → 正交法线图 P"]
A --> D["数据矫正:PCFA<br/>相关图 + topk 选特征"]
C --> D
D --> E["正交多视图 RGB V<br/>一次前向 < 15 秒"]
E --> F["多视图法线图生成 N<br/>MV-Adapter 以 V 为参考"]
F --> G["网格雕刻 + 纹理烘焙<br/>带纹理人体网格"]
关键设计¶
1. 数据矫正器范式:把脏输入一次前向变成干净正交视图
这一设计直接针对"非受限照片无法建立可靠 2D-3D 对应、传统算法接不住"的根本痛点。与其像 PuzzleAvatar 那样把照片有损压缩成 token 再做耗时数小时的 SDS 文本到 3D,UP2You 把问题倒过来:用一个前向网络把姿态/视角/裁剪/遮挡各异的输入 \(I\),矫正成 6 张正交视角、规范姿态的干净 RGB \(V\)(含对应法线图),让传统的多视图重建算法(mesh carving + texture baking)直接接手。骨干采用 MV-Adapter,它用 ReferenceNet 当参考图编码器、把 raymap 注入扩散 UNet 当视角条件以合成正交视图;UP2You 把原本只吃单图的 MV-Adapter 扩展成能吃多张非受限照片,并改用正交 SMPL-X 法线图作为视角条件。这样做的有效性在于:矫正不只是整理输入,还通过在高保真 3D 人体的合成多视图渲染上继续训练,把"3D 一致 + 身份保持"刻进了生成模型的先验里,从而避免了压缩范式那种身份丢失和"不可预测幻觉",同时把端到端时间从 4 小时压到 1.5 分钟。
2. PCFA 姿态相关特征聚合:按目标姿态选最有用的参考特征,显存几乎恒定
朴素地把所有参考图特征都喂进生成模型,会让显存随参考数线性增长,而且很多参考像素对某个目标视角根本无关(比如用背面参考去合成正面)。PCFA 的核心想法是:把"人体身份特征"和"视角相关性信息"解耦,按目标姿态自适应地决定每张参考图的贡献。具体地,对每个目标姿态 \(P_i\),用姿态编码器 \(E_{pose}\) 和 DINOv2 编码器 \(E_{ref}\) 分别提取 \(X_i^{pose}=E_{pose}(P_i)\) 和所有参考特征 \(X^{ref}=E_{ref}(I)\),送入一个含自注意力+交叉注意力的 transformer 块 \(T\)(\(X_i^{pose}\) 当 query/key/value 做自注意力、当 query 做交叉注意力,\(X^{ref}\) 当交叉注意力的 key/value),得到融合了与目标姿态相关参考信息的输出 \(O_i=T(X_i^{pose}, X^{ref})\)。再算注意力图 \(A^i=\frac{W_q O_i \cdot (W_k X^{ref})^\top}{\sqrt{d}}\),沿 token 维取均值、AvgPool 平滑、ReLU 抑负,得到逐像素的参考相关图 \(C^i\)。和以往依赖关键点相似度的方法不同,PCFA 的相关图建立在目标人体与参考 DINO 特征的细粒度语义相关上,能编码更丰富的服饰细节。
拿到相关图后,特征选择用 topk 策略真正省下算力:用 ReferenceNet 抽多尺度参考特征 \(F=\{F_k\}\),把相关图插值对齐到第 \(k\) 层空间尺寸得 \(\hat{C}^i\),对每个目标视角按 \(\hat{C}^i\) 取 top \(\gamma S_k\) 个索引(\(\gamma\) 控制保留比例)并 sort 保序,最后用这些索引取出加权后的参考特征 \(\hat{F}_k^i = F_k[\cdot]\cdot \hat{C}^i[\cdot]\) 喂给生成模型 \(V=D_{rgb}(\hat{F}, P_{rgb}(P))\)。正因为每个视角只保留最有用的一小撮特征,显存几乎不随参考数增长(实验中 3→12 张参考显存仅 18.65→20.88 GB),却让重建质量随输入增多而上升——印证了"2D 看得越多,3D 感知越准"。
3. 多参考形状预测器:从多张乱照片直接回归 SMPL-X 形状,摆脱真值模板
整条流水线高度依赖初始 SMPL-X 网格——它既给多视图生成提供姿态条件 \(P\),又是网格重建的基底。SMPL-X 网格 \(T(\beta,\theta,\psi)\) 中姿态 \(\theta\) 和表情 \(\psi\) 可预设(如 T-pose/A-pose + 中性表情),但形状 \(\beta\) 必须从输入图估计。已有形状预测器多为单图设计,面对多张脏参考时结果极不稳定:同一个人有时被预测得过瘦、有时过胖、甚至直接失败,根本说不清哪个才对。UP2You 用 perceiver 风格架构解决这点:\(\beta_{pred}=S(\tau, X^{ref})\),其中 \(\tau\) 是可学习的 query token,\(X^{ref}\) 是参考图的 DINOv2 特征,perceiver 用 query token 高效聚合多视图信息,预测头是类似相机头设计的轻量 transformer。这是首个从多张非受限输入估计 SMPL-X 形状的方法,靠多输入互补显著降低了单图方法的高方差和不稳定,且参考越多形状越准。
损失函数 / 训练策略¶
多视图图像生成、法线图生成、形状预测三个模型在 THuman2.1、Human4DiT、2K2K、CustomHumans 等数据集上训练(在高保真 3D 人体的合成多视图渲染上继续训练以注入 3D 一致先验)。法线图生成沿用以 SMPL-X 法线渲染为额外条件保证多视图一致;网格雕刻从初始 SMPL-X 网格出发、用生成法线 \(N\) 细化几何并从 \(V\) 投影逐顶点颜色,手部区域替换回初始网格(参照 ECON)以保手部几何,最后用生成的多视图 RGB 做纹理烘焙。
实验关键数据¶
主实验¶
在 PuzzleIOI、4D-Dress(有带纹理 3D 真值)和自采的 in-the-wild(12 个身份)上评测,默认用 12 张参考图。
| 数据集 | 指标 | 本文(Mesh) | PuzzleAvatar | AvatarBooth |
|---|---|---|---|---|
| PuzzleIOI | PSNR↑ | 24.539 | 21.664 | 16.879 |
| PuzzleIOI | LPIPS↓ | 0.0474 | 0.0639 | 0.1544 |
| PuzzleIOI | Chamfer↓ | 2.724 | 3.204 | 6.635 |
| PuzzleIOI | P2S↓ | 2.605 | 3.165 | 6.697 |
| 4D-Dress | PSNR↑ | 25.540 | 21.376 | 18.186 |
| 4D-Dress | LPIPS↓ | 0.0654 | 0.1081 | 0.1718 |
| 4D-Dress | Chamfer↓ | 1.140 | 1.956 | 6.846 |
| in-the-wild | CLIP-I↑ | 0.971 | 0.907 | 0.878 |
UP2You 在几何(PuzzleIOI Chamfer −15%、P2S −18%)与纹理(4D-Dress PSNR +21%、LPIPS −46%)上全面领先,且单图重建也超过专门的单图方法 PSHuman(Chamfer 0.927 vs 2.759,PSNR 26.651 vs 24.134),说明在更难的非受限任务上训练能反哺更简单的受限场景。
消融实验¶
| 配置 | PuzzleIOI PSNR↑ | 4D-Dress PSNR↑ | 说明 |
|---|---|---|---|
| Full (Corr.+topk+RefNet) | 23.896 | 25.848 | 完整模型 |
| A. Mean 聚合 | 17.412 | 19.614 | 简单平均,掉 6.5/6.2 |
| B. Concat 聚合 | 20.545 | 23.366 | 拼接,掉 3.4/2.5 |
| C. Corr.+sum(非 topk) | 20.167 | 23.412 | 加权和不如 topk |
| D. 编码器换 CLIP | 20.152 | 23.405 | 掉 3.7/2.4 |
| E. 编码器换 DINOv2(代替RefNet) | 19.744 | 23.393 | 特征抽取不如 ReferenceNet |
形状预测消融(V2V↓)显示:参考从 3 增到 12 时本文 mean 8.819→8.336 且方差稳定(7.4 左右),而单图方法 PromptHMR 方差随参考数飙到 19.4,Semantify 始终在 11 上下,perceiver 也明显优于 MLP。
关键发现¶
- 特征聚合方式是最大胜负手:从 Mean(17.4)到完整 PCFA(23.9)PSNR 提升超 6 分,且 topk 选择优于加权和(C),说明"选最相关的少数特征"比"全用但加权"更有效。
- 显存随参考数几乎恒定:3→12 张参考时本文显存 18.65→20.88 GB,而 Concat 从 18.02 飙到 37.96 GB;同时质量从 PSNR 24.16 升到 25.85,验证"看得越多、感知越准"且不付出显存代价。
- 编码器选择上 DINOv2 优于 CLIP 与 DINOv1(4D-Dress PSNR 25.848 vs 23.876 vs 24.170),因为 DINOv2 更擅长捕捉 2D-3D 对应。
亮点与洞察¶
- "数据矫正器 vs 数据压缩器"是这篇最提纲挈领的洞察:与其改进生成模型去硬扛 3D 一致,不如先把脏输入整理成生成模型本来就擅长的干净格式,把难题挪到数据侧而非模型侧——这套思路可迁移到任何"输入分布太脏导致下游算法失效"的重建任务。
- PCFA 用相关图 + topk 实现"显存恒定、质量随输入增长"非常巧妙:传统多参考方法要么显存爆炸要么信息利用不充分,PCFA 把"该看谁"显式建模成姿态相关图,再用稀疏选择落地,鱼和熊掌兼得。
- 用 perceiver query token 聚合多张脏图回归形状,把单图 HMR 的高方差问题转成多视图互补,这种"用冗余换稳健"的设计可复用到任何单图估计不稳的回归任务。
局限与展望¶
- 流水线仍依赖 SMPL-X 参数化人体模型,对非常宽松的服饰、配饰或非标准体型(如儿童、非人)可能受参数化先验限制,论文虽展示了 loose clothing 案例但泛化边界未充分量化。
- 形状预测的 V2V 误差随参考数增加改善有限(8.819→8.336),说明多视图互补在形状维度收益已趋饱和,主要增益来自外观/纹理而非体型精度。
- 矫正质量上限受训练数据(合成多视图渲染)约束,真实世界极端遮挡/缺失部位(论文 Fig.12/13 单独展示)下的表现可能不如受控测试集稳定。
- 依赖现成 MV-Adapter / DINOv2 / ReferenceNet 等组件,整体偏工程化集成,单一模块替换对最终质量的边际影响还可进一步拆解。
相关工作与启发¶
- vs PuzzleAvatar: 它用 DreamBooth 把照片蒸馏成 token + SDS 优化(>4 小时、需真值 SMPL-X、易幻觉),属"数据压缩器";本文是 tuning-free 的"数据矫正器",1.5 分钟出结果、直接回归形状、身份保持更好。
- vs AvatarBooth: 同属 few-shot 个性化 + SDS 路线,本文在所有几何与纹理指标上大幅领先(PuzzleIOI PSNR 24.5 vs 16.9)。
- vs PSHuman(单图法): PSHuman 只吃单图;本文把单图视为非受限设定的特例,靠多视图一致引导在单图重建上仍超过它(Chamfer 0.927 vs 2.759),尤其肢体重建更准。
- vs 单图形状预测(Semantify / PromptHMR): 它们单图输入、面对脏图方差极大;本文用 perceiver 聚合多参考,更稳更准且随参考增多持续改善。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个面向非受限照片集合的"数据矫正器"范式,PCFA 与多参考形状预测都是针对性原创设计。
- 实验充分度: ⭐⭐⭐⭐⭐ 三数据集、多基线、形状/单图/多参考全维度消融,显存-质量曲线尤其有说服力。
- 写作质量: ⭐⭐⭐⭐ 范式对比清晰、图文对应到位,公式部分 OCR 略乱但核心机制讲得明白。
- 价值: ⭐⭐⭐⭐⭐ 把数小时的个人 3D 重建压到 1.5 分钟且质量更高,直接面向"随手拍相册建模"的真实刚需,并附带姿态控制与免训练虚拟试衣。