Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles¶

会议: NeurIPS 2025
arXiv: 2505.21060
代码: Project Page
领域: 3D视觉
关键词: 3D风格化, 高斯溅射, 前馈重建, 多视角一致性, 双分支架构

一句话总结¶

提出Styl3R前馈网络，通过结构-外观双分支架构将3D重建与风格化解耦，仅用未标定的稀疏视角图像和任意风格图像，在0.15秒内完成风格化3D重建。

研究背景与动机¶

将2D风格迁移扩展到3D场景一直是一个重要挑战，核心困难在于外观风格化与3D结构一致性之间的矛盾：改变视觉外观以反映目标风格容易破坏多视角一致性和结构连贯性。

现有方法的痛点：

2D风格迁移方法（如AdaIN、StyTr2）效果好但完全缺乏几何感知和多视角一致性，直接扩展到3D会导致不同视角风格化结果不一致

3D风格化方法（如StyleRF、StyleGaussian、ARF）虽能保证一定的视角一致性，但都需要密集多视角输入、已知相机位姿以及耗时的逐场景甚至逐风格优化。ARF需要逐场景逐风格优化，StyleRF和StyleGaussian虽支持零样本风格迁移但仍需逐场景优化，训练时间从12分钟到132分钟不等 3. 没有任何现有方法能从稀疏未标定图像和任意风格图像直接生成风格化3D重建

本文的核心问题是：如何在不需要测试时优化的前提下，从少量未标定内容图像和任意风格图像实现快速、多视角一致的3D风格化？

方法详解¶

整体框架¶

Styl3R基于前馈3D高斯溅射重建，采用双分支架构：结构分支负责预测3D高斯的几何参数（位置、方向、尺度、不透明度），外观分支负责预测风格化颜色。框架利用DUSt3R/MASt3R的密集几何先验，在两阶段课程（NVS预训练→风格化微调）中学习。

关键设计¶

结构分支：利用DUSt3R的密集几何先验，采用ViT编码器-解码器架构估计场景结构。
- 稀疏未标定图像经共享ViT编码器编码为内容token $\mathcal{T}^c = \{\mathbf{t}_k^c\}$
- ViT解码器通过跨视角交叉注意力融合多视角信息
- 两个DPT头分别预测高斯中心位置 $\boldsymbol{\mu}_j$ 和其他结构属性（方向 $\mathbf{r}_j$、尺度 $\mathbf{s}_j$、不透明度 $\alpha_j$）
- 结构分支在风格化微调阶段冻结，确保几何先验不被风格化损失破坏
外观分支（风格化解码器）：核心创新在于多视角内容token与风格token的融合机制。
- 风格编码器与内容编码器采用相同ViT架构但不同权重，风格图像 $\mathbf{I}^s$ 编码为风格token $\mathcal{T}^s$
- 先对多视角内容token做全局自注意力确保多视角一致性，得到 $\hat{\mathcal{T}}^c$
- 再以自注意后的内容token为query、风格token为key/value做交叉注意力： $\mathcal{T}^{cs} = \text{CrossAttention}(\hat{\mathcal{T}}^c W^Q, \mathcal{T}^s W^K, \mathcal{T}^s W^V)$
- DPT头从混合token预测风格化颜色 $\mathbf{c}_j^s$
- Content as Style洞察：内容图像可视为特殊的风格图像，输入内容图像可得非风格化重建 $\mathcal{G}^c$，模型因此同时支持风格化和标准重建
两阶段训练课程：
- NVS预训练：全模型端到端训练新视角合成，随机将内容图像输入外观分支作为"风格"，使外观分支学会保持原始外观
- 风格化微调：冻结结构分支，只训练外观分支。引入Identity Loss——除风格图像外，同时随机输入一张内容图像，使模型在学习风格化的同时保持NVS能力

损失函数 / 训练策略¶

训练损失按阶段组织： $$\mathcal{L} = \begin{cases} \mathcal{L}_{photo}(\mathcal{G}^c), & \text{NVS预训练} \\ \lambda \mathcal{L}_{style}(\mathcal{G}^s) + \mathcal{L}_{content}(\mathcal{G}^s) + \mathcal{L}_{photo}(\mathcal{G}^c), & \text{风格化微调} \end{cases}$$

$\mathcal{L}_{photo}$：MSE + 0.05×LPIPS
$\mathcal{L}_{style}$：在VGG19的relu1_1/2_1/3_1/4_1特征层计算均值和方差差异
$\mathcal{L}_{content}$：同时使用relu3_1和relu4_1两层（实验证明比单层更好地保持结构）
$\lambda = 10$；采用渐进式多视角训练（先2视角NVS预训练→初始化4视角训练+风格化微调）

实验关键数据¶

主实验¶

RE10K数据集上多视角一致性和风格化时间对比：

方法	短距LPIPS↓	短距RMSE↓	长距LPIPS↓	长距RMSE↓	时间
AdaIN (2D)	0.163	0.063	0.323	0.111	0.004s
StyTr2 (2D)	0.167	0.059	0.315	0.098	0.029s
StyleRF (3D)	0.062	0.021	0.172	0.042	90min
StyleGS (3D)	0.048	0.022	0.137	0.043	132min
ARF (3D)	0.093	0.038	0.217	0.070	12min
Styl3R	0.044	0.022	0.107	0.038	0.147s

用户研究（投票偏好）：

数据集	Styl3R	ARF	StyleGS	StyleRF	StyTr2
RE10K	53.29%	14.13%	6.67%	1.81%	24.10%
TnT	38.78%	22.11%	11.56%	3.06%	24.49%

消融实验¶

配置	ArtFID↓	Histogram↓	投票偏好	说明
content loss仅用relu3_1	42.01	0.277	35.20%	风格过度覆盖结构
content loss用relu3_1+relu4_1	35.83	0.239	64.80%	更好平衡风格与结构

NVS性能对比（RE10K 2-view）：

方法	PSNR↑	SSIM↑	LPIPS↓
NoPoSplat	25.033	0.838	0.160
Ours (无风格化)	24.871	0.837	0.165
Ours (风格化模式)	24.055	0.820	0.179

关键发现¶

Styl3R在多视角一致性上超过所有3D基线，同时速度快3-5个数量级（0.147s vs 分钟/小时级）
Identity Loss对保持NVS能力至关重要：去掉后模型无法恢复原始外观
Content loss使用双层（relu3_1+relu4_1）比单层更好地平衡风格表达与结构保真
模型虽用4视角训练，但推理时灵活处理2-8视角输入
跨数据集泛化能力强，在从未见过的Tanks and Temples上直接推理效果良好

亮点与洞察¶

前馈+零样本双优势：首次实现从稀疏未标定图像到风格化3D重建的前馈推理，无需测试时优化、无需已知位姿、无需场景/风格微调
结构-外观解耦设计：通过冻结结构分支防止风格化损失破坏几何，是简单但关键的设计选择
Content as Style洞察：将内容图像视为特殊的风格图像，自然地让一个模型同时支持风格化和标准重建两种模式
风格插值应用：通过插值两张风格图像的style token，可实现平滑的风格过渡效果

局限与展望¶

风格化后的NVS指标略有下降（约1 dB PSNR），说明风格化和重建之间仍存在一定的权衡
目前训练分辨率为256×256，高分辨率风格化质量有待验证
使用0阶球谐函数（SH为0度），限制了视角相关的外观效果
可探索视频序列风格化或与文本驱动风格的结合

评分¶

新颖性: ⭐⭐⭐⭐ 双分支解耦+前馈范式在3D风格化中创新，但整体思路为已有模块的巧妙组合
实验充分度: ⭐⭐⭐⭐⭐ 定量+用户研究+跨数据集泛化+消融全面覆盖
写作质量: ⭐⭐⭐⭐⭐ 图示精美，方法阐述清晰，与现有工作对比充分
价值: ⭐⭐⭐⭐ 亚秒级3D风格化具有很强的实用价值，可直接用于交互式应用