MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 图像生成 / 扩散模型 / PBR 材质合成
关键词: PBR 材质, 联合表征, 视频扩散, 内在分解, 基础模型

一句话总结¶

MatPedia 把"贴图 RGB + 四张 PBR 贴图"编码成一段 5 帧序列、套用视频扩散架构来联合建模，从而用单一模型统一文本生材质、图像生材质、内在分解三类任务，并能借助海量纯 RGB 图片训练，在原生 1024×1024 分辨率上超越此前专用方法。

研究背景与动机¶

领域现状：物理渲染（PBR）材质是真实感图形的基础，每个材质由 basecolor（漫反射反照率）、normal（法线）、roughness（粗糙度）、metallic（金属度）四张贴图按 Cook-Torrance 微表面模型描述。手工制作这些贴图既费力又需要专业技能，因此近年用 GAN / 扩散模型自动生成材质成为热点。

现有痛点：作者指出现有方法有两个根本短板。其一是任务碎片化——内在分解、文本生材质、图像生材质各自一套专用 pipeline（如 ControlMat、MatFuse、Material Palette、RGB↔X），缺一个能同时处理多任务的统一架构。其二是数据受限——它们只能在小规模 PBR 数据集（往往几千上万个材质）上训练，无法利用质量更高、规模更大的自然 RGB 图像数据，导致合成材质的质量与多样性远低于现代 RGB 图像生成器的水准。

核心矛盾：缺少一个能同时桥接自然图像外观（RGB）与物理材质属性（PBR）的统一隐空间表征。没有它，就既无法做统一架构，也无法把 RGB 大数据引入材质训练。

切入角度：作者的关键观察是 RGB 与 PBR 之间存在不对称的互补关系——RGB 图像本身已包含丰富的外观线索（纹理、颜色、结构），而四张 PBR 贴图主要补充的是 RGB 背后的物理解释（表面几何、材质类型、反射率）。于是不该把 PBR 当成与 RGB 平行的独立模态，而应以 RGB 为条件去编码 PBR，只需表征"增量物理属性"即可高度压缩。

核心 idea：借鉴视频压缩——3D VAE 能跨时间相干的多帧建模依赖关系；把 RGB 帧与四张 PBR 贴图拼成一段 5 帧"视频"，用视频 VAE/DiT 学习它们的联合分布，既天然捕捉 RGB↔PBR 的耦合，又能迁移视频生成模型的视觉先验。

方法详解¶

整体框架¶

MatPedia 的目标是用单一架构完成文本生材质、图像生材质、内在分解三类任务。核心是一个联合 RGB-PBR 表征：把一张 RGB 帧和四张 PBR 贴图当作一段 5 帧序列，用微调过的 3D（视频）VAE 编码成两个相互依赖的隐变量——一个表示着色后的 RGB 外观，一个联合编码四张 PBR 贴图（且以 RGB 为条件）。在这之上接一个视频 DiT 主干，用按任务区分的 LoRA 做灵活条件控制，三类任务靠"喂不同的条件信号"统一起来。训练数据则是混合语料 MatHybrid-410K（RGB-PBR 配对 + 纯 RGB 图像）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入<br/>文本 / 失真图 / 平面图"] --> B["联合 RGB-PBR 表征<br/>5帧序列→3D VAE<br/>PBR 以 RGB 为条件编码"]
    B --> C["统一视频 DiT + 按任务 LoRA<br/>同一主干处理三类任务"]
    C -->|文本生材质| D["生成 RGB latent + PBR latent"]
    C -->|图像生材质 / 内在分解| D
    D --> E["联合解码<br/>RGB 独立解码<br/>PBR 用 RGB 缓存特征解码"]
    E --> F["输出<br/>原生 1024×1024 PBR 贴图"]
    G["混合训练 MatHybrid-410K<br/>纯 RGB 仅监督 RGB 分支"] -.-> C

关键设计¶

1. 联合 RGB-PBR 表征：以 RGB 为条件压缩 PBR，把材质当作 5 帧视频

针对"缺少桥接 RGB 与 PBR 的统一隐空间"这一根本痛点，作者把一张 RGB 图 \(\mathbf{I}_{rgb}\in\mathbb{R}^{H\times W\times 3}\) 与四张 PBR 贴图 \((a,n,r,m)\) 拼成一段 5 帧序列，喂给预训练视频 VAE（Wan2.2-VAE，3D 因果卷积、空间 16× / 时间 4× 高压缩）。编码端是不对称的：RGB 独立编码 \(\mathbf{z}_{rgb}=\mathcal{E}_{rgb}(\mathbf{I}_{rgb})\)，而 PBR 用 RGB 分支缓存的特征 \(\mathcal{F}_{enc}\) 作条件编码 \(\mathbf{z}_{pbr}=\mathcal{E}_{pbr}([\mathcal{F}_{enc}(\mathbf{z}_{rgb}),a,n,r,m])\)；解码端镜像对称，RGB 独立解码，PBR 用 RGB 解码缓存特征 \(\mathcal{F}_{dec}\) 做"增量精修"。这样设计有效的原因是：RGB 已携带大量视觉结构，PBR latent 只需补编码 RGB 里没有的物理属性，从而获得很高的压缩比却仍保住材质细节，支撑原生 1024×1024 生成。为了在保留预训练隐分布的同时提升材质保真，作者只微调解码器（编码器冻结），用像素 + 感知损失：\(\mathcal{L}_{\mathrm{VAE}}=\lambda_1\|\hat{\mathbf{x}}-\mathbf{x}\|_1+\lambda_2\|\phi(\hat{\mathbf{x}})-\phi(\mathbf{x})\|_2^2\)，其中 \(\phi\) 取自预训练 VGG。

2. 统一视频 DiT + 按任务 LoRA：一个主干、三个任务靠条件切换

针对"任务碎片化"，作者在联合 latent 上接一个视频 DiT，三类任务共享同一主干、只用不同 LoRA 与条件信号区分。文本生材质：DiT 从噪声出发、以文本为条件同时生成 RGB 与 PBR latent，再联合解码。图像生材质：把可能带几何失真的照片经 VAE 编码成条件 latent，DiT 生成"校正后的平面 RGB + PBR"两个新 latent，解码时 RGB 独立重建（顺带校正失真）、PBR 用缓存 RGB 特征解码，该任务从文本生材质 checkpoint 用 LoRA 微调而来。内在分解：输入平面 RGB，DiT 只生成对应 PBR latent，同样从文本权重 LoRA 微调。三任务都用 rectified flow 目标优化：\(\mathcal{L}_{\mathrm{RF}}=\mathbb{E}_{\mathbf{x}_0,\mathbf{x}_1,t}\big[\|v_\theta(\mathbf{x}_t,t,\mathbf{c})-(\mathbf{x}_0-\mathbf{x}_1)\|_2^2\big]\)，其中 \(\mathbf{x}_t=(1-t)\mathbf{x}_0+t\mathbf{x}_1\)。DiT 从大规模视频生成模型初始化，靠 LoRA（rank 128）迁移视觉先验——既省训练，又把"视频先验"用作跨贴图相关性与空间对齐的来源。

3. 混合训练 MatHybrid-410K：用纯 RGB 大数据补 PBR 数据稀缺

针对"PBR 数据太少"，作者构建混合语料 MatHybrid-410K：① RGB 外观子集约 5 万张平面材质图（Gemini 2.5 Flash Image 程序生成 + 公开真实平面材质照片），每张配 Qwen2.5-VL-72B 生成的文本描述，提供纯 RGB（无 PBR 标注）的多样外观；② 完整 PBR 子集约 6000 套材质（源自 Matsynth 等），用 Blender Disney Principled BSDF 渲染出平面视图（32 张 HDR 环境图，得 19.2 万对供内在分解）与失真视图（渲到立方体/球/圆柱等几何体上，约 16.8 万对供图像生材质）。训练时对纯 RGB 样本只监督 RGB latent 生成，PBR latent 分布仍只从配对数据学习——这样既让 RGB 分支吸收海量视觉知识、又不污染 PBR 隐分布。消融证实去掉 RGB 子集会让 CLIP 从 0.283 跌到 0.275、DINO-FID 从 1.31 升到 1.62，说明这部分外观数据确实同时改善了语义对齐与感知真实感。

损失函数 / 训练策略¶

3D VAE 解码器在 1024×1024 的 RGB-PBR 配对数据上微调 10K 步（AdamW，lr=5×10⁻⁵，λ₁=10，λ₂=1）。视频 DiT 用 LoRA（rank 128，作用于注意力投影与 FFN 线性层）在混合数据上每任务训练 200K 步（batch 16，lr=1×10⁻⁴）。推理时先在 1024×1024 生成、再用 RealESRGAN 上采到 4K，完整 PBR 生成 50 步采样约需 20 秒。

实验关键数据¶

评测沿用 MaterialPicker 的测试集。自定义/常用指标含义：CLIP score 衡量语义对齐（文本生材质看文本-图像相似度，图像生材质看图像-图像相似度），越高越好；DINO score 用 DINOv2 嵌入衡量感知相似度，越高越好；DINO-FID 把 FID 的 Inception 特征换成 DINOv2 特征，越低越好；MSE / LPIPS 分别衡量像素误差与感知距离，越低越好。

主实验¶

文本生材质（与统一框架 MatFuse 对比）：

方法	CLIP↑	DINO-FID↓
MatFuse	0.261	1.90
MatPedia（本文）	0.283	1.31
MatPedia（无混合训练）	0.275	1.62

图像生材质（CLIP / DINO 分通道，对比 MatFuse、Material Palette）：

指标	方法	basecolor	Normal	Roughness	Render
CLIP↑	MatFuse	0.833	0.906	0.873	0.859
CLIP↑	Material Palette	0.813	0.875	0.780	0.824
CLIP↑	本文	0.943	0.927	0.903	0.923
DINO↑	MatFuse	0.649	0.755	0.717	0.677
DINO↑	本文	0.907	0.762	0.752	0.843

内在分解上，本文在 basecolor/Normal/Roughness/Render 各通道的 MSE 与 LPIPS 也全面最低（如 basecolor MSE 0.009 vs Material Palette 0.058 / RGB↔X 0.122）。

消融实验¶

配置	关键指标	说明
完整模型（混合训练）	CLIP 0.283 / DINO-FID 1.31	文本生材质最佳
w/o RGB 外观子集	CLIP 0.275 / DINO-FID 1.62	仅用 PBR 数据，语义与真实感同时下降
VAE 解码器微调前	Normal 27.29 / Roughness 31.36 dB	重建 PSNR
VAE 解码器微调后	Normal 30.84 / Roughness 36.56 dB	Normal +3.55 dB、Roughness +5.20 dB

关键发现¶

混合训练是质量来源之一：引入纯 RGB 外观数据同时改善了文本生材质的语义对齐（CLIP↑）与分布真实感（DINO-FID↓），印证"用 RGB 大数据补 PBR 稀缺"的设计有效。
解码器微调对 Normal/Roughness 增益最大：这两张贴图对材质外观最关键，微调后 PSNR 分别 +3.55 / +5.20 dB，说明冻结编码器、只精修解码器的策略足以补回材质细节。
图像生材质提升集中在 basecolor：相对 MatFuse 在 basecolor 上 +0.11 CLIP / +0.26 DINO，表明本文在失真输入下更能恢复"去掉光照后的本征颜色"。

亮点与洞察¶

把材质类比成视频：用"RGB↔PBR 物理耦合 ≈ 视频相邻帧时间相干"的类比，直接复用视频 VAE/DiT 的成熟架构与预训练先验，这个跨域迁移的视角很巧。
不对称编码：以 RGB 为条件压缩 PBR，让 PBR latent 只编码增量物理信息，是高压缩比 + 高分辨率得以兼顾的关键，可迁移到其他"主模态 + 互补模态"的联合生成场景。
纯 RGB 半监督：对无 PBR 标注的样本只监督 RGB 分支、保护 PBR 隐分布，是一种低成本扩数据的实用范式。

局限与展望¶

作者承认联合压缩耦合了空间特征，难以直接靠 noise rolling 支持可平铺（tileable）材质生成；不过原生 1024×1024（上采到 4096²）对多数生产场景够用。
依赖预训练视频 VAE/DiT 的视觉先验，方法质量与所选底座强相关；⚠️ 论文未充分给出对底座更换的鲁棒性分析。
改进方向：探索可平铺生成、把更多 PBR 通道（如各向异性、透射）纳入联合表征。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "材质=视频"的联合表征 + 以 RGB 为条件的不对称编码是真正新颖的统一视角
实验充分度: ⭐⭐⭐⭐ 覆盖三任务且有消融，但多数对比缺公开权重、部分只能定性
写作质量: ⭐⭐⭐⭐ 动机—观察—方法链条清晰，图 2 pipeline 信息量大
价值: ⭐⭐⭐⭐⭐ 统一架构 + 可释放的 MatHybrid-410K 对材质生成社区价值高