Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D Objects¶

会议: CVPR 2025
arXiv: 2504.08125
代码: https://shalini-maiti.github.io/gen3deval.github.io/ (项目页面)
领域: 3D视觉
关键词: 3D生成评估, 视觉语言模型, 人类偏好对齐, ELO评分, 多视角渲染

一句话总结¶

本文提出Gen3DEval，一个基于vLLM微调的text-to-3D生成质量评估框架，通过对Llama3模型在合成+人工标注数据上微调，实现对3D物体外观、表面质量和文本一致性的自动评估，在与人类偏好对齐上显著超越GPT-4o等通用模型。

研究背景与动机¶

领域现状：Text-to-3D生成近年发展迅速（扩散模型、NeRF、Gaussian Splatting），但缺乏标准化、与人类判断一致的评估指标。
现有痛点：PSNR/SSIM/Chamfer Distance需要ground truth数据，实际不可行（一个prompt可对应多种合理输出）；CLIP只评估文本一致性，忽略外观和表面质量；FID需要大规模标准分布，计算昂贵且不一致。
核心矛盾：Text-to-3D是一对多映射，不存在唯一参考，相似度指标本质上不适用；且现有指标维度单一，无法全面评估。
本文目标 构建一个无需ground truth、全面评估外观+表面质量+文本一致性、与人类偏好高度对齐的自动评估框架。
切入角度：GPT-4V虽能做3D评估但非专用模型且效果有限，作者认为需要针对3D质量评估进行专门微调。
核心 idea：用合成扰动数据+人工偏好标注微调vLLM，让模型学会从多视角渲染图中判断3D物体质量的三个维度。

方法详解¶

整体框架¶

Gen3DEval分两个阶段：Stage 1训练一个能进行成对比较的vLLM，Stage 2用该模型在Gen3DEval-Bench上做成对评比并计算ELO排名。输入为3D物体的多视角渲染图（最多8张，包括RGB和法线图），输出为哪个物体在指定维度上更好的判断。

关键设计¶

两阶段vLLM训练（预训练+SFT）:
- 功能：让vLLM学会理解多视角3D渲染图并进行质量评判
- 核心思路：预训练阶段冻结LLM和图像编码器，仅训练视觉-语言投影矩阵 \(W_\theta\)，用14万个3D artist网格的多视角渲染+文字描述做VQA训练。SFT阶段解冻投影矩阵和LLM，用成对比较数据进行指令微调，学习在外观/表面/文本一致性三个维度上做偏好判断。
- 设计动机：两阶段策略确保先建立视觉-语言对齐，再专注于3D质量评估的具体任务，避免直接端到端训练的不稳定。
合成扰动数据构建:
- 功能：大规模生成训练所需的成对比较数据
- 核心思路：基于artist创建的高质量3D网格，通过Blender/NeRF/Gaussian Splatting引入可控扰动：Laplacian平滑、随机表面凸起、纹理模糊/接缝、透明度伪影、浮动元素、断裂组件等，模拟3D生成方法常见的缺陷。文本一致性数据通过多视角扩散模型生成不同caption的视图，用CLIP过滤低质量样本。
- 设计动机：人工标注数据量有限（5K+样本），合成扰动能大规模扩充训练集，且能精确控制缺陷类型。
多视角输入与图像编码器选择（CLIP）:
- 功能：从多角度全面捕捉3D物体质量信息
- 核心思路：使用最多8张多视角RGB和法线图作为输入。对比了CLIP、DinoV2和Fit3D三种图像编码器及其组合。CLIP（336×336分辨率，ViT架构）在所有评估维度上表现最一致，特别是在OOD泛化上大幅领先。每张图产生576个视觉token。
- 设计动机：单视角可能遗漏遮挡面和隐藏表面的问题；CLIP具有最好的泛化性能，因此选为默认编码器。

损失函数 / 训练策略¶

预训练使用next token prediction的最大似然目标，batch size 16，学习率1e-3，cosine scheduler，8×A100训练1天
SFT使用相同的next token prediction目标，batch size 4，投影矩阵学习率2e-6，vLLM学习率1e-5，16×A100训练18小时
评估时通过成对比较+ELO评分系统生成最终排名

实验关键数据¶

主实验¶

方法	外观(Human)	外观(OOD)	表面(Synthetic)	文本一致性(OOD)
CLIP Score	0.30	0.17	0.30	0.80
GPT-4o	0.59	0.69	0.54	0.55
LLaVA-Qwen-7B	0.54	0.54	0.51	0.58
Gen3DEval (CLIP)	0.90	0.89	0.99	0.86

消融实验（图像编码器）¶

编码器配置	外观(Human)	外观(OOD)	表面(OOD)	文本(OOD)
CLIP	0.90	0.89	0.67	0.86
CLIP + Fit3D	0.90	0.78	0.57	0.53
CLIP + DinoV2	0.86	0.78	0.51	0.74
DinoV2 only	0.77	0.54	0.61	0.58
Fit3D only	0.81	0.55	0.44	0.44

关键发现¶

CLIP编码器在所有评估维度上表现最一致，特别是OOD泛化能力远超其他编码器，选择CLIP作为默认编码器
Gen3DEval在外观评估上以大幅优势（0.90 vs GPT-4o的0.59）超越所有对比方法
在Gen3DEval-Bench上，Trellis排名第一，AssetGen第二，DreamFusion排名较低
多视角输入对不支持多图的模型（如BLIP、PaliGemma）影响严重，使用拼接网格替代效果很差

亮点与洞察¶

合成扰动策略非常巧妙：直接对artist创作的高质量3D网格注入可控缺陷，既保证了数据质量又能大规模扩展，这种"从好到坏"的合成策略可迁移到其他质量评估任务
法线图引入是关键创新：通过同时分析RGB和surface normal渲染，模型能评估几何质量而不仅仅是外观，这在3D评估中非常重要
ELO评分系统的使用让成对比较结果转化为可排序的分数，类似棋类评分，比直接投票更鲁棒

局限与展望¶

对Janus face伪影的评估不够稳定，可能因为训练数据中此类样本不够多
OOD表面评估仍有提升空间，受限于多样化标注的表面比较数据不足
对image-to-3D方法的评估会受到text-to-image pipeline质量的影响
8.35B参数量虽比GPT-4小很多，但部署成本仍不低，可以考虑蒸馏到更小模型
目前仅评估静态3D物体，未涉及动态场景和4D内容

评分¶

新颖性: ⭐⭐⭐⭐ 首个专门微调vLLM做3D生成质量评估的工作，方向新但框架基于LLaVA
实验充分度: ⭐⭐⭐⭐ 多维度评估、多编码器消融、与多个模型对比，Gen3DEval-Bench设计合理
写作质量: ⭐⭐⭐⭐ 结构清晰，问题动机阐述充分，表格数据丰富
价值: ⭐⭐⭐⭐ 解决了3D生成评估的实际痛点，提供了标准化基准，对社区有推动作用