Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D Objects¶
会议: CVPR 2025
arXiv: 2504.08125
代码: https://shalini-maiti.github.io/gen3deval.github.io/ (项目页面)
领域: 3D视觉
关键词: 3D生成评估, 视觉语言模型, 人类偏好对齐, ELO评分, 多视角渲染
一句话总结¶
本文提出Gen3DEval,一个基于vLLM微调的text-to-3D生成质量评估框架,通过对Llama3模型在合成+人工标注数据上微调,实现对3D物体外观、表面质量和文本一致性的自动评估,在与人类偏好对齐上显著超越GPT-4o等通用模型。
研究背景与动机¶
- 领域现状:Text-to-3D生成近年发展迅速(扩散模型、NeRF、Gaussian Splatting),但缺乏标准化、与人类判断一致的评估指标。
- 现有痛点:PSNR/SSIM/Chamfer Distance需要ground truth数据,实际不可行(一个prompt可对应多种合理输出);CLIP只评估文本一致性,忽略外观和表面质量;FID需要大规模标准分布,计算昂贵且不一致。
- 核心矛盾:Text-to-3D是一对多映射,不存在唯一参考,相似度指标本质上不适用;且现有指标维度单一,无法全面评估。
- 本文目标 构建一个无需ground truth、全面评估外观+表面质量+文本一致性、与人类偏好高度对齐的自动评估框架。
- 切入角度:GPT-4V虽能做3D评估但非专用模型且效果有限,作者认为需要针对3D质量评估进行专门微调。
- 核心 idea:用合成扰动数据+人工偏好标注微调vLLM,让模型学会从多视角渲染图中判断3D物体质量的三个维度。
方法详解¶
整体框架¶
Gen3DEval分两个阶段:Stage 1训练一个能进行成对比较的vLLM,Stage 2用该模型在Gen3DEval-Bench上做成对评比并计算ELO排名。输入为3D物体的多视角渲染图(最多8张,包括RGB和法线图),输出为哪个物体在指定维度上更好的判断。
关键设计¶
-
两阶段vLLM训练(预训练+SFT):
- 功能:让vLLM学会理解多视角3D渲染图并进行质量评判
- 核心思路:预训练阶段冻结LLM和图像编码器,仅训练视觉-语言投影矩阵 \(W_\theta\),用14万个3D artist网格的多视角渲染+文字描述做VQA训练。SFT阶段解冻投影矩阵和LLM,用成对比较数据进行指令微调,学习在外观/表面/文本一致性三个维度上做偏好判断。
- 设计动机:两阶段策略确保先建立视觉-语言对齐,再专注于3D质量评估的具体任务,避免直接端到端训练的不稳定。
-
合成扰动数据构建:
- 功能:大规模生成训练所需的成对比较数据
- 核心思路:基于artist创建的高质量3D网格,通过Blender/NeRF/Gaussian Splatting引入可控扰动:Laplacian平滑、随机表面凸起、纹理模糊/接缝、透明度伪影、浮动元素、断裂组件等,模拟3D生成方法常见的缺陷。文本一致性数据通过多视角扩散模型生成不同caption的视图,用CLIP过滤低质量样本。
- 设计动机:人工标注数据量有限(5K+样本),合成扰动能大规模扩充训练集,且能精确控制缺陷类型。
-
多视角输入与图像编码器选择(CLIP):
- 功能:从多角度全面捕捉3D物体质量信息
- 核心思路:使用最多8张多视角RGB和法线图作为输入。对比了CLIP、DinoV2和Fit3D三种图像编码器及其组合。CLIP(336×336分辨率,ViT架构)在所有评估维度上表现最一致,特别是在OOD泛化上大幅领先。每张图产生576个视觉token。
- 设计动机:单视角可能遗漏遮挡面和隐藏表面的问题;CLIP具有最好的泛化性能,因此选为默认编码器。
损失函数 / 训练策略¶
- 预训练使用next token prediction的最大似然目标,batch size 16,学习率1e-3,cosine scheduler,8×A100训练1天
- SFT使用相同的next token prediction目标,batch size 4,投影矩阵学习率2e-6,vLLM学习率1e-5,16×A100训练18小时
- 评估时通过成对比较+ELO评分系统生成最终排名
实验关键数据¶
主实验¶
| 方法 | 外观(Human) | 外观(OOD) | 表面(Synthetic) | 文本一致性(OOD) |
|---|---|---|---|---|
| CLIP Score | 0.30 | 0.17 | 0.30 | 0.80 |
| GPT-4o | 0.59 | 0.69 | 0.54 | 0.55 |
| LLaVA-Qwen-7B | 0.54 | 0.54 | 0.51 | 0.58 |
| Gen3DEval (CLIP) | 0.90 | 0.89 | 0.99 | 0.86 |
消融实验(图像编码器)¶
| 编码器配置 | 外观(Human) | 外观(OOD) | 表面(OOD) | 文本(OOD) |
|---|---|---|---|---|
| CLIP | 0.90 | 0.89 | 0.67 | 0.86 |
| CLIP + Fit3D | 0.90 | 0.78 | 0.57 | 0.53 |
| CLIP + DinoV2 | 0.86 | 0.78 | 0.51 | 0.74 |
| DinoV2 only | 0.77 | 0.54 | 0.61 | 0.58 |
| Fit3D only | 0.81 | 0.55 | 0.44 | 0.44 |
关键发现¶
- CLIP编码器在所有评估维度上表现最一致,特别是OOD泛化能力远超其他编码器,选择CLIP作为默认编码器
- Gen3DEval在外观评估上以大幅优势(0.90 vs GPT-4o的0.59)超越所有对比方法
- 在Gen3DEval-Bench上,Trellis排名第一,AssetGen第二,DreamFusion排名较低
- 多视角输入对不支持多图的模型(如BLIP、PaliGemma)影响严重,使用拼接网格替代效果很差
亮点与洞察¶
- 合成扰动策略非常巧妙:直接对artist创作的高质量3D网格注入可控缺陷,既保证了数据质量又能大规模扩展,这种"从好到坏"的合成策略可迁移到其他质量评估任务
- 法线图引入是关键创新:通过同时分析RGB和surface normal渲染,模型能评估几何质量而不仅仅是外观,这在3D评估中非常重要
- ELO评分系统的使用让成对比较结果转化为可排序的分数,类似棋类评分,比直接投票更鲁棒
局限与展望¶
- 对Janus face伪影的评估不够稳定,可能因为训练数据中此类样本不够多
- OOD表面评估仍有提升空间,受限于多样化标注的表面比较数据不足
- 对image-to-3D方法的评估会受到text-to-image pipeline质量的影响
- 8.35B参数量虽比GPT-4小很多,但部署成本仍不低,可以考虑蒸馏到更小模型
- 目前仅评估静态3D物体,未涉及动态场景和4D内容
相关工作与启发¶
- vs GPT4VEval: 使用通用GPT-4V做3D评估,未针对任务微调;Gen3DEval用专门数据微调8.35B模型,在各维度大幅超越
- vs CLIP Score: CLIP仅能评估文本-图像对齐,无法评估外观质量和表面质量;Gen3DEval统一了三个评估维度
- vs T3Bench: T3Bench提供了prompt基准但没有自动评估模型;Gen3DEval既提供基准(Gen3DEval-Bench)又提供评估模型
- 该工作的思路——"对领域任务微调vLLM做自动评估"——可迁移到其他生成任务的质量评估
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个专门微调vLLM做3D生成质量评估的工作,方向新但框架基于LLaVA
- 实验充分度: ⭐⭐⭐⭐ 多维度评估、多编码器消融、与多个模型对比,Gen3DEval-Bench设计合理
- 写作质量: ⭐⭐⭐⭐ 结构清晰,问题动机阐述充分,表格数据丰富
- 价值: ⭐⭐⭐⭐ 解决了3D生成评估的实际痛点,提供了标准化基准,对社区有推动作用