CrossScore: Towards Multi-View Image Evaluation and Scoring¶
会议: ECCV 2024
arXiv: 2404.14409
代码: 有 (https://crossscore.active.vision)
领域: 3D视觉
关键词: 图像质量评估, 跨参考评估, 新视角合成, Cross-Attention, 自监督
一句话总结¶
提出 Cross-Reference(CR)图像质量评估新范式,通过对比查询图像与多个不同视角参考图像,利用 cross-attention 神经网络预测与 SSIM 高度相关的像素级质量分数,无需 ground truth 参考图像即可评估新视角合成质量。
研究背景与动机¶
图像质量评估(IQA)现有范式包括: - Full-Reference(FR):如 SSIM、LPIPS,需要像素对齐的 GT 图像 - No-Reference(NR):如 NIQE、BRISQUE,仅从单张图像统计特征评估 - General-Reference(GR):如 FID,评估数据集级别的分布差异 - Multi-Modal-Reference(MMR):如 CLIPScore,评估图像-文本相似性
新视角合成(NVS)评估的问题:
- 传统 FR 评估需要从训练轨迹中抽取测试图像,训练与评估的图像数量需要权衡
- 对于真正的新轨迹渲染,没有 GT 可用,FR 指标完全无法使用
- NR 和 GR 指标缺乏像素级详细分析能力,不适合 NVS
核心想法:用多个不同视角的参考图像替代单张 GT 图像,实现去像素对齐的 SSIM 预测 — 一种"透视版"的 FR 评估。
方法详解¶
整体框架¶
给定查询图像 \(\tilde{I}_q\) 和跨参考图像集 \(\mathcal{I}_r = \{I_r^i | i=1...N_{ref}\}\)(同一场景不同视角),目标是找到函数 \(g(\cdot)\) 使得:
即用多视角参考图像近似 SSIM 函数的输出,无需对齐 GT。
网络 \(\Phi\) 包含三部分: 1. Image Encoder \(\Phi_{enc}\):提取特征图 2. Cross-Reference Module \(\Phi_{cross}\):关联查询与参考图像 3. Score Regression Head \(\Phi_{dec}\):输出像素级分数图
关键设计¶
1. 图像编码器 — DINOv2¶
- 使用预训练 DINOv2-small 作为编码器
- 14×14 patch 编码,输出 384 通道特征图
- 对查询和所有参考图像使用共享编码器
- 使用 patch-wise 位置编码,不使用图像级编码(参考集是无序的)
2. 跨参考模块 — Transformer Decoder¶
核心是 cross-attention 机制:
- 查询图像特征 \(\mathbf{F}_q\) 作为 cross-attention 的 query
- 参考图像特征集 \(\mathcal{F}_r\) 作为 key 和 value
- 使用 2 层 Transformer Decoder,hidden dim 384
直观理解:对查询图像的每个 patch,在所有参考图像中找到最相关的观察,用这些信息判断该 patch 的渲染质量。
3. 分数回归头 — MLP¶
- 2 层 MLP 将 latent score map 解码为像素级 score map
- 由于 DINOv2 按 patch 编码,最后一层 MLP 将每个 latent score 展开为 14×14 的 patch score
- 最终拼接为完整分辨率的 CrossScore map \(\mathbf{S}_{cross} \in \mathbb{R}^{H \times W}\)
4. 自监督训练数据生成¶
最巧妙的设计 — 利用现有 NVS 系统的训练过程生成训练数据:
- 在 MFR 数据集上训练 3 种 NVS 方法:Gaussian Splatting、Nerfacto、TensoRF
- 每 1000 步保存 checkpoint(共 11 个),在每个 checkpoint 渲染图像
- 渲染图像包含不同类型和程度的伪影,与 GT 比较得到 SSIM 分数图
- 三种 NVS 方法的不同表示(点云 / 体素 / 平面分解)确保了伪影的多样性
- 整个数据生成用了 4×A5000 约两周,约 1.5TB
损失函数 / 训练策略¶
简洁的 L1 损失。SSIM map 裁剪到 [0,1] 以稳定训练。
训练设置: - 随机裁剪 518×518 区域(匹配 DINOv2 输入) - 每次随机选择 \(N_{ref}=5\) 张参考图像 - 2×A5000 24GB,训 160K 步(60 小时) - AdamW 优化器,学习率 5e-4,batch size 24/GPU - 仅在 MFR 数据集上训练,评估在 MFR + Mip360 + RE10K
实验关键数据¶
与 SSIM 的相关性(Pearson 相关系数)¶
| 数据集 | PSNR (FR) | BRISQUE (NR) | NIQE (NR) | PIQE (NR) | CrossScore (CR) |
|---|---|---|---|---|---|
| RE10K | 0.92 | 0.46 | 0.32 | 0.27 | 0.99 |
| Mip360 | 0.91 | 0.19 | 0.61 | 0.69 | 0.95 |
| MFR | 0.92 | 0.23 | -0.30 | -0.11 | 0.83 |
评估 Few-shot NeRF(MFR 数据集)¶
| NVS 方法 | SSIM↑ | PSNR↑ | CrossScore↑ |
|---|---|---|---|
| PixelNeRF | 0.26 | 9.17 | 0.40 |
| IBRNet | 0.44 | 18.51 | 0.71 |
CrossScore 与 SSIM/PSNR 排序一致,可用于方法间比较。
新轨迹评估(MFR 14 个场景)¶
传统 SSIM(子采样测试视角)与 CrossScore(新轨迹)的 Pearson 相关系数达 0.84,Spearman 排序相关也接近。
消融实验¶
| 参考集 | 相关系数 |
|---|---|
| 启用 (✓) | 0.83 |
| 禁用 (✗) | 降低至 ~0.7 |
禁用参考集后模型退化为 NR 式评估,分数图细节减少,倾向给所有区域高分。
关键发现¶
- CrossScore 与 SSIM 相关性在 RE10K 上达 0.99,甚至超过 PSNR(0.92)
- NR 指标(BRISQUE, NIQE, PIQE)在多数据集上相关性极低甚至为负,不适合 NVS 评估
- 仅在 MFR(户外物体/建筑)训练,成功泛化到 Mip360(360°室内外)和 RE10K
- Attention 可视化显示模型学会了在参考图像中定位与查询对应的语义区域
亮点与洞察¶
- 全新 IQA 范式:Cross-Reference 填补了 FR 和 NR 之间的空白,特别适合 NVS 场景
- 自监督数据引擎:利用 NVS 训练过程中间结果生成训练数据,无需人工标注
- 泛化能力强:仅在一个数据集训练就能跨域泛化,说明学到的是通用的质量-多视角关联
- DINOv2 + Cross-attention:简洁但有效的架构选择,证明了预训练视觉 Transformer 在 3D 任务中的适用性
- 实用价值大:使得无 GT 的新轨迹渲染评估成为可能,对 NVS 评估方法论有重要推动
局限与展望¶
- 目前仅预测 SSIM 一种指标,可扩展到 LPIPS 等感知指标
- 训练数据生成依赖特定 NVS 方法(GS、Nerfacto、TensoRF),扩展更多方法可增加伪影多样性
- 参考图像数量固定为 5 张,动态选择最优参考集可能提升性能
- 对极大基线差异(参考与查询相差很远)的场景可能效果有限
- 计算成本:DINOv2 编码所有参考图像有一定开销
相关工作与启发¶
- SSIM:经典 FR 指标,本文目标就是在无 GT 时近似它
- DINOv2:强视觉特征提取器,提供了 patch 级对应关系的基础
- FID/CLIPScore:分别评估分布和语义,但缺乏像素级细节
- RR-IQA:减少参考指标也试图降低 GT 依赖,但仍需 GT 的部分信息
- 启发:利用 NVS 训练过程本身作为数据引擎是一种优雅的自监督策略
评分¶
| 维度 | 分数 (1-10) |
|---|---|
| 创新性 | 8 |
| 技术深度 | 7 |
| 实验充分性 | 8 |
| 写作质量 | 9 |
| 实用价值 | 8 |
| 总分 | 8.0 |