CrossScore: Towards Multi-View Image Evaluation and Scoring¶
会议: ECCV 2024
arXiv: 2404.14409
代码: https://crossscore.active.vision
领域: 3D视觉
关键词: 图像质量评估, 交叉参考, 新视角合成, SSIM预测, 跨视角
一句话总结¶
提出 CrossScore——一种新型的交叉参考图像质量评估方法,利用多视角参考图像替代真实参考图,通过 cross-attention 机制预测 SSIM 分数图,在无需 ground truth 的条件下实现接近全参考指标的评估精度。
研究背景与动机¶
领域现状¶
领域现状:IQA 现有方案的不足**:
现有痛点¶
现有痛点:全参考指标(FR-IQA)如 SSIM/PSNR 需要 ground truth,在 NVS 中限制了训练数据使用
核心矛盾¶
核心矛盾:无参考指标(NR-IQA)如 NIQE/BRISQUE 缺乏场景特定上下文分析能力
解决思路¶
解决思路:通用参考指标(GR-IQA)如 FID 只评估分布层面,不适合逐像素评估
补充说明¶
补充说明:多模态参考指标(MMR-IQA)如 CLIPScore 缺乏细粒度评估能力
补充说明¶
补充说明:NVS 评估痛点**:
补充说明¶
补充说明:子采样策略(留出测试图像)面临训练数据与评估统计相关性的平衡问题
补充说明¶
补充说明:真正新颖视角无法获得 ground truth,FR 指标无法使用
补充说明¶
补充说明:核心思路**:用同一场景的多视角图像替代 ground truth,实现"透视版 SSIM"
方法详解¶
整体框架¶
- Image Encoder:使用预训练 DINOv2-small 提取查询图和参考图的特征
- Cross-Reference Module:Transformer Decoder,查询图特征作为 query,参考图特征集作为 key/value
- Score Regression Head:MLP 将 latent score map 解码为逐像素分数图
目标:学习函数 \(g(\tilde{I}_q, \mathcal{I}_r) \mapsto \mathbf{S}_{cross} \approx \mathbf{S}_{ssim}\)
关键设计¶
自监督数据收集 - 利用现有 NVS 系统(Gaussian Splatting、Nerfacto、TensoRF)在优化过程的不同 checkpoint 渲染图像 - 渲染图像与原始图像比较得到 SSIM map 作为训练标签 - 覆盖多种失真类型和程度,形成丰富训练集
网络架构 - DINOv2 patch-wise 编码,忽略 CLS token - Cross-reference module:2 层 Transformer decoder,hidden dim 384 - Score regression head:2 层 MLP,最终每 patch 输出 14×14 分数图
训练策略 - L1 loss:\(\mathcal{L} = |\mathbf{S}_{ssim} - \mathbf{S}_{cross}|\) - SSIM map 截断至 [0,1] 确保训练稳定 - 参考图数量 \(N_{ref} = 5\)
损失函数 / 训练策略¶
- 仅在 MFR 数据集上训练,使用 L1 损失
- Adam-W 优化器,学习率 5e-4
- 2× A5000 GPU,160K 迭代,60 小时
- 训练数据生成约两周(4× A5000),~1.5TB 存储
实验关键数据¶
主实验(与 SSIM 的 Pearson 相关系数)¶
| 数据集 | PSNR(FR) | BRISQUE(NR) | NIQE(NR) | PIQE(NR) | CrossScore(CR) |
|---|---|---|---|---|---|
| RE10K | 0.92 | 0.46 | 0.32 | 0.27 | 0.99 |
| Mip360 | 0.91 | 0.19 | 0.61 | 0.69 | 0.95 |
| MFR | 0.92 | 0.23 | -0.30 | -0.11 | 0.83 |
消融实验(Novel Trajectory IQA)¶
- 14 个场景的 SSIM vs CrossScore 排名相关系数(Spearman)= 0.84
- CrossScore 在无 ground truth 条件下成功区分不同质量的 NVS 渲染
关键发现¶
- CrossScore 与 SSIM 高度相关(RE10K 上 0.99),远超所有 NR 指标
- 仅在 MFR 上训练,成功泛化到 Mip360(室内外360°扫描)和 RE10K
- Few-shot NeRF 评估中,CrossScore 正确判断 IBRNet > PixelNeRF,与 FR 指标一致
- NR 指标在多个数据集上甚至出现负相关(如 NIQE 在 MFR 上 -0.30)
亮点与洞察¶
- 开创 CR-IQA(交叉参考)新范式,填补 FR 和 NR 之间的空白
- 实用性极强:NVS 评估可用全部图像训练,不再需要留出测试集
- 自监督数据收集策略巧妙——利用 NVS 优化过程中自然产生的多级别失真
- 支持任意分辨率输入(推理时)
局限与展望 / 可改进方向¶
- 仅预测 SSIM 这一种 FR 指标,可扩展到 LPIPS 等感知指标
- Cross-attention 计算量随参考图数量增长,大规模场景可能需要优化
- MFR 训练数据主要为室外建筑物,对其他场景类型(如人脸、文本)的泛化需验证
- 当前仅支持静态场景,动态场景评估待探索
相关工作与启发¶
- DINOv2 的 patch 级特征为跨视角匹配提供了强力基础
- NeRF/3DGS 的优化过程作为"失真生成器"是极具创意的自监督数据源
- 可启发:将 CR-IQA 推广到视频质量评估、3D 重建质量评估等领域
评分¶
- 新颖性:⭐⭐⭐⭐⭐(全新评估范式)
- 技术深度:⭐⭐⭐⭐
- 实验充分度:⭐⭐⭐⭐(多数据集验证 + 应用场景展示)
- 写作质量:⭐⭐⭐⭐⭐
- 综合推荐:⭐⭐⭐⭐