Image Intrinsic Scale Assessment: Bridging the Gap Between Quality and Resolution¶

会议: ICCV 2025
arXiv: 2502.06476
代码: GitHub
领域: LLM预训练
关键词: 图像质量评估, 内在尺度, 弱标签, 多尺度感知, 主观标注

一句话总结¶

本文定义了图像内在尺度（IIS）这一新概念——即图像展现最高感知质量的最大缩放比例，并提出 IISA 任务、构建了 785 张图像的数据集，以及基于弱标签的 WIISA 训练策略，在多个 NR-IQA 方法上一致提升了 IIS 预测性能。

研究背景与动机¶

图像质量评估（IQA）是计算机视觉的核心任务，但一个被严重忽略的问题是：图像质量与空间分辨率（缩放尺度）之间的关系从未被系统量化。

实际中，人们常观察到一种矛盾现象： - 缩小图像时，噪声颗粒变小、模糊不再明显，感知质量可能反而提升 - 过度缩小时，高频细节丢失（如鸟的羽毛纹理），质量又下降 - 因此存在一个最优缩放比例，在退化消除和细节保留之间取得最佳平衡

这启发了一个根本性问题：给定一张图像，它的最佳显示尺度是什么？

已有工作的不足： 1. 传统相机性能评估（如 P-MP、MTF）只在理想实验条件下衡量分辨能力，不适用于真实照片 2. NR-IQA 方法只在固定分辨率下评估质量，无法回答"该以多大尺寸显示"这一实用问题 3. KonX 数据集虽然首次提供多分辨率标注，但仅 3 个离散尺度，远不够精细

方法详解¶

整体框架¶

本文工作包含三个相互支撑的贡献： 1. 概念定义：Image Intrinsic Scale（IIS），即图像展现最高感知质量的最大缩放因子 2. 数据集构建：IISA-DB，785 张图像的专家标注数据集 3. 弱标签策略：WIISA，从单个标注推导出多个弱标签训练样本

关键设计¶

IIS 的形式化定义：设 \(I^s\) 为图像 \(I\) 缩放到比例 \(s\) 的结果，\(Q(I^s)\) 为其感知质量。IIS 定义为：

\[\Omega(I) = \max\left(\operatorname*{argmax}_{s_{lb} \leq s \leq 1} Q(I^s)\right)\]

其中下界 \(s_{lb} = 0.05\)，因为极小图像的质量难以可靠评估。取 \(\max\) 是为了在多个等质量尺度中选择信息量最大的那个。

WIISA 弱标签生成策略：这是方法论的核心创新。关键洞察是：一旦知道原图的 IIS \(\Omega(I)\)，可以通过分段函数推导其缩小版本的 IIS：

\[\overline{\Omega}(I^s) = \begin{cases} 1 & s_{lb} \leq s \leq \Omega(I) \\ \frac{\Omega(I)}{s} & \Omega(I) < s \end{cases}\]

直觉解释： - 当缩放比 \(s \leq \Omega(I)\) 时，图像已经处于最优状态，无需进一步缩小，故 IIS=1 - 当 \(s > \Omega(I)\) 时，需要缩小到 \(\Omega(I)/s\) 才能达到最优

基于此，从每个标注的 \((I, \Omega(I))\) 对中随机采样 \(n_{wl}=2\) 个大于 \(\Omega(I)\) 的尺度，生成弱标签对 \((I^{s_i}, \overline{\Omega}(I^{s_i}))\)。该策略在训练时在线应用，每个 batch 增加 \(B \cdot n_{wl}\) 个弱标签样本。

主观标注方法论：开发了 ZOVI（Zoom Viewer）网络标注工具，标注者通过滑块从原始尺寸 \(s=1\) 缩小到 \(s_{lb}=0.05\)，找到不再感知到质量提升的最大尺度。每位标注者对每张图标注两次（间隔数天），SRCC < 0.5 的批次需重新标注。最终 IIS 用几何均值聚合（因尺度空间的非线性特性），称为 MOIS。

损失函数 / 训练策略¶

各 NR-IQA 方法的原始损失函数不变（如 TOPIQ 用 MSE + ranking loss）
WIISA 只修改数据采样：每 batch 自动生成缩小版本图像及其弱 IIS 标签
通过 Lanczos 插值进行缩放，与标注阶段一致
10 折交叉验证，报告中位数测试性能

实验关键数据¶

主实验¶

方法	训练方式	SRCC ↑	PLCC ↑	RMSE ↓	MAE ↓
DBCNN	Base	0.755	0.761	0.093	0.074
DBCNN	+WIISA	0.776	0.780	0.090	0.069
TOPIQ	Base	0.764	0.762	0.098	0.078
TOPIQ	+WIISA	0.808	0.805	0.088	0.069
CONTRIQUE	Base	0.618	0.635	0.114	0.090
CONTRIQUE	+WIISA	0.631	0.651	0.106	0.083
ARNIQA	Base	0.651	0.650	0.105	0.082
ARNIQA	+WIISA	0.687	0.672	0.103	0.079

WIISA 在所有 6 个方法上都一致提升性能，相对提升最高达 5%。

消融实验¶

配置	SRCC	PLCC	RMSE	MAE	说明
Base（无弱标签）	0.764	0.762	0.098	0.078	基线
\(n_{wl}=1\)	0.803	0.801	0.090	0.072	弱标签数=1
\(n_{wl}=2\)（WIISA）	0.808	0.805	0.088	0.069	最优
\(n_{wl}=3\)	0.788	0.785	0.096	0.077	过多弱标签引入冗余
\(\delta=0.50\)	0.795	0.780	0.097	0.076	阈值过低
\(\delta=0.80\)	0.802	0.800	0.089	0.069	阈值过高
Bilinear 插值	0.799	0.796	0.089	0.070	插值方式影响较小

关键发现¶

零样本迁移失败：预训练的 NR-IQA 模型直接预测 IIS 效果很差（TOPIQ on SPAQ 仅 SRCC 0.475），说明 IIS 和传统质量评分是不同任务
IISA-DB 标注可靠性：平均置信区间 0.057，与高可靠 NR-IQA 数据集 KonX（0.046）可比
凹函数假设验证：KonX 中 90%（378/420）的图像三元组符合质量-尺度凹函数假设
WIISA 方法无关性：从监督学习到自监督、VLM 方法均受益于 WIISA

亮点与洞察¶

新任务定义：IIS 是一个极其实用却被忽视的概念——"以多大尺寸显示这张图最好看？"
自举数据增强：WIISA 巧妙利用 IIS 的数学性质从一个标注派生出多个训练样本
跨领域应用潜力：图像存储优化、打印尺寸选择、超分辨率评估、数据集构建
标注方法论贡献：ZOVI 工具 + 双次标注 + 几何均值聚合，形成可复用的主观实验范式

局限与展望¶

数据集规模有限（785 张），可能不足以训练大模型
凹函数假设并非对所有图像成立（10% 例外），边界情况的处理有待加强
弱标签只能在 \(s > \Omega(I)\) 范围生成，无法覆盖低尺度区间
未考虑显示设备差异（PPI 不同时 IIS 可能变化）
目前仅考虑 Lanczos 插值，未探索学习型超分方法对 IIS 的影响

评分¶

新颖性: ⭐⭐⭐⭐⭐ 定义了全新且实用的任务，概念清晰简洁
实验充分度: ⭐⭐⭐⭐ 6 种方法 + 详尽消融 + 可靠性分析，但数据集规模偏小
写作质量: ⭐⭐⭐⭐⭐ 层次分明，数学推导与直觉解释并重
价值: ⭐⭐⭐⭐ 开辟了质量-分辨率交互的新研究线，有广泛应用前景