Learning Where to Look and How to Judge: Resolution-agnostic Image Quality Assessment with Quality-aware Saliency¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 图像质量评价 / 可解释性
关键词: 无参考图像质量评价, 分辨率无关, IQA 显著性, 多尺度 patch, CLIP

一句话总结¶

针对无参考图像质量评价（NR-IQA）"为迁就预训练分辨率而暴力 resize、跨分辨率不泛化、多数据集 MOS 尺度不一难联训、超高清算力爆炸"四大通病，本文提出 ReLIQS：在原分辨率及缩放变体上采样固定尺寸 patch 并用 CLIP 编码，用轻量"感知重要性估计器（PIE）"学出 IQA 专属显著性来挑出少量关键 patch，再用"潜在质量轴模块（LQAM）"把多尺度嵌入聚合成单一分数，在真实/合成/AIGC 多种失真与分辨率上以更低算力超过 CNN、CLIP、MLLM 系强基线。

研究背景与动机¶

领域现状：现代 NR-IQA 几乎都依赖迁移学习与大规模预训练。但这带来一个与分辨率的根本张力——当输入分辨率偏离预训练分布时，卷积/Transformer/混合骨干都会掉点，超高清输入还低效。实践中大家普遍把图 resize 到接近预训练的分辨率，稳是稳了，却丢掉了对质量至关重要的低层信息。

现有痛点：作者归纳出 SOTA 普遍违反的四条基本要求里至少一条——(i) 应能在任意分辨率上工作；(ii) 应保留原分辨率的质量线索（暴力下采样会抹掉超高清图里人眼依赖的锐度/噪声/纹理细节）；(iii) 算力应对预算可控（穷举式 patch 覆盖随分辨率平方增长，超高清下不可行）；(iv) 应能在多个 IQA 数据集上联合训练（每个主观研究的 MOS 尺度各异，直接合并往往反而损害泛化）。MLLM 系方法支持多数据集却暴力 resize + 重骨干（违反 ii、iii）；MUSIQ 保留原分辨率却是分辨率平方复杂度（违反 i、iii）；CNN/混合系高效却跨分辨率掉点（违反 i）。

核心矛盾：低层信息保留（要原分辨率细节）和高层鲁棒性（要接近预训练分辨率）之间存在权衡——下采样压低层细节但增强对全局结构的敏感，这意味着存在一个"最优 resize 尺度"而非单调趋势。例如 KonIQ-10K 上把 768×1024 图短边缩到 384 反而比用原分辨率更好，再缩到 224 又变差。

本文目标：造一个同时满足 (i)–(iv) 的即开即用 NR-IQA 模型，并把"该看哪里"和"如何判分"两件事都学出来。

切入角度：用多尺度、基于 patch 的管线绕开分辨率张力——固定尺寸 patch（尺寸贴近 CLIP 预训练分辨率）天然分辨率无关；从原图采的 patch 保留低层细节、从下采样视图采的 patch 捕捉高层语义。再假设"很多 patch 携带冗余质量信息"，于是无需穷举覆盖，可用一个学出来的重要性图挑关键 patch 来控算力。

核心 idea：把 IQA 拆成"学一张 IQA 专属显著性图决定看哪些 patch（where to look）"和"用潜在质量轴把多尺度嵌入融成一个分数决定怎么判分（how to judge）"，并用基于组内排序+相关性的损失实现多数据集联训。

方法详解¶

整体框架¶

ReLIQS 是一条基于 patch 的 IQA 管线，三个核心部件：CLIP patch 编码器 \(E(\cdot)\)、生成稠密重要性场的感知重要性估计器 PIE、发现潜在质量轴并自适应融合多尺度信息的潜在质量轴模块 LQAM。给定原图 \(x^{(0)}\)，先保持宽高比生成 \(R\) 个缩放变体，对每个尺度按预设策略采样固定尺寸 patch，构成 patch 集合 \(P=\{\{x_p^{(r)}\}_{p=1}^{c_r}\}_{r=0}^{R}\)。每个 patch 独立过 CLIP 视觉编码器得 \(e_p^{(r)}=E(x_p^{(r)})\)。PIE 用一个轻量网络 \(S(\cdot)\) 在最小缩放图上预测稠密重要性场 \(s^{(R)}\)，再双线性上采到各尺度，得到每个 patch 的归一化重要性权重 \(w_p^{(r)}\)。这些权重做尺度内加权池化得到每尺度表征 \(e^{(r)}=\sum_p w_p^{(r)} e_p^{(r)}\)。LQAM 维护 \(A\) 个可学的"质量方向对"，把每尺度表征投影到轴空间，推断"该尺度对各轴的贡献概率 \(\beta_a^{(r)}\)"和"各轴质量分 \(l_a^{(r)}\)"，最后聚合成单一质量预测 \(l=\sum_a \gamma_a \sum_r \beta_a^{(r)} l_a^{(r)}\)。训练用边际排序损失 + PLCC 损失（不确定性加权）支持多数据集联训。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像 x"] --> B["多尺度固定尺寸 patch 采样<br/>原分辨率 + 512 + 224"]
    B --> C["CLIP 视觉编码器 E<br/>逐 patch 独立编码"]
    A --> D["PIE 感知重要性估计器<br/>最小尺度→稠密 IQA 显著性场"]
    D --> E["patch 重要性权重 w<br/>排序选 top-k 关键 patch"]
    C --> F["尺度内加权池化<br/>每尺度表征 e^r"]
    E --> F
    F --> G["LQAM 潜在质量轴模块<br/>A 个质量轴→各尺度贡献+轴分"]
    G --> H["聚合 → 单一质量分数 l"]
    H --> I["多数据集训练目标<br/>边际排序 + PLCC（不确定性加权）"]

关键设计¶

1. 多尺度固定尺寸 patch 采样：用 patch 一举满足分辨率无关与低层保真

这是绕开分辨率张力的根基。把图缩成原分辨率 + 短边 512 + 短边 224 三个尺度（\(R=2\)），在每个尺度上采固定尺寸（贴近 CLIP 预训练分辨率）的 patch。这样喂进骨干的永远是分布内分辨率，避免了 off-distribution resize 带来的退化，使模型对整图分辨率无关（满足 i）；同时从原分辨率采的 patch 保留了锐度/噪声/纹理这些低层细节（满足 ii），从下采样视图采的 patch 则承载语义、构图、色彩这些高层因素。池化 \(e^{(r)}=\sum_p w_p^{(r)}e_p^{(r)}\) 与最终聚合都对 patch/尺度顺序置换不变，预测只依赖图像内容而非处理顺序。消融显示：只用 224 一个尺度时 KonIQ PLCC 仅 0.904，加 512 升到 0.951，再加原分辨率到 0.958；UHD 上从 0.686 一路升到 0.837，原分辨率对超高清增益最大。

2. PIE 感知重要性估计器：学一张 IQA 专属显著性图，把算力压到关键 patch 上

PIE 解决要求 (iii)。它用轻量 TinyCLIP ViT-8M + 浅卷积解码器 + 全像素 softmax，在最小缩放图上算稠密重要性场 \(s^{(R)}=S(x^{(R)})\)，上采到各尺度后取 patch 内像素重要性求和再尺度内归一得权重 \(w_p^{(r)}=\Omega_p^{(r)}/\sum_p \Omega_p^{(r)}\)。这组权重一身两用：既用于上面的加权池化，又用于按重要性给 patch 排序。测试时只编码每尺度 top-\(k\) 个最重要 patch，\(k\) 按算力预算选——一张 3840×2560 图原分辨率有 748 个候选 patch，但只用 48 个（6.4%）就达到最佳性能，相比穷举覆盖省算力达 90%。作者把这种纯靠 MOS 监督学出、用于"选 patch 省算力"的显著性称为 IQA 专属显著性（IQA-specific saliency），强调它与传统视觉显著性相关但不同——以往工作里视觉显著性对 IQA 的增益被证明仅是边际的，本文首次把显著性的主要作用定位成"减算力"。

3. LQAM 潜在质量轴模块：不靠手工质量属性，学若干潜在轴来判分

LQAM 解决"how to judge"。它不依赖手工定义的质量属性，而是维护 \(A\) 个可学的质量方向对 \((u_{a-}, u_{a+})\)，每对对应一条潜在质量轴。先用可学键/值投影把每尺度表征投到轴空间：\(k_a^{(r)}=K_a e^{(r)}, v_a^{(r)}=V_a e^{(r)}\)。再用一组轴 query \(q_a\) 算"尺度 \(r\) 对轴 \(a\) 的贡献概率" \(\beta_a^{(r)}=\text{softmax}_a(\text{sim}(q_a, k_a^{(r)})/T_{pa})\)；用值投影对方向对做 softmax 得"轴 \(a\) 在尺度 \(r\) 的质量分" \(l_a^{(r)}=\frac{\exp(\text{sim}(u_{a+}, v_a^{(r)})/T_{qa})}{\sum_{\sigma\in\{+,-\}}\exp(\text{sim}(u_{a\sigma}, v_a^{(r)})/T_{qa})}\in[0,1]\)。最后 \(l=\sum_a \gamma_a \sum_r \beta_a^{(r)} l_a^{(r)}\)（\(\gamma_a\) 是归一化的全局轴权重，\(T_{pa}, T_{qa}\) 均可学）。它显式建模了"不同尺度对不同质量维度贡献不同"——细尺度 patch 偏低层失真、粗尺度 patch 偏高层语义。消融显示轴数 \(A=4\) 最优（UHD 0.837），1/2/8 轴均略逊。

4. 多数据集训练目标：用组内排序 + 相关性绕开 MOS 尺度不可比

要求 (iv) 的关键。MOS 绝对值跨数据集不可直接合并，但组内排序与相关性是可靠监督。每个数据集 \(d\) 用边际排序损失 \(\mathcal{L}_{MR}^{(d)}=\frac{2}{N(N-1)}\sum_{i<j}\max(0, \delta - \text{sign}(g_i-g_j)(p_i-p_j))\) 和 PLCC 损失 \(\mathcal{L}_{PLCC}^{(d)}=1-\frac{\sum(g_i-\bar g)(p_i-\bar p)}{\sqrt{\sum(g_i-\bar g)^2\sum(p_i-\bar p)^2}}\)，各数据集独立算后跨 \(D\) 个数据集平均，再用文献 [5] 的不确定性加权自适应平衡两项：\(\mathcal{L}=\frac{1}{2\sigma_1^2}\mathcal{L}_{MR}+\frac{1}{2\sigma_2^2}\mathcal{L}_{PLCC}+\log\sigma_1+\log\sigma_2\)（\(\sigma_1,\sigma_2\) 可学）。这样既能从异构 MOS 尺度里联训，又无需手调两项权重。

损失函数 / 训练策略¶

patch 编码器用 CLIP ViT-B/16（OpenAI 权重），PIE 用 TinyCLIP ViT-8M。AdamW + 振荡余弦学习率（10 epoch，初始/峰值 1e-5，weight decay 1e-3），振荡调度通过避免收敛到尖锐极小提升泛化（尤其多数据集训练）。边际 \(\delta=0.01\)，三尺度（原分辨率 + 512 + 224），训练时三尺度各随机采 6/5/1 个 patch，评估时 50% 重叠均匀采样，\(A=4\)。

实验关键数据¶

主实验¶

单数据集训练（仅 KonIQ-10K）下，10 次随机划分的中位 PLCC/SRCC，跨真实/合成/AIGC 八个基准多数最优。

数据集（类型）	指标	ReLIQS	之前最优	提升
KonIQ-10K（真实）	PLCC/SRCC	0.958 / 0.949	0.953 / 0.941 (DeQA)	+0.005 / +0.008
CLIVE（真实）	PLCC/SRCC	0.892 / 0.865	0.892 / 0.879 (DeQA)	持平 / −0.014
FLIVE（真实）	PLCC/SRCC	0.654 / 0.549	0.589 / 0.501 (DeQA)	+0.065 / +0.048
KADID（合成）	PLCC/SRCC	0.701 / 0.707	0.694 / 0.687 (DeQA)	+0.007 / +0.020
CSIQ（合成）	PLCC/SRCC	0.842 / 0.818	0.787 / 0.744 (DeQA)	+0.055 / +0.074
LIVE（合成）	PLCC/SRCC	0.879 / 0.894	0.809 / 0.729 (DeQA)	+0.070 / +0.165
AGIQA-3K（AIGC）	PLCC/SRCC	0.768 / 0.705	0.809 / 0.729 (DeQA)	−0.041 / −0.024

注：AGIQA-3K 上 ReLIQS 落后 Q-Align/DeQA，作者推测是 AIGC 分布偏移在 CLIP 预训练里欠表达、而 MLLM 基线见过更多生成图。

高分辨率与算力¶

UHD 超高清基准上 ReLIQS 显著刷新 SOTA，且算力远低于 MLLM 基线。

模型	UHD PLCC/SRCC	GMACs	说明
Q-Align (MLLM)	0.627 / 0.683	936	resize 到短边 448，丢细节
DeQA (MLLM)	0.654 / 0.701	936	同上
CLIP-IQA+	0.709 / 0.747	895	ResNet-50 感受野受限
SJTU（UHD 专用）	0.799 / 0.846	44	AIM2024 冠军
ReLIQS	0.837 / 0.865	543	多尺度 patch，新 SOTA
ReLIQS*（预算变体）	0.824 / 0.847	47	仅 4 个 patch，仍超 UHD 专用模型

消融实验¶

配置	KonIQ PLCC	UHD PLCC	说明
平均池化（无 PIE 权重）	0.951	0.833	去掉重要性加权
PIE 加权（完整）	0.958	0.837	重要性池化带来稳定增益
仅尺度 224	0.904	0.686	低层细节大量丢失
尺度 224+512	0.951	0.756	仍缺原分辨率
224+512+原分辨率	0.958	0.837	原分辨率对 UHD 增益最大
轴数 A=1 / 2 / 4 / 8	—	0.828 / 0.834 / 0.837 / 0.835	A=4 最优

关键发现¶

原分辨率 patch 对超高清是命门：UHD 上去掉原分辨率尺度直接从 0.837 掉到 0.756，而中低分辨率基准上影响小（这解释了为何常规 benchmark 掩盖了 resize 的危害）。
重要性采样几乎免费提速：UHD 上性能随选中 patch 数 \(k\) 迅速饱和，48/748 个 patch 即达最佳，算力可压到约 6% 而精度几乎不降。
MLLM 在超高清上反而拉胯：Q-Align/DeQA 在中低分辨率 SOTA，但因强制 resize 到 448，在 UHD 上明显掉点，凸显"保留原分辨率"的实际价值。

亮点与洞察¶

把显著性的角色从"提分"重定义为"省算力"：以往视觉显著性对 IQA 增益被证明边际，本文让 PIE 学 IQA 专属显著性、主要用于挑关键 patch 控预算，这个角色此前未被探索，且顺带还带来小幅提分。
"固定尺寸 patch"四两拨千斤：一个简单决定同时解决了分辨率无关（i）和低层保真（ii）两个要求，避免了 resize 的根本困境，思路可迁移到任何对原分辨率细节敏感的低层视觉任务。
预算自适应是结构内生的：top-\(k\) patch 选择让同一模型在 47 与 543 GMACs 间无缝切换（ReLIQS* vs ReLIQS），部署时按算力预算调 \(k\) 即可，不必重训。

局限与展望¶

AIGC 域偏弱：在 AGIQA-3K 上落后 MLLM 基线，作者归因于 CLIP 预训练对生成图像欠暴露——说明 CLIP 骨干在 AIGC 失真上的先验有短板。
PIE 显著性偏语义：作者承认纯 MOS 微调出的重要性场强烈偏向语义显著区域，是否真覆盖所有质量关键区（如均匀区的块效应）存疑。⚠️ 显著性图与真实"质量敏感区"的对齐论文主要靠定性图展示，缺定量验证。
轴的可解释性未深究：LQAM 的潜在质量轴是学出来的黑盒维度，论文未给出每条轴对应什么人类可理解的质量属性。

评分¶

新颖性: ⭐⭐⭐⭐ "固定尺寸多尺度 patch + IQA 专属显著性省算力 + 潜在质量轴"组合清晰，但各组件多为已有思路的巧妙拼装。
实验充分度: ⭐⭐⭐⭐⭐ 真实/合成/AIGC/超高清 + 单/多数据集 + 算力曲线 + 多维消融，覆盖很全。
写作质量: ⭐⭐⭐⭐ 四要求驱动的叙事很清晰，公式规范；但 LQAM 部分符号偏密。
价值: ⭐⭐⭐⭐⭐ 直击超高清 IQA 与多数据集联训的真实落地痛点，预算自适应实用性强。