iDiff: Interpretable Difference-aware Framework for Pairwise Image Quality Assessment¶

会议: CVPR 2026
arXiv: 2605.19522
代码: 无
领域: 可解释性 / 图像质量评估(IQA) / 多模态LLM
关键词: 成对IQA、可解释推理、双分支、内容感知专家化、模型集成

一句话总结¶

针对 NTIRE 2026 RAIM 挑战赛中"既要判断两张图谁更好、又要给出专家级理由"的成对 IQA 任务，iDiff 用一个判别式 Answer Model（多视图分解 + 人/景分专家 + 多骨干集成做偏好预测）和一个推理式 Thinking Model（模板 + 多源质量特征 + answer-aware 微调生成理由）协同，最终在挑战赛 Track 1 拿到第一（Final Score 0.7305）。

研究背景与动机¶

领域现状：传统 IQA 大多预测一个标量质量分；近年随着多模态大模型(MLLM)兴起，研究开始让模型不仅"打分"，还能用自然语言"解释"为什么这张图好。而在专业摄影场景里，成对比较（A 和 B 哪张更好）比绝对打分更贴近人类主观判断——标注员往往更容易说"哪张更好"而不是"打几分"。

现有痛点：NTIRE 2026 RAIM 挑战赛把任务推得更难——不仅要预测二选一的偏好，还要生成专家风格的理由，并对二者联合评分。这带来两个具体困难：(1) 两张图是分辨率很高、视觉上极相似的照片，模型要捕捉到锐度、纹理、噪声、自然度上的细微差异；(2) 要产出连贯、贴合专家口吻的理由，而不是泛泛而谈或凭空幻觉的解释。

核心矛盾：现有方法两头都不讨好。传统判别式回归模型为直接打分优化，预测稳但毫无可解释性；而面向推理的 MLLM 方法能讲出像模像样的解释，但在细粒度成对比较上预测往往不够鲁棒。换句话说，"准确的偏好预测"和"高质量的理由生成"被单一分支硬扛时总要牺牲一头。

本文目标：在同一框架里同时做好"判别决策"和"结构化解释"，且让二者互补而非互相拖累。

切入角度：既然一个分支难兼顾，那就用两个互补分支——让一个分支专心做鲁棒的偏好预测，另一个分支专心做贴合专家的理由生成，并让后者的解释与前者的决策保持一致。

核心 idea：双分支协同——Answer Model 负责"判谁更好"，Thinking Model 负责"解释为什么"，并把 Answer Model 的预测作为条件注入 Thinking Model，使理由生成服务并对齐最终决策。

方法详解¶

整体框架¶

iDiff 把成对图像偏好建模拆成两个互补视角：直接判别预测（Answer Model, AM）和推理引导比较（Thinking Model, TM）。输入是一对高分辨率图像（每个样本原本是把左右候选拼在一张图里，且含全局视图和局部裁剪视图），输出同时包含"偏好哪张"的决策和支撑该决策的专家风格理由。

整条管线先做一步统一的预处理：把拼接表示显式拆成四张对齐图（全局-左、全局-右、裁剪-左、裁剪-右）。在此之上，AM 直接预测左/右哪张感知质量更好；TM 则采用"先理由后答案"的范式，先逐区域比较纹理、锐度、噪声、自然度等细节，再给出最终判断。为应对内容多样性，数据进一步分成 person（人像）和 scene（场景）两个子集，各训练专门模型。AM 通过多视图分解、内容感知专家化、多骨干集成提升判别鲁棒性；TM 通过结构化监督、领域模板、多源特征注入、answer-aware 精炼提升推理质量。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像对<br/>(拼接·全局+裁剪)"] --> B["多视图分解<br/>全局左/右 + 裁剪左/右"]
    B --> C["Answer Model<br/>人/景分专家 + 多骨干集成"]
    B --> D["Thinking Model<br/>模板+多源特征+answer-aware"]
    C -->|预测答案注入| D
    C --> E["偏好决策 A/B"]
    D --> F["专家风格理由"]

关键设计¶

1. 多视图输入分解：把拼接对拆成四张对齐图，逼出"相对差异"

痛点直接：原始数据把左右候选打包进一张拼接图，模型很难在这种表示里捕捉两张图的相对质量差。iDiff 不直接用拼接图，而是显式拆出四个对齐输入 \(\{I_A^G, I_A^C, I_B^G, I_B^C\}\)，其中 \(I_A^G, I_B^G\) 是左右候选的全局视图，\(I_A^C, I_B^C\) 是对应的局部裁剪视图。全局视图管整体感知一致性，局部裁剪管细节失真，二者对成对 IQA 都关键。这种分解让模型能分别对齐左右、对齐全局/局部，从而把"成对比较"显式建模成可对齐的差异，而不是让网络在一张糊在一起的拼接图里猜。消融里这一步把整体精度从 0.5784 抬到 0.6961，人像子集涨得尤其猛（0.5658→0.7237），且对六种 CNN/Transformer 骨干都一致有效，说明它是架构无关的稳定收益

2. 内容感知专家化 + 多骨干集成：用"分而治之 + 多视角投票"换鲁棒判别

人像和场景的质量线索分布差别很大——人像看脸部纹理、皮肤平滑度、发丝边界、修复伪影；场景看建筑结构、植被、文字清晰度、全局自然度。把这些混在一个模型里训练会增大类内异质性。于是 iDiff 把训练数据切成 person / scene 两子集各训一个专门 Answer Model，降低内部异质、提升对各自领域失真的敏感度（消融里场景子集精度 0.6154→0.8077）。在此之上再做多骨干集成：Wide ResNet-50-2、EfficientNet-B2、ConvNeXt-Small、Swin Transformer V2-S、MaxViT-T 等不同架构对纹理、边缘锐度、伪影模式有互补的归纳偏置，融合后泛化一致优于任何单模型——平均投票把整体精度推到 0.9118（人像 0.8947、场景 0.9615）。作者还试了按验证精度加权投票，反而略降到 0.8922，说明等权简单投票已足够稳

3. 渐进式推理增强：让 MLLM 的理由"结构化、可落地、对齐答案"

TM 要解决的是"MLLM 解释听着合理但不稳、不贴专家"的问题，做法是四步渐进增强。① 结构化推理监督：要求模型输出 <thinking>...</thinking><answer>A/B</answer> 的固定格式，理由按纹理/噪声/锐度/自然度多个感知维度逐项比较再给全局结论，强制多属性分析且让局部观察与整体判断一致。② 模板正则化：用专家风格模板约束模型产出 4–7 行简洁比较（每行聚焦一个区域+一个指标）再加一行强制全局总结，并为 person/scene 分别设计模板（人像强调皮肤纹理/发丝/衣物，场景强调背景纹理/建筑/植被/边缘过渡），降低推理方差——这是消融里收益最大的一步，BLEU-4 从 0.0221 飙到 0.0858。③ 多源特征注入：把传统 CV 统计量（Laplacian、Tenengrad、噪声标准差、高频占比、边缘密度、熵、曝光比、色彩度、平均亮度）和学习式 IQA 指标（LIQE、Q-Align、SAMA）按图按裁剪格式化后追加进 prompt，让推理同时落在视觉观察和数值测量上。④ answer-aware 指令微调：把 Answer Model 预测的答案（如"Ground truth: Left is better"）写进 prompt，模型不再重复预测答案 token，只生成支撑该结论的理由，避免平凡的答案复制、强化"证据↔决策"对齐。四步叠满把 BLEU-4 / ROUGE-L 推到 0.1161 / 0.3080，且这套设计在 MiniCPM-V-4.5、GLM-4.6V-Flash、Ovis2.5-9B、InternVL3.5-8B 上都一致涨点，不绑定特定 MLLM

损失函数 / 训练策略¶

Answer Model：AdamW，初始学习率 \(1\times10^{-4}\)、weight decay \(1\times10^{-4}\)，batch size 32，训练 10 epoch；输入 resize 到 \(256\times256\) 后随机裁剪到 \(224\times224\)；固定随机种子 42。
Thinking Model：以 Qwen3-VL-8B-Instruct 为主模型，LoRA 微调（rank 16，适配所有线性层，视觉编码器与 aligner 也可训）；6 epoch，per-device batch size 1，学习率 \(4\times10^{-5}\)，weight decay 0.01，warmup ratio 0.03，cosine 调度；bfloat16 + DeepSpeed ZeRO-1，8 张 NVIDIA H20。

实验关键数据¶

数据集为 NTIRE 2026 RAIM，覆盖 person / scene 两类专业摄影成对图：训练集 100 对（含偏好标签 + 专家级理由），Phase-2 验证集 102 对（线上评测、不放标签），最终测试集 101 对。评测同时看偏好准确率(ACC) 与理由质量（BLEU-4 + ROUGE-L，Phase 3 还加入 LLM 评分）。

主实验（NTIRE 2026 RAIM Track 1 排行榜）¶

排名	队伍	Phase 2 ↑	Phase 3 ↑	Final Score ↑
1	IH-VQA (本文)	0.6943	0.7667	0.7305
2	VCIP Pi Group	0.6826	0.7679	0.7253
3	I² Group	0.6490	0.7590	0.7040
4	fugui	0.6640	0.7237	0.6939
5	LZ	0.6149	0.7497	0.6823

本文以 Final Score 0.7305 排名第一，且 Phase 2 单项最高（0.6943）；Phase 3 虽略低于第二名（0.7667 vs 0.7679），但综合仍居首。

消融实验¶

Answer Model（Phase-2 验证集，单模型基于 Swin Transformer V2-S）：

配置	Person Acc.	Scene Acc.	Overall Acc.
Baseline	0.5658	0.6154	0.5784
+ Split L/R	0.7237	0.6154	0.6961
+ Person/Scene 专家	0.7632	0.8077	0.7745
+ Ensemble(等权投票)	0.8947	0.9615	0.9118
+ Weighted Voting	0.8947	0.8846	0.8922

Thinking Model（从 Phase-2 训练集划出的验证集）：

配置	BLEU-4 ↑	ROUGE-L ↑
Baseline	0.0221	0.2200
+ Templates	0.0858	0.2825
+ CV Features	0.0961	0.2994
+ IQA Features	0.1034	0.3040
+ Answer-aware	0.1161	0.3080

推理效率（H20，Answer Model 为多模型集成）：

模型	延迟(s)	吞吐(img/s)
Answer Model	0.21	4.76
Thinking Model	0.75	1.34

关键发现¶

集成是 Answer Model 的最大跳点：从专家化的 0.7745 一步跳到 0.9118，说明不同骨干的互补性贡献巨大；而按精度加权投票反而略降（0.8922），等权简单投票已足够稳。
模板正则化是 Thinking Model 的最大跳点：BLEU-4 由 0.0221→0.0858（接近 4×），远超后续 CV/IQA 特征和 answer-aware 的增量，说明"强制专家风格结构"对理由生成最关键；且 person/scene 专用模板优于通用模板（BLEU-4 0.0858 vs 0.0801）。
设计是架构无关的：Split L/R 对六种骨干一致涨点，Thinking 设计对 5 种 MLLM（含 Qwen3-VL、InternVL3.5 等）一致提升 BLEU-4/ROUGE-L，泛化性好。
效率与可解释性的权衡：判别式 Answer Model 即便集成也只需 0.21s，而自回归生成理由的 Thinking Model 要 0.75s——可解释性是有成本的。

亮点与洞察¶

"分工而非妥协"的双分支思路：把"判别"和"解释"这对相互拖累的目标拆给两个分支，再用 answer-aware 把判别结果注入解释分支，既保了准确率又保了理由质量——这套"一个分支出结论、另一个分支负责讲清楚并对齐结论"的范式可迁移到任何"既要预测又要可解释"的任务（如医学影像判读、内容审核）。
把拼接对显式拆成四视图很朴素却很有效：成对比较的本质是"相对差异"，与其让网络在拼接图里隐式学，不如显式对齐左右/全局局部，单这一步就稳定涨点且架构无关。
多源特征注入做"数值锚点"：把 Laplacian、噪声标准差等传统 CV 量和 LIQE/Q-Align/SAMA 等学习指标格式化进 prompt，给 MLLM 的文字推理一个可落地的数值依据，缓解凭空幻觉——这是把"手工特征 + 学习特征"喂给 LLM 当证据的实用 trick。
answer-aware 监督防止"答案复制"：把已知答案写进 prompt、只让模型生成支撑理由，强制它学"证据→决策"的对齐而非偷懒抄答案，是个值得借鉴的指令微调设计。

局限与展望¶

数据规模极小：训练集仅 100 对、验证/测试各约 100 对，消融数字（尤其 0.96 这类高分）方差可能很大，结论的统计稳健性存疑 ⚠️。这是挑战赛设定决定的，未必能外推到大规模真实场景。
重工程、偏赛道特化：方法是为 NTIRE RAIM 量身定制的多模型集成 + 多源特征 + 多模板，落地成本高（Answer Model 需多骨干集成、Thinking Model 需 8×H20 LoRA 微调），通用性和部署性受限。
两分支耦合较弱：answer-aware 只是把 AM 预测当文本条件注入 TM，二者并非端到端联合优化；若 AM 预测错，TM 会被引导去为错误结论编理由，鲁棒性边界值得进一步研究。
理由质量评测代理性强：BLEU-4/ROUGE-L 衡量的是与参考文本的表面相似度，未必等于"专家真的认可"；Phase 3 的 LLM 评分缓解了一部分，但理由的事实正确性仍缺直接度量。

评分¶

新颖性: ⭐⭐⭐ 单个组件（多视图、集成、模板、特征注入）多为已知技术，亮点在"判别+推理双分支 + answer-aware 对齐"的系统组合，属工程创新。
实验充分度: ⭐⭐⭐ 消融覆盖两分支各环节、跨 6 骨干 / 5 MLLM 验证，但数据集仅约 100 对、规模过小，统计可靠性受限。
写作质量: ⭐⭐⭐⭐ 结构清晰，双分支 + 渐进增强讲得明白，图表对应到位。
价值: ⭐⭐⭐⭐ 拿下 NTIRE 2026 RAIM Track 1 第一，对"既要预测又要可解释"的成对 IQA 提供了可复用的实战方案。