DR.Experts: Differential Refinement of Distortion-Aware Experts for Blind Image Quality Assessment¶

会议: AAAI 2026
arXiv: 2602.09531
代码: https://github.com/FuBohan01/DR.Experts
领域: 可解释性
关键词: 盲图像质量评估, 失真先验, 混合专家, DA-CLIP, 差分注意力

一句话总结¶

提出DR.Experts框架，利用DA-CLIP获取失真类型先验，通过差分精炼注意力机制（DSDM）将失真注意力与语义注意力分离以纯化失真特征，再通过动态失真加权模块（DDWM）按感知影响自适应加权各类失真特征，在5个BIQA基准上达到SOTA。

研究背景与动机¶

盲图像质量评估（BIQA）旨在无参考图像条件下评估视觉质量，在图像处理pipeline中起质量控制作用。现有方法存在一个根本性局限：缺乏可靠的失真先验——它们直接学习统一图像特征到质量分数的浅层映射，对多样失真类型和程度不敏感。

具体痛点：

失真不敏感：模型将所有图像特征统一处理，但真实图像可能同时存在多种失真（曝光不足、噪声、运动模糊等），每种失真对感知质量的影响方式和程度不同

数据集受限：BIQA数据集规模有限且缺乏失真类型标注，限制了模型学习细粒度失真特征的能力

CLIP类方法的局限：虽然CLIP-IQA等方法引入了视觉-语言先验，但DA-CLIP提取的失真注意力中混杂着来自分类预训练的语义冗余噪声

核心idea：引入失真类型先验→对先验进行差分精炼（去除语义噪声）→按失真类型的感知影响加权聚合，形成专家混合系统。关键insight是失真注意力和语义注意力虽然共存于特征中，但二者是可分离的——通过差分机制可以"做减法"去除语义关注。

方法详解¶

整体框架¶

RGB图像同时输入ViT Image Encoder和DA-CLIP。DA-CLIP通过10种失真类型的文本prompt获取失真特定的视觉注意力作为先验。DSDM对这些先验进行差分精炼（从失真注意力中减去语义注意力），纯化后的失真特征联同语义特征和桥接特征一起送入DDWM进行动态加权，生成最终质量分数。

关键设计¶

失真特异先验获取（DA-CLIP）:
- 功能：从预训练的DA-CLIP中获取10种失真类型（motion-blurry, hazy, jpeg-compressed, low-light, noisy, raindrop, rainy, shadowed, snowy, uncompleted）对应的视觉特征
- 核心思路：DA-CLIP的图像控制器\(\mathcal{E}_D\)产生失真图像表示\(E_{dis}\)，文本编码器\(\mathcal{E}_T\)编码失真类型文本。通过Hadamard积获取各失真类型的特征：\(F_D^i = \text{Linear}^i(E_{dis} \odot E_T^i)\)
- 设计动机：DA-CLIP在10种失真类型分类上达到99.2%准确率，说明其学到了强大的失真感知能力。但直接用这些特征做质量评估效果差（部分失真类型如raindrop与质量无关），需要进一步精炼
失真显著性差分模块（DSDM）:
- 功能：从DA-CLIP的失真注意力中去除ViT的语义注意力噪声
- 核心思路：受Differential Transformer启发，设计异构差分注意力。对第\(i\)种失真：\(F_{distortion}^i = (\text{softmax}(Q_D^i {K_{dis}^i}^T) - \alpha \cdot \text{softmax}(Q^i {K^i}^T))V^i\)。其中第一项是失真特征的自注意力，第二项是语义特征的注意力，α是可学习参数控制减除力度。Value由失真特征和语义特征拼接后投影得到
- 设计动机：DA-CLIP和ViT都经过ImageNet分类预训练，其特征中包含大量语义信息。失真注意力=失真特有关注+语义关注，减去语义关注可纯化失真信号
动态失真加权模块（DDWM）:
- 功能：按各失真类型对感知质量的影响程度自适应加权
- 核心思路：构建三组特征——失真特征\(F_{Group}\)（DSDM精炼后）、语义特征\(F\)（ViT）、桥接特征\(F_{bridging} = F - F_{Group}\)（二者之差）。拼接后通过MLP（PReLU激活）生成10个失真类型权重：\(W_{distortion}^1, ..., W_{distortion}^{10} = \text{WG}(F_{com})\)。最终质量分数：\(\text{Score} = \sum_{i=1}^{10} W_{distortion}^i \cdot T_{score}\)
- 设计动机：不同图像受不同失真影响不同——低光照对室内照片影响大，但雾霾失真可能无关紧要。动态加权模拟人类视觉系统的多维度质量评估过程。桥接特征补充了失真和语义之间的信息gap

损失函数 / 训练策略¶

使用Smooth L1 Loss。DA-CLIP模块冻结不训练。DeiT-III Small作为Image Encoder（ImageNet预训练）。训练9 epoch，初始lr=2×10⁻⁴，每3 epoch降低10倍。80%训练+20%测试，重复10次取中值。4×RTX 4090 GPU。输入做标准随机裁剪增强。

实验关键数据¶

主实验¶

方法	KonIQ SRCC	KonIQ PLCC	LIVEC SRCC	LIVEC PLCC	SPAQ SRCC
HyperIQA	0.906	0.917	0.859	0.882	0.916
MUSIQ	0.916	0.928	0.702	0.746	0.917
QPT⋆	0.927	0.941	0.895	0.914	0.925
QCN	0.934	0.945	0.875	0.893	0.923
LODA	0.932	0.944	0.876	0.899	0.925
LQMamba	0.928	0.943	0.863	0.903	0.927
DR.Experts	0.941	0.954	0.914	0.926	0.928

消融实验¶

配置	KonIQ SRCC	LIVEC SRCC	说明
Image Encoder only	0.916	0.857	仅ViT语义特征
DA-CLIP only	0.720	0.587	直接用失真特征→效果差
+DSDM	0.930	0.885	差分精炼显著提升
Full (DR.Experts)	0.941	0.914	DDWM加权进一步提升

关键发现¶

DA-CLIP特征直接用于BIQA效果很差（KonIQ SRCC仅0.720），因为raindrop/uncompleted等失真类型与质量无关或有害。DSDM精炼后大幅提升至0.930
数据效率优势显著：20%训练数据下DR.Experts (LIVEC SRCC=0.837)超过所有对手的40%数据结果
泛化性验证：跨数据集训练-测试（如LIVEFB→LIVEC），DR.Experts在所有配置中SRCC最高
特征组消融：同时使用失真/语义/桥接三组特征效果最好，去掉任一组都会下降
注意力可视化表明DSDM有效抑制了语义区域的无关关注，并消除了虚假失真的注意力噪声

亮点与洞察¶

失真先验→差分精炼→专家加权的pipeline设计逻辑清晰，每一步都有明确的必要性
将Differential Transformer的核心思想（同构差分注意力）创新性地扩展到异构注意力（失真vs语义），是一个优雅的技术迁移
可解释性好：最终质量分数可追溯到具体的失真因子权重，增强了评估的可信度
数据效率优势对BIQA领域特别重要（数据集规模普遍较小）

局限与展望¶

固定10种失真类型可能无法覆盖所有真实世界失真（如镜头校准误差、传感器噪声模式、HDR映射伪影）
DA-CLIP模块完全冻结，对目标BIQA数据集的失真分布适配可能不足
桥接特征\(F_{bridging} = F - F_{Group}\)的设计较为简单（简单相减），可能有更好的交互方式
4×RTX 4090的训练资源需求对学术界偏高
在大规模LIVEFB数据集上的SRCC仅0.585，仍有提升空间

评分¶

新颖性: ⭐⭐⭐⭐ （差分精炼注意力的异构扩展有创新，整体框架组合巧妙）
实验充分度: ⭐⭐⭐⭐⭐ （5个数据集，14个对比方法，泛化/效率/消融全面）
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐ （对BIQA领域有实际推进，数据效率优势突出）