Grounding-IQA: Grounding Multimodal Language Models for Image Quality Assessment¶

会议: ICLR 2026
arXiv: 2411.17237
代码: https://github.com/zhengchen1999/Grounding-IQA
领域: 目标检测 / 多模态VLM / 图像质量评估
关键词: 图像质量评估, 空间定位, 多模态LLM, 细粒度感知, grounding

一句话总结¶

将空间定位（referring + grounding）与图像质量评估结合，构建 GIQA-160K 数据集训练多模态 LLM 生成带有边界框的质量描述和空间 VQA，在细粒度质量感知上显著优于通用 MLLM。

研究背景与动机¶

领域现状：图像质量评估（IQA）已从传统指标（PSNR/SSIM）发展到基于多模态 LLM 的语义 IQA（如 Q-Instruct），能生成自然语言描述的质量评估。

现有痛点：现有 IQA 方法只给出全图级别的质量描述（如"图像整体模糊"），无法精确指出哪个区域有什么质量问题。对于复杂图像（如部分区域清晰、部分模糊），全图描述过于粗糙。

核心矛盾：IQA 需要细粒度的空间定位能力，但现有 IQA 数据集没有空间标注，MLLM 的空间感知能力在低级视觉任务上未被充分利用。

本文目标 (a) 构建带空间标注的 IQA 数据集，(b) 训练 MLLM 同时进行质量评估和空间定位。

切入角度：定义两个新子任务——GIQA-Description（带框的质量描述）和 GIQA-VQA（带空间信息的质量 QA）。

核心 idea：让 IQA 模型不仅说"图像模糊"，还要指出"台球桌区域（bbox）是清晰的，但背景区域（bbox）是模糊的"。

方法详解¶

整体框架¶

论文要解决的是「IQA 只会全图打分、不会指出哪块有问题」。整条流水线分两步：先用一套全自动标注流水线，把已有的全图质量描述「升级」成带边界框的细粒度标注，攒成 GIQA-160K 数据集；再把这批数据组织成「带框描述（GIQA-DES）」和「空间问答（GIQA-VQA）」两类样本，在 mPLUG-Owl2 这类 MLLM 上做标准 SFT。训练完的模型既能输出"台球桌区域（bbox）清晰、背景区域（bbox）模糊"这种带坐标的描述，也能在 referring 和 grounding 两个方向上回答质量问题。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IN["已有 IQA 数据集<br/>全图质量描述（无框）"]
    subgraph PIPE["四阶段自动标注流水线（设计 1）"]
        direction TB
        S1["Stage1 Llama3 抽三元组<br/>(短语, 质量, 效果)"] --> S2["Stage2 Grounding DINO<br/>用质量短语检测边界框"]
        S2 --> S3["Stage3 质量精化<br/>IQA-Filter 剔误检 + Box-Merge 合碎框"]
        S3 --> S4["Stage4 坐标离散化<br/>20×20 网格，1 框≤9 token"]
    end
    IN --> PIPE
    PIPE --> DES["GIQA-DES<br/>带框质量描述"]
    DES --> VQA["GIQA-VQA 生成（设计 2）<br/>Yes/No + What/Why/How，引用带框实体"]
    DES --> MERGE["GIQA-160K<br/>描述 + 问答两类样本"]
    VQA --> MERGE
    MERGE --> SFT["多任务 SFT（设计 3）<br/>mPLUG-Owl2，自回归 LM 损失"]
    SFT --> OUT["带框质量描述<br/>+ referring / grounding 问答"]

关键设计¶

1. 四阶段自动标注流水线：把无框的质量描述自动补上空间坐标

现有 IQA 数据集只有全图级文字描述、没有任何空间标注，靠人工补框成本极高。流水线分四步把框「挖」出来：Stage 1 用 Llama3 从原始质量描述里抽取三元组（描述短语、质量、效果），定位出"哪个对象、什么质量、什么效果"；Stage 2 把描述短语（而不是单纯的对象名）喂给 Grounding DINO 去检测边界框——用带质量语境的短语检测比用裸对象名更精确；Stage 3 是质量精化，先用 IQA-Filter（基于 Q-Instruct）验证检测到的框是否真的存在指定的质量问题、剔除误检，再用 Box-Merge 把指向同一区域的碎框合并；Stage 4 做坐标离散化，把连续坐标映射到 20×20 网格的索引上，一个框最多用 9 个 token 就能表示，方便直接塞进语言模型的文本序列。这套 Filter+Merge 的精化把框定位的 mIoU 从 0.562 提到 0.585。

2. GIQA-VQA 生成：把带框描述改写成支持双向查询的问答对

光有带框描述还不够灵活，论文进一步从 GIQA-DES 的描述里自动生成空间问答。用 LLM 生成两类问题各约 5 万条：Yes/No 判断题和 What/Why/How 开放题，并强制每个问题都引用带框的实体。这样做的好处是 VQA 格式天然支持两个查询方向——referring（给定一个位置去问它的质量）和 grounding（给定一种质量去问它在哪），比单一的描述格式覆盖更多使用场景。

3. 多任务 SFT：描述和问答一起训，两边互相增益

最后在 GIQA-160K 上做标准的监督微调，训练目标就是自回归语言模型损失，不引入额外结构。关键选择是把 GIQA-DES 和 GIQA-VQA 两类样本混在一起做多任务训练，而非各训各的。消融结果支持这个选择：相比只训描述（Only-DES），多任务在 VQA 准确率上更高；相比只训问答（Only-VQA），多任务在描述质量（LLM-Score）上更高——两个任务共享同一套细粒度空间-质量表征，彼此提供了正向监督信号。

实验关键数据¶

主实验（GIQA-Bench, mPLUG-Owl2-7B）¶

指标	微调前	微调后	提升
BLEU@4	3.62	22.87	+19.25
LLM-Score	48.25	63.00	+14.75
mIoU (框定位)	N/A	0.5955	-
VQA 总准确率	56.3%	74.2%	+17.9%

跨模型对比¶

模型	mIoU	BLEU@4	VQA 总准确率
LLaVA-v1.5-7B	0.528	19.02	68.5%
LLaVA-v1.6-7B	0.598	19.17	72.5%
mPLUG-Owl2-7B	0.596	22.87	74.2%

消融实验¶

配置	Tag-Recall	LLM-Score	VQA 准确率
Only-DES	0.550	61.75	59.0%
Only-VQA	0.328	38.50	72.2%
GIQA-160K (DES+VQA)	0.547	63.00	74.2%

关键发现¶

多任务训练在 VQA 准确率上比 Only-VQA 提升 2.0%，在描述质量上比 Only-DES 提升 1.25 LLM-Score
框精化（IQA-Filter + Box-Merge）将 mIoU 从 0.562 提升到 0.585
坐标离散化为 20x20 网格仅需 9 个 token，效率高。

亮点与洞察¶

IQA + Grounding 的交叉创新：将 referring/grounding 引入 IQA 是一个自然但之前未被探索的交叉方向。
自动标注流水线：四阶段流水线高度自动化，可适用于其他需要空间标注的低级视觉任务。
数据集贡献：GIQA-160K 包含 16.7 万标注样本，是首个带空间定位的 IQA 数据集。

局限与展望¶

标注流水线依赖多个模型（Llama3, Grounding DINO, Q-Instruct），错误可能逐级累积
20x20 网格的空间分辨率有限，对小区域的质量问题定位精度不高
仅在 7B 模型上验证，更大模型的效果未知
训练使用的质量描述来自已有 IQA 数据集，覆盖的质量问题类型有限

评分¶

新颖性: ⭐⭐⭐⭐ IQA + Grounding 的任务定义新颖，但方法本身（SFT微调MLLM）较常规
实验充分度: ⭐⭐⭐⭐ 多模型验证 + 消融，但缺少与专业 IQA 方法的对比
写作质量: ⭐⭐⭐⭐ 标注流水线描述详细
价值: ⭐⭐⭐⭐ 数据集和任务定义的贡献大于方法本身