VITAL: Vision-Encoder-centered Pre-training for LMMs in Visual Quality Assessment¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/jzhws/VITAL-Series （有）
领域: 多模态VLM
关键词: 视觉质量评估, 大多模态模型, 视觉编码器预训练, 机器标注, 结构迁移

一句话总结¶

VITAL 用六个打分模型自动标注、再让多个 LMM 互审，造出 458 万条视觉-语言对，然后冻住 LLM 只训视觉编码器做生成式预训练，得到一个能在图像/视频质量打分与质量描述上同时通用、且换任意 LLM 解码器都能秒迁移的视觉质量评估基础模型。

研究背景与动机¶

领域现状：视觉质量评估（VQualA，包含图像质量评估 IQA 与视频质量评估 VQA）近年大量改用大多模态模型（LMM）来做——把"这张图清晰度如何"变成视觉-语言指令任务，用 Q-Align、DeQA-Score、VQA² 这类模型直接输出质量分数或质量描述文本。

现有痛点：作者指出当前 VQualA LMM 有两条硬伤。一是数据侧：质量标注依赖大量人工主观实验（多人在受控环境下打分），昂贵且难扩规模，导致现有数据集大多局限在单一模态或单一任务，模型能力边界被数据钉死。二是训练侧：主流做法是对整个模型（含 LLM 解码器）做全参数微调（SFT），很容易在特定数据/任务上过拟合，泛化差，而且换一个参数规模的 LLM 就得从头训，毫无迁移性——可不同硬件偏偏需要不同大小的模型。

核心矛盾：一个理想的 VQualA 基础模型要同时满足"通用性（能处理图像+视频+多种任务）、强性能、可迁移（换解码器即用）"三者，但人工标注限制了通用性与性能，全参微调又毁掉了迁移性，三者互相打架。

切入角度：作者做了两个关键判断。其一，机器可以替代人工标注——不同打分模型的架构差异天然对应不同的"感知视角"，恰好模拟人类个体差异，把多个机器打分聚合成一个分布，还能把标注的不确定性显式编码进去，反而更鲁棒；其二，通过分析发现视觉编码器才是 VQualA LMM 的核心部件，而预训练已被证明能促进跨域、跨结构迁移。

核心 idea：用"机器标注+机审"造大规模数据，再冻结 LLM、只对视觉编码器做生成式预训练，把质量感知能力沉淀进一个可插拔的视觉编码器里，从而一次预训练、到处迁移。

方法详解¶

整体框架¶

VITAL 是一条三段式流水线：先用纯机器流程把 5M 图+4M 视频的候选池压成 4.58M 条高质量视觉-语言对（覆盖"质量打分"和"文本生成"两大任务）；再以 InternVL-3-8B 为底座，冻住 LLM 解码器和投影层、只训视觉编码器，用两套针对性损失（打分用 PMOD、文本生成用 focal loss）做生成式预训练，产出 VITAL Vision Encoder；最后把这个编码器当作"通用插座"，配上不同大小的 LLM 解码器，直接零样本用或仅用 4000 条数据热身，搭出一整个模型库。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["候选池<br/>5M 图 + 4M 视频"] --> B["机器执行的标注-审查范式<br/>6 模型打分 + 多 LMM 互审 → 4.58M VL 对"]
    B --> C["以视觉编码器为中心的生成式预训练<br/>冻结 LLM 与投影层"]
    C --> D["双任务训练目标<br/>PMOD 质量打分 + 动态 focal 文本生成"]
    D --> E["VITAL Vision Encoder"]
    E --> F["高效模型库扩展<br/>Zero 零样本 / Warm-up 热身 / Assistant 后训"]

关键设计¶

1. 机器执行的标注-审查范式：彻底甩掉人工标注的瓶颈

针对"人工标注贵、难扩规模"的痛点，VITAL 把整条标注链路全部交给机器。打分任务上，它选 6 个零参考打分模型（VQA 侧如 FAST-VQA、DOVER、Q-Align，IQA 侧如 TOPIQ-NR、LIQE、QualiCLIP），把每个样本喂给它们得到一组分数，再聚合成一个"机器意见分布"——这一步是关键：作者认为不同模型的架构差异等价于不同人的感知视角，聚合分布既保留了多样性又把标注不确定性显式留下来。分数统一映射到 \([0,1]\) 并按 0.2 的间隔离散成 5 个质量等级（high/good/fair/poor/low）。

文本生成任务上，分两类标注并配了一套严格的"机审"门禁。失真识别用 25 种空间失真（来自 KADIS-700K）+4 种视频特有失真，随机给样本施加失真类型与严重度，记成 [严重度]-[失真类型]。质量描述则走"领域专家标注 + 通用 LMM 评判"的拒绝采样：先用 VQA²-Assistant 生成描述、再用 GPT-4o-mini 润色并删掉"质量不错"这类空话，拆成一句一断言；接着让 GPT-5、Gemini-2.5-Flash、Qwen-VL-Max 三个评委各投 3 轮，全票通过才留，有评委发现严重偏差就丢、轻微不一致则采纳其修订；最后还让标注器自己用语义等价但措辞不同的提示做 3 轮"自审"，一致通过才进库。靠这套弱到强的格式化+多重把关，机器标注的可靠性被拉到可用水平，最终落得 458 万条 VL 对——目前规模最大的 VQualA 训练集。

2. 以视觉编码器为中心的生成式预训练：冻住 LLM 换来迁移性

这一条直接回应"全参微调过拟合、不可迁移"的核心矛盾。VITAL 沿用 VQA² 的结构——视觉编码器由图像编码器（InternViT-300M-448px）和运动提取器（SlowFast-R50）组成，图像与运动 token 拼接成视觉 token 序列；底座取 InternVL-3-8B-Instruct，LLM 是 Qwen2.5-7B。训练时只更新视觉编码器，冻结 LLM 与所有投影层（纯图输入时关掉 SlowFast）。这样做的逻辑是：既然视觉编码器才是质量感知的核心，把能力压进编码器而非 LLM，就能让这个编码器像插座一样接到任意解码器上而不破坏 LLM 的通用语言能力。预训练只跑 1 个 epoch、每卡 batch=2，约 1920 GPU 小时（8×H200），产物记为 VITAL-Base-8B。此外用了"提示解耦"小技巧：训练时只喂视觉 token、不给文本提示，逼模型直接从视觉 token 里唤起质量理解，避免过拟合到高频出现的文本前缀。

3. 双任务训练目标：PMOD 弱监督打分 + 动态 focal loss 文本生成

视觉编码器要在两类任务上同时学好，两类任务各有自己的坑，于是配了两套损失。

打分侧用 PMOD（代理机器意见分布）预测应对"机器分数只是弱标签"的问题。对每个输入，先从机器意见列表算出均值 \(\mu\) 和标准差 \(\sigma\)，初始化高斯 \(\mathcal{N}(\mu,\sigma^2)\) 作为目标 PMOD，再线性调整到 5 个质量区间上、保证概率和为 1 且均值不变。模型在 [level] token 处输出 5 个等级的 logits，softmax 成预测分布后与目标 PMOD 算 KL 散度 \(L_{kl}=\sum_{i=0}^{4} p_i\log(p_i/p_i^{pred})\)，再与前缀文本的交叉熵加权：

\[L_{\text{Scoring-single}}=-\frac{1}{L}\left(\gamma\sum_{\ell=0}^{i_{level}-1}\log p(z_\ell\mid Z_\ell)-L_{kl}\right),\quad \gamma=0.01\]

成对偏好则按 Thurstone 模型把两个样本的 PMOD 当独立高斯，其差仍是高斯，于是 \(V_I\) 优于 \(V_{II}\) 的概率可写成 \(p^{pred}(I>II)=\Phi\big((\mu_I^{pred}-\mu_{II}^{pred})/\sqrt{(\sigma_I^{pred})^2+(\sigma_{II}^{pred})^2}\big)\)（训练时把 \(\sigma^{pred}\) 固定为 1 以稳住训练），并设了 tie 平局档（better:worse:tie = 4:4:2），成对训练只用 KL 损失。

文本生成侧用动态 focal loss 解决"短句易学、长句难学导致模型偏好输出短句"的失衡。短而简单的描述（如失真类型/严重度）token 概率涨得快，长而语义丰富的描述涨得慢，普通 CE 会让模型偷懒往短输出收敛。focal loss 按每个 token 的即时输出概率动态调权，放大难预测 token、压低已学会的：

\[L_{\text{Interp}}=-\frac{1}{L}\sum_{\ell=0}^{L-1}\alpha\,(1-p(z_\ell\mid Z_\ell))^{\beta}\log p(z_\ell\mid Z_\ell),\quad \alpha=1,\ \beta=2\]

4. 高效模型库扩展：一个编码器配多种解码器，秒迁移

预训练好的 VITAL Vision Encoder 被当作"基础插座"，配不同解码器搭出一整个模型库，落实"可迁移"的承诺。对同构解码器（与预训练同款），再用 1120K 条公开指令数据（Q-Pathway-200K、AesMMIT-400K、VQA²-Stage3-115K、OmniVQA-Chat-400K）做全参 SFT（focal loss）增强质量解读能力，得到 VITAL-Assistant-8B。对异构解码器（InternVL 的 1B/2B/14B 及其投影层，预训练时没见过）给两种迁移策略：① 直接把编码器和目标解码器拼起来用，得到 VITAL-Zero 系列（纯零样本）；② 拼好后从预训练数据里采 4000 条（保持原任务分布）只训解码器做高效热身，得到 VITAL-Warm-up 系列——热身数据量不到预训练数据的 1/1000，却能逼近完整训练的效果。

损失函数 / 训练策略¶

预训练数据全部随机混合，1 epoch、每卡 batch=2，约 1920 GPU 小时（8×H200）。打分用 CE+KL 加权（单输入）或纯 KL（成对），文本生成用 \(\alpha{=}1,\beta{=}2\) 的 focal loss。下游热身仅 4000 样本、只调解码器。

实验关键数据¶

主实验¶

视频质量打分（8 数据集平均 SRCC/PLCC，斜体为 OOD）：

模型	平均↑	说明
DOVER (ICCV'23)	0.778	强 DNN 基线
KVQ (CVPR'25)	0.780	之前最强 DNN
Q-Align (ICML'24)	0.776	域内 LMM
InternVL3-8B（参考底座，零样本）	0.401	通用 LMM 几乎不会打分
VITAL-Base-8B	0.820	全面超越，OOD 优势尤明显
VITAL-Warm-up-1B	0.808	仅 4000 样本热身即接近 8B

图像质量打分（7 数据集平均）：VITAL-Base-8B 达 0.816，超过 DeQA-Score（CVPR'25）的 0.799 和 Q-Align 的 0.785；在 KADID/AGIQA/TID/CSIQ 等 OOD 集上领先最强基线。

质量描述（QBench-video-test-single，Overall 准确率）：

模型	Overall↑	备注
VQA²-Assistant	55.56%	域内 LMM
OmniVQA-Chatter	59.94%	域内 LMM
GPT-4o (24-11-20)	52.72%	闭源通用
Gemini-2.5-Pro	62.33%	最强闭源
VITAL-Base-8B	51.33%	没调 LLM 仍保住指令跟随
VITAL-Assistant-8B	62.94%	后训后超过 Gemini-2.5-Pro

消融实验¶

关键训练属性消融（Tab 7，KoNViD-1k 与 KADID 的 SRCC/PLCC）：

配置	KoNViD-1k	KADID	说明
Base-8B（完整）	0.878 / 0.881	0.759 / 0.708	完整模型
w/o PMOD	0.835 / 0.840	0.602 / 0.668	退回均值+CE，掉点最多
w/o Pair	0.856 / 0.867	0.725 / 0.687	去掉成对训练
w/o Text	0.868 / 0.873	0.743 / 0.712	去掉文本生成任务

线性探针（Tab 6）：把视觉编码器特征接一个轻量线性头、仅 1.61M 可调参，在 LIVE-VQC/KoNViD/YT-Gaming 上即超过架构相近但无 VQualA 预训练的 Simple-VQA（86.91M 参数），说明能力确实沉淀进了编码器本身。

关键发现¶

PMOD 是打分性能的首要功臣：去掉它在 KADID 上 SRCC 从 0.759 暴跌到 0.602，远超去掉成对或文本任务的影响——把机器弱标签建成分布、用 KL 对齐确实比"取均值+CE"鲁棒得多。
冻 LLM 不掉指令跟随：VITAL-Base-8B 没碰 LLM，质量描述 Overall 仍有 51.33%、且优于底座，印证"只训视觉编码器"既学到质量感知又没破坏语言能力。
focal loss 让输出更长更准：CE 训练会让模型偏好短输出，focal loss 下平均输出长度更贴近 ground-truth（14.83）且开放题准确率更高。
迁移性极强：Warm-up 系列只用 <1/1000 预训练数据热身，1B/2B/14B 都拿到接近 8B 的成绩，OOD 仅轻微退化。

亮点与洞察¶

"架构多样性 ≈ 人类个体差异"这个类比很妙：把 6 个打分模型的不同架构解读成不同感知视角，再聚合成分布，等于用机器复刻了主观实验里"多人打分取分布"的统计本质，顺手把不确定性也建模进来——这是用 PMOD 替代人工 MOS 的理论支点，可迁移到任何需要主观标签的任务。
"以视觉编码器为中心"是对 LMM 微调范式的反向思考：别人全参微调把能力摊到整个模型上、换解码器就废，VITAL 反过来把能力压进可插拔的编码器，一次预训练换来整个模型库——这种"冻大头、训核心部件"的思路对任何需要多规格部署的 LMM 任务都有借鉴价值。
机审门禁工程化做得扎实：三评委 3 轮全票 + 标注器自审 3 轮的双层拒绝采样，是机器标注能否替代人工的胜负手，值得做大规模合成数据时照搬。

局限与展望¶

机器标注的天花板就是机器模型的天花板：6 个打分模型和评委 LMM 若在某类内容上系统性偏差（如新型 AIGC 失真），聚合分布也救不回来，缺人工兜底；论文也坦承"是否能完全信任机器标注"是其出发问题之一。
打分仍是 5 档离散等级：质量被量化成 high/good/fair/poor/low 五档，细粒度排序信息有损失，对差异极小的样本可能不够分辨。
运动建模依赖 SlowFast-R50：视频侧的时序感知绑定在一个相对老的运动提取器上，长视频或复杂时序失真上限存疑（候选视频也只取 1-20s）。
后训仍需全参 SFT：VITAL-Assistant 的质量解读增强用的是 1120K 全参微调，和"可迁移"的卖点略有张力，异构解码器的描述能力主要靠 Zero/Warm-up，质量解读强化还没做到同样轻量。

评分¶

新颖性: ⭐⭐⭐⭐ "以视觉编码器为中心 + 全机器标注分布"两点组合在 VQualA 里是新范式，但 PMOD、focal loss 等组件多为已有方法的迁移整合。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 15 个打分数据集 + 质量描述基准 + 线性探针 + 数据缩放 + 多规格迁移，OOD 与消融都做得很完整。
写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑清晰，图示丰富；但公式排版（缺失交叉引用 Eq.??）和部分细节散落在补充材料里。
价值: ⭐⭐⭐⭐⭐ 458 万条最大 VQualA 数据集 + 可插拔编码器 + 开源模型库，为"VQualA 基础模型"提供了实用且可部署的新方向。