跳转至

Human Uncertainty-Aware Data Selection and Automatic Labeling in Visual Question Answering

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=LuZjiUNuFL
代码: https://github.com/emsuno/hadola
领域: 多模态视觉语言模型 / VQA / 数据选择与标注
关键词: 人类不确定性(Human Uncertainty)、视觉问答、监督微调、数据高效、模型校准、自动标注

一句话总结

本文系统揭示了 VQA 中"人类不确定性(HU)"对监督微调的影响——高 HU 样本不仅无益甚至有害,并提出 HaDola 框架,通过"判别-自标注-错误触发-训练"四阶段流水线,仅用 5% 种子标注就在准确率和校准度上匹敌甚至超越用 100% 数据微调的强基线。

研究背景与动机

领域现状:大型视觉语言模型(VLM)在 VQA 上表现强劲,但主流的监督微调(SFT)范式高度依赖海量人工标注,成本高昂。同时,VQAv2、VizWiz 这类数据集天然带有"人类不确定性"——同一图像-问题对,10 个标注者可能给出不同答案,且每个答案附带不同的置信度(yes/maybe/no 映射为 0.99/0.5/0.01)。

现有痛点:标准 SFT 只朝着"最高频答案"优化,完全抛弃了 HU 分布信息;而且不加区分地堆数据,只关心"用多少数据",从不追问"每个样本到底贡献了什么"。这导致两个问题:模型既学不到真实的人类不确定性分布(校准差),又把标注预算浪费在可能有害的样本上。

核心矛盾:HU 究竟是该被抹平的"噪声",还是可被利用的"信号"?而且 HU 标注本身极贵、大规模难以获取,如何在仅有少量 HU 标注的前提下既保准确率又保校准?

本文目标:回答三个研究问题——HU 如何影响 SFT、哪些是有益/有害样本(RQ1);如何把 HU 融入训练以兼顾准确率和校准(RQ2);如何只用一小部分 HU 标注维持强性能(RQ3)。

核心 idea把 HU 当作数据选择与评估的指导信号,而非待消除的噪声。作者先做系统评估发现"高 HU 样本有害、低/中 HU 样本才是有效监督",再据此设计一个从 5% 种子集自演化的数据高效框架 HaDola,主动剔除高 HU 样本、自动标注信息量大的样本,并用定制损失对齐人类不确定性分布。

方法详解

整体框架

HaDola 是一个模型无关的迭代框架:先用 5% 的人工 HU 标注种子集 \(S_0\) 微调初始 VLM 得到参考模型 \(M_{HU}\)(冻结一份作 HU 参考,另一份作训练起点),然后在每一轮里对未标注池 \(S_r\) 依次执行四个阶段——判别(剔高 HU)、自标注(打伪标签)、错误触发(过滤坏伪标签)、训练(定制损失微调),逐轮把可靠监督扩展出去,呈"自演化"式增长。

flowchart LR
    A[5% 种子集 S0<br/>人工 HU 标注] --> B[SFT 得参考模型 M_HU]
    B --> C[① 判别 Discriminate<br/>按 KL 区间剔除高HU/离群样本]
    C --> D[② 自标注 Self-Annotate<br/>上一轮模型打伪标签]
    D --> E[③ 错误触发 Error Trigger<br/>梯度一致性 + TracIn 过滤]
    E --> F[④ 训练 Training<br/>L_HaDola 定制损失]
    F -->|迭代 T 轮| C
    F --> G[最终模型 M_T]

在展开关键设计前,先交代两个度量基础:作者用 HUD 衡量样本级 HU,并按 HUD 区间把数据均匀切成低/中/高三档([0.66,0.99] 为低、(0.33,0.66) 为中、[0.01,0.33] 为高);同时指出传统 VQA-acc 纯按频率算分会忽视 HU,于是提出 HU 加权的 HU-acc \(= \text{HaConf}(a)\times\text{VQA-Acc}(a)\) 作为更敏感的评估与监督信号。

关键设计

1. 判别(Discriminate):用 KL 区间把高 HU 样本挡在门外 这是 HaDola 的"守门人",目的是把既不利于学习、又白白耗费算力的高 HU 样本筛掉。作者先在种子集 \(S_0\) 上用参考模型 \(M_{HU}\) 算出低、中 HU 子集与真实人类分布之间的平均 KL 散度 \(\tau_1\)\(\tau_2\)(满足 \(\tau_1<\tau_2\)),以及低/中子集上的平均人类置信分布 \(h_\omega\)。对每个候选未标注样本 \(u\)(每轮取 \(S_r\) 的 1%),计算当前模型 \(M_t\)\(h_\omega\) 的 KL 散度 \(kl_u = D_{KL}(h_\omega \| M_t(u))\),只保留落在 \([\tau_1-\sigma,\ \tau_2+\sigma]\) 区间内的样本(\(\sigma\) 为 KL 分数标准差),区间外的视为高 HU 或离群点直接丢弃。直觉是:好样本的不确定性应当和低/中 HU 种子集对齐,偏离太远说明要么太"难"(高 HU)要么是噪声。

2. 自标注(Self-Annotate):用上一轮模型自动扩展监督 判别保留下来的样本没有人工标签,HaDola 用上一轮模型 \(M_{t-1}\) 直接给出预测 \(\hat{y}_u = M_{t-1}(u)\),构造伪训练对 \((u, \hat{y}_u)\)。这一步把人工标注从"每个样本都要"降到"只需 5% 种子",是大幅省标注成本的关键——模型在迭代中自我精炼监督信号,而非被动等待人工。

3. 错误触发(Error Trigger):双重梯度准则防止伪标签误差累积 自标注会引入错误,反复迭代可能滚雪球,因此 HaDola 设了两道闸。其一是梯度一致性:计算伪样本梯度 \(g(u,\hat{y}_u;\theta_t)\) 与种子集平均参考梯度 \(g_{ref}(\theta_t)\) 的余弦相似度 \(s_g = \frac{\langle g,\ g_{ref}\rangle}{\|g\|\|g_{ref}\|}\),要求伪标签产生的更新方向和可靠人工监督一致。其二是 TracIn-mini 影响力估计:只用初始模型 \(\theta_0\) 和当前模型 \(\theta_t\) 近似 \(s_{tracin}(u,\hat{y}_u) \approx \langle g(u,\hat{y}_u;\theta_0), \nabla_\theta L_{val}(\theta_0)\rangle + \langle g(u,\hat{y}_u;\theta_t), \nabla_\theta L_{val}(\theta_t)\rangle\),追踪伪样本对验证损失的全局影响。只有同时满足 \(s_g \ge \tau_g\)\(s_{tracin} \le \tau_t\) 的伪样本才被保留(阈值由低/中 HU 子集标定)。消融显示这一步去掉后性能下降最大,证明它对抑制误差累积至关重要。

4. 定制训练损失:兼顾准确率与人类不确定性校准 训练阶段用一个三项损失同时追求"答对"和"对齐人类不确定性": $\(L_{HaDola} = \mathbb{E}[\text{CE}(y, M_\theta)] + \beta\,\Phi + \lambda\big(D_{KL}(H\|M_\theta) - D_{KL}(H\|M_{HU})\big),\quad \Phi = D_{KL}(M_{HU}(\cdot|x)\|M_\theta(\cdot|x))\)$ 第一项标准交叉熵保证预测正确;第二项 \(\Phi\)\(M_\theta\) 正则到 HU 参考模型 \(M_{HU}\),防止它漂离 HU 知情的基线;第三项以"相对参考模型"的方式比较 \(M_\theta\)\(M_{HU}\) 跟人类分布 \(H\) 的对齐程度,鼓励 \(M_\theta\) 比参考更逼近人类不确定性,从而提升校准。用 CE 替换这套损失后准确率明显下降,说明显式对齐人类偏好确有必要。

实验关键数据

主实验

在 VQAv2 与 VizWiz 上评测 Qwen2.5VL-2B/7B、LLaVA1.6-7B、InternVL2.5-2B/8B 及任务专用 SOTA BEiT3,对比 6 类基线(零样本、LoRA SFT、Meta 伪标注、主动学习、DPO、选择性预测 LYP),指标为 HU-acc(准确率)与 KL 散度(校准)。

结论 表现
三个有零样本能力的 VLM HaDola 仅用 5% 标注 即超越 100% 标注的 SFT
BEiT3(无零样本能力) 不及全量 SFT,但达到可比水平且远超其余所有基线
KL 散度(校准) HaDola 与 LYP 稳定领先其余方法;LYP 偶尔更低,但靠"丢弃难答样本"实现,HaDola 不删数据即达竞争性校准,适用面更广

消融实验

方法 (T=15) VQAv2 Qwen VQAv2 LLaVA VizWiz Qwen VizWiz LLaVA
HaDola (完整) 76.75 77.63 65.72 66.58
选择器替为随机采样 72.23 73.51 62.11 63.02
自标注替为人工标签 73.91 75.02 64.53 64.88
去掉错误触发 71.56 72.47 60.92 61.73
损失替为标准 CE 72.37 73.28 61.89 62.15

每个组件移除/替换都掉点:去掉错误触发降幅最大(防误差累积最关键);随机采样降幅次大(证明选择器确能挑出有益样本);自标注换人工标签降幅最小,但仍说明自演化监督能超越人工标注本身。

关键发现

  • HU 等级单调律:简单 SFT 下,低 HU 子集(L) > 中(M) > 高(H),在训练集和验证集上一致成立,证明高 HU 样本对 VLM 既难学又有害。
  • S 形训练曲线:5–10% 标注时性能急升,10–15% 缓增,15% 后收敛——少量监督即可获大收益,超过 15% 边际递减,质疑了大规模 SFT 的必要性。
  • 评估指标缺陷:传统 VQA-acc 几乎看不出高 HU 样本的危害,HU-acc 能清晰分离不同 HU 子集,凸显了频率式评估的不足。

亮点与洞察

  • 把"标注噪声"翻案为"训练信号":本文首次系统论证 HU 不是要抹平的副产品,而是可指导数据选择和评估的有用信号,这一视角转换很有启发性。
  • 数据效率的强证据:5% 标注胜过 100% SFT,配合 S 形曲线,给"与其无脑扩数据不如挑好数据"提供了扎实的实证支撑。
  • 校准与准确率的双赢:定制损失以"相对参考模型"的方式做 KL 对齐,避免直接逼近人类分布带来的过拟合,是个精巧设计。
  • 评估指标的反思:指出主流 VQA-Accuracy 因纯频率而忽视 HU,并首倡把 HU 纳入评估协议,对社区有方法论价值。

局限与展望

  • 依赖种子集质量:HaDola 需要一个构造良好的人工 HU 标注种子集,虽然成本可控,但种子集质量直接影响阈值标定和整体表现。
  • 进一步去标注:作者指出未来可借助 VLM 的零样本能力构造种子集,进一步降低对人工标注的依赖。
  • 数据集范围有限:仅在带 HU 标注的 VQAv2、VizWiz 上验证,OK-VQA、GQA 等无 HU 标注的数据集如何迁移尚待探索。
  • 阈值与超参较多\(\tau_1,\tau_2,\sigma,\tau_g,\tau_t,\beta,\lambda\) 等需在子集上标定,调参负担和跨域稳健性值得关注。

相关工作与启发

  • VQA 与人类不确定性:Antol 等首提 VQA,BEiT3 仍是任务专用 SOTA 但缺零样本/生成能力;Lan 等(2025a)首次用 HUD 量化 VQAv2 上 BEiT3 的 HU,但未探索如何在训练中利用 HU,本文正是其延伸。
  • 样本感知训练:Karamcheti 等用主动学习发现难样本会让 AL 失效却无解法;Tan & Bansal 用标注者多样性度量样本难度但只看频率忽视 HU;Sun 等用 DPO 增广医疗 VQA 数据但假设训练分布完美。这些工作大多假设数据完全可靠,本文填补了"系统选择并利用 HU 感知样本"的空白。
  • 启发:把"标注分歧/置信度"显式建模并用于数据选择的思路,可迁移到其他存在标注主观性的任务(情感分析、毒性检测、医学影像分级);其"参考模型相对 KL 对齐"的校准损失也可借鉴到偏好学习场景。

评分

  • 新颖性: ⭐⭐⭐⭐ 把 HU 从"噪声"重新定位为"数据选择信号",并设计自演化框架,视角和方法都有新意;四阶段流水线虽由已有技术(伪标注、TracIn、梯度一致性)组合而成,但组合方式针对 HU 问题量身定制。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖 5 个 VLM + 2 数据集 + 6 类基线,消融完整、训练动态分析(S 形曲线)与 HU 等级分析到位;但仅限两个带 HU 标注的数据集,跨域泛化证据偏弱。
  • 写作质量: ⭐⭐⭐⭐ RQ 驱动、动机清晰、公式与算法表述规范,图表(热力图/雷达图)信息量大;部分符号(如 \(\tau\)\(h_\omega\))初读略密。
  • 价值: ⭐⭐⭐⭐ "用好 HU 比扩数据更有效"的结论对降低 VQA 标注成本和改善校准有实际意义,并推动社区反思评估指标,落地性较强。