OAD-Promoter: Enhancing Zero-shot VQA using Large Language Models with Object Attribute Description¶
会议: AAAI 2026
arXiv: 2511.12131
代码: 无
领域: 信息检索
关键词: 视觉问答, 零样本VQA, 语言偏差, 领域迁移, 对象属性描述
一句话总结¶
本文提出OAD-Promoter,通过对象集中样例生成(OEG)、记忆知识辅助(MKA)和OAD Prompt三个模块协同工作,在零样本设置下缓解LLM继承的语言偏差并提升领域迁移能力,在VQAv2等多个基准上取得SOTA。
研究背景与动机¶
领域现状:LLM已成为VQA任务中处理知识密集型问题的关键工具。现有LLM-based KBVQA方法(PICa、Prophet、Img2LLM等)在few-shot和zero-shot场景下取得了显著成果。
核心痛点——语言偏差:语言偏差是VQA领域的顽疾。例如,训练数据中"What color...bananas?"的主导答案是"yellow",模型倾向于利用这种表面相关性而非真正理解图像。这个问题不仅存在于传统VQA模型中,在LLM-based方法中同样严重——因为LLM在大规模数据上预训练时不可避免地学到了虚假相关性(shortcut learning)。
两大负面影响(图1):
预测不可靠:LLM利用继承的语言偏差做推理,导致答案有偏
OOD泛化差:虽然LLM知识推理能力强,但语言偏差加剧了领域迁移的困难
现有方法的盲区: - 现有LLM-based KBVQA方法忽视了全局和区域视觉信息的结合 - 没有辅助记忆模块帮助LLM应对分布变化的场景 - 去偏方法(如LMH、CSS)直接整合到LLM pipeline反而降低性能(实验验证)
本文核心思路: 1. 更精细的视觉信息可以缓解语言偏差(让LLM "看到"更多,减少依赖语言先验) 2. 记忆样例辅助可以提升推理可靠性,特别在领域迁移场景 3. 整合以上两点的Prompt可以持续提升领域适应能力
方法详解¶
整体框架¶
OAD-Promoter包含三个协同模块(图2): 1. OEG模块(绿框):生成全局标题和对象集中样例 2. MKA模块(蓝框):利用存储样例辅助LLM处理新输入 3. OAD Prompt(红框):整合前两个模块的输出,引导LLM推理
整个流程不依赖任何外部知识源或需要检索的数据,是纯零样本方法。
关键设计¶
1. OEG模块(Object-concentrated Example Generation)¶
包含两个生成过程:
多层级标题生成: - 使用预训练BLIP2生成全局标题(global caption),捕获图像整体语义 - 使用VinVL检测器生成区域标题(object-concentrated captions),聚焦单个对象属性
合成问题生成: - 用标题评估工具从对象标题中提取潜在答案(名词短语、动词短语、形容词、数字、布尔词) - 用在SQuAD2.0、MultiRC、BookQA、CommonsenseQA和Social IQa上微调过的T5-large模型生成对应问题 - 形成完整的对象集中样例 \(E_i = (C, Q, A)\)
设计动机:全局标题提供宏观理解,区域标题补充细粒度信息。二者结合使LLM获得更完整的视觉信息,减少依赖语言先验的机会。这些生成的样例同时用作MKA的记忆库和Prompt的组成部分。
2. MKA模块(Memory Knowledge Assistance)¶
包含两个过程:
答案估计: - 普通VQA模型(UpDn):输出普通答案 \(A_O\)(包含视觉信息) - 偏差QA模型(LMH中的off-shift模型):输出偏差答案 \(A_B\)(不含视觉信息,纯语言偏差)
选择模式判定: $\(M = \begin{cases} Positive, & \text{if } A_O \neq A_B \\ Negative, & \text{if } A_O = A_B \end{cases}\)$
关键洞察:若 \(A_B = A_O\),说明即使不看图像也能得到相同答案——这暗示普通模型在利用语言偏差。由于LLM的训练规模远大于普通VQA模型,LLM利用该偏差的概率更高。
相似度计算: $\(E_S = \begin{cases} \text{argTopN} \frac{f^T f_j}{\|f\|_2 \|f_j\|_2}, & \text{if } M = Positive \\ \text{argBottomN} \frac{f^T f_j}{\|f\|_2 \|f_j\|_2}, & \text{if } M = Negative \end{cases}\)$
- Positive模式:选最相似的存储样例(支持正常推理)
- Negative模式:选最不相似的存储样例(对抗语言偏差)
设计动机:通过预判偏差信号,主动选择与偏差方向相反的辅助样例,从而引导LLM避开语言偏差。随着推理进行,记忆库持续增长,领域适应能力不断增强。
3. OAD Prompt¶
整合前两个模块输出的结构化Prompt: $\([\text{Instruction } I \;/\; \text{Global Caption } C_G \;/\; \text{Object Examples } E_O \;/\; \text{Memory Examples } E_S \;/\; \text{Question } Q_O]\)$
初始时MKA记忆为空,Prompt为 \([I / C_G / E_O / Q_O]\);第二个样本起变为完整形式。
与现有方法的关键区别:同时考虑全局描述和对象属性描述,而非仅用全局标题。消融实验证明CQA-CQA-CQA(每个样例保持完整triple)优于CCC-QAQAQA(分离排列)。
损失函数 / 训练策略¶
- OAD-Promoter本身不训练,是推理时的框架
- UpDn模型先在VQAv2+Visual Genome上预训练,再在OKVQA训练集上微调
- 主实验使用GPT-3和OPT作为冻结LLM
- 避免数据污染:从预训练数据中移除OKVQA测试集中出现的图像
实验关键数据¶
主实验——零样本设置下的性能¶
| 方法 | VQAv2 test | A-OKVQA test | OKVQA test |
|---|---|---|---|
| Flamingo-80B | 56.21 | - | 50.57 |
| Img2LLM w/ GPT-3 | 59.22 | 43.39 | 42.80 |
| Img2LLM w/ OPT | 61.83 | 40.69 | 45.58 |
| OAD-Promoter w/ OPT | 61.93 | 40.68 | 45.58 |
| OAD-Promoter w/ GPT-3 | 61.98 | 41.71 | 45.61 |
不同LLM的泛化验证(OKVQA零样本)¶
| LLM | 参数量 | OKVQA |
|---|---|---|
| GPT-Neo | 2.7B | 33.41 |
| GPT-J | 6B | 38.89 |
| BLOOM | 7.1B | 33.77 |
| OPT | 6.7B | 36.18 |
| OPT | 30B | 40.46 |
| OPT | 175B | 45.58 |
| GPT-3 | 175B | 45.61 |
消融实验¶
| 配置 | OKVQA (Few-shot) | OKVQA (Zero-shot) | 说明 |
|---|---|---|---|
| 无OEG + 无MKA | 47.33 | 42.50 | 基线 |
| 有OEG + 无MKA | 54.68 | 44.26 | OEG贡献最大 |
| 无OEG + 有MKA | 48.95 | 43.64 | MKA独立也有帮助 |
| 有OEG + 有MKA | 60.04 | 45.61 | 二者协同效果最佳 |
| MKA记忆样例数K | OKVQA | 说明 |
|---|---|---|
| 0 | 43.64 | 无记忆 |
| 60 | 43.65 | 少量样例 |
| 200 | 43.92 | 中等样例 |
| 400 | 44.15 | 样例越多越好 |
领域迁移实验(Few-shot,不同LLM)¶
| LLM | VQA-CP | GQA-OOD |
|---|---|---|
| GPT-4 (GRACE) | 57.61 | 50.19 |
| GPT-4 (OAD-Promoter) | 55.93 | 50.21 |
关键发现¶
- 在VQAv2零样本设置下取得新SOTA(61.98),超越所有大规模多模态预训练方法和冻结LLM方法
- OEG模块在few-shot下贡献最大(+7.35),证明细粒度视觉信息是缓解语言偏差的关键
- 传统去偏方法(LMH、CSS)直接整合到LLM pipeline反而降低OKVQA性能(表4),说明LLM的偏差问题需要不同的解决策略
- 在GPT-4上OAD-Promoter在GQA-OOD取得最佳成绩(50.21),说明更强的LLM能更好地发挥领域迁移能力
- 记忆库随推理增长的机制使性能持续改善(K=400 > K=200 > K=60)
- 改变输入顺序对OAD-Promoter无影响(100%正确率),而Img2LLM受顺序影响
亮点与洞察¶
- 揭示了LLM中语言偏差的严重性:不仅传统VQA有偏差问题,基于LLM的方法同样存在,且传统去偏方法无效
- 对抗偏差的创新策略:通过Negative模式选择最不相似的样例来对抗偏差,这个思路新颖且有效
- 零样本方法超越few-shot:得益于MKA的记忆增长机制,零样本设置下的推理能力持续增强
- 即插即用:框架可与不同LLM(GPT-3、OPT、BLOOM、GPT-Neo、GPT-J、GPT-4等)组合使用
- 自增长的记忆库:MKA模块随推理进行自然积累知识,这是一种优雅的持续学习形式
局限与展望¶
- 依赖VinVL和BLIP2等预训练模型的质量,若这些模型失败则OEG模块输出受损
- MKA模块的偏差检测依赖UpDn和LMH的QA模块,这些模型本身能力有限
- 零样本设置下在A-OKVQA和OKVQA上的提升幅度有限(<1%),说明方法在更难的知识推理问题上的天花板
- 记忆库无限增长可能带来存储和检索效率问题
- Positive/Negative选择模式是硬切换,可考虑软插值
相关工作与启发¶
- 偏差检测思路(比较有视觉 vs 无视觉的预测)可以推广到其他需要检测shortcut learning的场景
- 记忆增强推理的框架对其他需要持续改善的推理任务有参考价值
- 多粒度视觉信息(全局+区域)的整合策略值得其他VLM工作借鉴
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐