WikiSeeker: Rethinking the Role of Vision-Language Models in Knowledge-Based Visual Question Answering¶

会议: ACL 2026 Findings
arXiv: 2604.05818
代码: https://github.com/zhuyjan/WikiSeeker
领域: 多模态VLM
关键词: 知识型VQA, 多模态RAG, 查询重写, 强化学习, 检索增强生成

一句话总结¶

提出 WikiSeeker，重新定义 VLM 在多模态 RAG 中的角色——从单纯的答案生成器转变为两个专门化智能体（Refiner 用 RL 训练重写查询、Inspector 验证检索上下文是否可靠），在 EVQA、InfoSeek、M2KR 三个基准上实现 SOTA。

研究背景与动机¶

领域现状：多模态检索增强生成（RAG）是知识型视觉问答（KB-VQA）的主流范式——检索外部知识库中的相关文档，与输入查询拼接后送入生成模型产出答案。

现有痛点：(1) 纯视觉检索：大多数方法仅使用查询图片作为检索键，忽略了用户文本查询中的语义信息，当视觉内容模糊时检索效果差；(2) VLM 角色错位：VLM 通常仅被用作最终的答案生成器，但实验表明 VLM 在从检索上下文中提取答案方面反而不如纯文本 LLM——图像 token 在答案提取阶段往往是噪声而非有用信号。

核心矛盾：VLM 的视觉理解能力在检索和验证阶段有价值（理解图中是什么实体、判断检索结果是否匹配），但在答案提取阶段反而是负担（视觉 token 干扰文本阅读理解）。

本文目标：重新设计 VLM 在多模态 RAG 中的角色定位，充分利用 VLM 的视觉理解能力来改善检索和验证，而将答案提取交给更擅长的纯文本 LLM。

切入角度：作者通过实验发现，当检索上下文中正确信息占比增加时，纯文本 LLM 的 VQA 性能反而超过带图像输入的 VLM（如 Ratio=1.0 时 Qwen 93.45% vs QwenVL(I+T) 88.46%）。

核心 idea：将 VLM 重定位为 Refiner（用视觉线索重写查询提升检索）和 Inspector（验证检索上下文可靠性并路由决策），答案生成交给纯文本 LLM。

方法详解¶

整体框架¶

WikiSeeker 包含三个阶段：(1) 检索：VLM Refiner 扩展原始问题，多模态检索器（视觉+文本嵌入拼接）从知识库中检索候选文档；(2) 重排：多模态重排器筛选最相关段落；(3) 生成：VLM Inspector 评估检索上下文是否充分——通过则路由到纯文本 LLM 生成答案，不通过则 VLM 用内部知识直接回答。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：图像 + 文本问题"] --> B["VLM Refiner<br/>结合视觉线索重写查询（GRPO 强化学习）"]
    B --> C["多模态密集检索<br/>视觉 + 文本特征按 α 加权拼接召回候选"]
    C --> D["多模态重排<br/>筛选最相关段落"]
    D --> E["VLM Inspector<br/>验证检索上下文是否可靠"]
    E -->|PASS| F["纯文本 LLM<br/>从检索上下文提取答案"]
    E -->|FAIL| G["VLM 内部知识<br/>直接作答兜底"]

关键设计¶

1. VLM 作为 Refiner：用视觉线索把简短查询重写成好检索的查询，并用 RL 自学策略

KB-VQA 里用户查询往往又短又抽象，直接拿去检索噪声很大，而图片里其实藏着关键的实体线索。作者用 Qwen2.5-VL-3B-Instruct 当 Refiner，让它结合图像把原始问题扩写成更有信息量的检索查询：模型先在 <think> 标签里生成 CoT 推理，再在 <answer> 标签里给出重写结果。难点在于没有现成的"好查询"标注，于是作者用 GRPO 做强化学习，奖励由两部分拼起来：格式奖励检查输出是否符合 XML 结构，检索奖励则把重写查询真的拿去检索，按正确实体的命中排名给离散分（top-5 给 +4，top-200 内逐档递减，完全没命中扣 -2.5）。这样 Refiner 就以"检索是否命中"为信号自己摸索出最优重写策略，绕开了昂贵的人工标注查询对。

2. 多模态密集检索（加权拼接策略）：让视觉和文本特征按可调比例共同决定检索

纯视觉检索只拿查询图片当键，丢掉了用户文本里的语义，图像一模糊就抓瞎。作者把知识库组织成 <图像, 段落> 对，用 EVA-CLIP-8B 编码视觉、Qwen3-Embedding-0.6B 编码文本，再拼成统一向量。检索时查询侧也做加权拼接：

\[\mathbf{v}_q = \text{Concat}[\alpha \cdot \Phi_{vis}(I_q),\ (1-\alpha) \cdot \Phi_{text}(T_q)]\]

超参数 \(\alpha\) 控制视觉与文本特征的相对权重，等于给两种模态留了一个可调的平衡旋钮——视觉清晰时多靠图，图像含糊时多靠文，避免被单一模态拖累。

3. VLM 作为 Inspector：验证检索上下文是否可靠，再决定把答案交给谁生成

这一步对应论文最反直觉的发现：VLM 擅长判断检索结果跟图像合不合，却不擅长从检索文本里抠答案——此时图像 token 反而成了干扰阅读的噪声。于是 Inspector（VLM）接收图像、问题和重排后的段落，输出一个判断 \(s \in \{\text{PASS}, \text{FAIL}\}\) 以及一个内部知识答案 \(A_{internal}\)。若判 PASS，就把重写查询加检索上下文送给纯文本 LLM（如 LLaMA/Qwen）去生成答案，让最擅长读文本的模型干提取的活；若判 FAIL，说明检索不可靠，直接用 VLM 的内部知识答案兜底。这套解耦让每个组件都只做自己最强的事，而不是简单地"永远信检索"或"永远信参数知识"。

一个完整示例：一条 KB-VQA 查询怎么流过 WikiSeeker¶

以一张"某座地标建筑"的图片配问句"它建于哪一年？"为例，走一遍流程：

Refiner 重写：原始查询太泛，直接检索很可能落在 top-200 开外。Refiner 看图认出建筑实体，把查询扩写成带实体名和属性的检索查询（如"<具体地标> 落成年份"），把正确实体的命中排名往前推。
多模态检索：用加权拼接向量 \(\mathbf{v}_q\) 从知识库召回候选 <图像, 段落>；图片清晰时调高 \(\alpha\) 让视觉主导，图片含糊时调低 \(\alpha\) 让文本语义补位。
重排：多模态重排器把候选里最相关的段落顶到前面。
Inspector 路由：Inspector 拿图像、问题和重排段落判 PASS / FAIL。若该建筑的百科段落已被检到（PASS），就把查询和上下文交给纯文本 LLM，让它从段落里读出建成年份；若检索到的段落答非所问（FAIL），则放弃噪声上下文，用 VLM 的内部知识直接作答。

整条链路的精髓是：视觉理解只在"检索 + 验证"两端发力，真正的答案抽取交还给更擅长读文本的纯文本 LLM。

损失函数 / 训练策略¶

Refiner 用 GRPO 训练，总奖励 \(r_i = r_{retrieval}(o_i) + r_{format}(o_i)\)。检索奖励基于命中排名的离散映射（top-5: +4, top-200: +0.1, miss: -2.5），格式奖励检查 XML 标签正确性（+1/-4）。训练集每个基准 7000 样本，按命中排名分层采样。

实验关键数据¶

主实验¶

EVQA 和 InfoSeek 检索结果（R@1）：

方法	EVQA R@1	EVQA R@20	InfoSeek R@1	InfoSeek R@20
EchoSight	36.5	48.8	53.2	77.9
OMGM	42.8	58.7	64.0	84.8
WikiSeeker (w/o Refiner)	28.0	43.4	53.5	78.5
WikiSeeker (w. Refiner)	44.1	62.3	67.0	87.7

Refiner 将 EVQA R@1 从 28.0 提升到 44.1（+57.5%），超越所有基线。

消融实验¶

配置	关键指标	说明
w/o Refiner	R@1 28.0 (EVQA)	基础多模态检索
w. Refiner	R@1 44.1 (EVQA)	查询重写大幅提升检索
VLM 生成 vs LLM 生成	88.46% vs 93.45% (Ratio=1.0)	有可靠上下文时 LLM 更优
w/o Inspector	下降	不可靠上下文时 LLM 会被误导

关键发现¶

VLM 在答案生成阶段确实不如纯文本 LLM：当检索上下文中正确信息占比增加时（Ratio=0.3→1.0），LLM 的优势越来越明显
RL 训练的 Refiner 效果远超 SFT：RL 让模型自动学会如何重写查询以最大化检索命中率
Inspector 的路由策略在不可靠检索场景尤其重要——VLM 的内部知识在 FAIL 路径上补偿了检索失败
M2KR 多任务基准上也取得 SOTA，证明方法的通用性

亮点与洞察¶

"VLM 在答案提取时不如 LLM"这个实证发现非常重要且反直觉——原因是视觉 token 在已经检索到正确文本上下文后变成了噪声。这启示我们在 RAG 系统中应该"用对的模型做对的事"
用 RL 训练查询重写是一个优雅的自监督方案——以检索命中排名作为奖励信号，无需人工标注重写查询对。GRPO 的组内相对优势估计避免了训练 critic 模型的额外开销
Inspector 的双路径设计实现了检索增强和参数知识的优雅融合——不是简单地"总是用检索"或"总是用内部知识"，而是根据可靠性动态选择

局限与展望¶

Inspector 的 PASS/FAIL 判断是硬决策，可能存在边界情况的误判
Refiner 使用较小的 VLM（3B），更大模型可能产出更好的查询重写
知识库构建依赖 LLM 对长段落的摘要，摘要质量影响检索效果
仅在百科知识型 VQA 上验证，对常识推理型 VQA 的效果未知

评分¶

新颖性: ⭐⭐⭐⭐ VLM 角色重定位的洞察有价值，RL 训练 Refiner 的方案优雅，但整体框架是已有技术的巧妙组合
实验充分度: ⭐⭐⭐⭐⭐ 三个基准、多个消融、VLM vs LLM 的系统对比实验充分
写作质量: ⭐⭐⭐⭐ 动机和方法描述清晰，Table 2 的实验设计有说服力
价值: ⭐⭐⭐⭐ 对多模态 RAG 系统的 VLM 角色设计有直接指导意义