FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering¶

会议: NeurIPS 2025
arXiv: 2506.21710
代码: https://focus-mllm-vqa.github.io (项目页)
领域: 多模态VLM
关键词: 细粒度VQA, 视觉裁剪, KV-Cache, 目标定位, MLLM

一句话总结¶

提出 FOCUS，一种无需训练的视觉裁剪方法，利用 MLLM 内部 KV-cache 中 value 特征的余弦相似度构建目标相关性图，高效定位问题相关的图像区域，在细粒度 VQA 上实现与 SOTA 可比的精度，同时计算效率提升 3-6.5 倍。

研究背景与动机¶

领域现状：MLLM 在 VQA 任务上表现出色，但面对高分辨率图像中的细小目标时性能受限。全局视图 MLLM（如 LLaVA-1.5，仅支持 336x336）会下采样导致信息丢失；全局-局部视图 MLLM（如 LLaVA-OneVision）虽保留了局部 crop，但难以从大量视觉 token 中精准找到与问题相关的少数 token。

现有痛点：已有视觉裁剪方法各有不足——SEAL 需要任务特定微调；DC2 和 ZoomEye 采用穷举层级搜索效率极低（ZoomEye 每个候选区域需 3 次 forward pass）；ViCrop 依赖完整 Q-K 注意力权重，与 FlashAttention 不兼容。

核心矛盾：如何在无需额外训练、不穷举搜索、且兼容高效注意力实现的前提下，精准定位图像中与问题相关的细小目标区域。

切入角度：MLLM 推理时的 KV-cache 中已隐含视觉 token 与文本 token 的语义对应关系。目标物体对应的文本 token 和图像 token 在 value 特征空间中应具有高相似度，可直接从中提取空间定位信息，且不引入额外计算开销。

核心 idea：用 KV-cache 中 value 特征的余弦相似度替代传统注意力权重构建目标相关性图，实现无训练、高效、FlashAttention 兼容的细粒度目标定位。

方法详解¶

整体框架¶

FOCUS 分为四步：(1) 从 VQA 问题中用 ICL 提取目标物体名称；(2) 利用 KV-cache 中的 value 特征计算目标相关性图；(3) 基于相关性图提出候选 ROI 并排序；(4) 用最高置信度的区域执行最终 VQA。整个过程无需任何额外训练或微调，仅需标准 MLLM 推理。

关键设计¶

目标物体提取：
- 利用 MLLM 的 in-context learning 能力，通过 few-shot 示例提示从 VQA 问题中提取需要关注的目标物体名称
- 可提取单个或多个目标物体，后续为每个目标分别构建相关性图
V-V 伪注意力与目标相关性图：
- 对每个目标 token 与所有视觉 token 在第 l 层计算余弦相似度，reshape 为 a x a 的空间图
- 跨层聚合：用注意力 rollout 加残差连接聚合第 l 到第 L 层的信息
- 多 token 交集：不同 target token 间用逐元素乘法取交集，确保只有同时匹配所有 token 的区域被保留（如 "red car" 只保留红色+车共现区域）
- 设计动机：传统 Q-K 注意力权重在 FlashAttention 下不可用，而 value 特征已在推理必须的 KV-cache 中，零额外计算开销
- 对全局-局部视图 MLLM，使用局部 crop 的视觉 token 来计算伪注意力，经验上能更好捕捉细粒度细节
候选区域提出与排序：
- 选取相关性图中 top-k 最高分位置为锚点（保证最小间距）
- 每个锚点生成初始 ROI（最小尺寸），向外扩展直至最大尺寸或平均相关性低于阈值
- 用 NMS 去重后，对 top-n_steps 个 ROI 向 MLLM 询问"该区域是否存在目标"并计算存在置信度，据此重排序
- 设计动机：相关性图可能有噪声（spurious high-activation tokens），需二次验证确认 ROI 中确实包含目标
最终 VQA 推理：
- Type-1 问题（单目标）：选最高置信度 ROI 执行 VQA；涉及多个目标物体则合并各自最佳 ROI
- Type-2 问题（多实例）：选取所有置信度超过阈值的 ROI
- 对全局-局部视图 MLLM，利用 text-image-interleaved 能力，同时提供标注了目标位置的全局图和各目标的最佳 ROI

训练策略¶

无需训练。所有操作在推理时完成，通过 n_steps（1-8）控制计算预算。LLaVA-1.5 使用第 14-32 层，LLaVA-OneVision 使用第 14-28 层。

实验关键数据¶

主实验（LLaVA-1.5-7B）¶

数据集	FOCUS Acc	ZoomEye Acc	效率提升
V*Bench	72.77%	77.48%	3.43x
HRBench-4K	51.75%	49.75%	4.39x
HRBench-8K	45.00%	49.00%	4.72x

主实验（LLaVA-OneVision-7B）¶

数据集	FOCUS Acc	ZoomEye Acc	Vanilla
V*Bench	92.15%	89.53%	74.46%
HRBench-4K	72.00%	68.50%	58.00%
HRBench-8K	66.50%	64.75%	56.25%

MME-RealWorld-Lite（LLaVA-OV-7B）¶

方法	感知 Acc	推理 Acc	感知 FP	推理 FP
Vanilla	52.01%	40.93%	-	-
ZoomEye	56.29%	43.20%	41.60	45.95
FOCUS	54.15%	44.53%	7.71	8.21

FOCUS 在推理任务上优于 ZoomEye，感知稍弱，但效率高 5.47 倍。

Qwen-2.5-VL-7B 验证¶

数据集	Vanilla	FOCUS
V*Bench	79.06%	90.58%
HRBench-4K	71.62%	79.25%
HRBench-8K	68.62%	76.25%

验证了 FOCUS 对不同 MLLM 架构的泛化能力。

消融实验¶

配置	V*Bench Acc	V*Bench Recall	HRBench-4K Acc
Full FOCUS	72.77%	-	51.75%
随机相关性图 + 有排序	48.68%	18.37%	36.13%
有相关性图 + 无排序	51.30%	38.48%	41.13%
K-K 伪注意力 (去 RoPE)	69.10%	63.47%	45.63%
Layer 0-14	66.49%	76.17%	47.38%
Layer 0-32	71.20%	75.56%	49.38%
Layer 14-32（默认）	72.77%	-	51.75%

关键发现¶

目标相关性图和 ROI 排序两个模块均不可或缺：去掉相关性图精度降约 24pp，去掉排序降约 21pp
即使用随机相关性图，排序机制仍远高于随机猜测（48.68% vs 35.99%），说明排序本身具有鲁棒性
V-V 特征优于去除 RoPE 的 K-K 特征：key 特征中 RoPE 引入位置旋转导致邻近 token 余弦相似度虚高，去除 RoPE 又破坏语义完整性
后层表示（14-32）优于前层（0-14）和全层（0-32），与 Logit Lens 发现一致——后层编码更具语义判别性
大物体数据集上性能损失可控：A-OKVQA 仅降 3.23pp，GQA 降 1.63pp
超参数鲁棒性好：LLaVA-1.5 最大变化 4.71pp，LLaVA-OV 仅 2.62pp

亮点与洞察¶

KV-cache 的新用途：推理时已有的 KV-cache value 特征被巧妙用于目标定位，零额外存储开销且天然兼容 FlashAttention，是典型的"免费午餐"式设计
V-V 伪注意力：用 value-value 余弦相似度替代 Q-K 注意力权重，规避了高效注意力实现不输出注意力矩阵的问题；同时揭示了 value 特征比 key 特征更适合做语义相似度度量（因不受 RoPE 干扰），对注意力机制理解有启发意义
多 token 交集过滤：逐元素乘法聚合多个 target token 的相关性图，用 AND 语义确保只有同时满足所有文本条件的区域被保留，思路简洁且有效
效率优势来源清晰：ZoomEye 每个候选区域需 3 次 FP 且穷举搜索；FOCUS 仅 1 次 FP 即可构建全局相关性图，搜索是 informed 而非 exhaustive 的

局限性¶

受限于 MLLM 内部表示的空间分辨率：LLaVA-1.5 仅产生 24x24 相关性图，面对 8K 图像中极小目标可能无法检测
继承基座 MLLM 对空间关系理解的不足（如"在图像左侧/右侧"），无训练方法无法改善这一固有缺陷
在大物体数据集（如 GQA 用 LLaVA-OV）上降幅达 10.99pp，裁剪可能过度丢弃对大物体有用的全局上下文
目标物体提取依赖 ICL，复杂多目标场景可能提取不准确

启发与关联¶

KV-cache 中隐含空间信息的发现可迁移至多种任务：无训练开放词汇检测、图像编辑区域定位、视频时空定位等
V-V 伪注意力可作为 FlashAttention 场景下注意力可视化和解释性分析的通用替代方案
多 token 交集过滤的 AND 语义是处理组合属性查询的简洁范式，可用于多属性检索和组合推理

评分¶

新颖性: ⭐⭐⭐⭐ 利用 KV-cache value 特征做目标定位是新颖视角，但整体仍是"先定位再回答"的标准范式
实验充分度: ⭐⭐⭐⭐⭐ 四个数据集、三种模型架构、详细消融和超参分析，非常全面
写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰，方法描述精确，图表设计优秀，与竞品对比公允
价值: ⭐⭐⭐⭐ 解决了实际的效率痛点，方法简洁优雅且即插即用，对工业部署有参考价值