PinPoint: Focus, Don't Prune — Identifying Instruction-Relevant Regions for Information-Rich Image Understanding¶

会议: CVPR 2026
arXiv: 2603.22815
代码: GitHub
领域: Multimodal / VLM
关键词: 大视觉语言模型, Token 效率, 区域选择, 对比学习, 文档理解

一句话总结¶

提出 PinPoint，一个两阶段框架：先通过 Instruction-Region Alignment 定位与指令相关的图像区域，再对选中区域精细化编码，以更少的 visual token 实现更高的 VQA 精度。

研究背景与动机¶

领域现状：LVLM（如 LLaVA-NeXT、Qwen2-VL）通过高分辨率输入在多模态任务上取得显著进展，但处理信息密集图像（如信息图、文档排版）需要大量 visual token，计算开销巨大。

现有痛点：Token Pruning 方法（FastV、PyramidDrop、SparseVLM）基于 LLM 解码层的注意力权重来裁剪不重要 token。存在三大问题： - 注意力图不可靠，可能导致幻觉 - 语义碎片化——视觉元素（如文字）跨多个 token，逐 token 裁剪破坏语义完整性 - 上下文纠缠——全局自注意力使相关/无关区域 token 纠缠

核心矛盾：需要高分辨率以捕获细粒度信息 vs 计算效率；逐 token 裁剪的粗暴方式无法保持语义完整性。

本文目标：如何在保持精度的同时大幅减少视觉 token 数量？

切入角度：模拟人类视觉策略——先全局扫描定位相关区域，再聚焦细节。区域级而非 token 级的选择更符合语义结构。

核心 idea：用可学习的 guidance query 在公共特征空间中对齐视觉区域和文本指令，选择指令相关区域后重新编码，去除无关上下文。

方法详解¶

整体框架¶

PinPoint 包含两个阶段： 1. Region Selection：对整张图像提取区域级特征，通过 Instruction-Region Alignment 定位最相关区域 2. Region Refinement：对选中区域重新通过 ViT 编码，去除全局自注意力引入的无关上下文，生成更紧凑精确的 visual token

关键设计¶

Region-Level Feature Extraction（区域级特征提取）：
- 将 visual token 重排为 2D 空间网格，使用 \(W \times H\) 滑动窗口（stride \(S\)）提取区域表示 \(\mathbf{R}_i \in \mathbb{R}^{W \times H \times d}\)
- 设计动机：区域级比较比 token 级更好地捕获上下文关系和语义完整性
Instruction-Region Alignment（指令-区域对齐）：
- 使用可学习 guidance queries \(E \in \mathbb{R}^{K \times d}\) 作为跨模态桥梁
- 分别对视觉区域和文本指令做缩放点积注意力： \(E_i^v = A_i^v \cdot \mathbf{R}_i', \quad E^t = A^t \cdot \mathbf{T}'\)
- 通过余弦相似度排序候选区域，自适应选择 top 区域直至覆盖率达到预设比例 \(r\)
- 设计动机：decoder-only LLM 没有 CLS token 来聚合语义，BPE 子词与视觉特征不对齐，需要额外模块来桥接
双对比学习训练：
- Inter-modal Contrastive Loss \(\mathcal{L}_\text{inter}\)：跨模态对齐——正样本为指令文本与其对应正区域，负样本为 batch 内不配对样本
- Intra-image Contrastive Loss \(\mathcal{L}_\text{intra}\)：图内区域区分——将指令文本拉向答案相关区域，推离无关区域
- 设计动机：双损失确保模型既能跨模态对齐，又能图内区域区分

损失函数 / 训练策略¶

\(\mathcal{L}_\text{total} = \mathcal{L}_\text{inter} + \lambda \mathcal{L}_\text{intra}\)，\(\lambda = 0.5\)
仅训练 guidance queries 和两个 MLP 层，冻结 LLM、ViT、Projector
训练 5 epochs，batch size 32，lr 2e-5
窗口参数：\(W=H=10\)，stride=7，覆盖率 \(r=0.6\)，\(K=100\)

实验关键数据¶

主实验¶

模型	方法	InfoVQA ANLS↑	FLOPs(T)↓	SPDocVQA ANLS↑	GQA Acc↑
LLaVA-NeXT-7B	Vanilla	0.2552	38.98 (100%)	0.6628	0.7598
LLaVA-NeXT-7B	FastV	0.2306	26.22 (67%)	0.6099	0.7478
LLaVA-NeXT-7B	SparseVLM	0.2428	27.45 (70%)	0.5726	0.7449
LLaVA-NeXT-7B	PinPoint	0.3024	25.48 (65%)	0.6472	0.7608
Qwen2-VL-7B	Vanilla	0.7399	51.98 (100%)	0.9359	0.7687
Qwen2-VL-7B	PinPoint	0.7140	28.88 (56%)	0.8977	0.7624

在 InfoVQA 上，PinPoint 比 Vanilla 精度高 18.5%，计算量仅 65.3%。

消融实验¶

配置	InfoVQA ANLS	区域准确率	说明
无 \(\mathcal{L}_\text{intra}\)	0.3011	82%	图内对比缺失导致区域区分能力下降
有 \(\mathcal{L}_\text{intra}\)	0.3024	84%	完整损失实现更好的区域定位
ViCrop 方法	0.2547	-	迭代 LLM 交互极其昂贵（FLOPs 378%）
Ours + Global	0.3075	-	加入全局特征进一步提升

关键发现¶

指令相关 token 占比越高，VQA 精度越高（线性正相关）
Token pruning 方法基于注意力权重裁剪反而可能删除答案关键 token
Region Refinement 通过隔离重编码去除无关上下文纠缠，效果显著

亮点与洞察¶

"Focus, Don't Prune" 的设计哲学——不是裁剪不重要的，而是选择最重要的
轻量级设计：仅训练 guidance queries + 2 个 MLP，冻结所有其他组件
跨模型泛化：在 LLaVA-NeXT 和 Qwen2-VL 上均有效
提供了 InfoVQA/SPDocVQA/MPDocVQA 的新标注数据集——包含多个支撑证据的 bbox

局限与展望¶

滑动窗口粒度固定，可能不适应所有分辨率
对自然图像（GQA）的提升不如文档/信息图显著
区域选择阶段增加了一定延迟（约 381ms vs Vanilla 569ms，但节省了后续计算）
未探索与更新的 token pruning 方法结合使用

评分¶

新颖性: ⭐⭐⭐⭐ 区域级选择 + 重编码的组合设计简洁有效，但概念相对直觉
实验充分度: ⭐⭐⭐⭐⭐ 四个基准+两个基模型+对比方法全面+消融充分
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰、图表丰富、动机充分
价值: ⭐⭐⭐⭐ 对信息密集场景有实际应用价值，方法通用性好