CropVLM: Learning to Zoom for Fine-Grained Vision-Language Perception¶

会议: CVPR 2026
arXiv: 2511.19820
代码: GitHub
领域: 多模态VLM
关键词: 视觉裁剪, 强化学习, GRPO, 细粒度感知, 即插即用

一句话总结¶

提出CropVLM——一个256M参数的轻量裁剪网络，通过GRPO强化学习训练（无需人工标注边界框），动态选择图像最有信息量的区域供VLM聚焦，可与开源和商用VLM即插即用地提升细粒度视觉理解性能。

VLM在需要细粒度视觉感知的任务（文档分析、场景文字识别等）中受限于输入分辨率——LLaVA-1.5的336×336分辨率无法分辨小文字。均匀提高分辨率计算代价巨大且不必要（研究表明大多数请求只需少量image token即可回答）。

现有方法的局限： - 架构修改（如Matryoshka、S2）需要大量重训练，有灾难性遗忘风险 - 不适用于商用模型（权重不可访问） - ViCrop等无训练方法依赖注意力图/梯度，分布外泛化差 - UV-CoT使用DPO训练，需要合成偏好对，数据效率低

CropVLM的独特定位：轻量外挂模块，GRPO训练无需人工bbox，兼容开源/商用VLM。

输入图像 + 问题 → CropVLM（SmolVLM 256M）生成边界框坐标 → 裁剪原图相应区域 → 原图 + 裁剪图一起送入目标VLM → 生成答案。

基于GRPO的裁剪训练:
- 功能：无需GT边界框，直接优化裁剪对下游VLM性能的贡献
- 核心思路：对每个图像-问题对生成G=6个候选边界框，每个裁剪后与原图一起送入奖励VLM评估质量，通过组内标准化得到相对优势函数
- 设计动机：GT边界框标注昂贵且往往不是最优的（人标注不一定最有助于模型回答）
双奖励设计:
- 功能：提供学习信号指导裁剪质量
- 核心思路：准确率奖励（VLM用原图+裁剪图回答后与GT对比）和对数似然奖励（VLM对正确答案的log-likelihood，无需生成，单次前向传播更快）
- 设计动机：似然奖励更细粒度（几乎消除组内奖励相同的情况），使更多样本有效参与权重更新
SFT种子初始化:
- 功能：赋予模型生成有效边界框格式的基本能力
- 核心思路：用Qwen 2.5-VL 7B生成合成边界框数据集进行SFT，小面积bbox按百分位扩展
- 设计动机：SmolVLM原始不支持bbox格式输出，需先建立基本能力再RL优化

目标VLM	无CropVLM	+CropVLM(2048)	平均提升
LLaVA 1.5 (336px)	36.69	42.71	+6.02
Qwen 2.5 VL (448px)	56.42	67.14	+10.72
GPT 4.1 nano (512px)	41.27	47.41	+6.14

方法	TextVQA	DocVQA	V*	HR-8k	平均
ViCrop (Qwen)	74.15	72.27	53.40	46.00	59.67
UV-CoT (Qwen)	74.56	76.60	56.54	47.25	60.64
CropVLM (Qwen)	75.72	84.41	59.69	60.75	67.14