CropVLM: Learning to Zoom for Fine-Grained Vision-Language Perception¶
会议: CVPR 2026
arXiv: 2511.19820
代码: GitHub
领域: 多模态VLM
关键词: 视觉裁剪, 强化学习, GRPO, 细粒度感知, 即插即用
一句话总结¶
提出CropVLM——一个256M参数的轻量裁剪网络,通过GRPO强化学习训练(无需人工标注边界框),动态选择图像最有信息量的区域供VLM聚焦,可与开源和商用VLM即插即用地提升细粒度视觉理解性能。
研究背景与动机¶
VLM在需要细粒度视觉感知的任务(文档分析、场景文字识别等)中受限于输入分辨率——LLaVA-1.5的336×336分辨率无法分辨小文字。均匀提高分辨率计算代价巨大且不必要(研究表明大多数请求只需少量image token即可回答)。
现有方法的局限: - 架构修改(如Matryoshka、S2)需要大量重训练,有灾难性遗忘风险 - 不适用于商用模型(权重不可访问) - ViCrop等无训练方法依赖注意力图/梯度,分布外泛化差 - UV-CoT使用DPO训练,需要合成偏好对,数据效率低
CropVLM的独特定位:轻量外挂模块,GRPO训练无需人工bbox,兼容开源/商用VLM。
方法详解¶
整体框架¶
输入图像 + 问题 → CropVLM(SmolVLM 256M)生成边界框坐标 → 裁剪原图相应区域 → 原图 + 裁剪图一起送入目标VLM → 生成答案。
关键设计¶
-
基于GRPO的裁剪训练:
- 功能:无需GT边界框,直接优化裁剪对下游VLM性能的贡献
- 核心思路:对每个图像-问题对生成G=6个候选边界框,每个裁剪后与原图一起送入奖励VLM评估质量,通过组内标准化得到相对优势函数
- 设计动机:GT边界框标注昂贵且往往不是最优的(人标注不一定最有助于模型回答)
-
双奖励设计:
- 功能:提供学习信号指导裁剪质量
- 核心思路:准确率奖励(VLM用原图+裁剪图回答后与GT对比)和对数似然奖励(VLM对正确答案的log-likelihood,无需生成,单次前向传播更快)
- 设计动机:似然奖励更细粒度(几乎消除组内奖励相同的情况),使更多样本有效参与权重更新
-
SFT种子初始化:
- 功能:赋予模型生成有效边界框格式的基本能力
- 核心思路:用Qwen 2.5-VL 7B生成合成边界框数据集进行SFT,小面积bbox按百分位扩展
- 设计动机:SmolVLM原始不支持bbox格式输出,需先建立基本能力再RL优化
损失函数 / 训练策略¶
- 两阶段:SFT(学习bbox格式)→ GRPO(优化裁剪质量)
- 所有训练在单张A100 GPU上完成,SFT约3小时,GRPO约24小时(2048px版本)
- 使用LoRA(rank 128, alpha 256)微调SmolVLM
实验关键数据¶
主实验(搭配不同VLM)¶
| 目标VLM | 无CropVLM | +CropVLM(2048) | 平均提升 |
|---|---|---|---|
| LLaVA 1.5 (336px) | 36.69 | 42.71 | +6.02 |
| Qwen 2.5 VL (448px) | 56.42 | 67.14 | +10.72 |
| GPT 4.1 nano (512px) | 41.27 | 47.41 | +6.14 |
对比其他裁剪方法¶
| 方法 | TextVQA | DocVQA | V* | HR-8k | 平均 |
|---|---|---|---|---|---|
| ViCrop (Qwen) | 74.15 | 72.27 | 53.40 | 46.00 | 59.67 |
| UV-CoT (Qwen) | 74.56 | 76.60 | 56.54 | 47.25 | 60.64 |
| CropVLM (Qwen) | 75.72 | 84.41 | 59.69 | 60.75 | 67.14 |
消融实验¶
| 配置 | 1024px平均 | 说明 |
|---|---|---|
| 基线SmolVLM | 44.55 | 无裁剪 |
| + SFT | 46.55 | 合成bbox训练 |
| + GRPO (准确率) | 49.75 | RL优化 |
| + GRPO (似然) | 50.89 | 似然奖励更优 |
关键发现¶
- CropVLM(1024px)搭配SmolVLM的性能超过基线SmolVLM(2048px)——低分辨率+智能裁剪优于高分辨率暴力处理
- 在分布外基准(V*、HR-Bench)上也有显著提升,说明裁剪策略泛化性好
- GPT 4.1 nano搭配CropVLM后拒绝回答的问题从31/191降至2/191
- 似然奖励一致优于准确率奖励
亮点与洞察¶
- 即插即用设计:无需修改目标VLM权重,甚至可用于商用API模型
- 极低成本:256M参数裁剪网络+单GPU训练,但提升显著
- GRPO训练的优雅之处:不需要GT bbox,不需要额外评估器模型,直接用下游性能作为奖励
- 证明了"裁剪"这个简单操作在VLM细粒度理解中的巨大价值
局限与展望¶
- 仅支持单次裁剪,多区域或多步推理未探索
- SmolVLM的数字输出词汇表受限(只有0-9数字),生成bbox坐标较慢
- 训练资源保守(单GPU、小group size),可能是性能下界
- 裁剪网络输入分辨率固定,未探索自适应分辨率策略
相关工作与启发¶
- vs ViCrop: 无训练方法依赖注意力图/梯度,分布外性能差;CropVLM学到的策略更鲁棒
- vs UV-CoT: DPO训练需249k偏好对+7B模型;CropVLM仅需62k数据+256M模型,更高效
- vs DeepEyes/Mini-o3: 多轮推理开销大;CropVLM单次裁剪即可,推理效率高
评分¶
- 新颖性: ⭐⭐⭐⭐ GRPO裁剪训练+即插即用设计在该领域新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 多VLM、多基准、多方法对比、开销分析全面
- 写作质量: ⭐⭐⭐⭐ 方法简洁清晰,实验呈现规范
- 价值: ⭐⭐⭐⭐ 实用性极强的即插即用方案,低成本高回报