ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ehKzPoOReW
代码: github.com/nota-github/ERGO
领域: 多模态VLM
关键词: 高分辨率理解, coarse-to-fine, thinking with images, 强化学习, 视觉token效率

一句话总结¶

ERGO 用一套面向"效率"设计的 RL 奖励（区域验证奖励 + 框尺寸调节奖励），让 LVLM 在低分辨率粗看图上做"推理驱动的感知"——即使目标物体被降采样到看不清，也能借上下文线索定位到正确区域再放大重编码，在 V* 上比 Qwen2.5-VL-7B 高 4.7 分却只用 23% 的视觉 token、推理快 3 倍。

研究背景与动机¶

领域现状：高分辨率图像理解对真实场景的 LVLM 至关重要，近期 RL 后训练催生了"thinking with images"范式——模型不只用文本推理，还能裁剪高保真子图、输出 bounding box 坐标在视觉模态内推理，从而抓住细粒度细节。

现有痛点：高分辨率输入意味着海量视觉 token，算力开销极高。一个直接的省钱思路是 two-stage "coarse-to-fine"：先用降采样的粗图定位任务相关区域，再只把这些区域按原分辨率裁出来重编码。但现有方法（DeepEyes、PixelReasoner 等）都是"perception-driven reasoning"——先精确定位清晰可见的目标再推理，训练时几乎不接触降采样输入，一旦降采样后目标物体变得模糊不可辨，第一阶段就直接定位失败。

核心矛盾：粗看图省 token，但目标在粗图里"看不清"；要看清又得保留全部 token，省不下来。关键在于——能否在只有粗糙视觉线索时仍鲁棒地找到信息区域。

本文目标：训练目标显式对齐"视觉处理效率"，让模型学会在低分辨率、目标不可辨的输入下也能定位到正确区域。

核心 idea：把范式从"perception-driven reasoning"翻转为"reasoning-driven perception"——用多模态上下文（如"吸管通常在桌上的咖啡杯旁边"）推断该往哪看，并能容忍感知不确定性、适当扩大裁剪区域以覆盖模糊地带；这一切由专门设计的 RL 奖励来诱导。

方法详解¶

整体框架¶

ERGO 是基于 GRPO 的 RL 后训练 pipeline，策略模型 \(\pi_\theta\)（Qwen2.5-VL-7B）走一个两阶段多轮流程：① 给定原图 \(I_{orig}\) 和查询 \(q\)，模型先输出候选 bounding box 坐标 \(o_{region}\) 和思考轨迹；② 按坐标从原图裁出 \(I_{region}=\text{crop}(I_{orig}, o_{region})\)；③ 模型在多轮条件下结合历史交互与裁剪区域生成最终答案 \(o_{acc}\)。核心创新全在奖励设计——用一个冻结的 Qwen2.5-VL-72B 作奖励模型，专门为 coarse-to-fine 视觉接地推理量身定制奖励。

flowchart LR
    A[原图 I_orig + 查询 q] --> B[策略模型 π_θ<br/>输出 bbox o_region + think]
    B --> C[裁剪 I_region]
    C --> D[奖励模型 R<br/>仅看 I_region+q]
    D -->|r_region 区域验证| E[TCE 奖励]
    C -->|面积比≤γ| F[r_box 框调节]
    F --> E
    C --> G[策略模型多轮<br/>生成答案 o_acc]
    G -->|r_acc 准确率| H[总奖励 R]
    G -->|r_format 格式| H
    E --> H

关键设计¶

1. 区域验证奖励（Region-verification reward）：让裁剪区域"自给自足"。 多数 thinking-with-images 方法把原图也喂给奖励模型 \(R(\cdot|I_{orig}, I_{region}, q)\)，但作者指出这是次优的——奖励模型会偷看原图、给查询额外提示，从而削弱"裁剪区域单独就够用"的目标。在 coarse-to-fine 场景下尤其致命，因为低分辨率原图本就线索稀少。ERGO 把奖励模型的输入只留下裁剪区域和查询：\(o_{RM}\sim R(\cdot|I_{region}, q)\)，\(r_{region}=\mathbb{1}[\text{match}(o_{RM}, o_{GT})]\)。这把"定位最优区域"这个复杂任务，转化为"用单张裁剪图答对问题"这个简单任务，逼着策略模型挑出真正信息充分的区域，且不需要额外标注。

2. 框调节奖励（Box adjustment reward）：防止退化成"整图当裁剪"。 只有区域奖励时，模型早期会走捷径——永远选整张图（整图必然自给自足，区域奖励满分），但这就完全失去了效率。于是用一个阶跃函数惩罚过大裁剪：\(r_{box}=\mathbb{1}\left[\frac{\text{Area}(I_{region})}{\text{Area}(I_{orig})}\le\gamma\right]\)。\(\gamma\) 取值很关键——太低会逼出退化解，太高又失去灵活性。作者统计了 TreeVGR/VisCoT/V*/VGR 等数据集发现大多数 GT 区域占整图不到 60%，据此设 \(\gamma=0.6\)。

3. TCE 奖励组合 + 常规奖励。 把区域奖励与框调节奖励组合成主奖励 \(r_{TCE}=\alpha\cdot r_{region}+\beta\cdot r_{box}\)（\(\alpha=1, \beta=0.5\)，称为 reward weighting）。但 TCE 只间接促进答对，于是再补两个常规奖励：准确率奖励 \(r_{acc}=\mathbb{1}[\text{match}(o_{acc}, o_{GT})]\) 直接优化答题正确性；格式奖励 \(r_{format}\) 强制 <think>、<answer>、<zoom> 标签规范。最终总奖励 \(R=r_{TCE}+r_{acc}+r_{format}\)，用 GRPO 优化。

实验关键数据¶

主实验¶

基于 Qwen2.5-VL-7B-Instruct（策略）+ Qwen2.5-VL-72B-Instruct（冻结奖励），4×H100 训练，6 个高分辨率 VQA 基准平均分（Average）：

基准	像素约束	本文 ERGO	SOTA baseline	Δ
6基准平均	1280×28×28	58.4	MGPO 52.6	+5.8
6基准平均	640×28×28	55.2	TreeVGR 49.2	+6.0
V*	1280×28×28	83.8	MiniO3 81.2	+2.6
V* (vs 原模型16384约束)	640	81.7	Qwen2.5-VL-7B 77.0	+4.7

消融实验¶

奖励设计消融（6 基准平均）：

配置	平均分	说明
Qwen2.5-VL-7B	52.4	基线
A: 仅 r_acc	53.5	只用准确率奖励
B: 仅 r_region	51.4	只用区域验证奖励
C: +框调节奖励	54.9	加 r_box 防退化
D: +reward weighting	55.3	α/β 加权
E: ERGO(全)	58.4	再加格式奖励等完整组件

奖励权重 \((\alpha,\beta)\) 消融：(1.0, 0.5) 取 58.4 为最优，优于 (1.0,1.0)=56.2、(0.5,0.25)=56.8、(1.0,2.0)=54.3。

关键发现¶

效率收益显著：V* 上 640×28×28 时仅 1025 个视觉 token（原模型 16384 约束下 4471 个），推理延迟 1.61s vs 原模型 4.89s，约 3× 加速且单次工具调用即可。
Pareto 最优：ERGO 在 640 约束下用比别人 1280 约束还少的 token 反超所有 baseline。
上下文鲁棒性（目标遮挡实验）：当目标物体被黑框完全遮盖时，ERGO 的 Target Coverage Score 仍最高，证明它真的在用周边视觉/文本上下文而非死记目标外观。
无偏框预测：固定 \(\gamma\) 并未把模型偏向固定大小——在物体占满全帧的 MMVP 上预测大框、在物体很小的 MME-RWL 上预测小框，自适应数据特性。
不损伤通用能力：在 CV-Bench/MMVP/Hallusion/POPE/MMBench/AI2D/ChartQA 等常规基准上 ERGO 基本持平或提升（如 CVBench-3D 73.0→80.3，Hallusion 47.1→52.3）。

亮点与洞察¶

把"奖励模型输入"作为设计变量：去掉原图、只给裁剪区域，这个看似减法的改动恰恰是逼出"自给自足裁剪"的杠杆，思路干净有力。
范式翻转有据可循：Motivation 里 Table 1 先证明"附加 GT 高分辨率子图不掉点"，再证明现有模型在低分辨率下定位失败，逻辑闭环地论证了 reasoning-driven perception 的必要性。
效率目标直接进训练目标：不是事后剪 token，而是从奖励就对齐 token 预算，测试时还能灵活调像素约束。

局限与展望¶

依赖一个 72B 的冻结奖励模型参与训练，训练成本和复现门槛较高。
\(\gamma=0.6\) 来自数据集统计，跨域（如目标普遍占满全帧的任务）可能需要重新校准。
主打单次工具调用追求效率，对需要多步迭代放大的极端高分辨率/多目标场景，单轮裁剪是否够用还需更多验证。
奖励是 0/1 硬匹配（match GT answer），对开放式/长答案任务的可扩展性未充分探讨。

评分¶

新颖性: ⭐⭐⭐⭐ "reasoning-driven perception"的范式翻转加"只喂裁剪区域给奖励模型"的设计角度新颖，是该任务首个明确论证上下文推理价值的工作。
实验充分度: ⭐⭐⭐⭐⭐ 6 个高分辨率基准 + 8 个常规基准、token/延迟对比、奖励消融、权重消融、遮挡鲁棒性与无偏框分析齐全。
写作质量: ⭐⭐⭐⭐ Motivation→Method→Analysis 逻辑严密，图表（Fig.1 对比、Pareto 图）直观有力。
价值: ⭐⭐⭐⭐⭐ 同时拿下更高精度 + 3× 加速 + 23% token，对真实部署的高分辨率 LVLM 极具实用价值，代码开源。