Breaking the Regional Perception Bottleneck of Multimodal Large Language Models via External Reasoning Framework¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 多模态VLM
关键词: 区域感知, 视觉定位, 多模态MCTS, 推理扩展, 特征对齐

一句话总结¶

本文先剖出多模态大模型（MLLM）做像素级定位（grounding）的真瓶颈不在"看清区域"而在"把区域翻译成坐标"的语义精炼阶段，再用一套基于多模态蒙特卡洛树搜索（MCTS）的外置推理框架 R-Ground，把算力定向投到该阶段，让 7B 模型在 RefCOCO 系列上反超 72B。

研究背景与动机¶

领域现状：MLLM 从"对整张图做 QA"进化到"对图中具体区域做细粒度感知"，其中最难的就是 grounding——给一句话描述，输出目标的像素坐标框。主流做法有两类：一类给 MLLM 深层特征接一个回归 decoder（如 LLaVA-Grounding、GLaMM），定位准但破坏了端到端生成范式、还要额外训练 decoder；另一类是纯 MLLM 直接用自然语言"说出"坐标文本（如 Shikra、Ferret、Qwen-VL），保持端到端但精度上不去。

现有痛点：第二条路线沿用了 LLM 的老办法——堆参数、堆数据来 scaling。但实测发现，grounding 任务上的收益远小于普通 QA 任务：Qwen2.5-VL 从 7B 放大到 72B，RefCOCO+ 的 val 也才从 84.2 涨到 88.9。投入巨大、回报微薄，说明"无脑放大整模型"没打到要害。

核心矛盾：作者做了一个关键的表征分析（第 3 节），发现 LM decoder 在处理多模态信息时会自然分成两段——浅层是视觉感知阶段（VPS），把区域信息持续强化进隐状态；深层是语义精炼阶段（SRS），把视觉表征映射成坐标文本。两个现象很关键：(1) PSR（Perception-to-Semantics Refinement）——用每层隐状态与目标区域特征的余弦相似度衡量，相似度先升后降，降到低于首层即认为模型对目标失去注意力，这个拐点就是 VPS↔SRS 边界；(2) SDSG（Semantics-Dominated Scaling Gap）——把各层隐状态喂给一个 DETR decoder 测检测性能，发现 7B 和 72B 在 VPS 段几乎打平（grounding setting 下最佳性能差仅 1.6%），差距全在 SRS 段拉开（末层差 13.4%）。

本文目标：既然不同规模模型在"看区域"上能力相当、差距全在"精炼成语义"这一段，那就别再均匀放大整个模型（白白浪费算力在 VPS 上），而要只对 SRS 做定向 scaling。

切入角度：常规 CoT 用固定模板，无法动态强化某个推理阶段；而作者注意到——"任务设定（task setting）本身能引导 MLLM 把有效算力导向某个阶段"（REG setting 下 SRS 来得比 grounding setting 早得多）。于是把"选什么任务设定、走哪条推理路径"交给一个会自我演化的搜索算法去探索。

核心 idea：用一套多模态 MCTS 推理框架，在推理时（test-time）把计算定向扩展到语义精炼阶段——不改 MLLM 权重，靠精心设计的推理动作集 + 多模态对齐打分 + 加权投票，把一个 7B 模型的定位能力推到 72B 之上。

方法详解¶

整体框架¶

R-Ground 是一个外置（external）、test-time 的推理框架，不微调 MLLM 本体。输入是一张图 + 一句指代表达（referring expression），输出是目标的像素坐标框。它把 grounding 问题 \(X\) 拆成一棵搜索树 \(T\)：每个节点是一个状态 \(S\)，由某个推理动作 \(A\) 在特定 task setting 下生成，节点串成生成路径 \(P = X \oplus S_1 \oplus S_2 \oplus \dots \oplus S_c\)。

整条 pipeline 三步走：(1) 用一个动作集（视觉主导 \(A_v\) + 语义主导 \(A_s\)）在 MCTS 里展开搜索树，靠"语义动作多于视觉动作"的配比，把推理重心压向 SRS；(2) 在节点选择时，把多模态特征对齐分 \(\sigma(S)\) 加进标准 UCT，让搜索更稳、并能提前剪掉错误路径；(3) 树建完后，对所有合法叶节点用区域特征加权投票聚合出最终框。MCTS 深度设 4、rollout 设 16。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：图像 + 指代表达"] --> B["VPS/SRS 瓶颈诊断<br/>语义精炼是真瓶颈"]
    B --> C["多模态 MCTS 推理动作集<br/>视觉动作 Av + 语义动作 As"]
    C --> D["多模态特征对齐打分<br/>σ(S) 进 UCT，剪枝错误路径"]
    D -->|展开到深度4 / 16 rollout| E["区域特征加权投票<br/>按 CLIP 对齐度聚合叶节点"]
    E --> F["输出：目标像素坐标框"]

关键设计¶

1. 多模态 MCTS 推理动作集：用动作配比把算力压向语义精炼

针对"常规 scaling 把算力浪费在 VPS、没增强 SRS"这个根因，R-Ground 不去改模型，而是设计一组推理动作，让 MLLM 在自我探索中多走语义精炼。动作分两类：视觉主导动作 \(A_v\)（grounding setting，强化看区域）和语义主导动作 \(A_s\)（REG setting，强化把区域精炼成描述）。具体五个动作各司其职：\(A_v^1\) 全局定位（带历史路径上下文在全图找目标，借历史信息平衡 VPS/SRS 配比）；\(A_v^2\) 局部定位（只在上一步 \(A_v\) 框出的区域内再定位，抑制把框画得过大的幻觉，仅在已执行过 \(A_v\) 的路径上触发）；\(A_s^3\) 无位置信息的目标状态判断（把路径里所有坐标信息 mask 掉，纯靠文本线索判断目标是否存在，不存在就直接终止该路径避免后续低质状态）；\(A_s^4\) 有位置信息的目标状态判断（把最近的框叠到图上看内容是否匹配目标，不匹配则终止路径）；\(A_s^5\) 目标描述重建（聚合当前路径上所有文本描述 + 位置信息，重写一版更精确的目标描述，后续步骤只保留这版最新描述 + 最近的 \(A_v\) 定位）。

设计上故意让语义动作多于视觉动作——这正是"定向增强 SRS"的落点；同时定义明确的子节点生成规则保证路径 \(P\) 连续：只有视觉主导动作能产生合法叶节点（因为最终要输出框），但每条路径被约束保留足够多的语义精炼动作。这跟固定模板的 CoT 的本质区别是：MCTS 能自适应地在"再看一眼"和"再精炼一下描述"之间动态切换，而不是线性走一条死板的链。

2. 多模态特征对齐打分：把单模态的"反复采样投票"换成跨模态对齐分

纯文本 MCTS（如 rStar 等）算节点质量 \(Q(S,A)\) 时要靠在同一节点反复采样、比对多条回答的一致性——开销极大。R-Ground 指出：多模态场景天然有"图—文是否对得上"这个跨模态参照，可以直接用它替代反复采样。具体把对齐分 \(\sigma(S)\) 加进标准 UCT：

\[UCT^{*}(S,A) = \frac{N_c(S)}{N(S)} + \varphi \cdot \sqrt{\frac{\ln N_{parent}(S)}{N(S)}} + \lambda \cdot \sigma(S)\]

其中 \(\sigma(S)\) 定义为分段函数，\(Clip(v,l)\) 是用 CLIP 算的视觉 \(v\) 与文本 \(l\) 的匹配度，\(\lambda\) 控制对齐分对 UCT 的影响：

\[\sigma(S) = \begin{cases} 1 - \dfrac{1}{1 + Clip(v,l)}, & 0 < Clip(v,l) \le 1, \\[4pt] \ln(1 + Clip(v,l)), & -1 \le Clip(v,l) \le 0. \end{cases}\]

当跨模态正相关（\(Clip(v,l)>0\)）时 \(\sigma\) 平滑上升、鼓励探索这条路；负相关时 \(\sigma\) 急剧趋向负无穷，截断（truncate）后续路径生成，既剪掉错误候选又省算力。打分对象按动作类型区分：视觉动作 \(A_v\) 算"原始目标描述"与"路径上最后一个框对应图像区域"的对齐；语义动作 \(A_s\) 算"路径上第一个框对应区域"与"最新目标描述"的对齐。这一步把 UCT 从"靠重复采样估计"变成"靠跨模态一致性估计"，是稳定多模态搜索的关键。

3. 区域特征加权投票：用图—文对齐度给候选框加权，替代多数投票

树建完后要从所有合法叶节点里选最终答案。单模态 MCTS 几乎都用多数投票（majority voting），或依赖一个额外 LLM 打分，结果质量高度依赖那个外挂模型。R-Ground 改成按区域特征对齐度加权：

\[w_i = \alpha \cdot \frac{Clip(v_i, l_i)}{\sum_j Clip(v_j, l_j)} + (1-\alpha) \cdot \frac{Clip(v_i, l_i')}{\sum_j Clip(v_j, l_i')}\]

其中 \(w_i\) 是第 \(i\) 个候选解的权重，\(v_i\) 是最终图像区域，\(l_i\) 是原始描述、\(l_i'\) 是（经 \(A_s^5\)）重建后的精炼描述，\(\alpha \in [0,1]\) 平衡两者影响。作者点出一个细节：有些原始描述过于抽象（如"最接近 1:45 的钟"），这时调大 \(l_i'\)（重建描述）的权重更能选出正确解。在 grounding 任务里，这个 \(w_i\) 直接作为框合并（如 NMS）的输入来产出最终检测框。相比多数投票，加权投票显著降低了误选概率——RefCOCO+ 平均从 86.36 升到 91.93。

一个完整示例¶

以图中"最接近 1:45 PM 的钟"为例（论文 Fig.4）：根节点用 \(A_v^1\) 全局定位先框出一个黄色三角钟（bbox [53,418,252,573]），\(A_s^4\) 叠框判断"显示 1:52，不是目标"——若纯按位置判断会误终止；另一条路径用 \(A_s^3\) 无位置判断"图中存在两个接近 1:45 的钟：黄色三角钟 + 黑三角加黄圆的钟"，再用 \(A_s^5\) 把描述重建为"指向 1:45、由黑三角和黄圆组成的钟"，最后用 \(A_v^2\) 在对应区域局部定位。多条路径并行展开，各叶节点的框按 \(w_i\)（原始描述 + 重建描述的 CLIP 对齐加权）投票，重建描述帮助从抽象的"最接近 1:45"中锁定真正目标，最终输出正确框。这正体现了 MCTS 相比线性 CoT 的优势：错误分支被 \(\sigma(S)\) 提前截断、正确语义在重建中逐步收敛。

实验关键数据¶

主实验¶

三个指代定位基准 RefCOCO / RefCOCO+ / RefCOCOg，指标 [email protected]。R-Ground 基于 Qwen2.5-VL-7B，反超同系列 72B，甚至超过专家模型和其他推理框架。

方法	RefCOCO+ Val	RefCOCOg Test	八项平均
Qwen2.5-VL 7B（基座）	84.2	87.2	86.56
Qwen2.5-VL 72B（参数 scaling）	88.9	90.3	90.25
InternVL3-78B	90.1	91.5	91.41
UniVG-R1（推理框架）	85.91	88.56	88.20
R-Ground (Qwen2.5-VL-7B)	91.67	93.16	92.93
R-Ground (Qwen3-VL-8B)	93.45	93.21	94.47

关键点：7B + R-Ground（92.93）比 72B 参数 scaling（90.25）还高 2.68，验证了"瓶颈在 SRS、定向推理 scaling 比参数 scaling 更划算"的核心论断；在 Qwen2.5-VL 和 Qwen3-VL 两套坐标格式不同的模型上都有效，说明可迁移。

消融实验¶

全在 RefCOCO+（无空间提示、最考验多模态对齐与推理）上做。

配置	RefCOCO+ Val	TestB	说明
仅 \(A_v^1+A_v^2\)（≈Visual-CoT）	85.63	75.45	纯视觉收缩框
仅 \(A_v^1+A_s^3\)（≈Semantic-CoT）	89.47	82.32	纯语义精炼描述
\(A_v^1+A_s^3+A_s^5\)	90.12	84.98	加描述重建
\(A_v^1+A_s^3+A_s^4+A_s^5\)	90.68	87.63	再加带位置判断
全动作集（R-Ground）	91.67	89.97	完整
w/o 对齐打分	90.89	87.02	UCT 去掉 σ(S)，FLOPs 反升至 87.23T
w/ 对齐打分	91.67	89.97	FLOPs 降到 45.89T
多数投票	86.23	82.45	平均仅 86.36
加权投票	91.67	89.97	平均 91.93

关键发现¶

语义动作比视觉动作更关键：只加视觉动作（Visual-CoT 85.63）远不如加语义动作（Semantic-CoT 89.47），直接佐证"瓶颈在语义精炼"；动作集越完整性能越高，TestB（最难子集）从 75.45 一路涨到 89.97。
对齐打分是"双赢"：加上 \(\sigma(S)\) 不仅精度升（90.89→91.67），FLOPs 反而几乎砍半（87.23T→45.89T）——因为它能提前截断错误路径，少生成无效候选。这是少见的"更准且更省"。
加权投票贡献巨大：从多数投票换成加权投票，RefCOCO+ 平均直接跳 5.57（86.36→91.93），说明在 MCTS 候选变多、仍有残余错误框时，靠图—文对齐度筛选比单纯数票靠谱得多。
超参边际效应早现：区域感知所需推理深度远浅于数学推导这类复杂 QA，深度/rollout 加大收益很快饱和却成倍涨算力，故取 depth=4、rollout=16 平衡。

亮点与洞察¶

先诊断后开方：PSR + SDSG 两个表征分析把"grounding scaling 不灵"的病因精确定位到 SRS，方法（定向 scaling SRS）是诊断的自然推论，逻辑闭环漂亮。这种"用机制分析驱动方法设计"的范式可迁移到任何"scaling 不成比例"的多模态任务。
把多模态当资源而非负担：单模态 MCTS 视"多次采样估计一致性"为必要开销，本文反过来用 CLIP 跨模态对齐分替代反复采样——一个 \(Clip(v,l)\) 既是打分器又是剪枝器又是投票权重，三处复用，省算力还提精度。
test-time、零训练、即插即用：不微调 MLLM 本体，纯外置推理框架就让 7B 反超 72B，且在两套不同坐标格式的模型上都生效，工程上很有吸引力。

局限与展望¶

依赖 CLIP 对齐质量：\(\sigma(S)\) 和投票权重全建立在 CLIP 的图—文匹配度上，对 CLIP 本身难分辨的细粒度/小目标场景，剪枝和投票可能误判（论文未深入讨论 CLIP 失效时的退化行为）⚠️。
推理开销仍高于单次前传：即便对齐剪枝把 FLOPs 砍到 45.89T，相比基座直接推理仍是数十倍的 test-time 成本，深度/rollout 一旦调大成本陡增，落地需权衡。
评测局限于 RefCOCO 系：只在三个指代定位基准上验证，对开放词表检测、密集场景、多目标 grounding 的泛化未测。
改进思路：可探索用更强的区域级对齐模型（而非通用 CLIP）做打分；或把"哪些样本值得开 MCTS"做成自适应门控，简单样本走单次前传、难样本才展开树，进一步省算力。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把"瓶颈在语义精炼"的机制诊断与多模态 MCTS 定向 scaling 结合，视角和方法都新
实验充分度: ⭐⭐⭐⭐ 三基准 + 多消融 + 跨基座验证充分，但只限指代定位、未测更广 grounding 场景
写作质量: ⭐⭐⭐⭐⭐ 诊断→方法→实验逻辑闭环，PSR/SDSG 分析清晰有说服力
价值: ⭐⭐⭐⭐⭐ test-time 零训练让 7B 反超 72B，对区域感知落地有直接实用价值