VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models¶

会议: CVPR 2026
arXiv: 2603.00207
代码: 无
领域: LLM推理 / 多模态VLM
关键词: 视觉重聚焦、测试时缩放、多模态推理、行列式点过程、免训练

一句话总结¶

本文提出 VisRef，一种免训练的视觉重聚焦框架，通过在多模态大推理模型（MLRM）的推理过程中使用行列式点过程（DPP）动态选择并重新注入与当前推理上下文语义相关且多样化的视觉 token，解决了长链推理中视觉注意力逐渐衰减的问题，在 MathVista 等基准上提升高达 6.4%。

研究背景与动机¶

领域现状：多模态大推理模型（MLRMs）如 InternVL、Qwen-VL 等通过生成 chain-of-thought 推理链在视觉推理任务上取得了出色表现。测试时缩放（test-time scaling）通过增加推理计算来提升性能。
现有痛点：随着推理链变长，视觉 token 在不断扩展的上下文窗口中被逐渐稀释，模型的注意力从图像内容转向文本先验，导致视觉信息丢失。现有的文本自反思方法只延长了文本推理但无法维持视觉知觉。
核心矛盾：基于 RL 微调的视觉重聚焦方法（如 Look-Back）虽然效果好，但需要大量训练数据和计算资源。而文本类的测试时缩放方法对视觉需求高的任务反而可能损害性能。
本文目标：能否在不做任何微调的情况下，纯粹在测试时恢复视觉 grounding？核心是两个问题——选哪些视觉 token 重新注入，以及何时停止推理。
切入角度：模仿人类解题时"看一眼图→推理→再看一眼图"的交替行为，在每个推理步骤自适应注入一组精心选取的视觉 token 核心子集。
核心 idea：用 DPP 选取与当前推理状态相关且视觉覆盖多样的 token 子集来重注入，确保推理全程保持视觉 grounding。

方法详解¶

整体框架¶

VisRef 在 MLRM 的推理过程中工作：给定图文输入 \(x_{\text{input}} = [I, T]\)，模型生成推理步骤 \(z_k\)，VisRef 在每一步选择一个视觉 token 子集 \(V_k \subseteq \mathcal{V}\) 并重新注入到上下文中，形成视觉增强的推理轨迹 \(\tau_{1:k} = \{(z_1, V_1), ..., (z_k, V_k)\}\)。当基于熵的停止准则满足时，生成最终答案。

关键设计¶

DPP 视觉 token 选择（Determinantal Point Process-based Selection）
- 功能：在每个推理步骤选择与推理上下文相关且相互多样化的视觉 token 子集
- 核心思路：首先计算当前推理步骤的文本 token 嵌入的二阶矩矩阵 \(M_k = \sum_{i} z_k^{(i)} (z_k^{(i)})^\top\) 来捕捉推理子空间几何。然后定义核函数 \(L_k(v_i, v_j) = v_i^\top M_k v_j\)，将视觉 token 投影到文本推理子空间中计算相似性。DPP 的行列式 \(\det(L_k^{V_k})\) 自然平衡了相关性（对角线项高 = token 与推理状态对齐）和多样性（非对角线项低 = 视觉覆盖广）。通过 \(\log\det\) 的分解，目标明确为相关性项 \(\sum \log(r_i^2)\) 加多样性项 \(\log\det(\bar{L}_k^{V_k})\)
- 设计动机：朴素方案——重注入全部视觉 token——计算代价高昂（推理延迟增加 2.3x）且引入冗余。DPP 提供了一个理论上优雅且实际可行的子集选择框架，同时考虑相关性和多样性
贪心近似求解
- 功能：高效求解 NP-hard 的 DPP 子集选择问题
- 核心思路：从空集出发，每次选择能带来最大边际增益的 token：\(v_{k,i} = \arg\max_{v} \log(\det(L_k^{V_k^{(i-1)} \cup \{v\}}) / \det(L_k^{V_k^{(i-1)}}))\)，迭代 \(m\) 次得到大小为 \(m\) 的子集。设置 token 预算 \(m = \lfloor 0.3|\mathcal{V}|\rfloor\)（即选 30% 的视觉 token）
- 设计动机：贪心算法在 DPP 优化中有经典的 \((1-1/e)\) 近似保证，实际效果与精确解接近
基于熵的自适应停止准则
- 功能：判断何时终止推理并输出最终答案
- 核心思路：在每个推理步骤计算模型回答分布的熵 \(H_k = -\mathbb{E}[\log \pi_\theta(y | x_{\text{input}}, \tau_{1:k})]\)，当 \(H_k < \delta_{\text{entropy}}\) 时停止（默认 \(\delta_{\text{entropy}} = 0.25\)）。同时设置最大推理步数 \(K_{\max} = 10\) 防止无限推理
- 设计动机：低熵意味着模型已经足够自信，继续推理可能导致"过度思考"而无法提升；高熵意味着仍有不确定性，需要更多推理。这自然适应了问题难度

损失函数 / 训练策略¶

VisRef 是完全免训练的框架，不需要任何参数更新或微调，直接在推理时使用。

实验关键数据¶

主实验¶

在三个视觉推理基准上的准确率（%）：

模型	方法	MathVision	MathVista	MM-Star
InternVL3.5-8B	标准推理	39.2	68.1	57.2
	文本自反思	40.1	73.9	58.3
	VisRef	44.6 (+5.4)	79.3 (+11.2)	63.1 (+5.9)
Qwen3-VL-8B	标准推理	53.8	74.1	66.5
	VisRef	56.6 (+2.8)	77.1 (+3.0)	69.1 (+2.6)
SAIL-VL2-8B	标准推理	29.8	73.1	47.7
	VisRef	37.3 (+7.5)	78.2 (+5.1)	55.3 (+7.6)

与训练基方法对比（InternVL3.5-8B）：

方法	MathVista	MathVision	MM-Star
Look-Back (RL微调)	80.8	44.2	63.7
VisRef (免训练)	79.3	44.6	63.1
Look-Back + VisRef	83.1	48.2	66.0

消融实验¶

相关性 vs 多样性消融（InternVL3.5-8B）：

相关性	多样性	MathVista	MathVision	MM-Star
✓	✗	75.6	43.3	61.0
✗	✓	77.4	42.9	62.8
✓	✓	79.3	44.6	63.1

关键发现¶

文本自反思（TSR）对视觉任务的提升不稳定（-0.6% ~ +2.1%），而 VisRef 始终大幅提升
仅用相关性选 token 性能大幅下降，多样性项对避免冗余至关重要
Token 预算 30% 是最优点，20% 太少（76.1%），40% 无额外增益
VisRef 与训练基方法（Look-Back）正交，组合使用还能额外提升 2-4%
在固定 token 预算条件下，VisRef 的多链并行推理在所有预算水平上都优于纯文本并行推理

亮点与洞察¶

完全免训练的 plug-and-play 设计：不需要任何微调、数据集构建或架构修改，可以直接应用于任何预训练 MLRM，实用性极强
DPP 的使用既优雅又有效：将视觉 token 选择形式化为相关性和多样性的联合优化，比启发式方法有理论保证。\(\log\det\) 分解为相关性+多样性的证明非常漂亮
注意力可视化验证了直觉：VisRef 确实使模型在推理过程中持续关注任务相关的视觉区域，而非逐渐丢失视觉信息
与训练方法正交：这意味着 VisRef 可以作为任何 MLRM 的即插即用增强，不论模型是否经过特殊推理训练

局限与展望¶

DPP 核矩阵的计算需要 \(O(N^2 d)\)，当视觉 token 数量很大时开销不可忽略
当前是均匀地在每步注入固定比例的 token，可以考虑根据问题难度自适应调整注入量
仅在 8B 模型上验证，更大模型（70B+）的效果未知
停止准则依赖于熵阈值超参，不同任务可能需要不同的最优值

评分¶

新颖性: ⭐⭐⭐⭐⭐ DPP 用于推理时视觉 token 选择是全新思路
实验充分度: ⭐⭐⭐⭐ 三模型三基准，消融全面，但缺少大模型实验
写作质量: ⭐⭐⭐⭐⭐ 理论推导优雅，从问题定义到解决方案逻辑清晰
价值: ⭐⭐⭐⭐⭐ 免训练且即插即用，实用价值极高