ReaGEN: Adaptive Generation of Structured Chains-of-Thought for Efficient Multimodal Reasoning¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/AISmartPerception/ReaGEN
领域: 多模态VLM / LLM推理
关键词: 多模态推理, 结构化思维链, 注意力反馈, 进化式搜索, 推理效率

一句话总结¶

ReaGEN 不微调视觉语言模型本体，而是用一个仅 18M 参数的轻量生成器，根据每道题的注意力流自适应地"排出"一条结构化思维链（哪几个推理阶段、按什么顺序），从而以单遍推理拿到接近深度搜索的精度——在 Qwen3-VL-4B 上相对 VReST 最高提升 +26 个准确率点，同时把推理 token 用量平均压掉约 53%（部分基准达 79%）。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLM）在 VQA、图表理解等任务上很强，但面对需要多步、组合式推理的复杂视觉问题就容易掉链子。主流补救手段是思维链（CoT）：让模型先输出"观察→关联→计算→作答"这类中间步骤。现有增强 VLM 推理的方法分两类——(i) 推理时扩展（多路采样、Tree/Graph-of-Thought、MCTS 等），(ii) 训练后增强（在大规模 CoT 语料上做 SFT 或 RL）。

现有痛点：推理时扩展靠反复调用模型和深度搜索，延迟和 token 成本都很高；SFT 往往需要 10 万级别的高质量多模态 CoT 语料（还常依赖 GPT-4 级闭源模型来产出），训练贵、可迁移性差；RL 后训练主要在优化训练奖励，容易把策略收窄到少数高奖励模板，出现模式坍缩、奖励黑客与风格过拟合。

核心矛盾：搜索式方法"灵活但贵"，训练式方法"便宜但僵且需大数据"——精度与推理成本之间存在硬性 trade-off，而且大多数方法都在改 reasoning 的内容，没人去显式优化 reasoning 的结构（用哪几个阶段、什么顺序）。

本文目标：在冻结底座 VLM、不做任何微调的前提下，为每道题动态生成一条最优的结构化 CoT，既要有多路探索的灵活度，又要有单遍推理的效率。

切入角度：作者的关键观察是——推理阶段之间的依赖关系会通过注意力流暴露出来（后一阶段对前面哪些阶段"看得多"）。既然注意力能揭示"哪些阶段对最终答案重要、谁依赖谁"，就可以拿它当信号来编辑、优化 CoT 的阶段序列。

核心 idea：把"如何组织推理结构"这件事本身蒸馏进一个轻量生成器 GEN——先用教师引导的进化式搜索离线挖出每道题的优质 CoT 结构（用注意力导出的阶段重要度打分），再训练 GEN 学会"从注意力信号直接预测好结构"，推理时只跑 GEN 一遍（或少量迭代精修），用搜索的灵活度换来单遍的效率。

方法详解¶

整体框架¶

ReaGEN 的核心是：底座 VLM 全程冻结，只训练一个外挂的轻量生成器 GEN，让它学会为每道 image–query 排出一条定制的推理阶段序列。整条管线分三段：① 离线阶段，用一个更强的教师 VLM（Qwen3-VL-32B）引导进化式搜索，为每道训练题挖出高奖励的 CoT 结构，并记录学生 VLM（Qwen3-VL-4B）执行时的跨阶段注意力；② 训练阶段，用这些"题目 + 注意力 + 目标 CoT"三元组监督 GEN，让它学会从注意力摘要映射到好结构；③ 推理阶段，对新题只调 GEN 预测一条 CoT，再让冻结的学生 VLM 按这条 CoT 执行一遍得到答案，可选地多迭代几轮精修。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：图像 I + 问题 Q"] --> B["阶段动作空间与 CoT 编码<br/>四组功能阶段 → 阶段ID序列"]
    B --> C["教师引导进化式搜索<br/>Evaluate→Select→Mutate<br/>注意力阶段重要度 + 奖励"]
    C -->|离线产出 (I,Q,A,τ*) 三元组| D["轻量 GEN 生成器<br/>18.3M Transformer，VLM 冻结"]
    D --> E["单遍 / 迭代精修推理<br/>GEN 预测 τ̂ → 学生 VLM 执行"]
    E --> F["最终答案"]

关键设计¶

1. 阶段动作空间与 CoT 编码：把"推理结构"变成可预测的离散序列

要让一个生成器去"排推理结构"，首先得把结构变成可枚举、可预测的对象。ReaGEN 把多模态推理拆成一个阶段池，按认知流程归为四组功能：① 感知与输入理解（读题、解析视觉内容）；② 接地与事实抽取（把文本实体连到图像、找关键变量）；③ 推理与推断（关系、逻辑、数值推演）；④ 解释与答案选择（汇总中间结论、产出最终答案）。一条 CoT 就是这些动作的一个有序序列 \(\tau^\star = (s_1,\dots,s_L)\)。为了让 GEN 能自回归预测，每条 CoT 被编码成定长的阶段 ID 向量 \(\mathbf{c} = (c_1,\dots,c_L, c_{L+1},\dots,c_{L_{\max}})\)，其中 \(c_t \in \{1,\dots,S\}\) 是阶段 ID，\(c_{L+1}=\text{EOS}\)，其余位置 padding。这样"选哪几个阶段、按什么顺序"就退化成一个标准的序列预测问题，是后续 GEN 能轻量化的前提。

2. 教师引导的进化式搜索 + 注意力阶段重要度：用注意力当信号挖出每题最优结构

这是离线产数据的引擎，针对"高质量多模态 CoT 语料太贵"的痛点。对每道题，搜索按 Evaluate→Select→Mutate 循环迭代：先让冻结的学生 VLM 按候选 CoT 分阶段执行——每个阶段 \(s_t\) 配专属 system prompt，并维护一个记忆体 \(M_t\) 累积此前所有阶段输出喂给后续阶段，即 \(M_{t+1}=M_t\cup\{y_t\}\)，\(y_t=f_\theta(I,Q,M_t,s_t)\)。执行时抽取跨阶段注意力，先累积未归一化的注意力质量 \(\tilde A_{i,j}\)（阶段 \(j\) 的 token 对阶段 \(i\) 输出 token 的平均注意力），再对所有更早阶段归一化得到注意力质量矩阵 \(A_{i,j}\)，衡量"阶段 \(j\) 有多依赖阶段 \(i\)"。在此之上定义阶段重要度 \(\mathrm{Imp}(i)\)，递归地把直接贡献（对最终答案的注意力 \(A_{i,F}\)）与间接贡献（经后续阶段传导）相加：

\[\mathrm{Imp}(i) = A_{i,F} + \sum_{j=i+1}^{N} \lambda^{\,j-i} A_{i,j}\,\mathrm{Imp}(j)\]

其中 \(\lambda\in(0,1]\) 是对长依赖链的折扣。每个候选还有标量奖励 \(R(\tau)=\alpha\,s(\tau)-\beta\,\ell(\tau)-\gamma\,d(\tau)\)，鼓励"准确（预测分 \(s\)）、简洁（长度惩罚 \(\ell\)）、结构多样（多样性惩罚 \(d\)）"。选出 top-K 精英集后，由更强的教师模型读它们的记忆与重要度画像，做重要度感知的定向变异（剪掉低影响阶段、把关键阶段提前），而非随机改。注意力当向导，让搜索高效收敛到每题的优质结构，远比盲搜省。

3. 轻量 GEN 生成器：把搜索结果蒸馏成一遍前向就能出结构

搜索虽好但贵，不能在线上跑。GEN 的作用是把搜索的产物模仿下来：训练数据是 \(\{(I,Q,A,\tau^{\text{init}},\tau^\star)\}\)，其中从冻结 VLM 抽出图像嵌入 \(E^{\text{Img}}\) 和问题嵌入 \(E^{\text{Q}}\)，配上结构矩阵 \(A\) 和初始链 \(\tau^{\text{init}}\)，监督信号是目标 CoT \(\tau^\star\)。GEN 本身是个 4 层、18.3M 参数的紧凑 Transformer 编码-解码器：把图像/问题嵌入投到共享空间融成多模态记忆，把 \(A\) 变成调制阶段嵌入的结构表示，解码器用两个头分别预测阶段 ID 序列（带 EOS）和 CoT 长度，训练目标是阶段预测与长度预测的交叉熵。关键在于底座 VLM 全程冻结——所有"学结构"的负担都压在这个 18M 小模型上，因此数据高效、训练便宜，也不会污染底座的通用能力。

4. 单遍 / 迭代精修推理：单遍出结构，可选少步精修换更高精度

部署时 ReaGEN 给两档用法。单遍（2 iter）：先用默认/种子 CoT \(\tau^{(0)}\) 让学生跑一次收集注意力摘要，GEN 据此预测一条定制 \(\hat\tau\)，学生再按 \(\hat\tau\) 执行一次得答案——总共两次学生调用，无搜索。迭代精修：同一个 GEN 可反复调用，每轮 (a) 学生按 \(\tau^{(t)}\) 跑出新注意力，(b) GEN 据此提出 \(\tau^{(t+1)}\)，(c) 直到收敛 \(\tau^{(t+1)}=\tau^{(t)}\) 或用满迭代预算。由于 GEN 极轻，还能开 \(K\) 条并行精修分支（"宽度"，实验用 \(K=5\)），每条从不同种子起，最终用多分支多数投票选答案。这样默认就是快速单遍规划，需要时再用低成本精修循环换"问题自适应"的更强结构。

损失函数 / 训练策略¶

GEN 用 AdamW + 混合精度训练 200 个 epoch，batch 64，学习率 \(1\times10^{-4}\)；训练数据为视觉与数学混合，含 1,050 个 MMMU 样本 + 1,496 个 MathVerse（纯文本）样本。离线搜索阶段每题的进化预算上限为 20 轮。损失为阶段 ID 序列预测与 CoT 长度预测两路交叉熵之和。

实验关键数据¶

主实验¶

底座固定为冻结的 Qwen3-VL-4B，教师为 Qwen3-VL-32B。下表为复合基准上的准确率（括号内为相对同底座 VReST 的绝对变化）：

方法	MMMU-Pro(10)	MMMU-Pro(4)	VStar	MMStar	MathVision	MathVerse
Direct Answer	32.42%	45.78%	79.14%	58.95%	22.59%	25.25%
+ CoT	37.57%	49.02%	76.47%	67.85%	29.75%	36.17%
+ VReST	46.30%	56.13%	83.42%	49.27%	44.67%	47.97%
+ ReaGEN (4 iter)	52.54% (↑6.2)	64.51% (↑8.4)	84.49% (↑1.1)	75.77% (↑26.5)	44.60% (↓0.1)	47.59% (↓0.4)

MMStar 上相对 VReST 高出约 +26.5 点（VReST 在该集上反而崩到 49.27%）；但在 MathVision / MathVerse 这两个偏数学的集上 ReaGEN 与 VReST 基本打平甚至略低，说明其优势主要在视觉密集型推理。⚠️ 摘要写"+26 准确率点 / token 减 79%"，正文又给出"平均减 53%"，二者口径不同（前者为单基准峰值，后者为总体均值），引用时需区分。

效率与泛化¶

基准	VReST token	ReaGEN-4 token	相对降幅
MMMU-Pro(10)	188	45	76%
MMMU-Pro(4)	176	46	74%
MathVision	240	83	65%
MMStar	140	87	38%
VStar	86	77	11%
总体	166	68	53%

跨数据集泛化（GEN 只在 MathVision 训练、直接评测其他集）上，迁移到视觉基准 MMStar 仍能拿到约 +26 点（相对 VReST），无需重训。

关键发现¶

迭代档位单调有效：2→3→4 iter 在多数视觉基准上稳步上升（如 MMMU-Pro(10) 从 49.94%→51.90%→52.54%），印证"用少量额外 GEN/学生调用换精度"成立。
18M GEN 打得过 32B 教师：在 4 iter 设置下，即便对比更强的 VReST(Teacher-Reward, 32B)，ReaGEN 在多数基准上仍胜，且推理时不需要 32B 教师。
省的是调用与 token 双线：相对 VReST，ReaGEN 同时大幅减少 VLM 调用次数与生成 token，效率收益来自"单遍规划替代深度搜索"。

亮点与洞察¶

拿注意力当"结构监督信号"：大多数 CoT 工作优化的是推理内容，ReaGEN 用跨阶段注意力定义阶段重要度 \(\mathrm{Imp}(i)\) 去优化推理的骨架，这个角度很新——注意力本就是模型自己暴露的依赖图，免费且可解释。
"搜索做老师、小模型做学生"的结构蒸馏：把昂贵的进化搜索压进 18M 生成器，底座全程冻结，等于给任意开源 VLM 外挂一个"会排推理结构"的插件，可复用性强。
单遍 vs 迭代的可调旋钮：同一个 GEN 既能单遍快出、又能多分支精修投票，把"精度/成本"做成一个连续可调档位，工程上很实用。
可迁移 trick：阶段池 + 阶段 ID 编码这套"把流程结构离散化再让小模型预测"的范式，可迁到 agent 规划、工具调用顺序选择等需要"排步骤"的任务。

局限与展望¶

依赖内部注意力信号：方法需要访问底座 VLM 的注意力权重，因此只适用于自托管/开源 VLM，闭源 API 模型（仅给输出）无法直接用。
数学推理上优势有限：MathVision/MathVerse 上与 VReST 打平甚至略降，说明阶段化结构对纯符号/数值长链推理的增益不如视觉密集任务，结构优化可能不是数学题的瓶颈。
阶段池是人工设计的：四组功能阶段与 system prompt 由作者预定义，迁移到新领域可能需要重新设计阶段词表；阶段粒度是否最优缺乏自动化探索。
多分支投票额外开销：迭代精修+\(K=5\) 并行分支虽轻，但相比单遍仍多出数倍学生调用，论文给的 token 数主要针对单遍设置，精修档的真实成本需结合分支数看。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用注意力定义阶段重要度、把推理结构本身蒸馏进轻量生成器，角度确实新颖。
实验充分度: ⭐⭐⭐⭐ 5 个基准 + 跨数据集泛化 + token/调用效率分析较完整，但数学基准上的弱势暴露了适用边界。
写作质量: ⭐⭐⭐⭐ 三段式管线（搜索→训练→推理）讲得清楚；⚠️ 摘要里 +26 点 / 减 79% 与正文 53% 口径不一致，略有混淆。
价值: ⭐⭐⭐⭐ 给开源/自托管 VLM 提供了"精度近搜索、成本近单遍"的实用方案，工程落地价值高。