iReasoner: Trajectory-Aware Intrinsic Reasoning Supervision for Self-Evolving Large Multimodal Models¶

会议: ACL2026
arXiv: 2601.05877
代码: 缓存文本仅写“Our code is available here”，未给出明确URL
领域: 多模态VLM / 自监督推理训练
关键词: 多模态推理, 自演化训练, Chain-of-Thought, 内在奖励, 轨迹一致性

一句话总结¶

iReasoner在无标注图像上让LMM自问自答，并把最终答案一致性扩展为中间CoT步骤的一致性奖励，从而在Qwen2.5-VL-7B上带来最高约+2.13点的多模态推理提升。

研究背景与动机¶

领域现状：多模态大模型的自演化训练开始从“依赖人工标注”转向“利用无标注图像自生成问题和答案”。Proposer-Solver式框架让模型基于图像提出问题，再采样多个解答，并用内部一致性作为奖励信号。

现有痛点：已有自演化LMM方法大多只奖励最终答案或整段响应。两个推理轨迹只要给出同一个答案，就可能得到几乎相同的奖励，即使其中一个轨迹包含幻觉中间步骤、错误视觉依据或侥幸抵消的计算错误。

核心矛盾：无监督设定下没有人工标注答案，也没有外部judge可稳定评价每个推理步骤；但多模态推理的可靠性又高度依赖中间视觉 grounding 和逐步推断。如果只看最终答案，训练信号太粗。

本文目标：在不引入标注、外部验证器或奖励模型的前提下，为LMM的中间推理步骤提供可优化的内在监督，让自演化不仅优化“答对”，也优化“怎样推理到答案”。

切入角度：作者利用同一图像-问题下多个Solver rollout的共识。若一批rollout收敛到同一个主导答案，那么这些rollout中相同位置的推理步骤应当具有相似语义；这种跨轨迹步骤一致性可以作为无监督的推理质量信号。

核心 idea：把多数答案组内部的step-level CoT agreement做成内在奖励，并与答案自一致性奖励混合，用KL正则化策略梯度训练Solver。

方法详解¶

整体框架¶

iReasoner沿用Proposer-Solver自演化框架。给定无标注图像 \(x\)，Proposer生成一个视觉相关问题 \(q\)；Solver针对 \((x,q)\) 采样 \(N\) 条推理rollout，每条包含显式 <think> 推理步骤和 <answer> 最终答案。多个答案形成经验分布 \(p(a|x,q)\)，Proposer用答案熵维持中等难度，Solver则同时接受答案级自一致性奖励和步骤级一致性奖励。

方法的核心不在于生成更长CoT，而在于让不同rollout的中间步骤在语义上可比较、可聚合、可奖励。它把“同一个最终答案下的推理轨迹是否稳定”变成训练信号。

关键设计¶

Dominant-answer group:
- 功能：先筛出最终答案一致的rollout集合，让步骤一致性建立在相对可靠的答案模式上。
- 核心思路：从答案分布 \(p(a|x,q)\) 中选出主导答案 \(\hat{a}\)，把所有生成该答案的rollout组成集合 \(\mathcal{G}\)；再用 \(\rho=(|\mathcal{G}|/N)^\gamma\) 表示多数组密度，主导组越小，步骤奖励越被降权。
- 设计动机：如果所有rollout都分散，直接奖励步骤相似会鼓励错误共识。先按答案聚类再评估步骤，可降低无监督奖励噪声。
Intrinsic CoT Agreement Reward:
- 功能：衡量同一答案组内不同rollout的中间步骤是否语义一致。
- 核心思路：把每条推理轨迹拆成步骤 \(s_{i,j}\)，用模型内部token embedding的归一化均值表示每个步骤；对每个步骤位置 \(j\) 计算主导组原型 \(\mu_j\)，再用余弦相似度 \(r_{i,j}=\text{sim}(e_{i,j},\mu_j)\) 评分。聚合时使用递减权重 \(w_1>w_2>...\)，强调早期视觉grounding步骤。
- 设计动机：早期步骤通常负责识别图像信息和建立问题状态，错误会向后传播。位置衰减让奖励更关注这些基础步骤，而不是只奖励后面模板化的总结。
Reward integration with self-evolution:
- 功能：把答案级奖励和步骤级奖励合成一个可训练的Solver奖励。
- 核心思路：答案奖励为 \(r_i^{ans}=p(a_i|x,q)^\alpha(1-\eta\bar{\ell}_i)\)，包含答案自一致性和长度惩罚；Solver最终奖励为 \(r_i^{sol}=(1-\lambda(t))r_i^{ans}+\lambda(t)r_i^{step}\)，其中 \(\lambda(t)\) 随训练warmup逐步升高。
- 设计动机：训练早期答案共识还不稳定，过早强化步骤一致性可能放大错误；warmup让模型先形成基本答案稳定性，再学习轨迹结构。

损失函数 / 训练策略¶

Solver和Proposer都用KL正则化的策略梯度训练，参考模型冻结，用EMA baseline降低方差。Solver目标包含REINFORCE项和对参考策略的KL惩罚；Proposer使用答案熵塑形奖励，让问题难度保持在非退化区间。

训练细节比较克制：从Qwen2.5-VL-7B-Instruct初始化，使用LoRA训练Proposer和Solver；训练池是2,500张无标注图像，来自ChartQA、AI2D、InfoGraphic-VQA、PlotQA、ChartX和Geometry3K。每张图像采样1个问题，Solver采样 \(N=5\) 条rollout，Proposer每5轮更新一次。step reward权重warmup到0.7，训练2.5k步，AdamW学习率 \(10^{-6}\)，8张AMD MI250X上约35小时完成。

实验关键数据¶

主实验¶

Benchmark	Qwen2.5-VL-7B Baseline	EvoLMM	iReasoner	相对Baseline提升
InfoGraphic-VQA	80.44	81.06	81.56	+1.12
AI2D	82.61	83.41	83.89	+1.28
ScienceQA	88.30	89.50	89.92	+1.62
MMMU	51.11	52.01	52.37	+1.26
ChartQA	84.00	86.70	85.78	+1.78
MathVista	68.47	70.52	69.74	+1.27
MathVision	23.91	24.81	25.29	+1.38
MathVerse	43.78	44.88	45.91	+2.13

消融实验¶

配置	ScienceQA	MMMU	ChartQA	MathVerse	说明
Full iReasoner	89.92	52.37	85.78	45.91	答案奖励 + 步骤奖励完整组合
Soft majority reward only / EvoLMM	89.41	51.92	86.64	44.71	短答案可验证任务更强，但迁移弱一些
Step-level reward only	88.44	50.98	84.38	43.87	单独使用步骤一致性噪声较大
w/o Warmup schedule	89.26	51.74	85.02	45.11	warmup缺失带来最明显、最稳定退化
w/o Position decay	89.55	52.02	85.41	45.49	早期步骤加权有贡献
w/o Density weighting	89.47	51.88	85.29	45.32	多数组可靠性降权有助于防止错误共识

关键发现¶

iReasoner在8个benchmark上全部超过初始Qwen2.5-VL-7B，平均提升在general visual understanding上约+1.32，在visual math上约+1.64。
相对EvoLMM，iReasoner在InfoGraphic-VQA、AI2D、ScienceQA、MMMU、MathVision、MathVerse上更强，但在ChartQA和MathVista上略低，说明答案稳定奖励更适合高度可验证的短答案任务。
step-level reward不能孤立使用；它需要答案级稳定性先过滤掉明显错误的rollout。
主导答案组正确率从训练早期约76%提升到后期约93%，说明多数组作为内在监督源并非完全盲目。

亮点与洞察¶

论文最有价值的地方是把“同答案不同推理轨迹”的问题变成可优化信号。很多自一致性方法只看答案投票，而iReasoner追问投票背后的推理路径是否稳定。
用模型内部embedding表示步骤很轻量，不需要外部judge或人工步骤标注，符合无监督自演化设定。
warmup、密度权重和位置衰减这三个小设计很关键，体现了作者对无监督RL噪声的处理经验。
这套思路可以迁移到文本推理、代码推理或agent轨迹训练中：只要能采样多条轨迹并定义“同一结果组”，就可以比较中间步骤一致性。

局限与展望¶

iReasoner只使用模型自身采样形成的内在信号，无法直接优化外部正确性。当多数答案组自信但错误时，步骤一致性可能强化一致但错误的推理。
实验规模仍有限：训练只覆盖2,500张图像、2.5k步，并主要围绕Qwen2.5-VL系列展开；更大规模、更长训练和更多模型族还需要验证。
方法需要访问模型log probability、内部embedding和KL正则化训练，因此更适合开源权重模型，不容易直接用于黑盒闭源API。
CoT本身可能存在忠实性问题。论文做了no-CoT推理对照，但更严格的因果干预或过程监督评估仍然值得补充。

评分¶

新颖性: ⭐⭐⭐⭐☆ 中间轨迹一致性作为无监督内在奖励很有启发，但仍建立在已有Proposer-Solver自演化框架上。
实验充分度: ⭐⭐⭐⭐☆ 主实验、消融、step budget和训练动态都较完整；模型族和数据规模还可扩大。
写作质量: ⭐⭐⭐⭐☆ 方法解释直观，图示清楚；部分表格编号和附录引用在缓存文本中略混乱。
价值: ⭐⭐⭐⭐☆ 对多模态自训练和过程监督都有实用参考，尤其适合开源LMM后训练研究。