跳转至

ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping

会议: ICLR2026
OpenReview: 2g945Ngc7l
代码: https://github.com/shawn0728/ARES
领域: 多模态VLM / LLM推理
关键词: 自适应推理, 窗口熵, 难度感知, 熵奖励塑形, 强化学习

一句话总结

ARES 用"窗口熵"作为探索触发器、用难度感知的层级熵奖励控制探索深度,让多模态大推理模型在简单题上少想、难题上多想,从而在数学/逻辑/多模态基准上同时提升准确率和推理效率。

研究背景与动机

领域现状:多模态大推理模型(MLRM)通过长链思维(long CoT)+ 反思,在复杂文本和视觉任务上表现强劲。主流做法是用冷启动 SFT + RLVR(可验证奖励的强化学习)训练出会"长篇思考"的模型。

现有痛点:这类模型有个失衡毛病——简单题过度思考(overthinking),生成大量不必要的推理 token,徒增推理成本和延迟;难题探索不足(under-exploring),过早收敛错过正确解。已有的"省 token"方法(training-free 截断或 training-based 惩罚长度)虽然缓解了 verbose 问题,却普遍伤准确率

核心矛盾:探索成本(response length)与准确率之间存在 trade-off,而现有自适应方法(按难度调冷启动数据、或 RL 里加难度感知惩罚)往往一刀切地鼓励难题探索,结果难题上 trace 冗长、提升却有限。根子在于:它们没回答清楚两个基础问题——何时该探索(when)该探索多少(how much)

切入角度:作者从一个观察出发——单 token 熵很噪(标点、公式、虚词都可能高熵,而"but/however"这类真正的逻辑转折点反而低熵),不能可靠地标记"推理分叉点"。但如果把连续若干 token 的熵在滑动窗口内平均,得到的窗口熵(window entropy)就能稳定地定位"模型持续不确定"的推理关键时刻。进一步实验发现:对简单题减少高窗口熵(HWE)token 既缩短又提准;对难题增加 HWE token 才能解出来——这就是"熵-难度交互"。

核心 idea:把 HWE token 当作探索触发器(决定 when),再用难度感知的层级熵奖励 + 动态 KL 预算控制探索强度(决定 how much),在一个两阶段训练管线里实现"按难度自适应分配推理算力"。

方法详解

整体框架

ARES 要解决的是"让一个多模态策略学会按题目难度调节推理深度":简单题输出短答案,难题输出长的探索链。整套方法分两个阶段串行——AdaCS(自适应冷启动 SFT) 先把"难度 ↔ 长度"的对应关系灌进模型,建立初步的难度意识;AEPO(自适应熵策略优化) 再用 RLVR 把这种意识做成在线、自适应的探索控制。

AEPO 内部又分三步协同:先对每个 batch 的 rollout 做在线难度分桶(easy/medium/hard);再用窗口熵触发器判断每条轨迹"何时"在高不确定区分叉出额外探索轨迹;最后用层级熵奖励 + 动态 KL 决定"探索多少"——对简单题压制过度探索、对难题鼓励深入探索,整套奖励只靠 batch 级统计量闭式计算,不引入额外超参。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["query<br/>文本 + 多模态"] --> B["AdaCS 自适应冷启动<br/>长度∝难度的数据筛选 + SFT"]
    B --> C["在线难度分桶<br/>easy / medium / hard"]
    C --> D["窗口熵触发器<br/>何时探索:HWE 超阈值则分叉"]
    D --> E["层级熵奖励<br/>探索多少:难度感知方向塑形"]
    D --> F["动态 KL 预算<br/>高熵窗口内放松 KL 约束"]
    E --> G["AEPO 策略更新"]
    F --> G
    G --> H["自适应推理策略<br/>简单题少想·难题多想"]

关键设计

1. AdaCS 自适应冷启动:把"难度越高、思考越长"先灌进模型

直接上 RL 很难凭空学会难度意识,所以先用 SFT 建立一个"长度和难度显式相关"的初始策略。与以往做法(丢弃 pass rate=1 的简单样本、对低 pass rate 样本过采样)不同,ARES 反而要保留全难度谱并刻意拉开长度差异。具体做法:对每个数据源,用 8 次采样估计每题的 pass rate,再按 pass rate 分档设定"目标响应长度"。目标长度在最易(pass rate=1)和最难(pass rate=0)的响应中位长度之间线性插值:

\[L_{\text{target}}(p) = (1-p)\cdot L(0) + p\cdot L(1)\]

其中 \(L(0)\)\(L(1)\) 分别是该数据源 pass rate 为 0 和 1 时响应的中位 token 长度。然后对每个 pass rate 档均匀采样长度接近目标值的响应。这样做最大化了"不同难度下响应长度的差异",让模型从一开始就建立"感知到的难度 ↔ 推理冗长度"的强关联,也顺带学会了高窗口熵 token 和反思能力。这个阶段同时覆盖高质量文本 RLVR 数据和多模态 STEM 任务,构成约 224K 的 ARES-SFT-224K。

2. 窗口熵触发器:用 HWE 区域决定"何时探索"

这一步针对"单 token 熵太噪、标不准推理分叉点"的痛点。ARES 把 token 级熵在滑动窗口内平均成窗口熵 \(\bar{H}_{t:w}=\frac{1}{w}\sum_{\tau=t}^{t+w-1}H_\tau\)(实测 4–8 的窗口在 F1 上最优,既平滑局部噪声又不至于稀释信号)。要把它变成可操作的触发器,需要一个阈值:对每条 rollout 取其 token 熵的第 95 百分位作为高熵阈值(因为 RLVR 主要重塑 top 5% 高熵 token 的分布,低熵 token 相对稳定),再把同一 mini-batch 内所有轨迹的阈值平均,得到稳定的 batch 级 cutoff:

\[\tau_{\text{high}} = \frac{1}{|D|}\sum_{y\in D}\text{Quantile}_{0.95}\big(\{H_t(y)\}_{t=1}^{|y|}\big)\]

\(\tau_{\text{high}}\) 随训练逐 batch 动态更新。rollout 时,只要某段的窗口熵 \(\bar{H}_{t:w}\) 超过 \(\tau_{\text{high}}\),就在该位置 \(t\) 额外分叉一条轨迹(每个高熵窗口只分叉一条,且受最大轨迹数上限约束)。这样探索只在"持续高不确定"的推理关键时刻被触发,把算力集中在分叉点上,而不在低熵的平稳段浪费分支。

3. 层级熵奖励:用闭式 Lagrange 乘子决定"探索多少"

触发只解决 when,强度还得控制,否则简单题照样冗长、难题照样不够。ARES 基于在线难度桶,给每个桶定义一个"目标高熵 token 数"为 batch 均值 \(N_{\text{HE}}^{\text{target}}(d)=\mathbb{E}_{\text{batch}}[N_{\text{HE}}\mid d]\)(随迭代在线更新)。对偏离目标的程度,用一个闭式 Lagrange 乘子自动缩放惩罚强度,无需手调权重:

\[\lambda_d = \max\!\left(0,\ \frac{\mathbb{E}_{\text{batch}}[N_{\text{HE}}\mid d] - N_{\text{HE}}^{\text{target}}(d)}{\text{Var}_{\text{batch}}[N_{\text{HE}}\mid d] + \varepsilon}\right)\]

关键是塑形方向随难度而变。令 \(\Delta(y;d)=N_{\text{HE}}-N_{\text{HE}}^{\text{target}}(d)\),方向函数为:简单题 \(g_{\text{easy}}=\max(0,\Delta)\)(只罚正偏差,即过度探索),中等题 \(g_{\text{med}}=|\Delta|\)(对称,过/欠探索都罚),难题 \(g_{\text{hard}}=\max(0,-\Delta)\)(只罚负偏差,即探索不足)。最终层级奖励把正确性和熵正则统一起来:

\[R(x,y;d) = R_{\text{acc}}(x,y) - \mathbb{1}[\text{acc}(x,y)=0]\,\lambda_d\, g_d\big(\Delta(y;d)\big)\]

注意熵惩罚只在答错时施加——已经答对的解不会被惩罚而打消,错的解才被推着去(按难度方向)调整探索量。整个机制只靠 batch 级统计闭式运行,因此实现了"无额外超参"的自适应探索控制:简单题压探索、中等题稳在目标附近、难题催探索。

4. 动态 KL 预算:把 KL 约束做成 token 级的"思考预算分配器"

冷启动后的 RL 容易因 KL 处理不当而崩或方差爆炸。作者通过分析确定:用 KL loss(而非 KL penalty,后者会放大方差)作为有效的"思考预算"。在此基础上引入 token 自适应权重:

\[\beta_{i,t} = \beta_d \cdot \rho_t,\qquad \rho_t = \begin{cases}\rho\ (<1), & t\in W_{\text{valid}}\\ 1, & \text{otherwise}\end{cases}\]

其中 \(\beta_d\) 是难度相关的基线权重,\(\rho_t\) 在验证过的高熵窗口内把 KL 约束放松(乘以 \(\rho<1\)),其余位置保持不变。效果是:在低熵的稳定 token 上 KL 被收紧(防止漂移),在推理关键的高熵段上 KL 被放松(允许探索),相当于一个逐 token 的思考预算分配器。AEPO 的整体目标在 GRPO/DAPO 的代理目标基础上,把上述 token 级 \(\beta_{d(i),t}\) 和经层级奖励塑形的优势 \(\tilde{A}_{i,t}\) 一起带入裁剪目标 \(J_{\text{AEPO}}(\theta)\) 中优化。

实验关键数据

主实验

训练用约 224K 的冷启动数据(文本 RLVR + 多模态 STEM),RLVR 阶段用 ViRL39K 可验证 QA 对。基线覆盖闭源大模型(GPT-4.1、Gemini-2.5-Pro-Thinking、Claude-4-Sonnet、Doubao-1.5-Thinking-Vision-Pro)、3B 与 7B 开源 MLLM(多数从 Qwen2.5-VL-3B/7B-Instruct 微调)。

模型 MathVision MMMU-Pro 多模态 10 项平均 说明
Qwen2.5-VL-3B-Instruct 21.2 31.6 34.8 3B 基座
VLAA-Thinker-3B 24.4 33.3 37.7 3B 开源强基线之一
ARES-3B 44.2 45.2 46.1 较开源 3B SoTA 平均 +8.4
Qwen2.5-VL-7B-Instruct 25.1 38.3 43.3 7B 基座
ARES-7B MathVision 较最佳开源 +19.0、MMMU-Pro +11.5

文本推理上,ARES-7B 在 AIME25 取得 61.7,而多数 7B 基线低于 3.3——说明 ARES 提升的是核心推理能力,而非只是过拟合多模态任务。

消融实验

配置 关注点 结论
ARES-CS-7B(仅 AdaCS) 长度随难度调节 冷启动已能按难度调长度
ARES-RL-7B(+AEPO) 自适应增强 难题(OlympiadBench、AIME25)延长推理、简单题(GSM8K、MathVista)缩短,准确率与 token 效率双增
w/o 层级熵奖励 探索强度控制 去掉后难/易题探索量失控
w/o 动态 KL 思考预算分配 去掉后高熵段无法放松、探索受限

关键发现

  • 窗口熵优于单 token 熵:4–8 的中等窗口在检测推理关键 token 的 F1 上最高;窗口太长(16–32)会被低熵 token 稀释信号。
  • 熵-难度交互是核心规律:简单题"少探索"更准更短,难题"多探索"才更准(但更长);且在每个难度内,正确样本的高熵 token 数与响应长度都呈现"简单题更少、难题更多"的分化。
  • AEPO 把这条规律做成了在线机制:只在需要时(难题)鼓励探索,因此能在更低推理成本下逼近闭源商用系统。

亮点与洞察

  • 窗口熵作为探索触发器:把"单 token 熵噪声大"这个老问题用滑动窗口平均巧妙化解,得到一个可靠定位推理分叉点的信号——这个"信号工程"思路可迁移到任何需要识别 RL 探索时机的生成任务。
  • 难度感知的方向性塑形:同一个偏差 \(\Delta\),在简单/中等/难三档用 \(\max(0,\Delta)\) / \(|\Delta|\) / \(\max(0,-\Delta)\) 三种方向惩罚,一套公式实现"既压过度思考又催深度探索",而且闭式无额外超参,非常优雅。
  • "只罚错答"的奖励设计:熵惩罚仅在 \(\text{acc}=0\) 时生效,避免把已经答对的短解也打压掉,这个细节是平衡效率与准确率不掉点的关键。
  • KL loss 而非 KL penalty:作者明确区分二者并论证 penalty 会放大方差,转而用 token 级放松的 KL loss 当"思考预算分配器"——对做 RLVR 训练稳定性的人很有参考价值。

局限与展望

  • 难度分桶依赖 pass rate 估计:冷启动用 8 次采样估 pass rate、RL 用在线分桶,难度标签的噪声会直接影响方向性塑形的正确性;对采样预算敏感。
  • 窗口/百分位是经验超参:窗口大小(4–8)、95 百分位阈值虽有实验支撑,但属于经验选择,跨任务/跨模型规模是否稳健需进一步验证。
  • 规模有限:实验聚焦 3B/7B,更大模型上"熵-难度交互"是否同样成立、自适应收益是否仍显著,文中未充分覆盖。
  • 改进方向:可探索把窗口熵触发与更细粒度的步骤级(而非 token 级)难度建模结合,或将该框架推广到非 STEM 的开放式多模态任务。

相关工作与启发

  • vs 训练无关的截断/早停(Han et al.、Yang et al.):它们靠规则压缩长度,普遍伤准确率;ARES 用熵信号自适应分配探索,效率与准确率兼得。
  • vs 难度感知 RL 惩罚(Huang et al.、Shen et al.):以往方法常一刀切鼓励难题探索导致 trace 冗长且提升有限;ARES 的方向性塑形对简单题压、难题催,区分更精细。
  • vs 变难度冷启动(Wang et al. 2025d):Wang 等丢弃 pass rate=1 样本并过采样低 pass rate;ARES 反其道保留全难度谱并刻意拉开长度差异,目的就是建立"难度↔长度"的强关联。
  • vs GRPO / DAPO:AEPO 在它们的代理目标上叠加了 token 级动态 KL 权重和层级熵塑形优势,把"探索控制"显式编码进 RL 目标。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 窗口熵触发 + 难度方向性熵塑形是对自适应推理"when/how much"两问的原创回答
  • 实验充分度: ⭐⭐⭐⭐ 覆盖数学/逻辑/多模态多基准、3B/7B 两规模、含消融,但缺更大模型验证
  • 写作质量: ⭐⭐⭐⭐ 动机—发现—方法逻辑清晰,公式完整;部分细节散在附录
  • 价值: ⭐⭐⭐⭐⭐ 开源框架 + 数据集,效率与准确率双赢,对 MLRM 推理训练有实用参考价值