Reinforced Efficient Reasoning via Semantically Diverse Exploration¶

会议: ACL 2026
arXiv: 2601.05053
代码: https://github.com/ZiqiZhao1/ROSE-rl
领域: 模型压缩 / 高效推理
关键词: MCTS, 语义熵, GRPO, 高效推理, 分支策略

一句话总结¶

ROSE 提出语义熵引导的 MCTS 分支策略和长度感知的段级优势估计，解决了现有 MCTS-based RLVR 方法探索多样性不足和推理效率低的问题，在多个数学推理基准上取得最优 pass@8 性能。

研究背景与动机¶

领域现状：RLVR（Reinforcement Learning with Verifiable Rewards）已成为增强 LLM 推理能力的主流方法。GRPO 及其变体通过采样多条独立推理链并用二值奖励优化策略。MCTS-based 方法进一步引入树结构推理，允许不同推理链共享前缀，实现更精细的段级信用分配。

现有痛点：(1) 探索多样性不足——现有方法用生成熵（generation entropy）确定分支点，但生成熵高的位置未必对应语义分歧。图 1 案例显示 "can" 和 "need" 在生成熵视角下差异大，但语义上等价，导致分支后的推理路径完全相同；(2) 推理效率低——现有 MCTS 方法未处理"过度思考"（overthinking）问题，正确但冗长的推理链与简洁推理获得相同奖励。

核心矛盾：生成熵度量的是 token 级别的词汇不确定性，但语言生成中许多高熵选择实际上是语义等价的（同义词、功能词变体），这导致分支策略产生表面不同但本质相同的推理路径。

本文目标：(1) 设计真正能产生语义多样化推理路径的分支策略；(2) 在保持甚至提升推理性能的同时鼓励更高效的推理。

切入角度：用 token 嵌入的余弦相似度来度量候选 token 之间的语义差异，将其与生成熵相乘得到"语义熵"，确保分支点同时具有高不确定性和高语义分歧。

核心 idea：用语义熵（=生成熵 × 语义发散度）替代生成熵选择分支点，加上 \(\varepsilon\)-探索防止搜索过于局部化，再用长度感知校准惩罚冗长的正确推理链，实现"更多样+更高效"的推理探索。

方法详解¶

整体框架¶

ROSE 要解决的是 MCTS-based RLVR 的两个老毛病：分支分得"多但不真多样"，以及对冗长但正确的推理没有惩罚。它的一轮探索是这样转的：给定问题 \(q\) 先采一条完整推理链，逐位置算出语义熵，挑语义熵最高的那个位置截断、重新往下采，从而长出一棵共享前缀的推理树；为防止整棵树挤在一处，每次新建链时以一定概率干脆从头独立采一条。树建好后，给每个节点赋值、做段级优势估计，再对那些"对但啰嗦"的链按长度打折，最后喂给 Dr.GRPO 更新策略。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["问题 q"] --> B["采一条完整推理链"]
    B --> C["语义熵引导分支<br/>逐位置算 SE = 生成熵 × 语义发散度"]
    C -->|"概率 1−ε：选 SE 最高处截断重采"| E["共享前缀推理树"]
    C -->|"概率 ε"| D["ε-探索机制<br/>从头独立采全新链"]
    D --> E
    E --> F["长度感知段级优势估计<br/>节点均值奖励求段优势 + 冗长正确链按长度打折"]
    F --> G["Dr.GRPO 更新策略"]

关键设计¶

1. 语义熵引导分支：让每次分支都岔向真正不同的语义，而不是同义词替换

现有方法（如 FR3E）用生成熵挑分支点，但生成熵高只说明"这一步选哪个 token 没把握"，并不代表不同选择会导向不同含义——图 1 里 "can" 和 "need" 生成熵都很高，可换上去之后推理路径几乎一模一样，分支白做了。ROSE 在生成熵之外再补一个语义维度：对位置 \(k\) 取 top-20 高概率 token 集合 \(\mathcal{V}_k\)，用 LLM 嵌入算候选之间的语义发散度

\[SD_k = -\sum_{v_i, v_j} p(v_i)\, p(v_j) \cdot \cos\langle \mathbf{e}_{v_i}, \mathbf{e}_{v_j} \rangle,\]

再把它和生成熵 \(\mathcal{H}_k\) 相乘得到语义熵 \(SE_k = SD_k \cdot \mathcal{H}_k\)。两者相乘的好处是"既要又要"：只有当这一步既不确定、候选 token 之间语义差异又大时 \(SE_k\) 才高，于是分支点天然落在真正会改变推理走向的岔路口。计算开销也几乎可以忽略，只需查一遍 embedding 表算余弦相似度。

2. \(\varepsilon\)-探索机制：别让整棵树都黏在已有路径附近

纯靠分支会有个隐患——所有新链都从已有推理上截断重采，搜索容易被锚定在第一条链的邻域里转不出去。ROSE 借用经典 RL 的 \(\varepsilon\)-greedy 思路，每次要长新链时以 \(\varepsilon\)（默认 0.5）的概率干脆从头独立采一条全新推理，剩下的概率才按语义熵分支。这一手很简单，却给搜索提供了完全独立的起点，在深度（顺着好前缀往下挖）和广度（开辟新起点）之间拿到平衡。

3. 长度感知段级优势估计：在精细信用分配的基础上，专门压一压"对但啰嗦"的链

树结构本身已经能做段级信用分配：节点值 \(\hat{V}(b_j)\) 取经过该节点的所有链的平均奖励，相邻节点值之差就是这一段的优势 \(\hat{A}_{i,t} = \hat{V}(b_j) - \hat{V}(b_{j-1})\)。但这样并不区分长短——一条又对又长的链和一条又对又短的链拿一样的奖励，模型于是没有动力简洁。ROSE 利用了树的天然便利：从同一个分歧节点岔出去的若干条正确链，长度可以公平直比。对那些比最短正确链更长的正确推理，从分歧节点之后按长度比例把优势往下打折

\[\hat{A}_{i,t} \leftarrow \hat{A}_{i,t} - |\hat{A}_{i,t}| \cdot \Big(1 - \tfrac{|o_s| - b_c}{|o_c| - b_c}\Big)^{\alpha},\]

其中 \(|o_s|\)、\(|o_c|\) 是当前链与最短正确链的长度、\(b_c\) 是分歧位置。这样既保住了段级信用分配的精细度，又把"冗长正确"的优势主动削弱，引导模型偏好简洁推理而不牺牲正确性。

损失函数 / 训练策略¶

使用 Dr.GRPO 目标函数（去掉方差归一化和长度归一化）。batch size 512，每题 8 条推理链（G=8），学习率 \(1 \times 10^{-6}\)，clip ratio 0.2，KL 系数 0.001，最大 8 epochs。训练数据为 MATH 的 7500 题。\(\varepsilon=0.5\)，\(\alpha\) 从 {0.5, 1, 2, 3} 搜索。8×A800 GPU。

实验关键数据¶

主实验（pass@8）¶

模型	方法	AIME24	AIME25	MATH500	AMC23	平均
Qwen3-4B	GRPO	16.67	20.00	79.80	77.50	48.49
Qwen3-4B	FR3E	16.67	13.33	80.00	75.00	47.92
Qwen3-4B	ROSE	23.33	23.33	80.80	77.50	51.24
Qwen3-8B	GRPO	23.33	23.33	79.40	72.50	49.64
Qwen3-8B	ROSE	33.33	30.00	83.00	80.00	55.75
Llama-3.2-3B	GRPO	16.67	3.33	53.40	40.00	28.35
Llama-3.2-3B	ROSE	20.00	6.67	55.00	45.00	31.67

消融实验¶

分支策略	AIME24	AIME25	平均
生成熵分支 (FR3E)	16.67	6.67	30.26
语义发散度分支	20.00	6.67	-
语义熵分支 (ROSE)	20.00	6.67	31.67

关键发现¶

ROSE 在困难任务（AIME24/25）上提升最大（+6.67），说明语义多样探索在高难度问题上价值更高
Qwen3-8B 上 ROSE 平均提升 +4.65（vs GRPO），是所有方法中最高的
TreePO 在域内数据集（MATH500）提升明显但域外泛化差，说明固定长度分支策略缺乏适应性
长度感知校准在不降低性能的前提下减少了推理链长度
在 Llama 模型上同样有效（+2.86），排除了 Qwen 数据泄漏的干扰

亮点与洞察¶

语义熵 = 生成熵 × 语义发散度的设计简洁优雅。通过 token 嵌入的余弦相似度来度量语义差异，计算开销极小（只需查 embedding 表），却能有效区分"词汇不确定"和"语义不确定"
\(\varepsilon\)-探索将经典 RL 探索策略引入 MCTS 分支，简单但关键——防止搜索被现有推理路径锚定
长度感知校准巧妙利用了树结构的天然优势：同一分歧点后的不同推理链可以公平比较长度

局限与展望¶

仅在数学推理上评估，代码生成、逻辑推理等场景待验证
pass@8 指标更关注"能否解出"而非"平均正确率"，mean@8 视角下的优势可能更小
语义发散度使用静态 token 嵌入，未考虑上下文对 token 语义的影响
\(\varepsilon=0.5\) 是固定值，自适应调节可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐ 语义熵概念新颖，生成熵 vs 语义熵的区分有说服力
实验充分度: ⭐⭐⭐⭐ 三个模型、四个基准、完整消融，但缺少非数学任务
写作质量: ⭐⭐⭐⭐ 案例分析直观，方法描述清晰
价值: ⭐⭐⭐⭐ 为 MCTS-based RLVR 提供了更好的分支策略，即插即用