跳转至

MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization

会议: NeurIPS 2025
arXiv: 2510.21473
代码: 无
领域: 图像复原
关键词: 扩散语言模型, 多奖励优化, token相关性, 强化学习, SGRO

一句话总结

首次系统分析扩散语言模型(DLM)推理短板的根因——去噪过程中token独立生成导致序列内/序列间相关性缺失,提出多奖励优化框架MRO,在test-time scaling、reject sampling和RL三种模式下均显著提升LLaDA-8B的推理性能,MATH500从34.4%提升至37.4%。

研究背景与动机

扩散语言模型(DLM)如LLaDA是自回归LLM的新兴替代方案,通过逐步去噪生成文本:从全掩码序列出发,每步恢复部分token,多步后得到完整输出。相比自回归模型每次只生成一个token,DLM可以并行去噪、全局规划。然而,DLM在推理任务上仍然显著落后于同等规模的自回归LLM,且当去噪步数减少时性能更差。

作者通过实验分析发现,DLM推理短板的根因在于:每个去噪步中被掩码的token是独立生成的,忽略了token之间的相关性。推理任务需要严格的逻辑链和步骤间的一致性,而独立token生成破坏了这种结构。

为此,作者定义了两种关键的token相关性:序列内相关性(intra-sequence)——同一去噪步内不同位置token之间的依赖关系,和序列间相关性(inter-sequence)——不同去噪步骤之间生成的token序列之间的一致性和协作能力。实验验证了增强这两种相关性确实能改善推理性能,为MRO框架奠定了理论基础。

方法详解

整体框架

基于LLaDA-8B作为基础DLM,设计多种奖励信号分别捕获intra/inter相关性 → 三种互补的优化策略(Test-time Scaling只评估不改模型 / Reject Sampling用高奖励样本微调 / RL直接优化奖励)→ Step-wise Group Reward Optimization(SGRO)降低长去噪轨迹的方差 → 推理性能提升 + 可减少去噪步数。

关键设计

  1. 多奖励信号设计:

    • 功能:分别度量去噪过程中token相关性的不同方面
    • Token Verification Reward(TVR, 序列内):在给定当前去噪步的输出序列中,逐个掩码每个token并重新预测,计算leave-one-out对数概率的平均值。理论上证明最大化TVR近似等价于最大化被掩码token之间的平均成对互信息(PMI),从而促进序列内相关性
    • Perplexity Reward(PPL, 序列内):使用轻量级外部模型(GPT-2-small)计算生成序列的困惑度,上限截断为100。衡量生成文本的流畅性和局部连贯性
    • 答案正确性 + 格式奖励(\(R_0^q\), 序列间):作为delayed reward,仅在最终去噪步评估答案是否正确以及格式是否符合要求。鼓励各去噪步协同产出高质量最终结果
    • 设计动机:单一奖励无法同时捕获多维度的token相关性。消融实验证实多奖励组合一致优于任何单一奖励
  2. 三种优化策略:

    • Test-time Scaling(TTS):推理时增加计算预算,采样多条去噪轨迹,用奖励函数选最优。不修改模型参数,用于验证奖励信号的有效性
    • Reject Sampling(RS):采样大量轨迹,保留高奖励样本微调DLM。将奖励信号转化为训练数据
    • 强化学习(RL):将去噪过程建模为MDP,直接用策略梯度(REINFORCE++)优化多奖励信号。最有效但需要处理方差问题
  3. Step-wise Group Reward Optimization(SGRO):

    • 功能:降低RL训练中长去噪轨迹导致的奖励方差
    • 核心思路:将T个去噪步分成若干组(每组w步),在组级别计算奖励和梯度,而非逐步计算重要性权重。组内步骤共享同一个组奖励。理论证明SGRO通过增大 potential-based shaping 中评估时点的时间间隔来降低主导协方差项
    • 设计动机:标准重要性采样在长去噪轨迹(T步)上方差爆炸,是RL应用于DLM的核心瓶颈。实验验证SGRO优于simple reward normalization

损失函数 / 训练策略

  • 训练数据:DeepScaleR + Countdown/Sudoku混合
  • RL训练使用REINFORCE++算法
  • TVR计算通过batch-parallelized masked evaluation优化(将 [BC, A_C, AB] 打包为一个batch一次前向)
  • PPL奖励使用GPT-2-small(轻量级)计算,减少开销
  • 训练完成后推理与标准LLaDA完全相同,无额外开销

实验关键数据

主实验

方法 MATH500 (512步) GPQA (512步) Countdown (512步)
LLaDA (baseline) 34.4 30.3 14.1
LLaDA-TTS + MRO 36.0 34.6 -
LLaDA-RS + MRO 34.2 (+1.8) 32.1 (+2.4) -
LLaDA-RL + MRO 37.4 (+3.0) 33.8 (+3.5) 27.2 (+13.1)

与其他RL方法对比(512步):

方法 MATH500 GPQA Countdown
d1-LLaDA 40.2 - -
RM-Baseline (REINFORCE++) 36.4 31.7 22.7
RL-Baseline (GRPO) 35.6 32.1 21.4
LLaDA + MRO 37.4 33.8 27.2

通用任务(RL模式):

模型 MMLU HumanEval AlpacaEval2 Arena-Hard
LLaDA 65.5 47.6 16.3 10.0
LLaDA-RS + MRO 67.5 48.1 20.2 12.3
LLaDA-RL + MRO 68.2 50.0 19.4 15.7

消融实验

奖励配置 MATH500 GPQA Countdown
仅TVR (\(R_t^{tv}\)) 36.2 32.7 25.3
仅PPL (\(R_t^{ppl}\)) 33.6 30.8 18.9
\(R_0^q\) 34.8 31.2 23.5
MRO (全部) 37.4 33.8 27.2
SGRO vs Reward Normalization 36.2 vs 35.0 34.3 vs 32.8 -

关键发现

  • TVR是最有效的单一奖励,但多奖励组合一致优于任何单一奖励
  • SGRO显著优于简单的reward normalization,验证了其降低方差的效果
  • 推理性能提升对去噪步数减少(采样加速)也有好处——MRO训练后的模型在减少步数时性能退化更小
  • MRO的推理时计算开销与baseline LLaDA完全相同(奖励计算仅在训练时)
  • PPL奖励的上限参数在80-130范围内表现稳定,对超参数不敏感

亮点与洞察

  • 首次从token相关性角度系统分析DLM推理瓶颈:将问题归结为intra/inter sequence correlation的缺失,提供了可操作的优化方向
  • 三种策略形成递进关系:TTS(不改模型验证信号)→ RS(数据驱动微调)→ RL(直接优化),由简到深的完整路径
  • TVR的理论分析值得关注:leave-one-out log-probability近似最大化成对互信息,为序列内相关性优化提供了理论支撑
  • SGRO是DLM特有的RL技术:针对长去噪轨迹的方差问题量身定制,解决了将RL应用于DLM的核心技术障碍

局限与展望

  • 数学记号存在不严谨之处(reviewer指出Eq.3中边际分布与联合分布直接等号连接的问题),论文的部分形式化写作有待改进
  • 奖励分类(intra-sequence vs inter-sequence)边界模糊——答案正确性奖励实际上也依赖序列内相关性
  • 仅在LLaDA-8B上验证,更大模型(13B+)的效果未知(目前开源DLM最大仅8B)
  • 与自回归LLM的差距仍然存在:MATH500上LLaDA-RL+MRO为37.4% vs Qwen2.5-7B为71.9%
  • TVR的计算需要对每个被掩码token做前向推理,虽然可以batch化但仍增加训练计算量

相关工作与启发

  • vs d1-LLaDA: MRO在相同训练设置下一致优于d1-LLaDA(唯一同期DLM RL工作)
  • vs 自回归LLM的RLHF/GRPO: AR模型通过prompt工程增强推理,DLM需要从模型训练层面解决token独立性问题,是完全不同的技术路径。AR模型已有RLHF训练基础,优化空间相对有限;DLM从未经过RL训练,因此提升更显著
  • vs Diffusion of Thoughts (DoT): DoT在diffusion框架中做CoT推理,MRO则从训练层面直接优化token相关性,两者互补
  • 启发:DLM的并行生成能力+MRO的相关性优化,有望在长推理链任务上追赶甚至超越AR模型

评分

  • 新颖性: ⭐⭐⭐⭐ 首次为DLM推理定义intra/inter token相关性并提出系统化RL优化方案
  • 实验充分度: ⭐⭐⭐⭐ 多基准多策略对比+丰富消融,rebuttal中补充了通用任务和更多baseline
  • 写作质量: ⭐⭐⭐ 核心想法清晰,但数学记号不够严谨、奖励分类有歧义
  • 价值: ⭐⭐⭐⭐ DLM是新兴方向,MRO提出了首个系统性的推理增强路径