跳转至

🎮 强化学习

🔬 ICLR2026 · 400 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (25) · 💬 ACL2026 (46) · 🧪 ICML2026 (110) · 🤖 AAAI2026 (58) · 🧠 NeurIPS2025 (143) · 📹 ICCV2025 (7)

🔥 高频主题: 强化学习 ×150 · 推理 ×38 · LLM ×32 · Agent ×30 · 对抗鲁棒 ×29

3D-aware Disentangled Representation for Compositional Reinforcement Learning

把"物体属性 → 离散 block"的结构化分解从 2D 搬到 3D 多视角空间,再用 block 级 cross-attention 的策略网络做目标条件强化学习,让机器人在没见过的属性组合、未见视角下仍能稳定地把物体推到目标位置。

A\(^2\)Search: Ambiguity-Aware Question Answering with Reinforcement Learning

A\(^2\)Search 提出一条无需人工标注的自动流水线,从已有 QA 数据里挖掘"歧义问题"的多个合法答案,再用一个天然支持多答案的 AnsF1 奖励做 GRPO 强化学习,让 7B 模型单次 rollout 就在多跳 QA 上超过 32B 的强基线。

A Hierarchical Circuit Symbolic Discovery Framework for Efficient Logic Optimization

HIS 用一棵「分层符号树」把 GNN 的逐层消息传递蒸馏成一个轻量、可解释的符号打分函数,并用结构感知 Transformer + 组优势 PPO 端到端地把这棵树「生成」出来,从而在芯片设计的逻辑优化(LO)里又快又准地识别无效变换——相比 SOTA 的 GNN 推理快约 296×,接入 Mfs2 启发式后平均运行时间降 27.22%、电路规模再减 6.95%。

A Reward-Free Viewpoint on Multi-Objective Reinforcement Learning

本文首次把无奖励强化学习(RFRL)的 Forward-Backward 框架搬到多目标强化学习(MORL)上,提出 MORL-FB:用偏好引导的探索构造与 MORL 任务真正相关的潜向量 \(z\),再配一个辅助 Q 损失,让一个偏好条件策略在 MO-Gymnasium 上以更高样本效率显著超过 PD-MORL、Q-Pensieve 等 SOTA。

A Unifying View of Coverage in Linear Off-Policy Evaluation

提出了一种新的覆盖性参数——特征-动态覆盖(feature-dynamics coverage),通过工具变量视角对经典算法 LSTDQ 进行新颖的有限样本分析,统一了线性离策略评估中各种不同覆盖性定义,解决了该领域长期存在的碎片化问题。

AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking

提出 AbstRaL,通过强化学习教 LLM 学习推理问题的数学抽象(将具体数字/名称替换为符号变量、提取通用公式),然后用符号求解器推导答案,在 GSM 扰动 benchmark 上几乎完全消除了分布偏移导致的性能下降,并在 OOD 数学/通用推理任务上也有隐式提升。

Accelerated Learning with Linear Temporal Logic using Differentiable Simulation

本文首次把线性时序逻辑(LTL)规约与可微物理仿真器打通:通过对自动机的离散转移做"软标签"松弛,得到对状态/动作可微的奖励与状态表示,让一阶梯度算法(SHAC/AHAC)能直接从形式化规约里高效学习,在接触密集的连续控制任务上把训练速度和回报都拉到离散基线的两倍。

Accelerating Diffusion Planners in Offline RL via Reward-Aware Consistency Trajectory Distillation

RACTD 把奖励优化目标直接塞进一致性轨迹蒸馏过程,用一个预训练的扩散教师规划器 + 一个独立训练的无噪声奖励模型,蒸馏出一个单步采样的学生规划器;它在 D4RL 上比之前 SOTA 平均高 9.7%,同时推理比扩散教师快多达 142 倍。

Ada-Diffuser: Latent-Aware Adaptive Diffusion for Decision-Making

Ada-Diffuser 把"随时间演化的隐藏上下文(风、目标、技能)"显式塞进扩散式决策模型:先用理论证明只需 4 个相邻观测的小时间块就能辨识潜变量,再用一个"去噪—精修"机制 + zig-zag 采样让扩散模型在线推断潜变量并据此规划/控制,在 8 个环境 23 种设定上稳定超过现有扩散规划器与潜上下文 baseline。

Adaptive Scaling of Policy Constraints for Offline Reinforcement Learning

针对离线 RL 里"策略约束强度(RL 与行为克隆的配比)必须逐数据集手调"的痛点,本文提出 ASPC:把 TD3+BC 里的缩放因子 \(\alpha\) 变成可学习参数,用二阶可微的双层优化在训练中动态调它,靠约束 Q 值变化率和 BC 损失变化率来稳定更新;在 D4RL 39 个数据集上只用一套超参就超过了需要逐数据集网格搜索的 SOTA,相对基线平均提升 35%。

ADM-v2: Pursuing Full-Horizon Roll-out in Dynamics Models for Offline Policy Learning and Evaluation

ADM-v2 把"任意步动力学模型"的起始状态从 GRU 循环中结构性解耦,配合并行任意步 roll-out 算法 PARoll,让动力学模型能可靠地跑完整条轨迹(full-horizon roll-out),从而在离线策略评估和离线策略优化上同时刷到 D4RL / NeoRL 的 SOTA。

All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning

这篇论文从信息几何、受控实验和复杂度直觉三个角度解释为什么语言模型微调中“两阶段奖励模型 + 在线 RL”常常优于直接离线最大似然,核心结论是 RL 的价值不在于凭空创造新信息,而在于借助更容易学习的 verifier 把策略搜索限制到一小类由简单奖励诱导的生成器。

AlphaSAGE: Structure-Aware Alpha Mining via GFlowNets for Robust Exploration

AlphaSAGE 把量化选股中的公式化 alpha 挖掘从"最大化期望回报的强化学习"改写成"按奖励正比采样的生成流网络(GFlowNets)",再配上 RGCN 结构编码器和稠密多面奖励,从而一次性挖出一批既预测力强、又彼此低相关、还结构新颖的 alpha 组合,在中美股市多个股票池上全面超过现有 RL/GA/LLM baseline。

AMPED: Adaptive Multi-objective Projection for balancing Exploration and skill Diversification

提出AMPED框架,在技能预训练阶段用梯度手术(PCGrad)平衡探索(熵+RND)和技能多样性(AnInfoNCE)之间的梯度冲突,在微调阶段用SAC-based技能选择器自适应选择最优技能,在Maze和URLB基准上超越DIAYN/CeSD/CIC等SBRL基线。

Analysis of Approximate Linear Programming Solution to Markov Decision Problem with Log Barrier Function

本文用对数障碍(log-barrier)函数把 MDP 的线性规划(LP)形式从不等式约束问题改写成一个无约束的强凸目标 \(f_\eta\),证明其近似最优 Q 函数与障碍参数 \(\eta\) 成线性误差界、梯度下降指数收敛,并据此设计出无需 target network 的 Log-barrier DQN / DDPG。

APC-RL: Exceeding Data-Driven Behavior Priors with Adaptive Policy Composition

APC 用一个"学习无关的仲裁选择器"在多个 Normalizing Flow 数据先验和一个无先验 actor 之间自适应切换,既能在演示对齐时加速学习,又能在演示次优/错位时绕开先验、避免被坏先验拖死,从而"超越"演示数据本身的性能上限。

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

提出ARM-FM框架,利用基础模型(GPT-4o等)从自然语言任务描述自动生成语言对齐奖励机器(LARM)——包括自动机结构、可执行标签函数和每个状态的自然语言描述——为RL agent提供组合式密集奖励信号,在MiniGrid/Craftium(3D Minecraft)/Meta-World等环境中解决标准RL完全无法学习的稀疏奖励长程任务,并实现零样本任务泛化。

Asynchronous Policy Gradient Aggregation for Efficient Distributed Reinforcement Learning

这篇论文把 normalized implicit gradient transport(NIGT)改造成可异步聚合的分布式策略梯度算法,提出同构环境下的 Rennala NIGT 和异构环境下的 Malenia NIGT,在理论复杂度和 MuJoCo 实验中都比 AFedPG 更能利用快 worker、慢通信和异构环境。

Automating the Refinement of Reinforcement Learning Specifications

提出 AUTOSPEC 框架:把"粗粒度逻辑规约导致学不出策略"诊断为抽象图上特定边的失败,再用四种保证健全性的精化操作(改谓词/插路标/分裂起点/找替代路径)自动把规约改细,让现成的规约引导 RL 算法能解原本解不动的任务。

AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization

提出 AutoQD,通过随机傅里叶特征(RFF)将策略的占据度量嵌入有限维空间,再用加权 PCA 降维得到行为描述符,实现无需人工设计 BD 的 QD 优化,在 6 个连续控制任务上全面超越手工 BD 和现有无监督 QD 方法。

AutoTool: Automatic Scaling of Tool-Use Capabilities in RL via Decoupled Entropy Constraints

提出解耦自适应熵约束 (Decoupled Adaptive Entropy Constraints) 的强化学习策略,使 LLM 在工具调用任务中根据问题难度自动切换长/短推理模式,在提升 9.8% 准确率的同时减少约 81% 的推理 token 开销。

AWM: Accurate Weight-Matrix Fingerprint for Large Language Models

提出 AWM,一种无需训练的 LLM 权重矩阵指纹方法,利用线性分配问题(LAP)恢复嵌入层的置换和符号翻转,再用无偏 CKA 消除 Q/K 矩阵的正交变换影响,在 150 对 LLM 上实现完美 AUC(1.0),对 SFT、持续预训练(5.5T token)、RL、多模态扩展、剪枝、upcycling 六类后训练均鲁棒,30 秒内完成。

Balancing the Experts: Unlocking LoRA-MoE for GRPO via Mechanism-Aware Rewards

针对 LoRA-MoE 用 GRPO 做强化微调时路由坍缩、专家利用率低的问题,本文提出 RO-GRPO:把训练中采集到的内部路由统计量(熵 + 负载方差)转换成一个标量奖励,直接拼进 GRPO 的总奖励里,无需辅助损失、不改架构、不加训练阶段,就让模型在提升数学推理精度的同时把专家路由调得更均衡更自信。

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

BAPO 通过逐步训练动态调整 PPO/GRPO 的上下裁剪边界 \(c_{high}\)\(c_{low}\),让正样本对策略梯度损失的贡献占比维持在目标值 \(\rho_0\),从而在离线(off-policy)RL 中同时抑制负样本主导和熵坍缩,让 7B/32B 推理模型的训练稳定且高效。

BA-MCTS: Bayes Adaptive Monte Carlo Tree Search for Offline Model-based RL

首次将贝叶斯自适应 MDP(BAMDP)引入离线模型基 RL,提出 Continuous BAMCP 解决连续状态/动作空间的贝叶斯规划,结合悲观奖励惩罚和搜索基策略迭代("RL + Search"范式),在 D4RL 12 个任务上显著超越 19 个基线(Cohen's \(d > 1.8\)),并成功应用于核聚变 tokamak 控制。

Bayesian Ensemble for Sequential Decision-Making

本文提出 Bayesian Ensemble,把“从集成模型里选哪个成员”本身建模成一个带贝叶斯更新的内层 bandit,从而在 contextual bandit 和 DQN 中用反馈奖励动态调整集成成员的采样分布,在几乎不增加 ensemble+ 开销的情况下显著降低 regret,并在 MiniGrid 强化学习任务上提升累计回报。

Bayesian Robust Cooperative Multi-Agent Reinforcement Learning Against Unknown Adversaries

针对协作多智能体强化学习(c-MARL)部署时可能遇到「目标未知」的对手,本文不再只学一条最坏情况下的 max–min 策略,而是按对手「破坏严重程度」把无穷多种对抗策略离散成有限个类型,对每类各学一个代表性最坏对手,再用带信念网络的同时梯度更新训出一条能随对手行为自适应的鲁棒策略 BATPAL,在四个基准上面对各种已见/未见攻击都稳定优于现有 SOTA。

Belief-Based Offline Reinforcement Learning for Delay-Robust Policy Optimization

DT-CORL 用 Transformer belief model 从延迟观测和历史动作中预测当前潜在状态,并把这个 belief 表示直接嵌入保守离线策略迭代,使只在无延迟离线数据上训练的策略也能在部署时面对确定或随机延迟保持较稳的控制性能。

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

本文用图上路径规划作为可分析的语言模型规划抽象,理论说明 SFT 容易学成共现记忆,策略梯度的优势主要来自探索但会牺牲输出多样性,而带过程奖励的 Q-learning 有望同时保留正确性、多样性与 off-policy 训练能力。

Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty

这篇论文提出 RLCR(Reinforcement Learning with Calibration Rewards),在标准的"二元正确性奖励"上叠加一个 Brier 分数项,让推理模型在给出答案的同时输出一个校准过的置信度,在几乎不损失准确率的前提下把期望校准误差从 0.37 降到 0.03(HotpotQA),并在分布外任务上反转了普通 RL"越训越自信、越训越乱"的退化趋势。

Beyond Distributions: Geometric Action Control for Continuous Reinforcement Learning

针对高斯策略在有界动作空间里"无界支撑 + tanh 压扁"带来的几何失真,本文提出 GAC(几何动作控制)——把动作生成拆成"单位球面上的方向向量 + 一个可学习的浓度标量",用球面插值代替概率采样,参数量从 \(2d\) 降到 \(d+1\)、采样复杂度从 \(O(dk)\) 降到 \(O(d)\),在 6 个 MuJoCo 与 6 个 DMControl 任务上整体追平或超过 SAC(Ant-v4 +37.6%、quadruped-run +112%)。

Beyond Noisy-TVs: Noise-Robust Exploration Via Learning Progress Monitoring

针对内在动机探索里经典的"噪声电视"陷阱,本文提出 Learning Progress Monitoring (LPM):用"模型这一轮比上一轮进步了多少"当内在奖励,而不是用预测误差或新颖度——因为不可学习的随机转移不会带来任何进步,所以天然不会被噪声吸住;在 MNIST、3D 迷宫、Atari 上都比 SOTA 收敛更快、覆盖更多状态、外在回报更高。

Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

针对标准 RLVR 训练熵塌缩、Pass@k 停滞的问题,本文提出 SVS(Self-play with Variational problem Synthesis):让策略模型用自己对难题的正确解去"反向"合成一批答案不变的变体新题、再去解这些新题,在线扩充训练数据从而维持策略熵,在 AIME24/25 上把 Pass@32 绝对提升 18.3% / 22.8%。

Beyond Penalization: Diffusion-based Out-of-Distribution Detection and Selective Regularization in Offline Reinforcement Learning

DOSER 用两个扩散模型分别建模行为策略与状态分布,以单步去噪重建误差作为可靠的 OOD(分布外)指标,再借动力学模型把 OOD 动作细分为"有益"与"有害"两类,对前者给奖励、对后者才惩罚,从而在离线 RL 中既压住价值高估又不扼杀有潜力的探索,在 D4RL 上尤其在次优数据集上刷出领先成绩。

Beyond Softmax and Entropy: Convergence Rates of Policy Gradients with \(f\)-SoftArgmax Parameterization & Coupled Regularization

把 RL 里默认的「softmax 参数化 + 熵正则」换成「\(f\)-softargmax 参数化 + 同源 \(f\)-散度正则」这对耦合搭档,作者证明耦合后的正则目标满足 Polyak-Łojasiewicz 不等式,从而首次给出无需预条件的随机策略梯度显式最后迭代收敛保证;其中 Tsallis 散度把 softmax 的指数级样本复杂度改进为多项式级。

Boolean Satisfiability via Imitation Learning

提出 ImitSAT,首个基于模仿学习的 CDCL 求解器分支策略:通过将求解器运行压缩为无冲突的 KeyTrace 专家序列,将分支决策建模为前缀条件的自回归预测任务,以少量查询预算显著减少传播次数和求解时间,并在结构化 SAT 问题上展现良好泛化能力。

Boosting Multi-Domain Reasoning of LLMs via Curvature-Guided Policy Optimization

针对多领域 RL 训练 LLM 时「学好数学就学坏写作」的跨域冲突问题,CGPO 借鉴牛顿法「用曲率给梯度做预条件」的思想,但不显式算 Hessian,而是把一个 batch 拆成各领域子 batch、按随机顺序逐域串行更新——后更新的域天然感受到先更新域留下的曲率扰动,从而在期望上等价于最大化各域梯度内积、隐式对齐跨域梯度;在 Qwen2.5-3B/7B、四领域七基准上平均分稳超联合训练与梯度均衡基线(7B 59.59 vs 联合 56.62),且几乎零额外开销。

BoreaRL: A Multi-Objective Reinforcement Learning Environment for Climate-Adaptive Boreal Forest Management

BoreaRL 是首个面向气候自适应北方森林管理的多目标强化学习环境,用一个耦合能量-碳-水通量的物理仿真器,把"多固碳 vs 保永冻土"这对矛盾目标交给 MORL 智能体优化,结果发现两个目标的学习难度严重不对称——碳目标好学、永冻土目标几乎学不动,而最朴素的"挑站点"课程策略反而打败了标准的偏好条件化方法。

BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models

BranchGRPO 把扩散/流模型上 GRPO 的"逐条独立采样"改造成一棵共享前缀的分支树,靠树结构同时解决两件事——分支复用前缀摊薄采样开销、叶子奖励反向融合成按深度归一的稠密步级优势——再叠加宽/深剪枝只对有价值子集回传梯度,在 HPSv2.1 图像对齐上比 DanceGRPO 提升最高 16%、单轮训练时间降近 55%,混合变体可达 4.7× 加速。

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

通过观察性研究(18 个开源 RPT 模型)和干预性研究(单域 GRPO 训练),系统揭示了强化后训练(RPT/RLVR)的泛化局限:RPT 在训练域内提升显著,但跨域泛化不一致——结构化域(数学↔代码)可互相迁移,但无法泛化到非结构化域(法律/金融/医疗),且这一结论跨算法、模型规模和训练步数保持一致。

Breaking Safety Paradox with Feasible Dual Policy Iteration

本文发现安全 RL 里一个反直觉的"安全悖论"——策略越安全、违约样本越稀疏,可行性函数估计反而越差,最终拖垮安全性;并提出 FDPI 用一个专门"故意违约"的对偶策略往回灌违约样本、配合重要性采样和 KL 约束,在 Safety-Gymnasium 上同时拿到最低违约和近乎最高回报。

Bridging Successor Measure and Online Policy Learning with Flow Matching-Based Representations

本文提出 Successor Flow Features(SF2),用流匹配生成模型逼近后继测度(Successor Measure, SM),并把向量场强制分解成「时不变的状态-动作嵌入 \(\psi(s,a)\) + 时变投影 \(\zeta(s',k)\)」的线性结构,从而把 SM 估计和在线策略优化打通——在 DeepMind Control 七个连续控制任务上嵌入 TD3/SAC 后,样本效率和训练稳定性都优于强后继特征基线。

Bridging the Performance-Gap Between Target-Free and Target-Based Reinforcement Learning

用在线网络最后一层线性头的旧副本充当目标网络、其余参数全部共享,再叠加 iterated Q-learning 并行学多步 Bellman 迭代,在几乎不增加显存的前提下补齐了 target-free 与 target-based 之间的性能差距。

Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning

针对在线(on-policy)RLVR 训练中"难样本学不动、采样数据用一次就扔"两大浪费,本文提出离策略框架 BAPO(Batch Adaptation Policy Optimization),用一个"难度感知的经验回放 + 自适应批构造"机制把历史难题和历史高质量轨迹重新拉回训练批次,并在理论上证明改造后的批次仍满足策略改进下界,最终在数学、规划、视觉几何三类推理任务上平均比 GRPO 提升 12.5%,还把基座模型一直做不对的 40.7% 难题给解决了。

CaRe-BN: Precise Moving Statistics for Stabilizing Spiking Neural Networks in Reinforcement Learning

针对脉冲神经网络(SNN)在在线 RL 中因 BN 移动统计量估计不准而训练不稳的问题,本文提出 CaRe-BN:用「置信度自适应更新」(Kalman 式加权)实时低方差地估计 BN 统计量,再用「周期性重校准」(从 replay buffer 重采样大批量)纠偏,使 SNN 智能体在 Atari/MuJoCo 上性能提升最高 22.6%,甚至反超对应 ANN 5.9%,且推理零额外开销。

Causally Robust Reward Learning from Reason-Augmented Preference Feedback

ReCouPLe 用一句自然语言理由(如"因为它避免了碰撞")当作嵌入空间里的投影轴,把轨迹表征拆成"理由对齐"和"理由正交"两部分、只让偏好由对齐分量解释,从而剥离与偏好虚假相关的干扰特征,在分布偏移和跨任务零样本迁移上显著超过纯二元偏好基线。

CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models

针对 RLVR(可验证奖励强化学习)训练 LLM 时探索不足、过早收敛、熵坍塌的问题,CDE 让模型用自身的"好奇心"来引导探索——actor 端用生成回复的困惑度(PPL)、critic 端用多头 critic 价值估计的方差作为探索奖励,无需训练额外表征模块,在 AIME 等数学推理 benchmark 上比标准 GRPO/PPO 稳定提升约 +3 点,还顺带修复了一个被称为"校准坍塌"的训练失效模式。

Chain-of-Context Learning: Dynamic Constraint Understanding for Multi-Task VRPs

提出 Chain-of-Context Learning (CCL),通过 Relevance-Guided Context Reformulation(RGCR,自适应聚合约束信息构建上下文)和 Trajectory-Shared Node Re-embedding(TSNR,跨轨迹共享节点更新避免冗余计算)实现逐步动态的约束感知解码,在 48 种 VRP 变体(16 分布内 + 32 分布外)上全面超越现有方法。

Chessformer: A Unified Architecture for Chess Modeling

把棋盘 64 个格子当作 token、再给自注意力加一套随局面动态生成的"几何注意力偏置"(GAB),Chessformer 用一套统一架构同时把"引擎棋力""人类走子预测""可解释性"三个长期割裂的目标推到 SOTA——79M 参数的 MAIA-3 以不到对手四分之一的体量把人类走子匹配率提到 57.1%,而装进 Leela Chess Zero 的版本涨了 100+ Elo 并在多个顶级机器对弈赛上击败 Stockfish。

Chunking the Critic: A Transformer-based Soft Actor-Critic with N-Step Returns

把 SAC 的 MLP critic 换成一个轻量级因果 Transformer,让 critic 直接对「状态 + 一小段动作序列」的所有前缀打分,并用多 horizon 的 N-step 回报做监督——既不需要重要性采样、又把策略保持为严格的单步,从而在长程稀疏奖励任务上大幅超越标准 SAC 与一众离线/episodic 基线。

Composition of Memory Experts for Diffusion World Models

针对世界模型"长上下文越准但算力越爆"的结构性矛盾,本文不再让单一骨干网络扛下所有记忆负担,而是把短期、长期、空间长期三类记忆做成各自独立的扩散专家,再用一种"对比专家乘积"(PoCE)在采样时把它们融合起来,从而在 500+ 帧上保持时序与空间一致性,且训练/推理成本远低于暴力堆 attention。

ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents

ComputerRL 提出一个面向桌面计算机使用智能体的端到端在线 RL 框架:用 API-GUI 范式把程序化 API 调用和人类式 GUI 操作统一进同一动作空间,搭起可并发上千个虚拟桌面的分布式异步 RL 基础设施,再用 Entropulse(RL 与 SFT 交替)对抗长训练中的熵坍缩,最终让 9B 的 GLM-ComputerRL 在 OSWorld 上拿到 48.9% 的成功率,超过 OpenAI CUA o3、UI-TARS-1.5、Claude 4 等更大的闭源/开源智能体。

Context and Diversity Matter: The Emergence of In-Context Learning in World Models

本文把"世界模型的自适应"重新表述为一个上下文学习(ICL)问题,把它拆成"环境识别(ER)"与"环境学习(EL)"两种机制,推导出二者的误差上界,并据此论证:只有足够长的上下文 + 足够多样的环境才能催生真正的 EL,进而用线性注意力长上下文世界模型 L2World 在 cart-pole 和室内导航上实证验证了这套理论。

Continuous-Time Value Iteration for Multi-Agent Reinforcement Learning

提出 VIP(Value Iteration via PINN)框架,首次将物理信息神经网络(PINN)用于求解连续时间多智能体强化学习中的 HJB 偏微分方程,并引入 Value Gradient Iteration(VGI)模块迭代精炼价值梯度,在连续时间 MPE 和 MuJoCo 多智能体任务上始终优于离散时间和连续时间基线。

Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning

CalibRL 将专家数据重新定义为分布校准基线(而非严格模仿目标),通过 LeakyReLU 不对称激活 + 优势加权实现对 MLLM 推理训练中探索-利用平衡的精细控制,解决 RLVR 中的熵崩溃问题,在几何推理等任务上大幅超越 GRPO/DAPO。

Convergence of an actor-critic gradient flow for entropy regularised MDPs in general spaces

本文为连续状态/动作空间、熵正则化的无穷时域 MDP,证明了一类"critic 用 TD、actor 用策略镜像下降"的耦合 actor-critic 梯度流的稳定性与全局收敛性,核心结论是:只要让 critic 在一个指数级更快的时间尺度上更新,整个流就不会有限时间爆炸,并以指数速率收敛到最优正则化价值函数。

Correlated Policy Optimization in Multi-Agent Subteams

把合作多智能体里的联合策略用一个 DAG(贝叶斯网络)来分解,让智能体在"子团队"内部完全关联、跨团队相互独立;在奖励/转移可分解的条件下证明正则化策略梯度能收敛到近优策略,并给出一个按"依赖分数 + 边预算"动态拼子团队的启发式,套进 MAPPO/MADDPG 后在多个 benchmark 上打过标准 baseline。

Critique-RL: Training Language Models for Critiquing Through Two-Stage Reinforcement Learning

Critique-RL 用一个不依赖更强监督者标注的在线 RL 方案训练「批评模型」,先用直接的规则奖励把判别力(discriminability)练好,再用基于改写正确率的间接奖励提升有用性(helpfulness)并加正则保住判别力,从而让弱模型也能产出又准又有用的反馈。

CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning

提出 CUDA-L1,一个基于对比强化学习(Contrastive RL)的三阶段流水线框架,将初始 CUDA 能力较弱的 LLM 训练为高效的 CUDA 优化器,在 KernelBench 的 250 个 CUDA 内核上实现平均 3.12× 加速,峰值达 120×,并可跨 GPU 架构迁移。

DEAS: DEtached value learning with Action Sequence for Scalable Offline RL

DEAS 把「连续 H 步动作」当作价值函数的输入单元来做离线 RL,从而像 n-step TD 一样压缩有效规划视野;为了避免动作空间膨胀带来的价值高估,它用 IQL 式的「解耦价值学习」(critic 训练完全不依赖 actor)+ 分类式分布价值估计 + 双折扣因子来稳住训练,在 OGBench 长视野任务上大幅超过 FQL/Q-Chunking 等基线,并能直接挂到 GR00T、π0 这类大规模 VLA 上提升真机操作成功率。

Decoupled Q-Chunking

针对"分块 critic 能加速价值传播、但要求策略一次开环吐出整段动作块、难学又不灵活"的矛盾,本文提出 Decoupled Q-Chunking(DQC):把 critic 的动作块长度 \(h\) 和策略的动作块长度 \(h_a\) 解耦(\(h_a \ll h\)),让策略只预测一小段动作块,并用一个从大 critic 乐观蒸馏出来的"部分 critic"来引导策略,从而既保留分块 critic 的多步价值传播优势、又绕开长动作块策略难学的问题,在 OGBench 最难的长程目标条件任务上稳定超过此前 SOTA。

Deep SPI: Safe Policy Improvement via World Models

构建了安全策略改进(SPI)的理论框架,将世界模型和表示学习与策略更新保证统一起来:通过基于重要性比率的邻域算子约束策略更新,确保单调改进和收敛;结合局部转移/奖励损失控制世界模型质量和表示稳定性,提出 DeepSPI 算法在 ALE-57 基准上匹配或超越 PPO 和 DeepMDP。

DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Tree-based Search

DeepSearch 把 MCTS 从推理阶段前移到 RLVR 训练循环中,用全局 frontier 选择、置信错误轨迹监督和 replay buffer 缓存来提升数学推理模型的探索效率,在 1.5B 模型上以 62.95% 平均准确率超过延长训练基线,并显著减少 GPU 开销。

Deft Scheduling of Dynamic Cloud Workflows with Varying Deadlines via Mixture-of-Experts

DEFT 把混合专家(MoE)架构第一次引入动态云工作流调度,用一组各自专精不同"截止期松紧档"的专家替换掉传统 DRL 调度器里那个单路前馈策略头,再配一个能读懂工作流 DAG 结构与截止期紧迫度的图自适应门控网络做逐步路由,在大规模场景下把总调度成本相比 SOTA 降了近 30%。

Demystifying The Mechanisms Behind Emergent Exploration in Goal-Conditioned RL

本文用认知科学的"理性分析 + 干预实验 + 简化建模"三件套,拆解了无奖励的 Single-Goal Contrastive RL(SGCRL)为什么能自发探索——结论是:actor 实际在最大化一个由 critic 表征塑造出来的隐式奖励(状态与目标的表征相似度 \(\psi\)-similarity),而这套探索-利用动态来自对比学习得到的低秩表征,而非神经网络函数逼近。

Dichotomous Diffusion Policy Optimization

DIPOLE 把 KL 正则化 RL 的最优策略指数权重项拆成一对有界的"二分策略"(一个追求高回报、一个追求低回报),用 sigmoid 加权稳定训练,再像 classifier-free guidance 那样在推理时线性组合二者的 score,实现可控贪婪度的稳定扩散策略优化。

Direct Preference Optimization for Primitive-Enabled Hierarchical RL: A Bilevel Approach

DIPPER 把 goal-conditioned 层级强化学习写成双层优化问题,用带低层价值函数正则的 DPO 训练高层子目标策略,从而同时缓解低层策略演化带来的非平稳性和高层生成不可达子目标的问题,并在稀疏奖励机器人导航与操作任务上显著优于多种 HRL / DPO / 平坦 RL 基线。

Distributional value gradients for stochastic environments

针对 MAGE 这类"用价值梯度做信用分配"的方法在随机/噪声环境里失灵的问题,本文把分布式强化学习从"建模回报分布"扩展到"同时建模回报及其对动作的梯度的联合分布",提出 Sobolev 分布式 Bellman 算子、可微世界模型与 max-sliced MMD 度量,给出梯度感知 RL 的首个收缩性证明,并在带噪 MuJoCo 上比确定性梯度方法更鲁棒。

Distributionally Robust Cooperative Multi-agent Reinforcement Learning with Value Factorization

本文把分布鲁棒强化学习引入合作式多智能体价值分解,提出 DrIGM 原则,让每个智能体的鲁棒贪心动作仍能拼成全局鲁棒最优联合动作,并在 VDN、QMIX、QTRAN 上实现了对环境分布偏移更稳的鲁棒版本。

DiVE-k: Differential Visual Reasoning for Fine-grained Image Recognition

提出 DiVE-k 框架,利用大视觉语言模型自身的 top-k 生成结果构造选择题,通过 GRPO 强化学习训练模型进行差异化视觉推理,在细粒度图像识别的 base-to-novel 泛化上大幅超越现有方法。

Diversity-Incentivized Exploration for Versatile Reasoning

DIVER 发现「一组回答的全局序列级多样性」和 LLM 的推理能力强正相关,于是把这种多样性做成一个内在奖励、再用势函数塑形保证最优策略不变、并用条件塑形堵住奖励黑客,从而让 RLVR 在数学推理上既不丢 Pass@1、又显著抬高 Pass@k 和跨域泛化。

Divide, Harmonize, Then Conquer It: Shooting Multi-Commodity Flow Problems with Multimodal Language Models

提出 Pram 框架,首次利用多模态语言模型(MLM)求解多商品流(MCF)问题,通过分区将原问题分解为子问题,以多智能体强化学习(MARL)协调各子问题的全局一致性,理论证明收敛到最优解,实测速度比 LP 快 1-2 个数量级且性能接近最优。

Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs

本文指出在 GRPO 等 RL 训练 LLM 时,低概率 token 因梯度幅值过大而主导参数更新、压制了同样重要的高概率 token,并提出两个简单方法——Advantage Reweighting(按概率线性缩小低概率 token 权重)和 Lopti(先更新低概率 token、再更新高概率 token)——在 K&K 逻辑谜题上把 GRPO 提升最高 46.2%。

Does “Do Differentiable Simulators Give Better Policy Gradients?” Give Better Policy Gradients?

这是对 Suh et al. (2022) 同名工作的"再审视":作者用一个只依赖函数值与梯度方差的轻量统计检验(DDCG)取代原来基于 REINFORCE 置信区间的不连续性检测,用单一超参就稳健复现并改进了原方法;更关键的是,他们提出逐步逆方差加权(IVW-H),在 MuJoCo 控制任务上无需任何不连续性检测就超过 GIPPO,从而论证:可控研究里"切换估计器"确实有用,但在实际机器人控制中,真正的瓶颈往往是方差而非"经验偏差"

Don't Just Fine-tune the Agent, Tune the Environment

提出 Environment Tuning 训练范式,通过结构化课程、可操作的环境增强反馈和细粒度进度奖励,使 LLM agent 仅用 400 个训练样本即可从零学会复杂的多轮工具使用,同时实现优异的分布外泛化能力。

DOPPLER: Dual-Policy Learning for Device Assignment in Asynchronous Dataflow Graphs

DOPPLER 把"把数据流图的算子分配到多块 GPU 上以最小化执行时间"建模成一个序列决策问题,用一对策略(SEL 选下一个算子、PLC 给它选设备)配合三阶段训练(模仿学习 → 模拟器 RL → 真机在线 RL),在异步、工作守恒(work-conserving)的执行环境下把执行时间相比最强基线最多降低 52.7%。

DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty

DR-SAC 是第一个面向连续动作空间、离线学习的 actor-critic 型分布鲁棒强化学习算法:它在以 KL 散度球刻画的转移分布不确定集上做"最坏情况下的最大熵优化",给出带收敛保证的分布鲁棒软策略迭代,并用泛函化重写 + VAE 生成模型把算法落地到连续控制,扰动下平均回报最高比 SAC 高 9.8×、训练时间比已有 DR-RL 方法 RFQI 省 80% 以上。

Dual-Objective Reinforcement Learning with Novel Hamilton-Jacobi-Bellman Formulations

本文把 HJ-RL(Hamilton-Jacobi 视角的强化学习)从单一的「到达 / 避障 / 可达-避免」扩展到两类双目标问题——到达后持续避障(Reach-Always-Avoid, RAA)和先后到达两个目标(Reach-Reach, RR),证明它们的 Bellman 方程可以精确分解为已研究过的简单可达/避免子问题的组合,并据此设计了 DOHJ-PPO 算法,在成功率、安全性和速度上全面超越 10 个拉格朗日类与 HJ-RL 基线。

Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts

首次在跨域离线 RL 中同时处理训练时鲁棒性(源域-目标域动力学不匹配)和测试时鲁棒性(部署环境动力学偏移):提出 DROCO 算法,核心是 Robust Cross-Domain Bellman (RCB) 算子——对源域数据施加鲁棒 Bellman 更新、对目标域数据施加标准 in-sample 更新,并通过对偶重构将不可处理的动力学不确定性映射为状态空间扰动,在 D4RL 基准上总分 1105.2 超越次优方法 14%,且在 hard 级别动力学扰动下性能退化仅为基线的一半。

Dual Goal Representations

提出"对偶目标表征"(dual goal representation),用"所有状态到目标状态的时间距离集合"来编码目标,理论证明该表征对最优策略恢复是充分的且天然过滤外生噪声,并设计基于非对称内积参数化的实用学习算法,在 OGBench 20 个任务上作为可插拔模块一致提升三种主流离线 GCRL 方法的性能。

DuPO: Enabling Reliable Self-Verification via Dual Preference Optimization

DuPO 把传统对偶学习从"严格可逆任务对"放宽为"互补依赖关系"——只让对偶任务从主任务输出里重建输入的某个未知分量,用重建一致性当自监督奖励,从而在数学推理、多语翻译等不可逆任务上实现无需任何标注的 RL 优化。

DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning

提出 DVLA-RL 框架,通过双层语义构建(DSC)生成互补的低层属性和高层描述,并以 RL 门控注意力(RLA)动态平衡自注意力和交叉注意力在不同网络层的贡献,实现从低层到高层的层次化视觉-语言对齐,在 9 个少样本学习基准上达到 SOTA。

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

提出音频交错推理(audio-interleaved reasoning)新范式,将音频视为推理过程中的主动组件而非静态上下文,使 LALM 在推理时动态定位并重新聆听音频片段。通过 SFT+RL 两阶段训练框架和结构化数据生成流水线,构建 Echo 模型,在专家级和通用音频理解基准上超越 GPT-4o 和 Gemini-2.0-Flash。

Efficient Estimation of Kernel Surrogate Models for Task Attribution

提出核代理模型(KernelSM)用于任务归因,通过 RBF 核岭回归捕获任务间的非线性交互效应,结合梯度投影的高效估计算法避免重复训练,在数学推理、上下文学习和多目标 RL 等场景下相比线性代理和影响函数基线提升 25% 相关性。

Efficient Morphology-Control Co-Design via Stackelberg Proximal Policy Optimization

把"机器人形态设计 + 控制策略"的协同优化重新建模成一个分阶段 Stackelberg 博弈(形态是 leader、控制是 follower),并推导出能穿过"不可微形态编辑接口"的 Stackelberg 策略梯度,封装成 Stackelberg PPO,让形态更新主动预判控制策略将如何适应,从而稳定训练、平均比最强基线高 20.66%。

Efficient Offline Reinforcement Learning via Peer-Influenced Constraint

这篇论文提出 Peer-Influenced Constraint (PIC):不再只把当前状态在数据集里的行为动作当作保守约束,而是从相似状态中借用候选动作、用 critic 选出更优的 in-distribution 动作来约束 actor,并进一步与小规模集成 critic 结合成 EPIC,在 D4RL 的 MuJoCo、AntMaze 和 Adroit 上取得更高平均分且保持较低训练开销。

Efficient Reinforcement Learning by Guiding World Models with Non-Curated Data

NCRL 先用无奖励、混合质量、多 embodiment 的非策展数据预训练任务无关世界模型,再在在线 RL 阶段通过检索式经验回放和行为克隆先验策略引导探索,显著缓解离线预训练分布与在线微调分布错配,在 72 个视觉运动控制任务上用 150k 交互步达到接近从头训练数倍样本预算的效果。

EGG-SR: Embedding Symbolic Equivalence into Symbolic Regression via Equality Graph

提出 Egg-SR 统一框架,通过等价图(e-graph)将符号等价性嵌入 MCTS、DRL 和 LLM 三类符号回归方法中,分别实现子树剪枝、梯度方差降低和反馈提示增强。理论证明 Egg-MCTS 收紧遗憾界、Egg-DRL 降低梯度估计方差,实验验证一致提升表达式发现精度。

Ego-Foresight: Self-supervised Learning of Agent-Aware Representations for Improved RL

受人类"运动预测"启发,Ego-Foresight 用"智能体动起来时其身体配置可被未来动作预测"这一线索,无需任何监督掩码就把智能体特征从场景特征中解耦出来,作为辅助任务接到 DrQ-v2 和 TD-MPC2 上,显著提升视觉 RL 的样本效率与性能。

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

ELMUR 给 Transformer 的每一层都挂上一块结构化外部记忆,通过双向 cross-attention 读写、再用 LRU 规则(替换 / 凸混合)维护有界但持久的记忆,把有效记忆horizon 拉到注意力窗口的 10 万倍,在百万步 T-Maze 上拿到 100% 成功率,并在稀疏奖励的视觉机器人操作上把强基线的成功率几乎翻倍。

EMFuse: Energy-based Model Fusion for Decision Making

EMFuse 把"直接策略融合"和"动力学模型融合"两件看似不同的事,统一到能量基模型(EBM)这一套语言下——能量相加等价于分布相乘(专家乘积 PoE),由此既能在推理时免训练地融合多个 LLM 专家,又能用一个新架构 ADETM 避开融合动力学集成时的指数级爆炸,在离散决策基准上涨 0.34%–6.63%、在 D4RL 连续控制上平均多拿 2.3–7.4 个归一化分。

Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

本文提出 AIGB-Pearl,给"生成式自动出价"(AIGB)配上一个轨迹评估器作为离线 reward 信号,并用一套有理论保证的 KL-Lipschitz 约束 score-maximization 让生成规划器安全地探索离线数据集之外的高质量轨迹,从而突破纯模仿学习的性能天花板。

Enough is as good as a feast: A Comprehensive Analysis of How Reinforcement Learning Mitigates Task Conflicts in LLMs

这篇论文系统地比较了 SFT 和 RL 两种后训练范式对「模型融合(model merging)」的影响,发现 RL 训练出的模型在被融合后性能掉得远比 SFT 少,并从 on-policy 数据、RL 优化目标的自适应衰减、正负样本联合优化三个角度给出了实证与理论解释。

Entropy-Preserving Reinforcement Learning (REPO / ADAPO)

本文揭示了策略梯度 RL 算法在 LLM 后训练中系统性导致策略熵坍缩的理论根因(优势函数与对数概率的正相关性),并提出两种互补的解法:REPO(通过修改优势函数去相关)和 ADAPO(自适应非对称裁剪),在交互式工具使用任务上实现 SOTA 性能。

Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints

ERA(Entropy Regularizing Activation)通过在网络输出层附加专门设计的激活函数来施加熵下界约束,无需修改损失函数,一套框架同时提升连续控制 RL、LLM 推理和图像分类的性能。

Erase to Improve: Erasable Reinforcement Learning for Search-Augmented LLMs

提出 Erasable Reinforcement Learning (ERL):在搜索增强 LLM 的多跳推理轨迹中,通过密集过程奖励识别出错的子查询/子答案,就地擦除并重新生成,把"一步错满盘皆输"的脆弱轨迹改造成可恢复的鲁棒过程,训练出的 ESearch 在四个多跳 QA 上刷新 SOTA。

Escaping Policy Contraction: Contraction-Aware PPO (CaPPO) for Stable Language Model Fine-Tuning

本文指出 PPO 做 RLHF 时会让策略"支撑集"逐步收缩(熵塌缩、重复变多、SFT 里很多合理回答概率被抹平),提出用支撑保留率 SRR 量化这一现象,并设计 CaPPO——把奖励、熵、KL 当成平级目标做最小范数多梯度更新,再配一个熵调度控制器,在不掉对齐胜率(反而 +2~4 点)的前提下把多样性和支撑保留率显著拉回来。

EUBRL: Epistemic Uncertainty Directed Bayesian Reinforcement Learning

EUBRL 把"认知不确定性"通过概率推断直接写进 RL 目标函数,用一个二值"不确定变量"在探索与利用之间自适应切换,理论上首次在无折扣无限时域 MDP 下同时拿到接近 minimax 最优的后悔界与样本复杂度。

ExGRPO: Learning to Reason from Experience

首次系统研究什么样的推理经验对RLVR最有价值,发现中等难度问题+低熵轨迹最有效,据此提出ExGRPO框架进行经验管理和混合策略优化,在数学推理上平均+3.5分,通用推理+7.6分。

Exo-Plore: Exploring Exoskeleton Control Space through Human-Aligned Simulation

提出 Exo-plore 框架,通过神经力学仿真与深度强化学习相结合,无需真人实验即可优化髋关节外骨骼控制参数,并能推广到病理步态场景。

Expertise Can Be Helpful for Reinforcement Learning-based Macro Placement

EXPlace 把芯片布局工程师多年沉淀的四类专家知识(数据流、宏单元分组、外围偏置、I/O 隔离)显式编码成 RL 的稠密奖励与状态掩码,再用 DPO 模仿专家"基于后端 PPA 反馈迭代精修"的工作流做时序微调,让 RL 布局首次在 TNS/WNS 等真实 sign-off 指标上大幅领先解析式、黑盒和 RL 同行。

Exploration vs Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

通过理论推导和跨模型实验,证明 RLVR 中裁剪偏差提供的学习信号可忽略不计(≤1/17),真正起作用的是裁剪对策略熵的隐式压缩效应,并提出奖励误标模型解释为何随机奖励能让强模型获益。

Exploratory Diffusion Model for Unsupervised Reinforcement Learning

ExDM 首次把扩散模型引入无监督强化学习,用扩散模型拟合 replay buffer 中异质的状态分布,并以"拟合得不好的区域"作为 score-based 内在奖励驱动探索,同时给扩散策略设计了带收敛保证的高效在线微调算法。

EXPO: Stable Reinforcement Learning with Expressive Policies

EXPO 用"基础表达性策略只做模仿学习 + 轻量高斯编辑策略最大化 Q 值 + 即时挑选最高价值动作"的组合,绕开了对扩散/流匹配策略直接做价值反传的不稳定问题,实现了样本效率 2-3 倍提升的在线 RL 微调。

FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

针对 RLVR 训练中"答案正确但推理有缺陷"的 flawed-positive rollout 问题,提出 FAPO 算法:用 GenRM 检测缺陷推理,通过无参数奖励惩罚机制实现"先利用后抑制"的自然学习轨迹,同时提升结果正确性、过程可靠性和训练稳定性。

Fine-tuning Behavioral Cloning Policies with Preference-Based Reinforcement Learning

这篇论文为"离线模仿 + 在线偏好微调"这一在 RLHF、机器人里被广泛使用却缺乏理论支撑的范式补上第一份严格分析:提出 BRIDGE 算法,先用专家示范在轨迹分布空间里构造一个半径以 \(O(1/\sqrt{n})\) 收缩的 Hellinger 置信球,再把在线偏好探索约束在这个球内,证明在线后悔界随离线数据量 \(n\) 增大而趋于零,并在离散/连续 MuJoCo 控制任务上验证后悔低于纯模仿和纯在线偏好 RL。

Finite-Time Analysis of Actor-Critic Methods with Deep Neural Network Approximation

本文给出了首个在连续状态-动作空间、时间平均奖励设置下、对单时间尺度神经 Actor-Critic 算法的有限时间收敛分析,证明奖励/critic/actor 三类误差以 \(\tilde{O}(T^{-1/2})\) 速率收敛到驻点,且收敛速率不依赖网络宽度 \(m\) 发散

floq: Training Critics via Flow-Matching for Scaling Compute in Value-Based RL

把 Q 函数从"单个网络一次性映射出标量"改写成"一个速度场经多步数值积分流向 Q 值",用 flow-matching 给值学习引入逐步密集监督,从而能靠增加积分步数(而非单纯加深加宽)来扩展 critic 的容量,在离线 RL 难任务上把成功率拉到约 1.8 倍。

Flow Actor-Critic for Offline Reinforcement Learning (FAC)

FAC 首次联合利用流模型(continuous normalizing flow)同时构建表达力强的 actor 策略和基于精确密度估计的 critic 惩罚机制,通过识别 OOD 区域对 Q 值进行选择性保守估计,在 OGBench 55 个任务上以 60.3 平均分大幅超越此前最佳的 43.6。

Flow Matching Policy Gradients

本文提出 Flow Policy Optimization (FPO),把条件 flow matching 损失直接塞进 PPO-clip 框架,用「新旧策略 CFM 损失之差的指数」当作似然比的代理,从而能在不计算流模型精确似然、也不绑定任何采样器的前提下,用纯 on-policy 策略梯度从零训练扩散/流式策略,在连续控制和欠条件人形控制上达到甚至超过高斯策略。

Flowing Through States: Neural ODE Regularization for Reinforcement Learning

本文提出 FlowReg:用一个 neural ODE 在隐空间里拟合一条平滑连续的轨迹流,并以对齐损失逼迫智能体的状态编码器让相邻状态的隐表示沿着这条 ODE 流走,从而把"环境转移动力学"显式注入表示学习,在 Atari(A2C)和 MiniGrid(PPO)上获得显著性能提升。

From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones

论文用一个去污染的字符串变换合成任务证明:当 LLM 已通过预训练掌握"原子技能"后,只要 RL 训练显式激励"组合",它就能真正学到原子技能无法解释的全新组合技能,并泛化到更深的嵌套层级乃至完全不同的任务——直接反驳了"RL 只是重排基座模型已有能力"的悲观观点。

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

发现多模态 LLM 的推理性能与视觉注意力分数(VAS)高度相关(r=0.96),提出 AVAR 框架通过视觉锚定数据合成、注意力引导训练目标和视觉锚定奖励塑造三个阶段提升 VAS,在 77 个基准上平均提升 7%。

From Observations to Events: Event-Aware World Models for Reinforcement Learning

受认知科学"人类把连续感知流切分成离散事件"启发,本文提出通用框架 EAWM,让世界模型在预测未来观测之外额外预测"事件"(亮度/数值/类别的显著变化),从而学到紧凑的运动学表征,把 DreamerV3、Simulus 等强基线在 Atari/Craftax/DMC 等 benchmark 上提升 10%–45%。

From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments

把连续控制的深度 RL 建模成一个连续时间随机过程,引入"环境时钟"和"梯度时钟"两个时间尺度,并用 Itô-Taylor 展开 + 无限宽线性化网络,首次推导出在每个梯度步状态分布如何无穷小演化的方程,最终化简为一个只有五个时变量的闭合系统。

From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for RL of Open-ended Generation

提出 RLVRR 框架,将 RLVR(强化学习+可验证奖励)从数学/代码推理扩展到开放式文本生成:从高质量参考答案中提取关键词序列(内容奖励)和可执行 Python 检查函数(风格奖励),构成"奖励链"替代单点验证信号,在 10+ 个 benchmark 上以 10K 数据超越 100K SFT 和高级奖励模型。

Frozen Policy Iteration: Computationally Efficient RL under Linear \(Q^{\pi}\) Realizability for Deterministic Dynamics

在「任意策略的 Q 函数都线性可表示」(linear \(Q^\pi\) realizability)这一温和假设下,本文提出 Frozen Policy Iteration (FPI)——第一个无需 simulator、既计算高效又统计高效的在线 RL 算法,对确定性转移 MDP 达到 \(\tilde O(\sqrt{d^2 H^6 T})\) 的 regret,回答了 Weisz et al. (2023) 留下的开放问题。

GAR: Generative Adversarial Reinforcement Learning for Formal Theorem Proving

GAR 把"出题人"(statement fuser)和"解题人"(prover)放进一个对抗式 RL 闭环里联合训练——出题人被奖励去合成"更难但仍可解"的定理,解题人被奖励去攻克这些题,从而自动形成一条隐式课程,让题目难度始终贴着证明器当前能力滚动上升。

GAS: Enhancing Reward-Cost Balance of Generative Model-assisted Offline Safe RL

GAS 用「目标函数 + 转移级数据增强/重标注 + 数据重塑」给生成式模型驱动的离线安全 RL 补上了轨迹拼接能力,把用户随手指定的(可能不靠谱的)奖励-成本目标,自动校准成数据集里真正可达且满足约束的最优目标,从而在紧约束下更安全、在松约束下奖励更高。

GEM: A Gym for Agentic LLMs

GEM 是面向 LLM 智能体时代的开源"环境模拟器"——对标 OpenAI-Gym,提供统一的环境-智能体接口、异步向量化执行、丰富工具与 24 个标准化多轮环境,并配套提出可兼容稠密分步奖励与任意折扣因子的 REINFORCE + Return Batch Normalization (ReBN) 基线算法。

General search techniques without common knowledge for imperfect-information games, and application to superhuman Fog of War chess

本文提出 Obscuro,通过不枚举共同知识集合的知识受限子博弈搜索、单边 GT-CFR 扩展和策略净化,把实时不完美信息搜索扩展到 Fog of War chess,并首次在该游戏中达到超人水平。

Generalization of RLVR Using Causal Reasoning as a Testbed

本文用"在因果图模型上做概率推断"这一可严格验证的任务当显微镜,系统拆解 RLVR(可验证奖励强化学习)相比 SFT 的泛化优势到底何时出现,结论是:RLVR 的好处只在模型已具备足够初始推理能力时才浮现,并集中体现为改善边缘化策略、减少中间概率推导与计算错误。

Geometric-Mean Policy Optimization

把 GRPO 优化 token 级奖励"算术平均"换成"几何平均",靠几何平均对离群值天然不敏感的特性压住极端重要性采样比,从而在不损失探索能力的前提下让策略更新更稳,数学推理上 Pass@1 比 GRPO 最高提升 4.1%。

Geometry of Uncertainty: Learning Metric Spaces for Multimodal State Estimation in RL

把"不确定性估计"重新表述为度量空间里的几何问题——构造一个让欧氏距离等于"两状态间最少动作数"的潜空间,再用反距离加权融合多模态传感,从而无需任何噪声假设、也无需在噪声下训练,就实现了对未见传感损坏的鲁棒状态估计。

GEPO: Group Expectation Policy Optimization for Stable Heterogeneous Reinforcement Learning

针对去中心化、高网络延迟环境下 LLM 强化学习训练易崩溃的问题,本文提出把重要性权重的粒度从 token / sequence 级粗化到 group 级(用组内期望概率作分母),在理论上对高 KL 散度指数级压低重要性权重方差,从而在 1800 秒延迟下仍只掉 3% 性能。

Getting Your LLMs Ready for Reinforcement Learning with Lightweight SFT

本文揭示 RL 冷启动阶段中「最优 SFT 检查点」与「最佳 RL 起点」并不一致——评测分数还在涨时模型已因分布遗忘丧失 RL 潜力,进而提出用多样性指标(熵 / self-BLEU)做早停,并设计 token / 子序列级自适应加权损失 AESL 平衡新模式学习与基模型分布保留。

Goal Reaching with Eikonal-Constrained Hierarchical Quasimetric Reinforcement Learning

把 Quasimetric RL 的离散逐转移局部约束改写成连续时间的 Eikonal 偏微分方程约束(梯度范数为 1),让价值学习变得"无需轨迹、只需采样状态和目标",再套一层分层结构缓解复杂动力学下的失效,在 OGbench 导航任务上拿到 SOTA。

Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction

通过"脚手架式数据合成 + 编译器反馈驱动的自我纠错 + 模型平均"三件套,把开源 Lean 定理证明器做到新 SOTA:8B 模型超过 671B 的 DeepSeek-Prover-V2,32B 模型在 MiniF2F 上 pass@32 达 90.4%,参数量小 20 倍而算力预算大幅更低。

GoldenStart: Q-Guided Priors and Entropy Control for Distilling Flow Policies

GoldenStart(GS-flow)给单步蒸馏的流匹配策略做两件事:用一个 Q 引导的条件 VAE 把生成的"起跑噪声"挪到高价值区域("黄金起点"),再用熵正则把确定性 actor 改成可控随机分布,从而在保持单步推理速度的同时同时解决"精准利用"和"在线探索"两大难题。

GRACE: A Language Model Framework for Explainable Inverse Reinforcement Learning

GRACE 把逆强化学习的奖励模型从黑箱神经网络换成"可执行 Python 代码",用代码 LLM 在进化搜索里仅凭专家轨迹(无任务描述、无真值奖励)反推出一个可读、可验证的奖励函数。

GRACE: Generative Representation Learning via Contrastive Policy Optimization

GRACE 把对比学习信号从"要最小化的损失"重新理解成"引导生成策略的奖励",让 LLM 先对输入文本写出可读的"理解理由"再对其隐状态做均值池化得到嵌入,并用 GRPO 类策略梯度去最大化 query–正样本相似、最小化 query–负样本相似,从而在 MTEB 上既显著提升嵌入质量又保住了模型的生成与推理能力。

Graph-Theoretic Intrinsic Reward: Guiding RL with Effective Resistance

把智能体的局部感知建成一张随时间演化的图,用图上"智能体节点—目标节点"之间的有效电阻 (Effective Resistance) 的变化作为稠密内在奖励,从谱图论角度给稀疏奖励探索提供了有理论保证、无需预训练的 on-policy 引导信号。

GraphOmni: A Comprehensive and Extensible Benchmark Framework for Large Language Models on Graph-theoretic Tasks

提出 GraphOmni 基准框架,在 7 种图类型 × 7 种序列化格式 × 9 种提示策略的 241K 查询上系统评估 11 个 LLM 的图论推理能力,揭示三维度间的复杂交互效应,并设计 RL 引导的组合搜索方法以 25% 成本保持约 90% 最优准确率。

GRL-SNAM: Geometric Reinforcement Learning with Differential Hamiltonians for Navigation and Mapping in Unknown Environments

把"导航+建图"重写成余切丛上的 Hamiltonian 能量优化问题,用学到的能量景观的梯度直接生成控制动作,替代了主流 RL 的 Bellman 自举,从而在只观测局部、几乎不建全局地图的条件下完成高质量导航并泛化到未见环境。

Group Verification-based Policy Optimization for Interactive Coding Agents

GVPO 在 GRPO 的群组相对优势之上叠加一层"过程可验证"塑形项,把代码执行成功/失败这类确定性的中间反馈直接注入到逐步优势里,从而修正稀疏结果奖励带来的信用分配偏差,让 32B 智能体在 AppWorld 上超过 OpenAI o1。

Grouping Nodes with Known Value Differences: A Lossless UCT-based Abstraction Algorithm

本文提出 KVDA-UCT,把 MCTS 抽象从"只合并价值相等的节点"放松为"只要价值差可被推断就合并",在不引入任何新参数、不损失精确性的前提下,比当前最优的 OGA-UCT 发现显著更多的抽象,从而提升确定性环境下的样本效率。

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

GFP 把"流匹配行为克隆 + 一步蒸馏 actor"的双策略 BRAC 框架升级为价值感知版本:用 critic 和 actor 给数据集动作打软分,让行为克隆只重点模仿高价值动作,而不是无差别地克隆所有 state-action 对,从而在 144 个离线 RL 任务上拿到 SOTA。

Guided Policy Optimization under Partial Observability

针对"用特权信息训练老师再蒸馏给学生"时常出现的模仿差距问题,提出 GPO 框架:让 guider(用特权信息)和 learner(只看部分观测)同时协同训练,并通过"回溯"约束把 guider 始终拉回到 learner 能模仿的范围内,从理论上保证学生的监督学习等价于直接 RL,从而既榨干特权信息又不留下学不会的"过于优秀的老师"。

Helix: Evolutionary Reinforcement Learning for Open-Ended Scientific Problem Solving

提出 HELIX 框架,将强化学习(GRPO)与进化算法(NSGA-II)结合用于开放式科学问题求解:RL 迭代优化策略,进化机制平衡解的质量与多样性,in-context learning 利用历史解指导探索,仅用 14B 模型在圆填充、机器学习任务等 20 个任务中超越 GPT-4o 流水线。

Heterogeneous Agent Q-weighted Policy Optimization

HAQO 把"顺序优势更新 + Q-加权扩散策略 + 熵正则"三件套统一进一个框架,让异构多智能体既能用扩散模型表达多模态策略,又能像信赖域方法那样保证联合回报单调改进。

How Far Can Unsupervised RLVR Scale LLM Training?

对无监督可验证奖励强化学习(URLVR)进行全面分析,揭示所有内在奖励方法本质上都是在"锐化"模型初始分布,导致先升后降的不可避免崩溃模式;提出Model Collapse Step作为模型先验指标,并指出外部奖励方法是突破可扩展性瓶颈的方向。

How to Lose Inherent Counterfactuality in Reinforcement Learning

这篇论文从理论和 Atari 实验两条线说明:标准强化学习本来会给未执行动作学习有序的反事实价值,而显式追求 \(\epsilon\)-局部不变性的鲁棒训练会扭曲 Q 函数、重排次优动作、造成价值高估,并让策略丢掉这种反事实能力。

Imitation Learning as Return Distribution Matching

这篇论文把风险敏感模仿学习重新表述为“匹配专家完整回报分布”的问题,并在 tabular MDP 中用依赖累计回报的非 Markov 策略类设计 RS-BC 和 RS-KT 两个有样本复杂度保证的算法。

Improving and Accelerating Offline RL in Large Discrete Action Spaces with Structured Policy Initialization

SPIN 把"学动作结构"与"学控制"两件事拆开——先用类 BERT 的掩码自监督预训练一个动作结构模型(ASM)来刻画合法联合动作所在的低维流形,再冻结这套表示、只训轻量策略头,从而在指数级离散组合动作空间的离线 RL 上把平均回报最多提升 39%、收敛速度最多加快 12.8 倍。

Improving Human-AI Coordination through Online Adversarial Training and Generative Models

GOAT 把一个冻结的合作策略生成模型(VAE)塞进在线对抗训练回路,让对手只在生成模型的潜空间里搜索"最大化 regret"的合作伙伴,从而既能持续暴露协作智能体的弱点、又不会退化成自我破坏,在 Overcooked 真人评测上拿到 SOTA。

In-Context Compositional Q-Learning for Offline Reinforcement Learning

ICQL 把离线 RL 的 Q 学习重写成"上下文推断"问题——给定查询状态先从离线数据集检索 top-k 相似 transition,再用线性 Transformer 从这组局部上下文里就地推断出一个局部 Q 函数,从而绕过"一个全局 Q 网络硬拟合所有子任务"的困境,在 D4RL 的 Kitchen / MuJoCo / Adroit 上分别提升最高 16.4% / 8.8% / 6.3%。

Information-based Value Iteration Networks for Decision Making Under Uncertainty

本文提出 VI2N(Value Iteration with Value of Information Network),把"成对启发式"(Pairwise Heuristic)做成可微的卷积网络模块,让价值迭代网络第一次能在高感知歧义的部分可观测导航环境中学会"先消除不确定性、再去拿奖励"的策略。

Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn Search Agents

IGPO 把每一轮 agent-环境交互看作"逐步逼近真值"的过程,用模型自身对 ground-truth 的置信度增量当作轮级稠密奖励,无需外部奖励模型或蒙特卡洛估计,就缓解了多轮 RL 里 outcome 奖励稀疏导致的优势塌缩问题。

Instance-Dependent Fixed-Budget Pure Exploration in Reinforcement Learning

本文首次研究 MDP 中的固定预算纯探索问题,提出 BREA 算法——只输入交互预算 B,就能给出 instance-dependent 的「ε-uniform」失败概率上界(对所有超过预算阈值的精度 ε 同时成立),把策略识别从「需要预先指定精度 ε 和置信度 δ」的 PAC 范式中解放出来。

Instance-wise Adaptive Scheduling via Derivative-Free Meta-Learning

针对深度强化学习调度模型"只优化平均性能、对单个实例不够好"的问题,本文用 MAML 元学习训练一个"专为微调而生"的初始化模型,并把内外两层优化全部换成无导数的进化策略(ES)、配合 GPU 并行,让模型能在测试时对每个实例做全参数自适应搜索,显著超越 Active Search / EAS 等测试时方法。

Inter-Agent Relative Representations for Multi-Agent Option Discovery

本文提出一种面向智能体间相对关系的联合状态抽象:先估计一个让全队对齐成本最小的"Fermat 状态",再以各智能体到它的逐维时序距离作为新的状态表示,在此之上做图拉普拉斯 eigenoption 分解,从而发现数量更少、协调性更强的多智能体联合 option。

Is Pure Exploitation Sufficient in Exogenous MDPs with Linear Function Approximation?

证明在外生MDP(Exo-MDP,不确定性仅来自独立于智能体动作的外生输入)中,纯利用(无探索)策略即可达到次线性遗憾界——表格情形下PTO算法达到 \(\tilde{O}(H^2|\Xi|\sqrt{K})\),线性函数逼近下LSVI-PE算法遗憾与特征维度和外生状态空间多项式相关、与内生状态/动作空间无关。

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

J1 把"主观/客观判断任务"统一改写成带可验证奖励的格式,用 GRPO 在线 RL 训练会"先思考再下判决"的 LLM 评委,在多个 reward 基准上以 32B 规模反超 o3、DeepSeek-R1-671B,并用纯合成数据消除位置偏置。

Jackpot: Align Actor-Policy Distribution for Scalable and Stable RL for LLM

Jackpot 用「最优预算拒绝采样(OBRS)」直接把 actor(推理 rollout)分布拉近到 policy(训练)分布,配合 Top-K 概率估计与稳定化的 Jackpot-PPO 损失,让 LLM 的强化学习能在大批量、异步乃至「两个不同模型分别 rollout/训练」的极端 off-policy 设定下保持稳定收敛。

Kevin: Multi-Turn RL for Generating CUDA Kernels

把"写 GPU kernel"这件天然迭代的工程任务建模成多轮 RL,让模型在每一轮生成—执行—改进的循环里都拿到信用分配,训出首个用多轮 RL 优化 CUDA kernel 的模型 Kevin,正确率从 56% 提到 82%、平均加速比从 0.53x 提到 1.10x,并超过 o4-mini 等前沿模型。

KL-Regularized Reinforcement Learning for Generative Modelling is Designed to Mode Collapse

本文从变分推断视角证明:KL 正则化 RL 的多样性崩塌不是优化算法的锅,而是目标分布本身被构造成了单峰——在常用超参下,即使完美求解全局最优,策略也注定只覆盖单个高奖励模式;据此提出仅改两行代码的 MARA(模式锚定奖励增广),让目标分布在所有高奖励区域均匀铺开。

Koopman-Assisted Trajectory Synthesis: A Data Augmentation Framework for Offline Imitation Learning

KATS把专家闭环行为学习成 Koopman 潜空间里的线性动力学,再用与该动力学近似对易的潜空间对称变换整条合成新轨迹,并通过逆动力学补回动作,从而在低数据多样性的离线模仿学习与少样本离线强化学习任务上显著提升策略性能。

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

提出LadderSym架构解决音乐练习错误检测任务,通过交替式跨流对齐模块(Ladder)克服晚期融合的对齐不足,并用符号乐谱提示(Sym)减少纯音频乐谱的频率歧义,在MAESTRO-E上将漏音F1从26.8%提升到56.3%。

LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

LaSeR 把 LLM 对自己答案的正确性判断压缩到“答案最后一个 token 之后某个特殊 token 的 log-prob”里,用一个 MSE 辅助损失把这个 last-token self-rewarding score 对齐到 verifier 奖励,从而在几乎不增加推理成本的情况下同时提升 RLVR 推理能力和测试时自验证能力。

Latent Wasserstein Adversarial Imitation Learning

提出LWAIL方法,用ICVF从少量随机数据学习动态感知的潜空间表示,将Wasserstein距离的"地面度量"从欧氏距离升级为潜空间距离,仅用单条状态轨迹即可达到专家级模仿性能。

Learn More with Less: Uncertainty Consistency Guided Query Selection for RLVR

这篇论文把主动学习引入 RLVR 数学推理训练,发现“模型觉得难”和“客观答错概率高”必须一致才真正有价值,并用离线 \(r_{pb}\) 与在线 \(r^{online}_{pb}\) 指标在只用 30% query 的情况下接近甚至超过全量 RLVR 训练效果。

Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

SPEAR 用"课程调度的自模仿学习 + 内在奖励塑形",让 agentic LLM 在训练早期靠工具交互大胆探索、后期靠回放成功经验稳健利用,在不依赖外部专家示范的前提下实现"先学规矩、再信战果"的渐进式探索-利用平衡。

Learn to Reason Efficiently with Adaptive Length-based Reward Shaping

本文把各种"压缩长推理链"的 RL 方法统一进一个"长度奖励塑形"框架,并基于该视角提出阶跃式奖励 LASER 及其动态、难度感知版本 LASER-D,在 1.5B–32B 五个推理模型上同时提升准确率与 token 效率(AIME24 上 +5.3 准确率、-64% token)。

Learning Dynamics Feature Representation via Policy Attention for Dynamic Path Planning in Urban Road Networks

针对 RL 解动态路径规划时「全局动态信息完整但太贵、局部动态高效但漏关键信息」的两难,本文用「策略注意力筛任务相关子图 + n-hop 邻域抽节点局部特征」的分层蒸馏,把高维全局路网动态压成紧凑且近似满足马尔可夫性的状态,给任意 RL 主干提速且提质。

Learning from Synthetic Data Improves Multi-hop Reasoning

发现在完全虚构的规则生成合成数据上做RLVR训练,能显著提升LLM在真实多跳推理任务上的表现(Qwen3-0.6B提升56%-131%),因为模型学到了知识组合这一通用推理技能而非记忆事实知识。

Learning From the Past with Cascading Eligibility Traces

本文把传统指数衰减资格迹推广成由多个状态串联而成的级联资格迹,让突触记忆在指定延迟 \(T\) 附近集中达到峰值,从而在秒级行为反馈和分钟级逆行轴突信号两类延迟场景下更准确地把误差信号归因到过去活动。

Learning Human Habits with Rule-Guided Active Inference

把主动推理(active inference)扩展成"会养成习惯"的框架:用生物启发的 wake–sleep 算法在统一自由能目标下联合学习世界模型和符号规则,让 agent 在熟悉情境里用高置信度规则瞬时反应、在新奇情境里回退到 EFE 规划,从而更准更快地预测人类行为且产出可解释的"习惯"。

Learning Massively Multitask World Models for Continuous Control

作者提出了首个面向"大规模多任务在线 RL"的基准 MMBench(200 个任务、10 个领域)和一个语言条件世界模型 Newt(基于 TD-MPC2),通过"先用示范预训练、再在所有任务上联合在线交互优化"的范式,证明单个智能体确实能用在线 RL 同时学会数百个连续控制任务。

Learning to Be Uncertain: Pre-training World Models with Horizon-Calibrated Uncertainty

针对无动作视频预训练世界模型时"被迫预测单一确定性未来"的痛点,本文提出 HAUWM,用集成动力学头 + 可变时域预测,并通过一个 Horizon-Calibrated Uncertainty (HCU) 损失显式逼迫预测方差随预测时域单调增长,从而学到"对时间有信心衰减意识"的隐空间,下游控制任务上显著超过 SOTA。

Learning to Generate Unit Test via Adversarial Reinforcement Learning

提出UTRL框架,通过对抗RL迭代训练单元测试生成器和代码生成器——测试生成器学习生成能区分LLM代码与正确代码的判别性测试用例,代码生成器学习通过这些测试——Qwen3-4B训练后超越GPT-4.1的测试生成质量。

Learning to Orchestrate Agents in Natural Language with the Conductor

用GRPO训练一个7B Qwen2.5模型作为"Conductor",通过自然语言输出完整的Agent工作流(子任务指令+worker分配+通信拓扑访问列表),协调GPT-5/Claude Sonnet 4/Gemini 2.5 Pro等frontier模型,仅用960题×200迭代训练,在7个推理benchmark上平均77.27%超越所有单模型(GPT-5为74.78%)和多Agent基线。

Learning to Play Multi-Follower Bayesian Stackelberg Games

首次系统研究多追随者贝叶斯Stackelberg博弈(BSG)的在线学习问题,通过对领导者策略空间进行"最佳响应区域"几何分割,在类型反馈下实现 \(\tilde{O}(\sqrt{\min\{L, nK\} \cdot T})\) 的遗憾界——该界不随追随者数 \(n\) 呈多项式增长,并证明了几乎匹配的 \(\Omega(\sqrt{\min\{L, nK\}T})\) 下界。

Learning to Reason as Action Abstractions with Scalable Mid-Training RL

本文首次从理论上刻画了"中训练 (mid-training) 如何塑造后训练 RL",指出有效的中训练应在时间动作抽象 (temporal action abstraction) 而非原始 token 空间中学习,并据此提出 RA3——一个用自监督 RL 发现潜在推理结构、再 SFT 回灌的可扩展中训练算法。

Learning to Reason Efficiently with Discounted Reinforcement Learning

把 LLM 的可验证奖励推理建模成"有限时域随机最短路 MDP",仅对推理 token 施加折扣因子 \(\gamma<1\),用 Blackwell 最优性证明:只要 \(\gamma\) 足够接近 1,折扣最优策略会先最大化正确率、再在所有正确策略里挑最短轨迹——从而"无损精度地缩短思维链"。

Learning What Matters Now: Dynamic Preference Inference under Contextual Shifts

把多目标 RL 中常被当作"已知常量"的偏好权重,建模成会随情境漂移的隐变量,用变分推断在线维护一个"现在什么最重要"的后验信念,并与偏好条件 actor–critic 联合训练,让智能体在事件驱动的分布漂移后快速重排目标优先级。

Less is More: Clustered Cross-Covariance Control for Offline RL

本文揭示了离线RL中标准平方误差目标会引入有害的TD交叉协方差,并提出C⁴(Clustered Cross-Covariance Control for TD)方法,通过分区缓冲区采样和显式梯度校正惩罚来抑制这一效应,在小数据集和OOD区域主导的场景下实现高达30%的回报提升。

Leveraging Explanation to Improve Generalization of Meta Reinforcement Learning

模仿"人犯错后回去复习最相关的旧题"的策略:先用样本解释找出与适应得差的任务最相关的"关键训练任务",再用条件互信息引导元策略对这些关键任务"多加注意"——通过学一个最优的 mixup 增强分布把更多关键任务信息写进元参数,从而 post-hoc 地修好元强化学习的不均衡泛化。

Local Reinforcement Learning with Action-Conditioned Root Mean Squared Q-Functions

受 Forward-Forward 算法的"goodness 函数"启发,本文提出 ARQ(动作条件化的均方根 Q 函数)——把局部 RL 中每个细胞输出的隐向量用"减均值后求均方根(即标准差)"直接读成标量 Q 值,并把动作以 one-hot 拼到模型输入端做条件化,从而摆脱了此前无反向传播方法中"输出维度必须等于动作数"的限制,在 MinAtar 和 DeepMind Control 上既超过 SOTA 局部 RL 方法 AD,又在多数任务上击败了用反向传播训练的 DQN/SAC。

LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

提出 LongRLVR,通过在 RLVR 训练中引入可验证的上下文奖励(context reward),解决长上下文场景下仅靠最终答案奖励导致的上下文定位(grounding)梯度消失问题,显著提升 LLM 长上下文推理能力。

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

提出 LongWriter-Zero:从基础模型出发,不依赖任何标注或合成数据,仅通过 GRPO 强化学习 + 三维度复合奖励模型(长度 / 质量 / 格式),涌现出超长高质量文本生成能力,在 WritingBench 上以 32B 参数量超越 DeepSeek-R1 和 Qwen3-235B 等 100B+ 模型。

Look-ahead Reasoning with a Learned Model in Imperfect Information Games

本文提出 LAMIR,在没有显式游戏规则的前提下,从交互轨迹中学一个带抽象的不完美信息博弈模型,让 MuZero 式的"学模型再做前瞻推理"范式首次能在大规模不完美信息博弈中以理论可靠的方式运行。

Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards

LATR 用"分叉—前瞻模拟—剪枝"的树状 rollout 替换 RLVR 中独立的 token 级随机采样,在固定生成预算下显式制造轨迹级多样性,让 GRPO/DAPO 学习提速 131%、最终 pass@1 提升 4.2%。

LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts

提出 LoongRL,通过构建 KeyChain 合成数据进行强化学习训练,使 LLM 涌现出 plan–retrieve–reason–recheck 的长上下文推理模式,仅在 16K 上下文上训练即可泛化到 128K,14B 模型达到 74.2 分接近 o3-mini (74.5) 和 DeepSeek-R1 (74.9)。

MAGE: Multi-scale Autoregressive Generation for Offline Reinforcement Learning

把图像领域的「多尺度自回归(VAR)」搬到离线 RL 的轨迹建模上:先生成一条粗粒度的全局轨迹草图,再逐层自回归地细化到细粒度,从而在长程稀疏奖励任务上同时兼顾全局连贯性与局部可控性。

MARL2Grid-TR: A Multi-Agent RL Benchmark in Power Grid Operations

本文提出 MARL2Grid-TR——首个面向真实输电网"拓扑优化 + 再调度/削减"控制的多智能体 RL 基准,基于法国 TSO 的高保真仿真平台 Grid2Op,把电网控制建模成多智能体协作任务,并用实验证明当前主流 MARL 方法在真实约束下尤其在高维拓扑任务上几乎全军覆没。

MARS-Sep: Multimodal-Aligned Reinforced Sound Separation

MARS-Sep 将查询条件声音分离重新建模为强化学习问题,通过分解 Beta 掩码策略在时频域上进行随机决策,并利用渐进式对齐的多模态编码器提供语义奖励信号,在信号保真度和语义一致性上同时取得提升。

Masked Skill Token Training for Hierarchical Off-Dynamics Transfer

MSTT 把"环境结构变化导致某些技能不可执行"抽象成一张二值技能掩码,用 VQ-VAE 把轨迹切成离散技能 token、用随机掩码模拟动力学漂移训出一个"可行性感知"的 critic,再配合扩散轨迹生成器做可行性过滤,从而仅凭目标环境里一条只有观测、没有动作标签的演示,就能零样本迁移到结构被改变的新环境。

Master Skill Learning with Policy-Grounded Synergy of LLM-based Reward Shaping and Exploring

PoRSE 让 LLM 不只生成目标导向奖励,还顺手设计一个"功能可供性状态空间"来驱动任务相关的探索,再用一套在线策略改进流程动态权衡两者,在 24 个机器人操作/运动任务上刷新 SOTA 并首次攻克两个此前无解的难任务。

Mastering Sparse CUDA Generation through Pretrained Models and Deep Reinforcement Learning

SparseRL 把预训练代码大模型当作随机策略、把编译器+执行器当作环境,用 PPO + 分层奖励(编译/正确/执行效率)端到端学习为每个动态输入稀疏矩阵生成高性能 SpMV/SpMM CUDA 代码,编译率提升约 20%、生成代码平均快 30%。

MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model

作者指出现在流行的数学推理 RL 基准(MATH-500、AIME24)在 pass@1024 下早被开源基座模型几乎全解,导致 RL 微调只是在"磨锐"已有解法而非"发现"新能力;为此他们构造了 MATH-Beyond——一套刻意让 ≤8B 开源模型在 1024 次采样下仍解不出的高中竞赛题集,把评测目标从"提高 pass@k"转向"扩张基座模型的推理边界"。

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

把"平均速度场"引入 RL 策略,用一步采样就能从高斯噪声直接生成多模态最优动作,再用一个瞬时速度约束(IVC)补上缺失的边界条件保证学习精度,从而在保留 flow 策略表达力的同时把训练/推理速度拉满。

Menlo: From Preferences to Proficiency – Evaluating and Modeling Native-like Quality Across 47 Languages

提出 Menlo 框架,基于受众设计理论将母语级响应质量分解为四个维度,构建了覆盖 47 种语言变体的 6423 条标注偏好对数据集,并发现配对评估+RL 训练的 LLM 裁判可达到接近人类标注员的水平。

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

MergeMix 提出了一种基于 token merging 的 mixup 数据增强方法,通过双部软匹配在注意力空间生成混合图像,并将混合比例作为偏好优化中的软边际,在图像分类和多模态大模型两个场景下统一了 SFT 和 RL 训练范式。

Minimax Optimal Adversarial Reinforcement Learning

本文首次证明:在转移核被对手任意选择(fully adversarial)的 episodic MDP 中,仍可达到次线性 regret,提出 AD-FTRL 算法把 regret 压到 \(\tilde{O}(\sqrt{(|S||A|)^K T})\),并构造匹配下界证明其 minimax 最优。

MIRA: Memory-Integrated Reinforcement Learning Agent with Limited LLM Guidance

MIRA 把 LLM 的子目标分解与轨迹先验摊销(amortize)进一张持续演化的记忆图,再从图中导出 utility 信号去软性塑形优势估计,从而在稀疏奖励早期加速学习,且随训练衰减塑形项以保留 PPO 的收敛性——只用几十次离线/在线查询就逼近"每步都查 LLM"的方法的性能。

MIRACLE: Model-free Imitation and Reinforcement Learning for Adaptive Cut-Selection

把混合整数规划求解器 SCIP 当作环境、其默认割平面策略当作专家,用 GAIL 学一个稠密奖励再用 PPO 训一个轻量割平面选择策略,在每轮只挑出预算内的少数高价值割,把峰值内存从 GB 级压到几十 MB(最高省 98.5%),同时在 MIPLIB 上拿到 100% 求解成功率和平均 3.78× 加速。

Mirage or Method? How Model–Task Alignment Induces Divergent RL Conclusions

本文指出近期一系列"反直觉"的 LLM 强化学习结论(虚假奖励有效、单样本顶满数据集、纯负样本训练够用)其实并非 RL 的普适规律,而只在模型本身已经擅长该任务(强 model-task alignment,用 pass@k 度量)时成立;一旦任务超出模型能力范围,这些技巧统统失效,只有标准带正确奖励的 RL 仍然稳健。

Mixture-of-World Models: Scaling Multi-Task Reinforcement Learning with Modular Latent Dynamics

用一组任务专属 VAE + 混合 Transformer 专家 + 共享骨干构成「世界模型混合体」(MoW),配合梯度聚类与和谐损失,把单个 agent 训成能同时玩 26 个 Atari 游戏、做 50 个 Meta-World 任务的多任务世界模型,性能逼近 26 个单任务模型集成而参数减半。

MOBODY: Model-Based Off-Dynamics Offline Reinforcement Learning

MOBODY 把"动力学失配下的离线 RL"从"过滤/惩罚高偏移源数据"转向"直接学一个准确的目标域动力学模型并 rollout 探索",用双动作编码器 + 共享状态/转移函数学到目标动力学,再配合目标 Q 加权的行为克隆做策略优化,在 MuJoCo/Adroit 上平均提升 25%–44%。

ROMI: Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

ROMI 通过 Wasserstein 对偶将动力学不确定集转化为状态不确定集来实现鲁棒的价值感知模型学习,并用隐式可微的自适应加权机制平衡动力学精度与价值感知,解决了 RAMBO 方法中的 Q 值低估和梯度爆炸问题,在 D4RL 和 NeoRL 上达到模型基离线 RL 的 SOTA。

Model Predictive Adversarial Imitation Learning for Planning from Observation

提出 MPAIL(Model Predictive Adversarial Imitation Learning),将 MPPI 规划器嵌入对抗模仿学习循环,首次实现端到端的仅观测规划框架(Planning-from-Observation),在泛化性、鲁棒性、可解释性和样本效率上全面优于基于策略的 AIL 方法,并在真实世界机器人导航中从单条观测演示成功部署。

Multi-Agent Guided Policy Optimization

MAGPO 用一个自回归联合"引导者"策略做集中式协调探索,并通过 KL 对齐把它约束在去中心化"学习者"策略能实现的范围内,既保住了 CTDE 的可部署性,又给出了单调策略改进的理论保证。

Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

MLES 把多模态大模型当作"会看回放的策略程序员",配合演化搜索直接生成可读的程序化控制策略——用执行画面(行为证据)诊断失败模式并定向修改代码,在 Lunar Lander 和 Car Racing 上做到了和 PPO 相当的性能,同时全程透明可追溯。

Near-Optimal Second-Order Guarantees for Model-Based Adversarial Imitation Learning

提出 MB-AIL(基于模型的对抗模仿学习)算法,在一般函数逼近下建立了无视域(horizon-free)的二阶样本复杂度上界,结合新构建的困难实例上的信息论下界,证明 MB-AIL 在在线交互的样本复杂度上达到极小极大最优(相差对数因子)。

Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information

本文通过将Stackelberg博弈中的领导者效用空间线性化,提出了一种约简到线性上下文赌臂问题的算法,在带侧信息的赌臂反馈设置下将遗憾界从 \(\tilde{O}(T^{2/3})\) 改进到近似最优的 \(\tilde{O}(T^{1/2})\)

Neural Predictor-Corrector: Solving Homotopy Problems with Reinforcement Learning

本文把鲁棒优化、全局优化、多项式求根、采样这四类看似无关的难题统一进「同伦(homotopy)」范式,指出它们的求解器都是「预测-校正(predictor-corrector, PC)」结构,并用强化学习取代手工设计的步长与终止启发式,训练出一个能跨实例泛化、即插即用的通用神经求解器 NPC。

Neural+Symbolic Approaches for Interpretable Actor-Critic Reinforcement Learning

NSAC 把 A2C 中黑箱的 actor 换成「加性规则集成」(additive rule ensembles),用神经网络 critic 估值、用一组 IF-THEN 规则直接做决策,并通过策略梯度 + 正交梯度提升在线学习规则,做到与 DQN/PPO/A2C 等黑箱方法相当的性能同时具备内生可解释性。

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

OC-STORM 用冻结的视频分割基础模型(Cutie/SAM2)从极少量(6–12 帧)标注里抽出决策关键物体的紧凑向量特征,喂进世界模型让它把建模容量聚焦到小而关键的物体上,从而在 Atari 100k 和视觉复杂的《空洞骑士》Boss 战上显著超过 STORM 基线、取得 SOTA 级样本效率。

Occupancy Reward Shaping: Improving Credit Assignment for Offline Goal-Conditioned Reinforcement Learning

本文提出 Occupancy Reward Shaping (ORS),先用流匹配学一个"占用度量"(未来状态分布)生成模型,再用最优传输把这个模型里隐含的世界几何(状态到目标的最短路距离)抽取成一个稠密奖励,从而在离线目标条件强化学习的稀疏奖励场景下显著缓解信用分配难题——在 13 个长程任务上平均提升 2.2×,且可证明不改变最优策略。

OCTAX: Accelerated CHIP-8 Arcade Environments for Reinforcement Learning in JAX

OCTAX 用 JAX 把 1970 年代的 CHIP-8 虚拟机搬到 GPU 上做端到端向量化仿真,提供 21 款带图像观测的经典街机游戏作为 RL 环境,在消费级显卡上跑到 35 万 env-steps/s(140 万帧/s),比 CPU 方案 EnvPool 快 14×,并配套一条用 LLM 自动生成新 CHIP-8 游戏环境的流水线。

Off-Policy Safe Reinforcement Learning with Constrained Optimistic Exploration

本文提出 COX-Q,一种 off-policy 安全强化学习算法:在线探索阶段用 Policy-MGDA 在动作空间化解奖励与成本的梯度冲突、并用自适应步长把数据采集成本压在阈值内,离线学习阶段用截断分位数评论家(TQC)稳定成本价值估计并量化认知不确定性,从而在保持高样本效率的同时让训练与测试阶段的成本都满足约束。

Offline Preference-based Value Optimization

本文提出 PVO(Preference-based Value Optimization),用一个全新的「价值对齐损失」直接优化价值函数,使其与偏好反馈一致,在拿到 \(O(\varepsilon^{-2})\) 速率最优样本复杂度保证的同时,无需额外偏好学习超参就在连续控制基准上稳定地超越了一众强基线。

Offline Reinforcement Learning with Adaptive Feature Fusion

这篇论文针对 Decision Transformer 这类「把强化学习当序列建模」的方法容易过拟合历史次优子轨迹、拼不出更优轨迹的问题,提出 QDFFDT:用一个可学习的、随状态变化的融合系数,把「全局序列特征」和「局部单步马尔可夫特征」自适应地加权融合,再叠加 Q 学习模块做价值引导,在 D4RL 基准上达到 SOTA。

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

本文提出 CHORD,把 SFT 从一个独立训练阶段重构为 on-policy RL 过程里动态加权的辅助目标,再用「全局系数 \(\mu\) + token 级加权函数 \(\phi(\cdot)\)」的双控机制平滑吸收专家数据,在数学推理和工具调用任务上稳定超过 SFT-then-RL 等基线。

On Discovering Algorithms for Adversarial Imitation Learning

提出 DAIL——首个元学习对抗性模仿学习算法:将 AIL 分解为密度比估计和奖励赋值(RA)两阶段,用 LLM 引导的进化搜索自动发现最优 RA 函数 \(r_{\text{disc}}\),在未见环境和策略优化器上泛化并超越所有人工设计基线。

On Predictability of Reinforcement Learning Dynamics for Large Language Models

本文发现 LLM 在 RL 训练中的参数更新矩阵 \(\Delta W\) 几乎被它的 Rank-1 子空间所主导(单一方向就能恢复 99% 以上的推理增益),且这个子空间随训练近似线性演化、可从早期 checkpoint 外推;据此提出免调参的加速框架 AlphaRL,用前 40% 训练步外推出最终更新,最高 2.5× 加速且保留 >96% 推理性能。

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

从RL策略梯度视角数学证明SFT梯度隐式编码了逆概率加权(1/π_θ)的病态奖励结构→低概率token梯度过大导致泛化受限,提出DFT(Dynamic Fine-Tuning)仅需一行代码修改(CE loss乘token概率:\(-p\log p\))消除逆概率加权→在数学推理/代码生成/多模态任务上大幅超越SFT,离线RL设定下甚至超越GRPO/PPO。

On the \(O(1/T)\) Convergence of Alternating Gradient Descent-Ascent in Bilinear Games

首次证明交替梯度下降上升(AltGDA)在有约束双线性零和博弈中以 \(O(1/T)\) 速率收敛到Nash均衡(存在内部NE时),比同步GDA的 \(O(1/\sqrt{T})\) 快,用能量函数衰减刻画轨迹碰撞边界时的"摩擦"效应,并通过性能估计编程(PEP)进一步优化步长。

On the Tension Between Optimality and Adversarial Robustness in Policy Optimization

这篇论文从优化视角揭示:尽管理论上"最优策略"与"鲁棒最优策略"可以一致,但在实际策略梯度训练里标准优化(SPO)与对抗鲁棒优化(ARPO)会收敛到不同的一阶稳定策略,从而产生"鲁棒性 vs 自然回报"的张力;其根因是最强对抗把优化地形重塑得崎岖、制造大量"黏滞"的次优稳定点,作者据此提出双层框架 BARPO 通过调制对抗强度抹平地形,在 MuJoCo 上同时拿到高自然回报和强鲁棒性。

One-Step Flow Q-Learning: Addressing the Diffusion Policy Bottleneck in Offline RL

本文把离线 RL 中表现最强但又慢又脆的 Diffusion Q-Learning(DQL)从 DDPM 多步去噪改写到流匹配框架,并用「平均速度场」替代普通流匹配的边际速度,使策略在训练和推理时都只需一步就能生成动作,从而在 D4RL 上既大幅加速又反超多步 DQL,达到 SOTA。

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

本文提出 ONELIFE,让智能体在一个复杂、危险、随机的开放世界里只跑「一条命」(单个无引导 episode),仅靠观测就把环境的转移动力学 \(p(s_{t+1}\mid s_t,a_t)\) 反推成一堆可执行的概率「定律」程序,靠「前提-效果」结构构造按需激活的动态计算图、把梯度只回传给真正相关的定律,从而在 Crafter-OO 的 23 个机制中有 16 个上超过强基线 PoE-World。

One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

提出 ScaleZero,通过在统一世界模型中引入 MoE 架构解决多任务学习中的梯度冲突和可塑性崩塌问题,结合动态参数扩展(DPS)策略自适应分配模型容量,单个多任务模型在 Atari/DMC/Jericho 三个基准上达到与单任务专家模型相当的性能,同时减少约 28.5% 的环境交互。

Online Minimization of Polarization and Disagreement via Low-Rank Matrix Bandits

将Friedkin-Johnsen观点动力学模型下极化+分歧最小化问题首次形式化为在线低秩矩阵bandit问题(OPD-Min),提出两阶段算法OPD-Min-ESTR通过子空间估计将维度从 \(|V|^2\) 降至 \(O(|V|)\),在合成和真实网络上显著优于全维度线性bandit基线。

Online Prediction of Stochastic Sequences with High Probability Regret Bounds

重新审视有限时间范围 \(T\) 下随机序列的通用预测经典问题,首次给出以高概率成立的消退遗憾界(形式为 \(O(T^{-1/2}\delta^{-1/2})\)),与已有的期望遗憾界 \(O(T^{-1/2})\) 形式高度一致,并证明在不附加额外假设时 \(\delta\) 的指数无法改进。

Operator Theory-Driven Autoformulation of MDPs for Control of Queueing Systems

本文用大语言模型把自然语言描述的排队控制问题自动翻译成"算子图"形式的 Bellman 方程,借助一条被严格证明的"通用三层拓扑"把巨大的建模搜索空间砍小,再用定制 MCTS 搭图、用低复杂度动态规划自动识别最优策略的结构(如阈值型/单调型),在自建 36 题数据集上把建模正确率从基线的个位数提到 83.3%。

OPRIDE:通过数据集内探索实现高效的离线偏好强化学习

OPRIDE 针对离线偏好强化学习(PbRL)"问人太贵"的问题,提出用价值差之差来挑选最有信息量的偏好查询、再用基于方差的折扣调度抑制学到的奖励被过度优化,在 Meta-World 和 AntMaze 上只用约 10 条偏好就显著超过此前 SOTA。

Optimal Robust Subsidy Policies for Irrational Agent in Principal-Agent MDPs

本文在 MDP 框架下研究委托人(principal)如何通过设计补贴(subsidy)去引导一个可能不完全理性的代理人(agent),并证明:当代理人是「全局 \(\epsilon\)-激励相容」时,看似复杂的双层 minimax 问题可以等价归约为一维凹优化,而当激励相容约束细化到「逐状态」时问题要么导致非马尔可夫策略、要么变成 NP-hard。

Optimistic Task Inference for Behavior Foundation Models

提出 OpTI-BFM——在 Behavior Foundation Model 测试时,不需要完整奖励函数或标注数据集,而是通过与环境交互仅 5 个 episode 即可推断任务并恢复 Oracle 性能,核心是利用 successor features 的线性结构将任务推断归约为线性 bandit 问题并用 UCB 策略乐观探索,提供正式的 regret bound。

P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

提出 P-GenRM,首个个性化生成式奖励模型:通过三阶段训练(PSI 监督微调构建结构化评价链→CRE 强化学习增强缺失偏好下的推理→难负例课程学习提升鲁棒性)将混合偏好信号转化为场景自适应的用户画像与评分标准,再引入双粒度测试时 scaling(个体级多次采样聚合 + 原型级协同过滤借用相似用户偏好),在 PersonalRewardBench 上超越前 SOTA 2.31%、测试时 scaling 额外提升 3%,且能泛化到未见用户。

PAMDP: Interact to Persona Alignment via a Partially Observable Markov Decision Process

把"在多轮交互中逐步对齐到用户人格"这件事建模成一个用户画像不可观测的部分可观测马尔可夫决策过程(PAMDP),用一个连续隐空间动作的轻量 Actor 加上"部分状态 + 全状态"的双 Critic 做无偏优势估计,在离线数据集和在线模拟器上都拿到了更高的对齐胜率与累计回报。

Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

Parallel-R1 提出第一个用强化学习(而非纯 SFT)在真实数学推理任务上注入「并行思考」能力的框架:用「简单题 prompt 生成冷启动数据 → SFT 学格式 → 易题 RL 稳格式 → 难题 RL 提性能」的渐进课程绕过冷启动难题,配合交替奖励,在 AIME/AMC/MATH 上比直接 RL 的顺序基线平均高 8.4%,并发现并行思考可作为「中期训练探索脚手架」带来高达 42.9% 的提升。

Parameter-Efficient Reinforcement Learning using Prefix Optimization

本文提出只优化回答的前 \(k\) 个 token(前缀),把后续生成全部交给冻结的参考模型来完成,借此说明 RLVR 在数学推理上的相当一部分增益其实来自"挑了个更好的解题策略/格式",并由此衍生出一个极省算力的参数高效 RL 方法 Prefix-RL:用一个 1B 小 adapter 生成前缀去引导 7B~72B 大模型,仅训练 adapter 就能在 MATH-500 上把 Qwen-7B 从 67.4% 提到 74.4%。

Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-based Offline RL

PRGS 给 Transformer 类离线 RL 加了一个"在时间步级别挑好片段"的前处理:先用 MMD 回报估计器给每个状态-动作对算出乐观的未来回报分布,再贪心地把每条轨迹切成"峰值回报子轨迹"用于训练,评估时再自适应地截断历史,使其在 D4RL / BabyAI / AuctionNet 等多个基准上平均提升 15.8%。

Peng's Q(\(\lambda\)) for Conservative Value Estimation in Offline Reinforcement Learning

CPQL 把在线 RL 里的多步算子 Peng's Q(\(\lambda\)) 首次搬进离线 RL,用它替换 CQL 里的单步 Bellman 算子做保守价值估计,靠"PQL 不动点天然贴近行为策略价值"这一性质缓解过度悲观,在 D4RL 上稳定超过一众单步基线,并能无缝迁移到离线到在线微调。

PoLi-RL: A Point-to-List Reinforcement Learning Framework for Conditional Semantic Textual Similarity

本文首次把强化学习引入条件语义文本相似度(C-STS)任务,提出一个"从点到列表"的两阶段课程式 RL 框架 PoLi-RL,并设计并行切片排序奖励(PSRR)把粗粒度的批级排序信号拆成对每条补全都精确的奖励,让一个 8B 模型在官方 C-STS 上做到 Spearman 48.18,超过 GPT-4o 和 DeepSeek-R1,刷新 cross-encoder SOTA。

Policy Likelihood-based Query Sampling and Critic-Exploited Reset for Efficient Preference-based Reinforcement Learning

PoLiCER 针对偏好强化学习的两大顽疾——查询与当前策略脱节、奖励估计器过拟合早期反馈——提出"按策略似然排名采样查询 + 用 critic 输出触发奖励/Q 网络重置"的组合拳,在 DMControl 与 Meta-World 的运动控制和机械臂任务上稳定超越 PEBBLE、QPA 等现有方法。

Policy Newton Algorithm in Reproducing Kernel Hilbert Space

本文提出 RKHS 中第一个二阶策略优化方法 Policy Newton in RKHS:通过三次正则化的辅助目标绕开无穷维 Hessian 求逆,再用 Representer 定理把无穷维优化等价转化为维度随轨迹数据量 \(NT\) 增长的有限维问题,理论上证明收敛到局部最优且具备局部二次收敛率,实验上比一阶 RKHS 方法和参数化二阶方法收敛更快、回报更高。

PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning

提出PolicyFlow,将连续归一化流(CNF)策略无缝嵌入PPO框架:通过沿插值路径的速度场变化近似重要性比率(避免全流路径反向传播),并引入受布朗运动启发的隐式熵正则器防止模式坍缩,在MultiGoal/PointMaze/IsaacLab/MuJoCo等环境中达到或超越高斯PPO和流式基线(FPO/DPPO)的性能。

Polychromic Objectives for Reinforcement Learning

针对 RL 微调(RLFT)容易把策略坍缩到少数高奖励行为、丢掉预训练模型多样性的问题,本文提出"多彩目标(polychromic objective)"——把奖励和多样性绑在一起、只给"既成功又多样"的一整组轨迹打高分,并用 vine 采样 + 集合共享优势把它改造进 PPO(即 Polychromic PPO),在 BabyAI / Minigrid / Algorithmic Creativity 上同时拿到更高成功率、更高 pass@k 覆盖率和更强的扰动鲁棒性。

Post-training Large Language Models for Diverse High-Quality Responses

提出 DQO(Diversity Quality Optimization),基于行列式点过程(DPP)在语义嵌入空间中定义多样性度量,将其与奖励信号联合优化,使 LLM 后训练同时提升语义多样性和响应质量,可叠加在 GRPO/PPO 之上。

Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning

本文提出 POW(Potentially Optimal Joint Actions Weighting),用一个显式条件于联合动作的识别模块 \(Q_r\) 迭代地"认出"一组潜在最优联合动作并给它们更高训练权重,从理论上保证恢复真实最优策略,弥合了 WQMIX 系列"理论承诺"与"启发式近似"之间的鸿沟,在矩阵博弈、捕食者-猎物、SMAC/SMACv2、highway-env 等任务上稳定超越基于价值的 SOTA。

Predictive CVaR Q-Learning

本文提出 Predictive CVaR Q-learning(PCVaR-Q),通过引入一对"预测式尾部值/尾部概率函数"把原本只能在轨迹末端结算的 CVaR 目标改写成可逐步递推的贝尔曼形式,再配一个同时探索动作和风险预算的"双向探索"策略,显著提升了风险敏感 RL 的样本效率与训练稳定性,在决策树和随机网格世界上都逼近 CVaR 最优策略。

Preference-based Policy Optimization from Sparse-reward Offline Dataset

PREFORL 把稀疏奖励离线 RL 改写成对比偏好学习问题——绕开价值函数估计,用成功轨迹去对比「数据集内的失败行为」和「合成出的、落在数据分布之外的失败行为」,从而抑制价值高估、提升鲁棒性,在 Adroit / Sparse-MuJoCo / Maze2D / MetaWorld 等稀疏奖励基准上稳定超过 CQL、IQL、CPL、ReBRAC 等 SOTA。

PreferThinker: Reasoning-based Personalized Image Preference Assessment

提出 PreferThinker,通过引入通用视觉偏好画像(preference profile)连接不同用户,采用 predict-then-assess 的 CoT 推理范式进行可解释的个性化图像偏好评估,结合冷启动 SFT + GRPO 强化学习及 similarity-aware 预测奖励,7B 模型超越 GPT-4o(+5.2%)和 Claude 3.7(+5.1%)。

Primal-Dual Policy Optimization for Linear CMDPs with Adversarial Losses

本文针对损失对抗、代价随机的有限时段线性 CMDP,提出首个能同时保证亚线性 regret 与约束违反(均为 \(\tilde{O}(K^{3/4})\))的原始-对偶策略优化算法,核心是用一类全新的「加权 LogSumExp softmax 策略」配合周期性策略混合与正则化对偶更新,把策略类的覆盖数和对偶变量同时压住。

Principled Fast and Meta Knowledge Learners for Continual Reinforcement Learning

受人脑海马体-大脑皮层交互机制启发,提出 FAME 双学习器框架,通过快速学习器进行知识迁移、元学习器进行知识整合,在原则性地最小化灾难性遗忘的前提下实现高效的持续强化学习。

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

针对扩散大语言模型(dLLM)非自回归生成、缺乏 token 级条件概率因而无法直接套用 GRPO 的根本矛盾,本文提出 ESPO——把"生成整条序列"当成一个原子动作、用 ELBO 当序列对数似然的可计算代理,再配上按长度归一化的重要性比率和 k2 KL 估计器稳定训练,在数学、代码、规划任务上大幅超越 token 级 RL 基线(Countdown/Sudoku 上提升 20–40 甚至 60+ 分)。

Probing in the Dark: State Entropy Maximization for POMDPs

针对"看不到真实状态就无法最大化状态熵"的 POMDP 难题,本文提出最大化一个可预测潜变量(predictive latent)的熵作为代理目标,并给出可同时学习潜变量动力学模型与策略的 LatEnt 算法,在自建的 PROBE 基准上诱导出接近"上帝视角"的真实状态熵,使下游 PPO 微调能解决从零训练根本学不会的稀疏奖励任务。

Prompt Curriculum Learning for Efficient LLM Post-Training

本文系统研究了 RL 后训练 LLM 时「批大小」与「提示难度」如何共同影响收敛,发现存在最优批大小、且成功率约 50% 的中等难度提示最高效,据此提出用一个在线学习的价值模型单次前向预测提示难度来筛选中等难度提示的轻量算法 PCL,在数学推理基准上要么取得最高性能、要么大幅缩短训练时间,且筛选提示比基于 rollout 的方法快 12.1×~16.9×。

PROS: Towards Compute-Efficient RLVR via Rollout Prefix Reuse

PROS 发现同一道题的多次 rollout 在早期推理步骤高度重复,于是把历史 rollout 中"有价值的前缀"拼回原始 query 构造成"增强查询(Augmented Query)"供后续迭代复用,既省掉重复生成的算力,又用一个层次贝叶斯模型估计每条增强查询的通过率、优先训练通过率接近 0.5 的样本,在 AIME24 / AMC23 上以更少 wall-clock 时间取得比 PPO/GRPO 更高的准确率。

Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?

针对异步 RL 训练 LLM 时 rollout 数据严重过期(stale)会导致性能退化或训练崩溃的问题,本文先揭示「先繁荣后崩溃」现象——过期数据其实和 on-policy 数据一样信息丰富,关键在于怎么用——再提出 M2PO,用 importance weight 的二阶矩 \(M_2\) 替代 \(\epsilon\)-clipping 来约束信赖域,只屏蔽极端离群 token、保留绝大多数有用更新,在 1.7B~32B 六种模型上即便数据过期 256 次更新仍能稳定训练并追平 on-policy 性能。

Proximal Supervised Fine-Tuning

PSFT 把标准 SFT 重新理解为"优势恒为正的策略梯度",再借用 PPO 的裁剪式信任域机制给 SFT 的更新套上一个软约束,从而在保住目标任务性能的同时大幅缓解熵坍缩、保留模型的通用能力,并为后续 RL / DPO 阶段留出更大的优化空间。

Q-Learning with Adjoint Matching

QAM 把生成建模里的 adjoint matching 技术搬进 Q-learning,用 critic 在「干净动作」上的梯度直接构造逐步监督目标来微调多步流策略,既保住流策略的表达力又避开了反传去噪链的数值不稳定,在 OGBench 50 个稀疏奖励任务上取得 44/46 的聚合分,超过所有现有基线。

Q-Learning with Fine-Grained Gap-Dependent Regret

针对 episodic tabular MDP 的免模型强化学习,本文提出一套「把最优与次优状态-动作对分开统计访问频次」的细粒度分析框架,首次为 UCB-Hoeffding 证明了带单个间隙 \(\Delta_h(s,a)\) 的细粒度 gap-dependent regret 上界,并据此修复了此前唯一的非 UCB 算法 AMB 在截断和鞅差条件上的两处缺陷,给出 ULCB-Hoeffding 与 Refined AMB 两个改进版本。

Q-learning with Posterior Sampling

本文提出 PSQL——第一个用「对 Q 值维护高斯后验、采样后取 argmax」来做探索的 Q-learning 算法,并通过把目标值(target)的计算改成「乐观的多样本采样」,首次为这种最自然的后验采样式 Q-learning 证明了 \(\tilde{O}(H^2\sqrt{SAT})\) 的近最优 regret 上界。

QeRL: Quantization-enhanced Low-rank Reinforcement Learning for LLMs

QeRL 把 NVFP4 量化和 LoRA 结合起来训练 LLM 的推理能力,意外发现量化噪声能抬高策略熵、增强 RL 探索,再配上一个可调度的自适应量化噪声(AQN)机制,让 4-bit 模型在数学推理上既比 16-bit LoRA 快(rollout 提速 1.5×、端到端 1.8×)又更准,还首次在单张 H100 80GB 上跑通 32B 模型的 RL。

QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation

针对 RLVR 在难题上奖励稀疏、学不动的问题,QuestA 在训练时给难题前面拼上「部分解」作为提示来降低难度、稠密化奖励信号,再配合提示比例从 50% 降到 25% 的课程,让 1.5B 小模型在 AIME24/25、HMMT25 等数学竞赛基准上刷出新 SOTA(AIME24 72.5%、AIME25 62.3%)。

QuRL: Low-Precision Reinforcement Learning for Efficient Reasoning

QuRL 在 RLVR 训练中用一个量化后的 actor 做 rollout 解码来打掉 70% 训练时间的瓶颈,并通过自适应裁剪范围(ACR)和更新感知量化(UAQ)两个改动稳住量化引入的 off-policy 偏差,在 INT8/FP8 下把 rollout 提速 20%–80%,同时几乎不掉点。

QuRL: Rubrics As Judge For Open-Ended Question Answering

QuRL 把开放式问答里"没有标准答案"的难题,转化成"从网络文章里自动挖出逐题评分细则(case-wise rubrics)当作可验证奖励",再用 GRPO 训练策略模型,让 Qwen2.5-7B 相比 SFT 基线平均提升 +17.0 分。

R-Zero: Self-Evolving Reasoning LLM from Zero Data

R-Zero 从一个基座模型同时初始化「出题者 Challenger」和「解题者 Solver」两个角色,让前者被奖励去生成卡在 Solver 能力边缘(正确率约 50%)的难题、后者被奖励去攻克这些题,二者用 GRPO 交替训练、协同进化,全程不需要任何人工题目和标签,就把 Qwen3-4B-Base 的数学推理平均分提升 +6.49、通用推理 +7.54。

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

本文用 SFT 冷启动 + 多阶段课程式 GRPO,把开源 LLM 训练成能在推理过程中自主决定何时写代码、何时纯文本推理的通用 Code Interpreter;其关键创新是用「改进潜力」而非难度来排序样本做课程学习,把横跨 144 个异构任务的 RL 平均增益从 +3.4% 拉到 +9.3%,最终 R1-CI-14B 在 37 个测试任务上把准确率从 44.1% 提到 72.4%,反超体量大得多的 GPT-4o(含官方 Code Interpreter)。

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

本文把"判断两个多模态回答谁更好"重新表述成一个规则化 RL 任务,并针对直接套用 Reinforce++ 会训练崩溃的问题提出 StableReinforce 算法(Pre-CLIP + 优势过滤 + 一致性奖励 + 渐进难度冷启动),训练出 7B 的奖励模型 R1-Reward,在三个多模态奖励基准上分别比此前 SOTA 提升约 3.5%/13.5%/14.6%,且能随采样次数增加进一步涨点。

R2-Dreamer: Redundancy-Reduced World Models without Decoders or Augmentation

R2-Dreamer 在 DreamerV3 框架上把"重建解码器"换成一个受 Barlow Twins 启发的冗余约简自监督目标,既不用解码器也不用数据增强就能防止表示坍缩,在 DMC、Meta-World 上与 DreamerV3/TD-MPC2 持平、训练快 1.59×,并在小目标的 DMC-Subtle 上大幅领先。

R2PS: Worst-Case Robust Real-Time Pursuit Strategies under Partial Observability

本文针对图上的追逃博弈(PEG),把一套动态规划求出的最优追捕策略扩展到「逃跑者会预判追捕者动作(异步移动)+ 追捕者只能局部观测」这一最难场景,再用信念保持机制 + 跨图对抗强化学习训出一个 GNN 追捕策略,做到对未见过的真实城市地图实时(亚秒级)零样本泛化,且最坏情况下成功率显著超过直接在测试图上训练的 PSRO 基线。

R4: Nested Reasoning-Retrieval for Reward Modeling in Role-Playing Agents

R4 让"奖励模型"和"角色扮演智能体"同时具备推理 + 检索能力——奖励模型把"判好坏"重写成一条带检索的结构化推理链,再用它的偏好信号通过 GRPO 训练对话智能体,使 32B 模型在 CharacterEval 上角色一致性从 55.28 提到 64.64,人类盲评 68.2% 排第一。

RD-HRL: Generating Reliable Sub-Goals for Long-Horizon Sparse-Reward Tasks

针对离线分层强化学习里"高层策略靠带泛化噪声的价值函数挑子目标、结果选错"的痛点,本文提出 RD-HRL,先从离线数据里抽出连接多条轨迹的"过渡区域"作为可靠决策空间,再让一个 TI 模块在这些区域里选出决策级目标交给高层策略,从而把子目标选择和跨轨迹价值估计解耦,在 antmaze、Kitchen、CALVIN 等 9 个长程稀疏奖励基准上 8 个达到 top-3%。

REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Reasoning

提出REA-RL框架,通过蒸馏训练的小型反思模型在线识别并截断过度思考token生成修订路径,配合反思奖励防止RL训练中模型退化为无反思的朴素CoT,在DeepSeek-R1-Distill-Qwen-7B上实现推理token开销降低36%且准确率零损失。

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

通过系统实验揭示了 RL 训练的推理型 IQA 模型泛化能力的本质机制——推理过程本质上是将冗余的视觉表示转换为紧凑的跨域对齐文本表示——并基于此提出 RALI 算法,通过对比学习直接对齐图像与这些文本表示,以不到 5% 的参数和推理时间达到了可比的泛化性能。

Reasoning Boosts Opinion Alignment in LLMs

用 GRPO 强化学习训练 LLM 通过结构化推理对齐个体政治观点,SFT+GRPO 在美国/德国/瑞士三国数据集上一致优于 ICL 和 ORPO 基线,但系统性揭示了左右翼偏差和 Neutral 立场预测的根本困难。

Recurrent Action Transformer with Memory

RATE(带记忆的循环动作 Transformer)把轨迹切成定长段、用一组可学习的记忆嵌入在段间循环传递历史信息,并新增一个基于交叉注意力的「记忆保留阀」(MRV) 来控制每次更新该保留还是覆写哪些记忆,从而在 ViZDoom、T-Maze、Memory Maze、POPGym 等记忆密集型离线 RL 任务上大幅超越 Decision Transformer,同时在 Atari/MuJoCo 标准任务上保持竞争力。

Reevaluating Policy Gradient Methods for Imperfect-Information Games

作者提出"策略梯度假说"——只要调参得当,PPO、PPG 这类通用策略梯度方法在两人零和不完美信息博弈中并不逊于(甚至优于)基于虚拟博弈/双 oracle/反事实遗憾最小化的专用博弈算法;为验证它,他们首次开源了五个大型博弈的精确可利用度计算工具,跑了史上最大规模(7000+ run)的对比实验,结果一边倒地支持该假说。

Reference Grounded Skill Discovery

RGSD 用参考动作数据先把技能隐空间「接地」到一个语义有意义的单位超球面上(对比预训练),再在这个已结构化的空间里同时做模仿和探索,从而把无监督技能发现成功扩展到 69 自由度的 SMPL 类人机器人,既能高保真复现走/跑/侧移/出拳,又能发现风格一致的新变体。

References Improve LLM Alignment in Non-Verifiable Domains

提出参考引导的LLM-as-Judge方法(RefEval),用高质量参考输出作为"软验证器",使LLM-judge准确率提升6.8%;进而构建两阶段自改进流程(SFT蒸馏+参考引导DPO),在AlpacaEval/Arena-Hard上分别超过SFT蒸馏+19.2/+16.5,匹配微调奖励模型ArmoRM的性能,证明无需人类偏好标注即可实现非可验证域的高效LLM对齐。

Refining Hybrid Genetic Search for CVRP via Reinforcement Learning-Finetuned LLM

本文提出 RFTHGS,用强化学习微调一个 14B 小模型,让它为混合遗传搜索(HGS)求解器自动生成交叉(crossover)算子,在 CVRP 上生成的算子超过人类专家手工设计的算子,并在最大 1000 节点的实例上稳定泛化,性能压过 GPT-4o / o3 / o4-mini 等万亿级商用大模型。

ReFORM: Reflected Flows for On-support Offline RL via Noise Manipulation

提出ReFORM方法,通过学习一个反射流噪声生成器来操纵行为克隆流策略的源分布,以构造性方式实现支撑约束,避免OOD问题的同时保持策略表达力,无需超参数调节。

Regret-Guided Search Control for Efficient Learning in AlphaZero

提出 RGSC(Regret-Guided Search Control)框架,通过训练一个 regret 网络识别高遗憾值状态并优先从这些状态重新开始自我对弈,模拟人类"反复复盘错误"的学习方式,在 9×9 围棋、10×10 黑白棋和 11×11 Hex 上平均超越 AlphaZero 77 Elo。

Reinforcement Learning for Machine Learning Engineering Agents

本文指出:在有可靠 verifier 的机器学习工程(MLE)任务里,与其反复 prompt 一个冻结的大模型,不如用 RL 去更新一个小模型(Qwen2.5-3B)的参数——只要给够算力,小模型经 RL 适配后能在 12 个 Kaggle 任务上以平均 22% 的优势反超用 SOTA scaffold(AIDE)驱动的 Claude-3.5-Sonnet;为此作者解决了异步 RL 的两个痛点:用「时长感知梯度」纠正快动作偏置、用「环境插桩」把稀疏奖励变成可验证的部分奖励。

Reinforcement Learning via Value Gradient Flow

本文提出 Value Gradient Flow(VGF),把"行为正则化 RL"重写成一个从参考分布到价值诱导最优分布的最优传输问题,用粒子梯度流让初始动作沿价值梯度一步步迁移,无需显式策略参数化也无需显式正则项,靠"传输预算"隐式控制偏离程度,在 D4RL、OGBench 和 RLHF 上都拿到 SOTA。

Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

针对"RLVR 到底是真提升了推理能力、还是只提高了采样效率"这场争论,本文提出新指标 CoT-Pass@K(要求答案对且推理过程也对),并用一个 GRPO 的理论框架证明:只要预训练模型具备"对的 CoT 更容易导出对答案"这一逻辑先验,仅靠答案正确性的奖励就会隐式地把生成正确推理的概率推上去,从而把基座模型的推理边界真正向外扩展。

Reinforcement Mid-Training

本文把"预训练—后训练"两段式流程补上一个被忽略的中间阶段——强化中训练(Reinforcement Mid-Training),用无标注预训练语料、以 next-token 预测为可验证奖励来做 RL;并提出 RMT 框架,通过动态 token 预算、基于课程的难度采样、以及"选择性 RL + 全量 NTP"双目标,在语言建模上比 SOTA 的 RPT 提升最高 +64.91%,而推理长度只需 21%。

Relative Entropy Pathwise Policy Optimization

REPPO 把"靠 Q 函数导数更新策略"(pathwise 梯度)从一向依赖大 replay buffer 的 off-policy 场景搬进了纯 on-policy 训练——只用当前策略采的轨迹训出一个足够准的 Q 函数,再配上最大熵探索 + KL 约束的自动调参,在两个 GPU 并行 benchmark 上以更高样本效率、更低显存、更稳的训练超过了 PPO,并逼近 off-policy 的 FastTD3。

Relative Value Learning

针对"控制只关心价值之差、绝对价值尺度是冗余自由度"这一观察,本文提出 Relative Value Learning(RV),让 critic 直接学一个反对称函数 \(\Delta_\theta(s_i,s_j)=V^\pi(s_i)-V^\pi(s_j)\),配套给出成对 Bellman 算子(证明是 \(\gamma\)-压缩、唯一不动点等于真实价值差)、良定义的 1-step / n-step / λ-return 目标,以及从成对差重建出的无偏优势估计 R-GAE;接到 PPO 上在 49 个 Atari 游戏上与标准 PPO 持平甚至更好。

Reliability-Adjusted Prioritized Experience Replay

本文指出 PER 用绝对时序差分误差(TDE)做采样权重时,若目标 Q 值本身不准会"误导学习",于是提出一个基于轨迹内后续 TDE 之和的"可靠性分数"\(R_t\),把采样权重改成"可靠性 × 绝对 TDE",理论上证明收敛误差严格优于 PER,在经典控制和 Atari-10 上一致超过 PER(Atari-10 峰值中位数高 22.97%)。

Pruning as a Cooperative Game: Surrogate-Assisted Layer Contribution Estimation for Large Language Models

将LLM层剪枝建模为合作博弈(每层=玩家,模型性能=效用)→精确Shapley值计算不可行(\(2^L\)种组合)→提出两阶段近似:(1)分层蒙特卡洛采样生成mask+评估PPL作为监督信号→(2)训练轻量代理网络预测任意mask的性能→高效估算每层Shapley值→捕获层间依赖→显著优于静态启发式剪枝基线。

Replicable Reinforcement Learning with Linear Function Approximation

本文给出了第一个超越表格设定、面向线性 MDP可证明可复现强化学习算法:先构造可复现的岭回归与未中心化协方差估计两个基础工具,再把它们装进 LSVI / LSVI-UCB 框架,使得同一算法在两批独立采样的数据上运行能以高概率输出逐位相同的策略,并在 CartPole / Atari 上验证了量化思想能让神经策略更一致。

Representation-Based Exploration for Language Models: From Test-Time to Post-Training

本文提出 RepExp:用预训练语言模型自身隐状态构造的"椭圆多样性奖励"来显式激励探索,先在一个干净的"推理时选择"测试床上验证,再把同一奖励搬进 GRPO 后训练,结果在推理时把 verifier 效率提升 50%+、在后训练上彻底消除了 RL 常见的"pass@k 在大 k 处塌缩"现象。

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

RESCHED 把柔性作业车间调度(FJSP)的状态从「20+ 个手工特征 + 历史依赖」砍到只剩 4 个核心特征,再配一个针对调度量身改造的双分支 Transformer(用 RoPE 编码工序顺序、把工时边特征塞进 attention 的 value、用自连接缓解工序/机器数量失衡),仅用最朴素的 REINFORCE 训练,就在 FJSP 上超过了所有调度规则与 SOTA 的图神经网络方法,并能零改动地泛化到 JSSP 和 FFSP 两个变体。

ResT: Reshaping Token-Level Policy Gradients for Tool-Use Large Language Models

ResT 针对工具调用 LLM 的 RL 训练,先从理论上证明"低熵的结构化 token(工具名、参数、格式标签)才是奖励的主要决定因素,且降低平均熵能减小策略梯度方差",据此提出按区域平均熵对 token 级策略梯度做反比重加权,并用课程退火让权重从"格式正确"平滑过渡到"语义推理",在 BFCL / API-Bank 上相比 GRPO 最高提升 8.76%,4B 模型多轮 base 任务超过 GPT-4o 1.50%。

Retaining Suboptimal Actions to Follow Shifting Optima in Multi-Agent RL

提出 S2Q(Successive Sub-value Q-learning),通过逐步学习 \(K\) 个 sub-value 函数显式保留次优联合动作,结合 Softmax 行为策略在候选间优先级采样,解决合作 MARL 中值分解方法因最优点动态漂移而收敛到次优策略的根本问题。

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

ReTool 用一套"冷启动 SFT + 工具增强 RL"的训练框架,让 LLM 在长链推理中自主学会"何时、如何调用代码解释器",仅用结果对错作奖励,把 32B 模型在 AIME2024 上做到 67.0%,大幅超过纯文本 RL 基线(40.0%)且训练步数只用了它的三分之一。

Revisiting Group Relative Policy Optimization: Insights into On-Policy and Off-Policy Training

本文把 DeepSeek 的 GRPO 从在策略推广到离策略:用一个旧策略 \(\alpha=\pi_{k-v}\) 来白化奖励、估计优势,并证明在策略与离策略目标都给出期望奖励提升的下界,由此导出与离策略 PPO 一致的裁剪代理目标;实验表明离策略 GRPO(每 \(v\) 步才更新一次推理服务器)在数学推理任务上与在策略持平甚至更优,同时把 7B 模型的训练吞吐提升约 1.35×。

Revisiting Matrix Sketching in Linear Bandits: Achieving Sublinear Regret via Dyadic Block Sketching

本文揭示了现有基于矩阵草图的线性Bandit方法在流数据频谱尾部较重时会退化为线性遗憾的根本缺陷,提出 Dyadic Block Sketching 多尺度草图框架,通过动态加倍草图大小控制全局逼近误差至预设参数 \(\epsilon\),使算法在无需预知流矩阵频谱性质的情况下始终保证次线性遗憾,并在频谱友好场景下自适应恢复单尺度方法的计算效率。

Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models

本文提出 TraceRL——一个把扩散语言模型(DLM)推理时的解码轨迹纳入后训练目标的轨迹感知强化学习框架,同时配套一个降方差的扩散式价值模型,统一适配全注意力与块注意力 DLM,并据此训出在数学/代码推理上反超同尺寸甚至更大自回归模型的 TraDo 系列 SOTA 扩散语言模型。

Reward is Enough: LLMs are In-Context Reinforcement Learners

本文发现 LLM 在推理阶段就能涌现出强化学习行为(in-context RL,ICRL):只需把过去的回答和对应的标量奖励拼进上下文、反复多轮 prompting,模型的回答质量就会随上下文增长而单调提升,在 Game of 24、创意写作、ScienceWorld、AIME/HMMT 上显著超过 Self-Refine 和 Reflexion,且即使奖励由模型自己打分也依然有效。

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

提出RewardMap框架,通过难度感知的细节奖励设计和从简单感知到复杂推理的多阶段RL课程学习策略,克服细粒度视觉推理中的稀疏奖励问题。

Risk-Sensitive Reinforcement Learning for Alleviating Exploration Dilemmas in Large Language Models

针对可验证奖励强化学习(RLVR)只会把预训练 LLM 已有的少数解强化、导致解多样性(pass@k)停滞甚至倒退的「探索困境」,本文用指数效用构造一个在「平均奖励」和「最大奖励」之间平滑插值的风险寻求目标,推导出只需改动优势函数的 RS-GRPO 算法,在 6 个数学推理基准、5-6 个 LLM 上同时提升 pass@k 与保持/提升 pass@1。

RiskPO: Risk-based Policy Optimization with Verifiable Reward for LLM Post-Training

针对 GRPO 这类「优化平均奖励」的 RLVR 方法在训练早期熵坍缩、推理边界停滞的问题,本文提出 RiskPO,用混合风险价值(MVaR)目标替换均值目标,把梯度信号聚焦到奖励分布的左尾(难题),并配合把多道题打包(bundling)来把二值反馈变成连续分布;在数学/多模态/代码推理上 Pass@1 与 Pass@k 全面超过 GRPO 及其变体。

RL for Reasoning by Adaptively Revealing Rationales

本文提出 AdaBack(自适应回溯):在 RL 训练中按样本动态揭示目标推理链的一段前缀作为提示,并用奖励反馈对"揭示比例"做随机二分搜索,让模型从"补最后一步"逐步过渡到"从零生成全链",从而在 SFT 和标准 RL 都学不会的稀疏奖励任务上学到全新的推理能力。

RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?

作者造了一个受控合成编程基准 DELTA,证明在基座模型怎么采样都 pass@K=0 的难题家族上,用"先稠密 per-test 奖励热身、再切二元 full-pass 奖励"的分阶段 RL 配方,能让模型经历一段近零奖励的平台期后突然 grokking 跃升到接近满分,从而获得基座本来不会的全新算法策略,并系统刻画了这种策略沿探索/组合/变换三轴的泛化边界。

RL Squeezes, SFT Expands: A Comparative Study of Reasoning LLMs

这篇论文超越"只看准确率"的视角,提出一套从轨迹级步骤级(推理图)两种粒度量化推理过程的分析框架,系统对比 RL 与 SFT 对推理 LLM 的不同塑形作用,得出核心结论——RL 在"压缩"(squeeze)、SFT 在"扩张"(expand)推理空间,从而解释了为何"先 SFT 后 RL"的两阶段训练范式有效。

RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks

RLAC 把"输出要满足海量隐式 rubric"的自由形式生成后训练,重写成生成器和一个可学习 Critic 之间的极小极大博弈——Critic 每次只挑一条最可能失败的 rubric 交给外部验证器核验,从而免去逐条枚举所有 rubric,在传记事实性和代码生成上既超过穷举验证又超过奖励模型,验证调用最多省 5.7×。

RLP: Reinforcement as a Pretraining Objective

提出RLP(Reinforcement Learning Pretraining),一种信息增益驱动的RL预训练目标,通过奖励能提升下一token预测概率的思维链(CoT),将RL从后训练阶段前移到预训练阶段,实现无验证器的密集奖励信号。

RL's Razor: Why Online Reinforcement Learning Forgets Less

本文发现新任务分布上的基模型与微调模型 KL 散度能预测灾难性遗忘,并解释了为什么 on-policy RL 相比 SFT 更倾向于找到离原策略更近的高奖励解,从而在学会新任务时忘得更少。

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

RLVER 把一个会自洽更新情绪分的「情感用户模拟器」当成 RL 训练环境,用模拟用户在多轮对话结束时给出的情绪分作为可验证奖励,端到端地训练 LLM 学会共情——让 Qwen2.5-7B-Instruct 在 Sentient Benchmark 上从 13.3 飙到 79.2,逼近顶级闭源模型,同时几乎不损失数学和代码能力。

RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents

针对"只奖励最终成功"的端到端 RL 会强化冗余、跑偏推理路径的问题,RLVMR 让智能体用 <planning>/<explore>/<reflection>/<monitor> 四类标签显式标注自己的认知步骤,并用程序化规则给这些元推理行为发放可验证的稠密奖励,再配合双层优势的 GRPO-MR 一起优化;7B 模型在 ALFWorld 最难的未见任务分割(L2)上把成功率做到 83.6%,同时大幅减少无效与重复动作。

RM-R1: Reward Modeling as Reasoning

将奖励建模重新定义为推理任务,提出RM-R1系列推理奖励模型(ReasRM),通过推理蒸馏+RL训练以及Chain-of-Rubrics(CoR)机制,在三大奖励模型基准上平均超越70B和GPT-4o模型达4.9%。

RAMPS:鲁棒自适应多步预测护盾

RAMPS 用一个全局学习到的线性动力学模型(线性回归或深度 Koopman 算子)配合一个鲁棒多步控制屏障函数(CBF)护盾,把原本只能用在十几维系统上的形式化屏蔽技术扩展到 348 维的腿足运动任务,在训练全程把安全违规最多降低 90% 的同时保持竞争力级别的任务奖励。

Robust Deep Reinforcement Learning against Adversarial Behavior Manipulation

本文研究 RL 中一种新型威胁——行为目标攻击(adversary 通过篡改观测来引导 victim 执行特定目标策略),提出不需要白盒访问的 BIA 攻击方法和基于时间折扣的 TDRT 防御方法,TDRT 在保持对攻击鲁棒性的同时比现有防御(SA-PPO)的原始任务性能高 28.2%。

Robust Multi-Objective Controlled Decoding of Large Language Models

提出RMOD(Robust Multi-Objective Decoding),一种推理时算法,通过求解最小最大博弈的Nash均衡来动态计算最坏情况目标权重,在无需先验权重信息的情况下实现LLM的鲁棒多目标对齐。

Robustness in the Face of Partial Identifiability in Reward Learning

这篇论文把奖励学习中的“部分可识别性”从一个定性风险改写成可度量的最坏情况损失,并提出 Rob-ReL 在偏好评估任务中用 minimax 方式输出稳健预测及其误差证书。

Routing, Cascades, and User Choice for LLMs

将LLM路由建模为provider-user Stackelberg博弈,证明最优路由几乎总是静态无级联的阈值规则,揭示质量/成本排序不一致时的用户-提供商不对齐,以及低流失惩罚下provider被激励通过throttling延迟来降低成本但损害用户效用。

Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

本文提出 Rubrics as Rewards (RaR),把"逐条打勾的评分细则(rubric)"当作 on-policy 强化学习的奖励函数,从而把只能用于数学/代码这类"答案可验证"任务的 RLVR 扩展到医学、科学这类没有唯一标准答案的真实推理领域;在 HealthBench 上相对流行的 LLM-as-judge Likert 基线最高提升 31%,在 GPQA-Diamond 上提升 7%。

RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling

RuleReasoner 通过构建多样化的规则推理数据集 RuleCollection-32K 和提出域感知动态采样(Dads)策略,在 RLVR 框架下训练 8B 模型,在域内推理任务上比 OpenAI-o1 高 4.1%,在域外任务上高 10.4%,同时训练效率提升 ~1.4×。

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

SAC Flow 将 flow-based policy 的多步采样过程视作残差 RNN,并用 GRU/Transformer 式速度网络和噪声增强 rollout 让 SAC 可以端到端稳定训练高表达力的流策略,在连续控制与离线到在线操作任务上取得更高样本效率。

Safe Continuous-time Multi-Agent Reinforcement Learning via Epigraph Form

提出首个显式处理状态约束的连续时间多智能体RL框架,通过Epigraph形式将不连续的约束值函数转化为连续表示,结合改进的PINN actor-critic方法实现安全、稳定的连续时间多智能体控制。

Safe Exploration via Policy Priors

本文提出 SOOPER,一种基于模型的安全探索算法:把一个"次优但保守"的先验策略当作安全护栏,在线时悲观地随时回退到它以保证安全,仿真时则乐观地在世界模型里激进探索,并用"一旦要回退就终止"的规划 MDP 把约束问题转成无约束 MDP,从而在保证全程安全的同时拿到次线性累积遗憾,并在真实赛车硬件上跑通。

SafeMPO: 基于概率增量改进的约束强化学习

SafeMPO 把"安全"建模成一个可被推断求解的概率事件,将约束强化学习从"把策略硬投影到可行域"改成"每一步只保证比上一步更安全",借助 MPO 的 EM 框架与内点法的对数障碍构造出一个有几何收敛保证的非参数代理问题,在只有一个不影响渐近行为的超参数下,性能可与高度调参的约束 RL 基线持平甚至更优。

Sample-efficient and Scalable Exploration in Continuous-Time RL

提出 COMBRL 算法,通过最大化外在奖励与模型认知不确定性的加权和,在连续时间模型基 RL 中实现可扩展且样本高效的探索,并具有次线性后悔理论保证。

Sample Efficient Offline RL via T-Symmetry Enforced Latent State-Stitching

TELS 把离线 RL 的策略优化整体搬进一个被「时间反演对称(T-symmetry)」约束的紧凑潜空间里做状态拼接,靠一个 T 对称强制的逆动力学模型(TS-IDM)学出对分布外(OOD)友好的潜状态表示,从而完全绕开传统离线 RL 的动作级保守约束,在 0.5%~10% 的小样本 D4RL 任务和真实工业控制环境上大幅超过 TSRL、POR、IQL 等方法。

Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

针对 RLVR(GRPO)训练后推理链越拉越长的"长度膨胀"问题,本文提出 GFPO:训练时多采样一组候选、只用按长度或 token 效率筛选出的 top-k 来算策略梯度,用"训练时多采样"换取"推理时少思考",在 Phi-4-reasoning 上把 GRPO 的长度膨胀削减最高 85% 而精度不掉。

Scalable In-Context Q-Learning

提出 S-ICQL——将动态规划(Q-learning)和世界模型引入监督式 ICRL 框架,通过多头 Transformer 同时预测策略和情境值函数,预训练世界模型构建轻量级精确提示,advantage-weighted regression 提取策略,在离散和连续环境中从次优数据学习时一致超越所有基线。

Scalable Offline Model-Based RL with Action Chunks

MAC 用动作块模型把长时域离线模型强化学习中的多次单步模型调用压缩成少量多步预测,再用 flow 行为策略的拒绝采样选择保守且高价值的动作块,在 100M 级 OGBench 长时域操控任务上显著强过已有离线模型强化学习方法。

Multistep Quasimetric Learning for Scalable Goal-Conditioned Reinforcement Learning

本文提出 MQE(Multistep Quasimetric Estimation),把多步蒙特卡洛回传嫁接到拟度量距离架构上,端到端学一个满足三角不等式的目标条件 Q 函数,在最长 4000 步的离线 GCRL 任务和真实机械臂多阶段操作上首次实现了无层级、无规划器的"拼接"(stitching)与组合泛化。

Scheduling Your LLM Reinforcement Learning with Reasoning Trees

本文提出用「推理树结构」而非「答题准确率」来衡量一道题对 LLM 的真实学习难度,定义了一个新指标 Reasoning Score(r-score),并据此设计课程式数据调度算法 Re-Schedule,在六个数学推理 benchmark 上把平均准确率最高提升 3.2%。

SCRIBES:用强化学习做 Web 规模的脚本式半结构化数据抽取

SCRIBES 不再让 LLM 逐页解析网页,而是用强化学习训练一个模型,看一个网页就生成一段可复用的抽取脚本(BeautifulSoup 代码),靠"同站网页布局相似"这一性质设计跨页奖励,使脚本能泛化到整组结构相似的网页;脚本质量比强 agentic 基线高 13%+,下游 QA 在 GPT-4o 上涨 4%+,且抽取成本随相似页数线性下降。

Selective Expert Guidance for Effective and Diverse Exploration in Reinforcement Learning of LLMs

针对 RLVR 训练里弱模型既探不到正确解又容易熵坍塌的问题,本文提出 MENTOR——只在「关键决策点」(高熵 token)注入专家分布做混合策略采样,再配一个不对称优势的 Mixed-policy GRPO,让模型吸收专家推理的精髓而非表面照抄,在六个数学基准上把弱基座模型的平均分稳定拉高 3–4 个点、pass@32 平均提升 9.2%。

Self-Aligned Reward: Towards Effective and Efficient Reasoners

针对可验证奖励"只看答案对错、纵容过度啰嗦"的粗粒度缺陷,本文提出自对齐奖励 SAR——用"答案在有 query 与无 query 两种条件下的相对困惑度差"作为模型自评判信号,叠加到 PPO/GRPO 的可验证奖励上,在 4 个模型、7 个基准上同时把准确率提升约 4%、把答案长度压缩约 30%。

Self-Harmony: Learning to Harmonize Self-Supervision and Self-Play in Test-Time Reinforcement Learning

提出 Self-Harmony 框架,通过让单一模型扮演两个角色(Solver 求解原始问题 + Reframer 改述问题),将答案在原始和改述视角下的调和平均得分作为伪标签选择标准,替代传统多数投票,在 30 个实验设置中 28 个达到 SOTA,且训练零失败。

Self-Improving Skill Learning for Robust Skill-based Meta-Reinforcement Learning

提出 SISL(Self-Improving Skill Learning),通过解耦高层策略和技能改进策略,结合最大回报重标注的技能优先级机制,在噪声离线演示数据下实现鲁棒的技能学习,显著提升基于技能的元强化学习在长时域任务中的性能。

SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration

SHAPO 把锐度感知优化(SAM)搬到策略更新上:不在当前参数 \(\theta_0\) 处取梯度,而是先在 Fisher/KL 几何下找到一个让目标"变差"的邻近参数 \(\theta_0+\epsilon_{\text{Down}}\),再用那里的梯度去更新策略,从而对 actor 的认识不确定性保持悲观,在多个连续控制任务上同时改善安全性与回报、显著拓宽安全-效率 Pareto 前沿。

Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning

提出 Shop-R1 框架,通过分层奖励机制和难度感知缩放的强化学习方法,显著提升 LLM 模拟真实人类在线购物行为的能力,相比 SFT 基线精确匹配提升超过 65%。

Simplicial Embeddings Improve Sample Efficiency in Actor-Critic Agents

这篇论文把 Simplicial Embeddings (SEM) 作为一个轻量的表征几何约束插入 actor-critic 网络,让 actor 和 critic 的隐藏特征落在多个 simplex 的乘积空间中,从而缓解非平稳 bootstrapping 带来的表征坍塌,并在 FastTD3、FastSAC、PPO 以及多类机器人和 Atari 环境上提升样本效率。

Single-stream Policy Optimization

SPO(Single-stream Policy Optimization)把 GRPO 那套"每个 prompt 采一组、组内算相对优势"的做法彻底丢掉,回归经典单流策略梯度:用一个轻量的 KL 自适应贝叶斯价值跟踪器给每个 prompt 维护一个持久化的成功率基线、在整个 batch 上做全局优势归一化,并顺手用这个基线做优先级采样的自适应课程;在 Qwen3-8B 上五个数学竞赛 benchmark 的 maj@32 平均比 GRPO 高 +3.4 pp,同时因为"无组"设计在变长的 agentic 场景里拿到 4.35× 吞吐加速。

Single Index Bandits: Generalized Linear Contextual Bandits with Unknown Reward Functions

提出单指标赌博机(SIB)问题——将广义线性赌博机扩展到奖励函数未知的设定,基于 Stein 方法设计了一族高效算法(STOR/ESTOR/GSTOR),在单调递增奖励函数下实现了近最优遗憾界 \(\tilde{O}(\sqrt{T})\)

Skill Learning via Policy Diversity Yields Identifiable Representations for Reinforcement Learning

本文用非线性 ICA 的可识别性理论解释了「互信息技能学习(MISL)」为什么有效:以 Contrastive Successor Features(CSF)为代表,证明只要技能足够多样、critic 用内积参数化,学到的特征就能把环境的真实状态恢复到「一个线性变换之内」——这是 RL 表示学习的第一个可识别性保证,并据此解释了内积参数化、互信息形式选择、最大熵正则等设计的优劣。

SocialJax: An Evaluation Suite for Multi-Agent Reinforcement Learning in Sequential Social Dilemmas

SocialJax 把 Melting Pot 2.0 那套"序贯社会困境"环境用 JAX 重写成可在 GPU 上批量并行的评测套件,配齐 9 个混合激励网格世界 + 6 个 MARL 基线算法,把训练速度相对 Melting Pot 提升至少 50 倍,并用 Schelling 图验证每个环境确实具备社会困境属性。

Solving Football by Exploiting Equilibrium Structure of 2p0s Differential Games with One-Sided Information

证明单边信息二人零和微分博弈中 Nash 均衡策略的原子结构——知情玩家 P1 的均衡策略集中在至多 \(I\) 个动作原型上(\(I\) = 博弈类型数),使博弈树复杂度从 \(U^{2K}\) 降到 \(I^K\),在美式足球 11v11 连续动作空间中(传统复杂度 \(10^{440}\))实现 M1 MacBook 30 分钟求解。

Solving General-Utility Markov Decision Processes in the Single-Trial Regime with Online Planning

本文首次给出在「单条轨迹评估」(single-trial)下求解无限期折扣通用效用 MDP(GUMDP)的方法:先证明此时必须用历史相关策略、并把问题等价改写成一个跟踪「累计占用」的标准 MDP(occupancy MDP),再用蒙特卡洛树搜索(MCTS)在线规划逐步求解,在熵探索、模仿学习、对抗 MDP 三类任务上都显著优于无限试最优策略与随机策略。

Solving Parameter-Robust Avoid Problems with Unknown Feasibility using Reinforcement Learning

提出 Feasibility-Guided Exploration (FGE),同时识别可行参数子集并学习在该子集上安全的策略,解决可行性未知的参数鲁棒避障问题,在 MuJoCo 任务中比最佳现有方法多覆盖 50% 以上。

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

这篇论文用 token 级的分布偏移视角系统解剖了 RLVR(可验证奖励强化学习)到底改了模型什么:发现 RL 微调只在极少数(DAPO 下约 17%、SimpleRL 下不到 2%)token 位置上显著改变了下一个 token 的预测分布,且通过"交叉采样"干预证明正是这一小撮 token 决定了几乎全部推理性能增益——RLVR 更像是在已有候选集里重新分配概率质量的精准手术,而非全局重写模型。

Spectral Bellman Method: Unifying Representation and Exploration in RL

提出 Spectral Bellman Method (SBM),从零内在 Bellman 误差 (IBE) 条件出发发现 Bellman 算子与特征协方差的谱结构联系,推导出新的表示学习目标,并自然地统一了表示学习和 Thompson Sampling 探索。

SPELL: Self-Play Reinforcement Learning for Evolving Long-Context Language Models

提出 SPELL 框架,让一个 LLM 同时扮演出题者、答题者和验证者三个角色进行自我博弈强化学习,无需人类标注即可持续提升长文本推理能力,在 6 个长上下文基准上一致提升性能。

SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models

针对掩码扩散语言模型(dLLM)对数似然不可计算、导致 RL 策略梯度有偏的问题,本文提出 Sandwiched Policy Gradient(SPG):对正优势样本最大化对数似然的下界(ELBO)、对负优势样本最小化一个新推导的可计算上界(EUBO),把真实目标"夹"在上下界之间,并配合块状掩码估计,在 GSM8K/MATH500/Countdown/Sudoku 上分别比此前 SOTA 提升 3.6%/2.6%/18.4%/27.0%。

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

提出 SPIRAL 框架,让 LLM 在多轮零和游戏中进行自我博弈训练,通过角色条件优势估计(RAE)稳定训练,在无领域特定数据的情况下将推理能力提升最高 10%,并发现不同游戏发展出互补的认知能力。

Spotlight on Token Perception for Multimodal Reinforcement Learning

提出 VPPO(Visually-Perceptive Policy Optimization),通过量化每个 token 的视觉依赖度,在轨迹级和 token 级两个层次对学习信号进行精细化调控,显著提升大视觉语言模型的多模态推理能力。

Squeeze the Soaked Sponge: Efficient Off-Policy RFT for Large Language Model

本文提出 ReMix,把 PPO/GRPO 这类天生 on-policy 的强化微调(RFT)方法改造成能复用历史 rollout 的混合策略算法,用 Mix-PPG + KL-Convex 约束 + 策略再生三件套,在五个数学推理基准上以 30×–450× 更少的 rollout 数据量打到 SOTA 级别准确率。

SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

SRFT 用熵作为动态指标,把 SFT 和 RL 的损失在同一个阶段同时施加到示范数据和自探索 rollout 上,避免了 SFT→RL 两阶段"先学后改"的内耗,在五个数学推理基准上比 zero-RL 基线平均高 9.0 个点。

SSVPO:面向语言模型 RL 训练的有效步级信用分配

SSVPO 借鉴多智能体 RL 的 Shapley 值,把推理链里的每一步当成一个"智能体",通过 Insertion MDP 把步骤重排成各种新链来度量每一步的边际贡献(Sequential Shapley Value),再把它当成 PPO 的优势基线做策略优化——既给部分正确的推理链做出公平的步级信用分配,又能识别零贡献步骤来缩短推理链,在 7 个数学推理基准上比 RLOO/GRPO/DAPO/VinePPO/SPO 都强,准确率最高 +11.6%、token 用量 -18.1%、推理效率 1.6 倍。

Stackelberg Coupling of Online Representation Learning and Reinforcement Learning

提出 SCORER 框架,将 Deep Q-Learning 中的表征学习和值函数学习建模为 Stackelberg 博弈,通过双时间尺度更新(Q 网络为 leader 慢更新、编码器为 follower 快更新)实现稳定协同适应,无需改变网络结构即可提升性能。

STAIRS-Former: Spatio-Temporal Attention with Interleaved Recursive Structure Transformer for Offline Multi-Task Multi-Agent Reinforcement Learning

针对离线多任务多智能体强化学习(MT-MARL)中现有 Transformer 没把注意力用好、历史信息几乎被浪费的问题,STAIRS-Former 用「递归空间 Transformer + 双时间尺度历史模块 + token dropout」重构架构,让注意力真正聚焦关键实体和历史 token,在 SMAC / SMAC-v2 等基准上把平均胜率从 HiSSD 的 57.2% 抬到 67.4%,刷新 SOTA。

Stop Unnecessary Reflection: Training LRMs for Efficient Reasoning with Adaptive Reflection and Length Coordinated Penalty

提出 ARLCP(Adaptive Reflection and Length Coordinated Penalty),一种自适应强化学习方法,根据问题复杂度动态调节反思惩罚和长度惩罚的权重,在保持或提升准确性的同时大幅减少推理 token 消耗。

Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning

提出 SSE(Strict Subgoal Execution)框架,通过前沿经验回放(FER) 严格区分子目标到达成功与失败,配合解耦探索策略和失败感知路径优化,在每个高层步骤内强制完成子目标到达,显著减少高层决策步数并提升长时程任务成功率。

Structured In-context Environment Scaling for Large Language Model Reasoning

本文提出 结构化 in-context 环境(SIE) 框架,从大规模知识图谱自动构造可扩展、可泛化、可验证的 LLM 推理环境,把支撑子图当作 prompt 里的软约束,用 GRPO 做 RL 微调;不仅在结构化推理任务上大幅提升,学到的组合推理能力还能迁移到数学与逻辑推理等域外任务。

SUSD: Structured Unsupervised Skill Discovery through State Factorization

提出 SUSD(Structured Unsupervised Skill Discovery),通过将状态空间分解为独立因子并为每个因子分配专属技能变量,结合好奇心驱动的因子加权机制,实现在多物体/多智能体复杂环境中发现覆盖全部可控因子的多样化技能。

Tackling Heavy-Tailed Q-Value Bias in Offline-to-Online Reinforcement Learning with Laplace-Robust Modeling

本文首次揭示离线到在线强化学习(O2O RL)在线微调阶段的 Q 值偏差服从重尾分布,并提出 LAROO:用一个可自适应的 Laplace 噪声把偏差的重尾性"吸收"进噪声、配合鲁棒损失 \(D_b(x)\) 降低估计方差,再用保守集成估计把偏差均值拉回零,从而在 D4RL 上以平均 +54.8% 的提升超过此前最优 O2O 方法。

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

针对"目标条件型行为基础模型"(GC-BFM,如 MaskedMimic)调下游任务时要么靠繁琐的 prompt 工程、要么全量微调会损坏先验的困境,本文提出 Task Tokens:冻结整个 BFM,只用强化学习训练一个轻量"任务编码器",让它产出一个塞进 transformer token 序列的可学习 token,从而把 BFM 适配到新任务上——每个任务只需约 200K 可训练参数(比基线少 ×125)、收敛快 ×6,且在改变重力/摩擦的 OOD 场景下比全量微调更鲁棒、动作更像人。

TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning

TD-JEPA 把 JEPA 式 latent prediction 从“一步预测辅助损失”改造成“多策略、多步、TD 训练的核心目标”,在无奖励离线数据上同时学习状态编码器、任务编码器、successor-feature 预测器和潜在策略,从而在测试时只用少量奖励样本就能零样本选择对应策略。

Temporal Representations for Exploration: Learning Complex Exploratory Behavior without Extrinsic Rewards

这篇论文提出 C-TeC,用时序对比表征估计当前状态动作对与未来状态的相似性,再把“未来结果在表征空间里难以预测”的程度转成内在奖励,从而在没有外部奖励的情况下学到迷宫覆盖、机械臂拾放和 Craftax 生存游戏中的复杂探索行为。

The Art of Scaling Reinforcement Learning Compute for LLMs

本文用一条 sigmoid 形状的「算力—性能」标度律把 LLM 的 RL 训练拆成「性能天花板 \(A\)」和「计算效率 \(B\)」两个可拟合参数,在 40 万 GPU-hours 的系统消融基础上挑出一套稳健配方 SCALERL,并用小算力曲线外推、在单次 10 万 GPU-hours 的训练里准确预测了最终验证性能,把 RL 训练带向了预训练那样的可预测性。

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

本文指出 RLVR 普遍采用的 reverse-KL(寻峰)正则是 Pass@k 多样性坍缩与灾难性遗忘的元凶,提出用 mass-covering 的 f-散度(forward-KL / JS)作为"复习机制",配合数据集分区与生成函数实现,在数学与 SQL 任务上同时提升 Pass@1 和 Pass@k 并保住跨域能力。

The Markovian Thinker: Architecture-Agnostic Linear Scaling of Reasoning

本文提出 Delethink:让推理大模型把一条超长思维链拆成若干固定长度的"块",每一块只携带上一块末尾的少量 token 作为"马尔可夫状态"、删掉其余历史,从而在不改动任何模型结构的前提下,把推理的计算从二次降到线性、显存保持常数,并能直接用 RL 训练,效果追平甚至超过标准长链思考(LongCoT)。

The Rank and Gradient Lost in Non-stationarity: Sample Weight Decay for Mitigating Plasticity Loss in Reinforcement Learning

本文从网络优化的理论角度把深度强化学习的「可塑性损失」拆解为两个机制——NTK Gram 矩阵的秩坍缩与梯度幅度的 \(\Theta(1/k)\) 衰减,并针对后者提出极轻量的 Sample Weight Decay(SWD):让回放采样概率随样本「年龄」线性下降,从而补偿梯度衰减、维持学习能力,在 MuJoCo / ALE / DMC 上稳定提升 TD3、Double DQN、SAC 性能。

The Sample Complexity of Online Reinforcement Learning: A Multi-Model Perspective

本文为连续状态-动作空间下的非线性动力系统提出了一套在线强化学习算法,通过多模型后验采样和确定性等价策略实现对未知系统的在线学习,并给出了从有限模型集到参数化模型族的非渐近策略遗憾保证。

The State of Reinforcement Finetuning for Transformer-based Agents

这篇论文系统性地把强化微调(RFT)搬到 Transformer-based Agent(TA)的少样本 meta-RL 适配上,沿「微调参数配置 × 微调算法」两条轴做了大规模实证对比,发现没有任何单一算法全场最优,并据此提出一个轻量增强 QP(Q-guided Policy Optimization),把 SFT 的稳定性和 RL 的策略改进能力拼到一起,在所有设置下稳定优于强 SFT/RFT baseline。

Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization

本文提出潜在思维策略优化(LTPO),一种无需更新模型参数的测试时推理增强框架,通过将中间潜在"思维"向量视为可优化的动态参数,利用在线策略梯度方法和内在置信度奖励信号来增强冻结LLM的推理能力。

TIPS: Turn-Level Information-Potential Reward Shaping for Search-Augmented LLMs

TIPS 用「策略自己的滞后副本」当 teacher,给每个「推理+检索」回合打一个基于答案对数似然增量的稠密奖励,把它构造成势能型奖励塑形(PBRS)注入 PPO,从而在不训练额外奖励模型的前提下解决多轮工具使用 RL 的稀疏奖励与信用分配难题——在 7B 模型上平均 EM 比 PPO 高 11.8%、F1 高 13.6%,并显著缓解训练崩溃。

Token Hidden Reward: Steering Exploration-Exploitation in Group Relative Deep Reinforcement Learning

本文提出 Token Hidden Reward (THR)——一个量化每个 token 对"正确响应似然变化"贡献的 token 级指标,发现训练动力学被极少数高 |THR| token 主导,且 THR 的符号恰好对应探索/利用;据此设计了一个按符号重加权 GRPO 优势的算法,用一个超参 \(p\) 就能把训练显式地推向利用(贪心解码精度↑)或探索(Pass@K↑)。

Toward Conservative Planning from Human-AI Preferences in Reinforcement Learning

本文提出 MCP(Model-based Conservative Planning),一个基于模型规划的离线偏好强化学习算法:它用「相对参考策略的性能差」做目标、用「与最大似然模型的偏差正则」隐式编码保守性,从而在部分数据覆盖不知道真实转移动态的条件下,第一次同时做到「可证明样本高效」和「计算可解」,在 Meta-World 真实人类反馈基准上与 SOTA 相当甚至更好。

Toward Efficient Exploration by Large Language Model Agents

与其设计新的 LLM 智能体架构去隐式地"涌现"探索能力,本文主张直接用 LLM 显式实现一个已被理论证明探索高效的经典 RL 算法——后验采样强化学习(PSRL),把它的三个核心步骤分别外包给三个 LLM,在 bandit、tabular MDP 以及 Wordle/组合锁这类纯自然语言任务上都拿到了远超主流 LLM 智能体基线的累积遗憾曲线。

Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward

DEPO 把"离线选数据"和"在线选 rollout"两件事第一次合到一个 RLVR 流程里:离线用 PageRank 加权 DPP + 难度感知正态采样挑出多样、有影响力、难度适中的子集,在线用样本级可探索性指标跳过低潜力样本的 rollout 并回放欠探索样本,结果只用 20% 数据、40% rollout 就能在 AIME24/25 上达到全量 GRPO 的水平,训练提速约 1.6–1.85 倍。

Towards Strategic Persuasion with Language Models

本文以贝叶斯说服(Bayesian Persuasion)框架为理论基础,提出了一套系统评估和训练LLM策略性说服能力的方法,发现前沿模型已具备显著的策略性说服能力,且即使是小型LLM也可通过强化学习大幅提升说服效果。

TRACED: Transition-aware Regret Approximation with Co-learnability for Environment Design

TRACED改进无监督环境设计(UED)中的regret近似——在传统PVL基础上加入转移预测误差(ATPL)捕获动力学模型失配,并引入Co-Learnability度量任务间迁移效益,在MiniGrid和BipedalWalker上以10k更新超越所有baseline的20k更新性能。

Trajectory Generation with Conservative Value Guidance for Offline Reinforcement Learning

用一个 Transformer + 保守 Q 学习(CQL)训练的策略去和预训练动力学模型交互、自回归地"采"出一批合成轨迹,再把它们并进原数据集训练标准离线 RL 算法;保守价值惩罚保证生成样本不跑出数据分布,因此既比基于扩散的数据增强(GTA)更高质量,又把训练和生成时间砍掉一大截。

Transitive RL: Value Learning via Divide and Conquer

本文提出 Transitive Reinforcement Learning(TRL),一种基于分治范式的新型值函数学习算法,利用目标条件RL中固有的三角不等式结构,将值函数更新递归分解为子问题,在长时间跨度任务上实现了优于TD学习和蒙特卡洛方法的性能。

Trinity: An Evolved LLM Coordinator

Trinity设计了一个轻量级coordinator(0.6B SLM + ~10K可训练参数的head),通过sep-CMA-ES优化,在多轮对话中将查询分配给不同LLM并指定Thinker/Worker/Verifier三种角色,在LiveCodeBench上达到86.2% pass@1的SOTA,在4个分布内和4个分布外任务上一致超越所有单模型和多agent基线。

Triple-BERT:在网约车派单上我们真的需要 MARL 吗?

针对网约车实时派单这一"本质上是中心化、却长期被当成多智能体问题硬解"的任务,本文用一个中心化的单智能体强化学习框架 Triple-BERT(变体 TD3 + 动作分解 + BERT 网络 + 两阶段训练)取代主流 MARL,在曼哈顿真实打车数据上比当前最优方法整体提升约 11.95%,服务订单数 +4.26%、接驾时间 -22.25%。

TROLL: Trust Regions improve Reinforcement Learning for Large Language Models

本文提出 TROLL(Trust Region Optimization for Large Language models),用可微分的离散信任域投影替代PPO中的裁剪(clipping)机制,实现了基于原则性KL约束的token级策略更新,在数学推理和代码生成任务上一致性地优于PPO裁剪方法。

TRAPO: Trust-Region Adaptive Policy Optimization

TRAPO 把 SFT 和 RL 从「先 SFT 再 RL」的两阶段串行拆开,改为在每条样本内部交错进行——专家轨迹的前缀用 SFT 学、模型自己续写的部分用 RL 学,并用一个信赖域版的 SFT(TrSFT)把 forward KL 偷偷掰向 reverse KL 以稳住训练,再用自适应前缀长度按题目难度发放引导,在五个数学推理 benchmark 上平均 56.6 分,超过 SFT、纯 RL 和 SFT-then-RL。

UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings

提出 UME-R1,首次探索推理驱动的生成式多模态嵌入范式,通过两阶段训练(冷启动SFT + 强化学习)让嵌入模型先推理再生成表示,在 MMEB-V2 基准的 78 个任务上显著超越传统判别式嵌入模型。

Understanding and Improving Hyperbolic Deep Reinforcement Learning

通过闭式梯度分析揭示双曲深度 RL 中 Poincaré Ball 保角因子爆炸和大范数嵌入导致 PPO 信赖域失效的根源,提出 Hyper++(RMSNorm + 可学习缩放 + HL-Gauss + Hyperboloid)四组件方案,在 ProcGen 16 环境和 Atari-5 上全面超越先前基线。

Universal Value-Function Uncertainties

本文提出 UVU(Universal Value-Function Uncertainties),用一个在线网络与一个固定随机目标网络之间的预测误差来度量价值函数的认识不确定性——关键在于在线网络不是直接回归目标输出(那只能得到 RND 式的"近视"不确定性),而是用目标网络生成的合成奖励做 TD 学习,从而让预测误差自动累积"未来轨迹上的不确定性";理论上在无限宽度极限下该误差严格等于一个 universal Q 函数集成的方差,实验上在离线多任务任务拒绝场景里以单模型达到大集成的性能且大幅省算力。

解构强化学习智能体中的记忆:一套分类与评估方法

这篇论文不提新模型,而是给强化学习里被滥用的"记忆"一词做了一套形式化定义和评估方法:用相关视界 \(\xi\) 与智能体上下文长度 \(K\) 把短时/长时记忆(STM/LTM)严格区分开,并提出一个可操作的实验配置算法,实证表明不遵守这套方法论会让评估结论严重失真。

Unsupervised Learning of Efficient Exploration: Pre-training Adaptive Policies via Self-Imposed Goals

提出 ULEE 方法,通过对抗式目标生成和基于适应后难度的课程学习,在无监督环境中元学习出具备高效探索和快速适应能力的预训练策略。

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

构建基于心智理论(ToM)的层次化多模态情感理解基准 HitEmotion,并提出 TMPO 框架通过中间心理状态作为过程级监督来增强 MLLM 的情感推理能力。

Use the Online Network If You Can: Towards Fast and Stable Reinforcement Learning

本文提出 MINTO,把 TD 自举目标从「只用目标网络」改成「对目标网络和在线网络的估计取最小值」,从而在使用新鲜的在线估计加速学习的同时,用 min 操作压住在线网络带来的过估计偏差,几乎零成本地嵌入 DQN / IQN / CQL / SAC 等一众算法并普遍提升性能。

Using Reinforcement Learning to Train Large Language Models to Explain Human Decisions

用基于结果奖励的强化学习(GRPO)后训练一个 LLM,让它在预测人类风险决策比例的同时,把推理过程显式写成思维链——这些思维链就成了关于人类如何决策的「可解释认知理论」,预测精度与监督微调(SFT)相当,但额外给出了 SFT 拿不到的自然语言解释。

Value Flows

Value Flows 首次将流匹配(flow matching)引入分布式 RL——学习一个向量场使生成的概率密度路径自动满足分布式 Bellman 方程,通过 flow derivative ODE 高效估计回报方差实现置信度加权优先学习,在 OGBench 62 个任务上平均 1.3× 成功率提升,回报分布估计精度比 C51/CODAC 好 3×+。

VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models

针对大型推理模型(LRM)训练中广泛使用的基于参考答案的奖励系统,构建了 VerifyBench 和 VerifyBench-Hard 两个评测基准,通过严格的人工标注评估各类验证系统的准确性,发现即使最强模型在困难样本上也仅达约 88% 准确率,揭示了当前验证系统的显著改进空间。

VeriRole: Verifiable Role-Awareness through Hint-Guided Reinforcement Learning

针对角色扮演这种"没有标准答案、难以设计可验证奖励"的开放式任务,本文用一个 Hint 机制先从角色档案/对话历史/扮演要求中抽取确定性线索,再以此为锚设计 可验证角色意识奖励(VRAR) 做 GRPO 训练,让 Qwen2.5-32B 在 RAIDEN 上平均分提升 18.9%、CharacterEval 提升 4.55%,同时保住角色扮演的创造性与文风多样性。

Vintix II: Decision Pre-Trained Transformer is a Scalable In-Context Reinforcement Learner

本文把 Decision Pre-Trained Transformer(DPT)从简化离散环境扩展到 10 个领域、209 个任务的跨域连续控制场景,用 rectified flow(流匹配)策略头替换高斯头来建模多模态动作分布、同时保留 DPT 作为「贝叶斯后验采样」的解释,训出一个 928M 参数、可在线/离线两种模式同时工作的通用 Large Action Model,在 46 个未见任务上显著超越此前的 Vintix 与 REGENT。

Virne: A Comprehensive Benchmark for RL-based Network Resource Allocation in NFV

提出 Virne——一个面向网络功能虚拟化资源分配(NFV-RA)的综合基准框架,集成 30+ 种算法和 gym 风格环境,支持云、边缘、5G 等多场景的系统评估。

Wavelet Predictive Representations for Non-Stationary Reinforcement Learning

WISDOM 把非平稳 RL 中"任务随时间演化"的序列当作一段非平稳信号,用一个可学习的小波表征网络把任务表征序列变换到小波域,再配合小波 TD 更新算子和自回归损失捕捉多尺度演化趋势,从而让策略在带随机周期、突变剧烈的环境里快速适应,样本效率和最终性能都显著超过现有基线。

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

本文提出 Webscale-RL 自动化数据管线,把万亿级预训练语料系统地转换成上百万条「可验证问答对」用于 RL 训练,构建出含 120 万条、覆盖 9+ 领域的 RL 数据集,用它做 GRPO 训练在多项 benchmark 上显著超越继续预训练与各种数据精炼基线,并且用最多少 100× 的 token 就能达到继续预训练的效果。

What Matters for Batch Online Reinforcement Learning in Robotics?

这是一篇系统性实证研究:作者把"机器人用自己采集的大批数据迭代自改进"(batch online RL)拆成算法类别、策略抽取方式、策略表达力三个轴做控制变量实验,得出一套配方——用价值函数(IQL)引导 + 隐式策略抽取(采样多个动作选 Q 值最高的)+ 表达力强的扩散策略,再叠加一点时序相关噪声,在 6 个仿真操作任务上比模仿学习类方法最高提升 2×,真机挂胶带任务 3 轮迭代成功率提升 30%。

When Greedy Wins: Emergent Exploitation Bias in Meta-Bandit LLM Training

作者把 LLM 训练成多臂老虎机(MAB)的 meta-bandit agent,系统对比 SFT 与三种奖励的 RL,发现它们都能把累积 regret 压到接近 UCB/Thompson Sampling 的水平并能泛化到 6× 长 horizon;但行为分析揭示这些"进步"很大程度来自学到了更精明却更贪婪的利用策略——agent 比预训练模型更容易过早放弃探索(suffix failure 升高),甚至能靠"偷懒地变贪婪"反超它模仿的 UCB 老师。

When Is Diversity Rewarded in Cooperative Multi-Agent Learning?

这篇论文把"多智能体团队什么时候需要分工"这个老问题,归结成奖励函数的曲率判据——把团队奖励拆成"内层算子聚合各智能体在单个任务上的努力、外层算子聚合各任务得分"两步,并证明只要内层算子 Schur-凸(或外层 Schur-凹),异质团队就严格优于最优同质团队;进一步用一个基于可微仿真器的梯度搜索算法 HetGPS 在嵌入式 MARL 环境里自动找出"最需要异质性"的奖励结构,结果和理论预测完全吻合。

Who Matters Matters: Agent-Specific Conservative Offline MARL

针对离线多智能体强化学习里"所有智能体被一刀切地施加相同保守度"的问题,本文提出 OMCDA:先把 Q 函数解耦成"回报"和"策略偏离"两部分,再用每个智能体对系统回报的影响力动态地给它分配保守度,让高影响力智能体敢于偏离行为策略、低影响力智能体保持谨慎,在 MuJoCo 和 SMAC 上一致超过现有离线 MARL 方法。

WIMLE: Uncertainty-Aware World Models with IMLE for Sample-Efficient Continuous Control

WIMLE将隐式最大似然估计(IMLE)扩展到model-based RL,学习能捕获多模态转移动力学的随机世界模型,通过ensemble+latent采样估计预测不确定性,用不确定性加权合成数据的RL目标,在40个连续控制任务上实现超越模型-free和model-based强基线的样本效率和渐近性能。

XQC: Well-Conditioned Optimization Accelerates Deep Reinforcement Learning

XQC 不靠堆大模型/复杂架构,而是从 critic 损失景观的"条件数"出发,证明 BatchNorm + 权重归一化 + 交叉熵分布式损失这一组合能把 Hessian 条件数压低几个数量级、把梯度范数天然封顶,从而在 70 个连续控制任务上用 ~4.5× 更少参数达到 SOTA 样本效率。

Zero-Shot Adaptation of Behavioral Foundation Models to Unseen Dynamics

本文指出基于 Forward-Backward 表征的行为基础模型在混合动力学离线数据上会把不同环境的未来占用分布平均到一起,因而无法适配未见过的动力学变化;作者提出用 transformer 估计隐藏动力学 belief,并用 belief 对 FB 的前向表征与任务向量采样进行条件化,使模型在 FourRooms、PointMass、AntWind 和 OGBench Scene 等环境上显著超过 vanilla FB、LAP、HILP 等零样本 RL 基线。