跳转至

🎮 强化学习

🧠 NeurIPS2025 · 173 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (34) · 📷 CVPR2026 (22) · 🔬 ICLR2026 (142) · 🤖 AAAI2026 (71) · 📹 ICCV2025 (7) · 🧪 ICML2025 (82)

🔥 高频主题: 强化学习 ×63 · Agent ×16 · 推理 ×12 · 对抗鲁棒 ×11 · LLM ×5

A Differential and Pointwise Control Approach to Reinforcement Learning

将RL问题通过连续时间控制的微分对偶形式重新表述,利用哈密顿结构嵌入物理先验,提出dfPO算法实现逐点策略优化,在科学计算任务(曲面建模、网格控制、分子动力学)上以更少样本超越12个RL基线。

A Generalized Bisimulation Metric of State Similarity between Markov Decision Processes: From Theoretical Propositions to Applications

将传统只能在单个MDP内度量状态相似性的bisimulation metric (BSM)推广到跨MDP场景,提出广义双模拟度量(GBSM),严格证明了对称性、跨MDP三角不等式和同状态距离上界三个基本度量性质,并在策略迁移、状态聚合和基于采样的估计三个应用中推导出比标准BSM更紧的误差界和闭式样本复杂度。

A Near-optimal, Scalable and Parallelizable Framework for Stochastic Bandits Robust to Adversarial Corruptions and Beyond

提出 BARBAT 框架,改进了经典的 BARBAR 算法,通过固定 epoch 长度和逐 epoch 调整失败概率,将对抗腐蚀下随机多臂老虎机的 regret 从 \(O(\sqrt{K}C)\) 降至近最优的 \(O(C)\)(消除了 \(\sqrt{K}\) 因子),并成功扩展到多智能体、图老虎机、组合半老虎机和批量老虎机等多种场景。

A Theory of Multi-Agent Generative Flow Networks

提出多智能体生成流网络(MA-GFlowNets)的理论框架,证明了"局部-全局原理"——联合流函数可分解为各智能体独立流的乘积形式,设计了四种算法(CFN/IFN/JFN/CJFN),其中 JFN 和 CJFN 实现中心化训练+去中心化执行(CTDE),在 Hyper-Grid 和 StarCraft 环境中超越 RL 和 MCMC 方法。

A Unifying View of Linear Function Approximation in Off-Policy RL Through Matrix Splitting and Preconditioning

首次引入矩阵分裂理论,将线性函数逼近下的TD、FQI和PFQI统一为求解同一目标线性系统 \((\Sigma_{cov} - \gamma\Sigma_{cr})\theta = \theta_{\phi,r}\) 的迭代方法(仅预条件子不同),给出各算法收敛的充要条件,提出rank invariance新概念,并揭示target network的本质是预条件子从常数到数据自适应的连续变换。

Act to See, See to Act: Diffusion-Driven Perception-Action Interplay for Adaptive Policies

提出 DP-AG(Action-Guided Diffusion Policy),通过将扩散策略的噪声预测的 Vector-Jacobian Product (VJP) 作为结构化随机力驱动隐观测特征在扩散步骤间动态演化,并用循环一致对比损失闭合感知-动作环路,在 Push-T 上提升 6%、Dynamic Push-T 上提升 13%、真实 UR5 机器人上成功率提升 23%+。

Actor-Free Continuous Control via Structurally Maximizable Q-Functions

提出 Q3C(Q-learning for Continuous Control with Control-points),通过学习一组控制点来逼近 Q 函数并保证最大值恰好在控制点上取到,配合动作条件化 Q 值生成、控制点多样性损失和尺度归一化等关键改进,在标准基准上匹配 TD3,在受限动作空间中显著超越所有 actor-critic 方法。

Adaptive Cooperative Transmission Design for URLLC via Deep RL

提出 DRL-CoLA 算法,用双 Agent DQN 分别在源节点和中继节点上自适应配置 5G NR 传输参数(numerology、mini-slot、MCS),在两跳中继系统中仅用本地 CSI 即可达到接近全局 CSI 最优的 URLLC 可靠性。

Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning

提出 ANQ(Adaptive Neighborhood-constrained Q learning),在离线 RL 中引入基于优势函数的自适应邻域约束,在密度约束(过于保守)和支持约束(需精确建模行为策略)之间找到灵活的中间方案,通过双层优化框架实现高效 Q 学习,在 D4RL 基准上达到 SOTA。

Adaptively Coordinating with Novel Partners via Learned Latent Strategies

提出 TALENTS 框架,通过 VAE 学习潜在策略空间 + K-Means 聚类发现策略类型 + Fixed-Share 遗憾最小化算法在线推断队友类型,实现对未知人类/智能体队友的零样本实时适应协作。

ALINE: Joint Amortization for Bayesian Inference and Active Data Acquisition

ALINE 提出统一的分摊贝叶斯推断和主动数据获取框架,用 Transformer 架构 + RL 训练,使模型能同时策略性地选择最有信息量的数据点并即时完成后验推断,还支持灵活地针对特定参数子集或预测目标进行数据获取。

Approximating Shapley Explanations in Reinforcement Learning

提出 FastSVERL,一种可扩展的参数化学习框架,分别近似强化学习中 Shapley 值的两个计算瓶颈(特征函数和 Shapley 求和),支持离策略数据学习和随策略演化持续更新解释。

Automaton Constrained Q-Learning

提出 ACQL(Automaton Constrained Q-Learning),将线性时序逻辑(LTL)任务规范转化为自动机,结合目标条件学习和最小安全约束,首次在连续控制环境中可扩展地同时支持时序目标序列和非平稳安全约束。

Bandit and Delayed Feedback in Online Structured Prediction

首次研究在线结构化预测中赌臂反馈和延迟反馈场景,通过设计新的伪逆矩阵梯度估计器,实现了不显式依赖输出集大小 \(K\)\(O(T^{2/3})\) 替代遗憾上界。

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

BEAST 用 B 样条曲线参数化动作序列——通过岭回归估计控制点并均匀量化为固定长度 token,实现 20× token 压缩(100 步→5 token)、数学保证的动作块间 \(C^0\) 连续过渡,在 LIBERO-Long 上成功率排名第 1(86.4%),推理吞吐量 617 Hz(比 π₀ 快 2.14×、比 OpenVLA 快 101×)。

Behavior Injection: Preparing Language Models for Reinforcement Learning

揭示 LLM 对 RL 微调响应不一致的根本原因——通过 per-step influence 分析发现 RL 效果取决于(1)rollout 准确率分布(中等最优)和(2)数据 co-influence 强度,提出 BRIDGE 在 SFT 阶段注入探索/利用行为,使后续 RL 增益从 6% 提升到 46.6%。

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

从 token 熵模式的全新视角分析 RLVR,发现 CoT 推理中仅约 20% 的高熵"分叉 token"决定推理方向,仅在这些 token 上做梯度更新即可匹配甚至大幅超越全量更新(Qwen3-32B 上 AIME'25 +11.04),揭示 RLVR 本质是优化推理决策点。

Blending Complementary Memory Systems in Hybrid Quadratic-Linear Transformers

提出混合二次-线性 Transformer(HQLT),将 KV-memory(softmax attention,精确检索但二次复杂度)与 FW-memory(DeltaNet/线性 attention,线性复杂度但检索粗糙)融合为互补记忆系统,比较三种混合策略(延迟流式/延迟分块/同步),在 340M 和 1.3B 参数规模的语言建模、检索、算法推理和 RL 任务上验证同步混合最优。

Bootstrap Off-policy with World Model (BOOM)

提出 BOOM 框架,通过 bootstrap 循环将在线规划器(MPPI)与 off-policy 策略学习紧密结合:策略初始化规划器,规划器反过来通过无似然对齐损失(likelihood-free alignment)引导策略改进,配合 soft Q-weighted 机制优先学习高回报行为,在高维连续控制任务上取得 SOTA。

Bootstrap Off-policy with World Model

提出 BOOM 框架,通过 bootstrap 对齐回路将在线规划器的高质量动作蒸馏到策略网络,使用 likelihood-free 的前向 KL 散度和软 Q 加权机制,有效缓解规划器与策略之间的 actor divergence 问题,在高维连续控制任务上取得 SOTA。

Boundary-to-Region Supervision for Offline Safe Reinforcement Learning

提出 B2R(Boundary-to-Region)框架,通过代价信号重对齐(CTG Realignment)解决序列模型在离线安全RL中对回报和代价的对称条件化谬误,将稀疏的边界监督转化为密集的安全区域监督,在38个安全关键任务中35个满足安全约束。

Certifying Concavity and Monotonicity in Games via Sum-of-Squares Hierarchies

证明了在多项式效用和半代数策略集的博弈中验证凹性和单调性是 NP-hard 的,并提出了两套基于平方和 (SOS) 规划的层次化认证方案,可在多项式时间内逐层求解。

Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions

提出 Generalized Lyapunov Function 方法,通过将 RL 值函数与神经网络残差项结合,并用多步加权下降条件替代经典的逐步严格下降要求,实现对 RL 策略的稳定性认证。

Checklists Are Better Than Reward Models For Aligning Language Models

提出 Reinforcement Learning from Checklist Feedback (RLCF),将指令分解为动态生成的 yes/no checklist,结合 AI judge 和代码验证器逐项评分后做 DPO 训练,在 5 个 benchmark 上一致性提升 Qwen2.5-7B-Instruct,是唯一在所有 benchmark 上都有正收益的方法(FollowBench +4pt, InFoBench +6pt, Arena-Hard +3pt)。

Communicating Plans, Not Percepts: Scalable Multi-Agent Coordination with Embodied World Models

提出基于轻量世界模型的"意图通信"架构,通过生成并共享未来轨迹计划来实现多智能体协调,在可扩展性和性能上全面超越端到端涌现通信方案。

Comparing Uniform Price and Discriminatory Multi-Unit Auctions through Regret Minimization

从在线学习和遗憾最小化框架出发,系统比较统一价格拍卖与歧视性拍卖的学习难度,证明两种格式在最坏情况下遗憾率相同,但特定结构条件下统一价格拍卖允许更快的学习速率。

Complexity Scaling Laws for Neural Models using Combinatorial Optimization

以旅行商问题(TSP)为案例,研究固定模型容量下问题复杂度(解空间大小、表示空间维度)与模型性能之间的可预测缩放规律,揭示了 RL 和 SFT 在组合优化中的系统性性能趋势。

Computational Hardness of Reinforcement Learning with Partial \(q^\pi\)-Realizability

引入"部分 \(q^\pi\)-可实现性"概念,证明在此设定下使用贪心策略集时学习近优策略是 NP-hard 的,使用 softmax 策略集时在 rETH 假设下需要指数时间,弥合了 \(q^*\)-可实现性和 \(q^\pi\)-可实现性之间的理论空白。

Confounding Robust Deep Reinforcement Learning: A Causal Approach

基于部分辨识(partial identification)理论扩展 DQN,提出 Causal DQN 从含有未观测混淆因子的离线数据中学习鲁棒策略——通过优化最坏情况下的价值函数下界来获得安全策略,在 12 个混淆 Atari 游戏中一致性地超越标准 DQN。

Continual Knowledge Adaptation for Reinforcement Learning

提出 CKA-RL,为每个任务维护知识向量(task-specific knowledge vector),通过 softmax 加权的动态知识适配和自适应知识合并机制,在三个持续 RL 基准上实现 4.20% 的整体性能提升和 8.02% 的前向迁移提升。

Convergence Theorems for Entropy-Regularized and Distributional Reinforcement Learning

提出 温度解耦策略(temperature decoupling gambit),证明在熵正则化强化学习中,通过解耦评估温度和行为温度,可以在温度趋于零时保证策略和回报分布收敛到一个可解释的、保持多样性的最优策略。

CORE: Constraint-Aware One-Step Reinforcement Learning for Simulation-Guided Neural Network Accelerator Design

提出 CORE(Constraint-aware One-step REinforcement learning),一种无 critic 的单步 RL 框架,通过结构化分布采样、scaling-graph 解码器和约束感知的 reward shaping 来高效探索 DNN 加速器的硬件-映射联合设计空间,在 7 个 DNN 模型上取得至少 15× 的 latency 改善。

Counteractive RL: Rethinking Core Principles for Efficient and Scalable Deep Reinforcement Learning

CoAct TD Learning 颠覆 ε-greedy 的随机探索范式——以概率 ε 选择最小化 \(Q(s,a)\) 的动作(而非随机动作)来获取高时间差分信号,理论证明其产生更大 TD 误差,在 Atari 100K 上实现 248% 性能提升,仅需改动 2 行代码且零额外计算。

DCcluster-Opt: Benchmarking Dynamic Multi-Objective Optimization for Geo-Distributed Data Center Workloads

提出 DCcluster-Opt,一个面向地理分布式数据中心的开源高保真仿真基准平台,融合真实世界数据集(碳强度、电价、天气等)和物理模型,支持动态多目标负载调度的强化学习研究。

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation

SambaY 提出 Gated Memory Unit(GMU)用于跨层共享 SSM 的 token 混合表示,将 YOCO 的 cross-decoder 中一半的 cross-attention 层替换为轻量级 GMU,在保持线性预填充复杂度和长上下文检索能力的同时,大幅提升解码效率——最终产品 Phi4-mini-Flash-Reasoning (3.8B) 在推理任务上超越 Phi4-mini-Reasoning,且在 2K 提示 + 32K 生成场景下实现高达 10× 的解码吞吐提升。

Deep RL Needs Deep Behavior Analysis: Exploring Implicit Planning by Model-Free Agents

提出 ForageWorld 自然觅食环境和神经科学启发的行为分析框架,揭示无模型 RNN-based DRL 智能体通过涌现动力学展现出结构化的类规划行为——无需显式记忆模块或世界模型。

DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning

提出 DeepDiver,一个 RL 驱动的搜索推理框架,在真实开放网络环境中训练 LLM 的信息寻求能力,催生"搜索强度缩放"(SIS)涌现行为——7B 模型在知识密集任务上可媲美 671B 的 DeepSeek-R1。

DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning

提出 DISCOVER,一种面向稀疏奖励长视野 RL 的目标选择策略,通过同时平衡可达性(achievability)、新颖性(novelty)和相关性(relevance)来生成指向目标任务的课程,理论上证明达到目标的步数与目标距离线性相关(而非搜索空间体积),在高维导航和操作任务中显著超越先前 SOTA 探索策略。

Distribution Learning Meets Graph Structure Sampling

本文建立了高维概率图模型 PAC 学习与图结构高效计数/采样之间的新联系,利用在线学习框架(EWA/RWM)将指数级专家集合的维护问题转化为 DAG 结构的加权采样问题,首次给出了弦图骨架贝叶斯网络的高效 agnostic 学习算法,并将树结构分布的样本复杂度从 O(nk³/ε) 改进到最优的 O(nk²/ε)。

Dynamic Regret Reduces to Kernelized Static Regret

将动态遗憾最小化问题重新建模为再生核希尔伯特空间(RKHS)中的静态遗憾问题,通过精心设计平移不变核实现最优路径长度依赖 \(\widetilde{\mathcal{O}}(\sqrt{MP_TT})\),且天然不需要时间范围先验知识。

Dynamics-Aligned Latent Imagination in Contextual World Models for Zero-Shot Generalization

在 DreamerV3 架构中引入自监督上下文编码器 DALI,从交互历史中推断潜在环境参数(如重力、摩擦力),在 cMDP 基准上无需重训练即可实现零样本泛化,在外推任务上比 ground-truth context-aware 基线高出最多 96.4%。

EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

提出 EgoBridge 框架,利用最优传输(OT)在策略潜在空间中对齐人类和机器人数据的联合分布(特征+动作),结合动态时间规整(DTW)构建伪配对,实现从第一人称人类数据到机器人的跨具身知识迁移,在真实世界任务中绝对成功率提升达 44%。

Emergent World Beliefs: Exploring Transformers in Stochastic Games

将LLM涌现世界模型的研究从完全信息游戏(Othello、国际象棋)扩展到不完全信息领域(德州扑克),通过在PHH格式扑克数据上预训练GPT-2并探测其内部激活,证明模型不仅学习了确定性特征(牌型识别~98%准确率),还自发发展了对随机性特征(胜率/equity,相关系数0.59)的内部表示。

Empirical Study on Robustness and Resilience in Cooperative Multi-Agent Reinforcement Learning

通过 82,620 次大规模实验系统性研究合作多智能体 RL 中的鲁棒性和弹性,揭示超参数调优比算法选择更重要,并发现参数共享、GAE、PopArt 等常见做法在不确定性下反而有害,提出一套实用的超参数建议。

Enhancing Interpretability in Deep Reinforcement Learning through Semantic Clustering

提出语义聚类模块(SCM),将特征降维网络(FDR)与改进的 VQ-VAE 在线聚类相结合,无缝集成到 DRL 训练流程中,解决了 t-SNE 可视化不稳定的问题,揭示 DRL 内在具有基于语义的动态聚类特性。

Establishing Linear Surrogate Regret Bounds for Convex Smooth Losses via Convolutional Fenchel–Young Losses

通过构造基于卷积负熵(convolutional negentropy)的 Fenchel–Young 损失,首次证明凸且光滑的代理损失可以同时拥有线性代理遗憾界,打破了此前社区认为光滑性与线性遗憾率不可兼得的固有认知。

EvoLM: In Search of Lost Language Model Training Dynamics

系统训练 100+ 个 1B/4B 参数的 LM(从零开始),透明地研究预训练→续训→SFT→RL 各阶段的训练动态,揭示过度训练的递减收益、灾难性遗忘的缓解策略、以及 SFT/RL 配置的复杂权衡。

Exploration via Feature Perturbation in Contextual Bandits

提出特征扰动(Feature Perturbation)作为上下文 bandit 的新型随机探索策略:直接在特征输入上注入噪声,而非扰动参数或奖励,从而在广义线性 bandit 中实现 \(\tilde{O}(d\sqrt{T})\) 最优遗憾界,首次消除了随机化算法相较确定性方法的 \(\sqrt{d}\) 因子劣势。

Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches

系统评测 LLM/VLM 在经典 RL 探索任务(bandit、Gridworld、Atari)上的零样本能力,发现 VLM 存在"知行差距"(knowing-doing gap)——高层推理正确但低层控制失败,并提出简单的 VLM-RL 混合框架在理想条件下可显著加速学习。

Extending NGU to Multi-Agent RL: A Preliminary Study

将单智能体 NGU(Never Give Up)算法扩展至多智能体环境,通过共享回放缓冲区、共享新颖性信号和异构 β 参数三个设计维度的系统消融,发现 NGU + 共享经验池组合在 PettingZoo simple_tag 追捕任务中显著优于多智能体 DQN 基线。

FedRAIN-Lite: Federated Reinforcement Algorithms for Improving Idealised Numerical Weather and Climate Models

提出 FedRAIN-Lite 联邦强化学习框架,将 RL 智能体分配到不同纬度带学习局部气候参数化策略并定期全局聚合,在层次化理想能量平衡模型上验证 DDPG 在热带和中纬度区域可将面积加权 RMSE 降低 50% 以上,为 RL 扩展到全尺度 GCM 提供了可行路径。

Feel-Good Thompson Sampling for Contextual Bandits: a Markov Chain Monte Carlo Showdown

首次系统性实证评估 Feel-Good Thompson Sampling (FG-TS) 及其平滑变体 SFG-TS 在近似后验下的表现,横跨线性/逻辑/神经三类上下文赌博机设置和十四个基准,发现 FG-TS 在精确后验场景(线性/逻辑)下优于标准 TS,但在神经赌博机中反而退化,揭示了乐观偏差与采样噪声之间的关键权衡。

Financial Instruction Following Evaluation (FIFE)

FIFE 是一个面向金融分析任务的高难度指令遵循基准,包含 88 个人工编写的复杂提示和 40+ 种金融领域专用的可链式验证约束,通过严格/宽松两种模式评测 53 个模型,揭示出即使最强的开放权重模型(76.1% strict)也无法完美遵循金融领域的复杂指令要求。

Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning

首次给出鲁棒平均奖励 MDP 策略评估的有限样本复杂度分析:通过构造精巧的半范数证明鲁棒 Bellman 算子具有收缩性质,结合截断 Multi-Level Monte Carlo 估计器实现有限期望样本复杂度,最终达到阶最优的 \(\tilde{\mathcal{O}}(\epsilon^{-2})\) 样本复杂度。

Forecasting in Offline Reinforcement Learning for Non-stationary Environments

提出 Forl 框架,将条件扩散模型生成的多模态候选状态与零样本时序基础模型的偏移预测通过维度最近匹配(DCM)融合,在测试时无需重训练即可应对观测函数随 episode 非平稳变化的离线 RL 部署场景,在 D4RL 标准基准上平均提升数十分。

Foundation Models as World Models: A Foundational Study in Text-Based GridWorlds

系统性评估了基础模型(LLM)作为零样本世界模型(FWM)和直接决策智能体(FA)在文本网格世界中的表现,揭示了两种策略在确定性/随机性环境中的互补优势。

Gaussian Process Upper Confidence Bound Achieves Nearly-Optimal Regret in Noise-Free Gaussian Process Bandits

本文证明 GP-UCB 在 noise-free GP bandit 问题中可达到 nearly-optimal regret,首次在 SE 核下实现 \(O(1)\) 常数累积遗憾、在 Matérn 核(\(d < \nu\))下实现 \(O(1)\) 累积遗憾,弥合了 GP-UCB 理论与实践之间的长期差距。

Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update

提出GLB-OMD算法,首次在广义线性赌博机(GLB)问题中同时实现近似最优遗憾界 \(\mathcal{O}(\log T\sqrt{T/\kappa_*})\) 和每轮 \(\mathcal{O}(1)\) 的时间/空间复杂度,核心技术是基于混合损失(mix loss)为在线镜像下降(OMD)估计量构建紧致置信集。

Generalizing Verifiable Instruction Following

引入IFBench基准评估精确指令遵循的泛化能力,证明当前SOTA模型严重过拟合于IFEval的25种约束模板,并提出IF-RLVR训练方法(基于GRPO + 可验证奖励)显著提升域内外指令遵循性能。

Global Convergence for Average Reward Constrained MDPs with Primal-Dual Actor-Critic

提出Primal-Dual Natural Actor-Critic(PDNAC)算法,首次在一般参数化策略下的平均奖励约束MDP中实现 \(\tilde{\mathcal{O}}(1/\sqrt{T})\) 的全局收敛率和约束违反率,匹配理论下界。

Gradient-Variation Online Adaptivity for Accelerated Optimization with Hölder Smoothness

在 Hölder 光滑函数类上实现梯度变差自适应的在线学习算法,其 regret 在光滑和非光滑极端之间平滑插值;通过在线到批量转换,首次为强凸优化提供在光滑情形下加速、非光滑情形下近优的通用方法。

GraphChain: Large Language Models for Large-scale Graph Analysis via Tool Chaining

提出 GraphChain 框架,通过渐进式图蒸馏(RL驱动的工具链序列生成)和结构感知测试时自适应(基于图拓扑指纹的轻量适配器),使 LLM 能像人类探索未知环境一样,通过动态工具链序列逐步分析大规模图数据,平均准确率 84.7% 超越最优基线 20.7%,可扩展至 20 万节点。

Greedy Algorithm for Structured Bandits: A Sharp Characterization of Asymptotic Success / Failure

本文对结构化 bandit 问题中的贪心算法(Greedy)进行了完整的理论刻画,提出 self-identifiability 作为贪心算法能否获得 sublinear regret 的充要条件,并将结论推广到上下文 bandit 及一般交互决策框架 DMSO。

Horizon Reduction Makes RL Scalable

本文通过大规模实验(最高 10 亿转移数据)揭示离线 RL 的可扩展性瓶颈源于决策时域过长(curse of horizon),并证明通过 n-step 回报和层次策略等时域缩减技术可显著提升扩展性,进而提出了简洁有效的 SHARSA 方法。

Human-Inspired Multi-Level Reinforcement Learning

本文提出 RbRL-KL,在 rating-based RL 基础上增加 KL 散度驱动的策略损失项,利用不同评分等级的失败经验以不同权重推开当前策略,在 6 个 DeepMind Control 环境中超越标准 RbRL。

Hybrid Latent Reasoning via Reinforcement Learning

HRPO 提出混合潜在推理策略优化:通过可学习的门控机制将前一步的隐藏状态表示逐步融入到采样的 token embedding 中,使 LLM 在推理阶段同时利用离散 token 和连续潜在表示,无需 CoT 标注即可通过 RL 训练,在知识密集型和 STEM 推理任务上均超越 PPO/GRPO 等基线。

Improved Regret and Contextual Linear Extension for Pandora's Box and Prophet Inequality

本文针对在线 Pandora's Box 问题提出新算法,将 regret 从 \(\widetilde{O}(n\sqrt{T})\) 改进到 \(\widetilde{O}(\sqrt{nT})\)(匹配下界),并首次提出 contextual linear 扩展实现 \(\widetilde{O}(nd\sqrt{T})\) regret。

Improved Regret Bounds for GP-UCB in Bayesian Optimization

本文证明 GP-UCB 在贝叶斯设定下可达 \(\widetilde{O}(\sqrt{T})\) 高概率 regret(Matern 核满足光滑条件时)和 \(O(\sqrt{T \ln^2 T})\)(SE 核),弥合了 GP-UCB 已有上界与最优上界间的差距。

Improving Planning and MBRL with Temporally-Extended Actions

本文提出在 shooting-based 规划和 MBRL 中将动作持续时间作为额外优化变量,配合 MAB 自动选择持续时间范围,在多个环境中显著加速规划并解决标准方法无法解决的困难任务。

Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning

将复杂 RAG 流水线中的多个组件(Query Rewriter、Selector、Generator)建模为协作多智能体系统,使用 MAPPO 算法进行联合优化,以最终答案的 F1 分数作为共享奖励,在多个 QA 基准上超越现有单模块优化方法。

Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

提出 RAIF,通过 RL+规则中心奖励培养 LLM 在复杂指令(含 And/Chain/Selection/Nested 组合约束)下的深度推理能力:发现 vanilla CoT 对指令跟随有负面影响(因 LLM 只会浅层复述指令),设计 superior CoT enforcement(样本级对比过滤无效推理)+ 行为克隆控制分布偏移,1.5B 模型匹配 8B 性能,7 个 benchmark 平均提升 11.74%。

Incremental Sequence Classification with Temporal Consistency

将强化学习中时序差分(TD)学习的思想引入序列分类任务,提出 TC-\(\lambda\) 损失函数,通过要求相邻时间步的预测分布满足时序一致性条件来训练增量式序列分类器,在文本分类和 LLM 验证任务上均优于标准交叉熵方法。

Inner Speech as Behavior Guides: Steerable Imitation of Diverse Behaviors for Human-AI Coordination

受维果茨基内心语言理论启发,提出 MIMIC 框架,利用语言作为感知与动作之间的中介表征,通过 VLM 提供语言脚手架训练 CVAE 生成内心语言,再以扩散策略在条件化于内心语言的情况下生成多样且可控的行为。

Interactive and Hybrid Imitation Learning: Provably Beating Behavior Cloning

当标注成本按状态而非轨迹计量时,证明交互式方法 Stagger 在 \(\mu\)-可恢复条件下可证明地超越 Behavior Cloning(次优性 \(O(\mu H \log B / N)\) vs \(O(RH \log B / CN)\)\(\mu \ll R\) 时优势显著);进一步提出混合 IL 算法 Warm-Stagger,结合离线数据和交互标注,在特定 MDP 上实现两种数据源的严格互补优势。

Inverse Optimization Latent Variable Models for Learning Costs Applied to Route Problems

提出 IO-LVM(Inverse Optimization Latent Variable Model),用 VAE 式编码器映射观测的 COP 解到潜在成本空间,通过 Fenchel-Young 损失和黑盒求解器(Dijkstra/TSP solver)在解码端保证可行性,无需 agent 标签即可从路径数据中学到成本函数的分布,成功不可监督地分离不同 agent 的导航偏好。

Kimina Lean Server: A High-Performance Lean Server for Large-Scale Verification

提出Kimina Lean Server——一个面向大规模强化学习训练的高性能Lean 4验证服务器,通过服务端并行化和LRU缓存机制实现1.5-2倍的速度提升,已用于训练SOTA定理证明模型Kimina-Prover。

Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

提出 Wiki-PRF,一套三阶段(处理-检索-过滤)的多模态 RAG 框架,通过强化学习训练 VLM 自主调用视觉工具和过滤检索结果,在 E-VQA 和 InfoSeek 上达到 SOTA。

Last Iterate Convergence in Monotone Mean Field Games

在非严格单调平均场博弈(MFG)中,提出基于 KL 散度的近端点(PP)方法实现渐近最后迭代收敛(LIC),并证明正则化镜像下降(RMD)以指数速率收敛到正则化均衡,两者结合的 APP 算法在标准基准上可靠收敛到非正则化均衡。

Learning from Demonstrations via Capability-Aware Goal Sampling

提出Cago方法,通过动态追踪智能体在专家演示轨迹上的达成能力,自适应采样处于能力边界的中间目标,构建隐式课程引导长视野稀疏奖励任务学习。

Learning Human-Like RL Agents through Trajectory Optimization with Action Quantization

提出 MAQ(Motion-Action Quantization)方法,通过 VQ-VAE 将人类动作离散化为有限的原语集合,然后在量化动作空间中进行轨迹优化,训练出行为模式更接近人类的 RL agent。

Learning in Stackelberg Mean Field Games: A Non-Asymptotic Analysis

提出首个具有非渐近收敛保证的单循环Actor-Critic算法AC-SMFG,用于求解Stackelberg平均场博弈(SMFG),收敛速率达到 \(\widetilde{\mathcal{O}}(k^{-1/2})\)

Learning Interactive World Model for Object-Centric Reinforcement Learning

提出 FIOC-WM,通过对象级和属性级的两层分解学习世界模型中的物体交互结构,并基于交互原语训练层级策略,在多个机器人控制任务上实现了更高效的策略学习和组合泛化能力。

Learning Interestingness in Automated Mathematical Theory Formation

提出 Fermat——一个将数学理论形成建模为 MDP 的强化学习环境,以及 EvoAbstract——一个带抽象学习的 LLM 驱动进化算法,用于自动合成数学对象的"兴趣度"度量函数,在初等数论和有限域上显著超越硬编码基线。

Learning Intractable Multimodal Policies with Reparameterization and Diversity Regularization

提出Diversity-regularized Actor Critic(DrAC)算法,通过将不可解析的多模态策略(amortized actor和diffusion actor)统一为stochastic-mapping formulation,利用重参数化技巧直接进行策略梯度优化,并设计基于距离的多样性正则化替代传统熵正则化,在多目标导航和生成式RL等多样性关键任务中展现显著优势。

Learning Memory-Enhanced Improvement Heuristics for Flexible Job Shop Scheduling

提出 MIStar——首个基于深度强化学习 (DRL) 的改进型启发式框架,用于求解柔性作业车间调度问题 (FJSP)。核心创新包括有向异构析取图表示、记忆增强异构图神经网络 (MHGNN) 和并行贪心搜索策略,在合成数据和公开 benchmark 上全面超越手工改进启发式和 SOTA 构造型 DRL 方法。

Learning to Clean: Reinforcement Learning for Noisy Label Correction

将噪声标签纠正问题建模为强化学习中的马尔可夫决策过程,提出 RLNLC 框架,通过 k 近邻嵌入空间构建策略函数判断哪些标签需纠正,并设计标签一致性奖励和跨子集对齐奖励指导纠正过程,在多个基准数据集上的实例依赖和对称噪声场景中均达到最优性能。

Learning to Focus: Prioritizing Informative Histories with Structured Attention Mechanisms in Partially Observable Reinforcement Learning

提出两种结构化时序先验(Memory-Length Prior和Gaussian Distributional Prior)嵌入Transformer世界模型的自注意力机制中,在部分可观测RL环境下,Gaussian Attention在Atari 100k基准上相对UniZero提升77%的人类归一化均分,且计算开销几乎为零。

Massively Parallel Imitation Learning of Mouse Forelimb Musculoskeletal Reaching Dynamics

基于 MIMIC-MJX 平台构建小鼠前肢肌肉骨骼模拟学习流水线,通过 JAX 加速的大规模并行 PPO(120 万步/秒)训练物理感知模仿学习策略,证明控制成本正则化能使模拟肌肉活动更好地预测真实 EMG 信号,并用基于 Takens 定理的非线性动力学方法从关节运动学预测肌肉激活。

Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning

提出 SUBSAMPLE-MFQ 算法,通过从 \(n\) 个智能体中随机采样 \(k\) 个进行均场 Q 学习,将多智能体强化学习的样本复杂度从 \(\text{poly}(n)\) 降低到 \(\text{poly}(k)\),且性能差距仅为 \(\tilde{O}(1/\sqrt{k})\)(与 \(n\) 无关),当 \(k = O(\log n)\) 时实现相对均场 MARL 的指数加速。

Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning

提出 Memo,一种基于 Transformer 的记忆增强框架,通过周期性生成摘要 token(summary tokens)压缩历史上下文,在保持甚至超越全上下文 Transformer 性能的同时,将推理时 KV 缓存缩小 8-10 倍,并展现出更好的长上下文泛化和流式推理鲁棒性。

Meta-World+: An Improved, Standardized, RL Benchmark

本文系统揭示 Meta-World 基准在不同版本间因奖励函数不一致导致的算法比较失真问题,并发布标准化新版本 Meta-World+,明确保留 V1/V2 两套奖励函数,新增 MT25/ML25 任务集,升级至 Gymnasium API,实现完全可复现的多任务和元强化学习评估。

MetaBox-v2: A Unified Benchmark Platform for Meta-Black-Box Optimization

MetaBox-v2 是对元黑箱优化(MetaBBO)基准平台的里程碑式升级,统一支持 RL/SL/NE/ICL 四大学习范式,复现 23 个基线算法,集成 18 个测试套件(1900+ 问题实例),并通过向量化环境和分布式测试实现 10-40 倍加速。

Mind the GAP! The Challenges of Scale in Pixel-based Deep Reinforcement Learning

发现像素输入的深度 RL 网络中,编码器(卷积层 \(\phi\))与全连接层(\(\psi\))之间的"瓶颈连接"是阻碍网络缩放的根本原因,提出用全局平均池化(GAP)这一极简方法直接化解瓶颈,以更低计算成本获得与复杂方法(SoftMoE、稀疏训练)相当或更优的性能。

Mixing Expert Knowledge: Bring Human Thoughts Back to the Game of Go

提出 LoGos,通过混合领域专家数据(围棋)与通用长 CoT 推理数据进行冷启动微调 + GRPO 强化学习,使通用 LLM 在围棋中达到职业棋手水平的同时保持优秀的通用推理能力。

Models That Prove Their Own Correctness

本文提出 Self-Proving Models 框架,让模型通过交互式证明系统向验证算法证明其输出的正确性,并设计了 Transcript Learning (TL) 和 Reinforcement Learning from Verifier Feedback (RLVF) 两种学习方法,在 GCD 计算任务上实验验证 Annotated TL 可达 96% 的 Verifiability。

Modulation of Temporal Decision-Making in a Deep Reinforcement Learning Agent under the Dual-Task Paradigm

在简化版Overcooked环境中训练DRL智能体执行单任务(时间生产)和双任务(时间生产+数字比较),发现双任务智能体在四种目标时长下均显著过度生产时间——这一涌现行为与人类时间感知研究中双任务范式下的时间高估现象高度一致。

MTL-KD: Multi-Task Learning Via Knowledge Distillation for Generalizable Neural Vehicle Routing Solver

提出基于知识蒸馏的多任务学习框架MTL-KD,通过将多个RL单任务教师模型的策略知识蒸馏到一个重解码器学生模型中,实现了对多种VRP变体的高效统一求解,并在大规模问题上展现出卓越的泛化能力。

Multi-Agent Collaboration via Evolving Orchestration

提出"木偶师"(Puppeteer)式多 Agent 协作范式——一个中心化编排器通过 RL 学习在每个推理步骤动态选择激活哪个 Agent,在封闭域和开放域任务上同时提升性能和效率,并发现演化后的拓扑趋向更紧凑的环形结构。

Multi-Objective Reinforcement Learning with Max-Min Criterion: A Game-Theoretic Approach

将熵正则化的 max-min 多目标强化学习重新建模为两人零和正则连续博弈,提出 ERAM/ARAM 算法,通过镜像下降实现闭式权重更新和全局 last-iterate 收敛,在多种 MORL 环境中显著超越基线。

Near-Optimal Quantum Algorithms for Computing (Coarse) Correlated Equilibria of General-Sum Games

首次研究计算多玩家一般和博弈的相关均衡(CE)和粗相关均衡(CCE)的量子算法,通过量子化多尺度 MWU 方法和统一 QRAM 方案,实现 \(\tilde{O}(m\sqrt{n})\) 的近最优查询复杂度(在玩家数 m 和动作数 n 上),并证明了匹配的量子下界。

NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation

提出NoisyRollout,一种零额外训练成本的数据增强方法,在GRPO训练VLM时混合来自干净和适度扰动图像的rollout以增强策略探索多样性,仅用2.1K样本在5个域外基准上达到开源RL微调模型SOTA。

Non-convex Entropic Mean-Field Optimization via Best Response Flow

将Best Response Flow从凸函数泛函优化扩展到非凸情形,证明在充分大的熵正则化下,BR算子在 \(L^1\)-Wasserstein距离下成为压缩映射,保证非凸目标的唯一全局最小值存在性及指数收敛。

On the Global Optimality of Policy Gradient Methods in General Utility Reinforcement Learning

本文为一般效用强化学习(RLGU)中的策略梯度方法建立了全局最优性理论保证:在表格设定下通过新的梯度支配不等式证明了全局收敛,在大规模状态-动作空间下提出基于最大似然估计(MLE)的占据度量近似算法 PG-OMA,样本复杂度仅依赖函数近似类的维度 \(m\) 而非状态-动作空间大小。

Online Optimization for Offline Safe Reinforcement Learning

提出 O3SRL 框架,将离线安全强化学习问题形式化为极小极大优化,通过结合离线 RL oracle 和基于 EXP3 多臂老虎机的在线优化来自适应调整拉格朗日乘子,避免了不稳定的离策略评估,在严格安全约束下实现高奖励。

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

Open Vision Reasoner(OVR)通过"语言冷启动 + 大规模多模态 RL"两阶段训练范式,将语言模型中的认知行为(如回溯、验证)有效迁移到视觉推理中,基于 Qwen2.5-VL-7B 在 MathVision 上首次突破 50%(51.8%),成为同规模 SOTA。

Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning

提出 UEPO 框架,通过多种子动力学感知扩散策略、动态分歧正则化和基于扩散的数据增强三大核心组件,解决离线到在线强化学习中多模态行为覆盖不足和分布偏移问题,在 D4RL 基准上超越 Uni-O4。

Optimizing the Unknown: Black Box Bayesian Optimization with Energy-Based Model and Reinforcement Learning

提出REBMBO框架,将高斯过程(局部建模)、能量模型EBM(全局探索)和PPO强化学习(多步前瞻)统一为贝叶斯优化闭环,在高维/多峰黑盒优化中显著优于传统BO方法。

Oryx: a Scalable Sequence Model for Many-Agent Coordination in Offline MARL

本文提出 Oryx,一种面向离线合作 MARL 的可扩展序列模型算法,将基于 Retention 的 Sable 架构与自回归形式的 ICQ 离线正则化结合,通过双解码器输出策略和 Q 值并利用反事实优势估计,在 65 个数据集上超过 80% 达到 SOTA,并展示了在 50 智能体规模下的稳健扩展能力。

Parameter-Free Algorithms for the Stochastically Extended Adversarial Model

针对桥接对抗性和随机在线凸优化的 SEA 模型,首次开发无参数算法:在未知域直径 \(D\) 和/或 Lipschitz 常数 \(G\) 条件下,基于 Optimistic Online Newton Step (OONS) 实现与已知参数情况相当的 regret 界。

Parameter Efficient Fine-tuning via Explained Variance Adaptation

提出 Explained Variance Adaptation (EVA),通过对激活向量进行增量 SVD 来初始化 LoRA 矩阵,可证明地最大化期望梯度信号,并结合自适应秩分配机制在语言生成/理解、图像分类、强化学习等多领域建立了精度-效率的新 Pareto 前沿。

PARCO: Parallel AutoRegressive Models for Multi-Agent Combinatorial Optimization

提出 PARCO 框架,通过 Communication Layers 实现智能体间协调、Multiple Pointer Mechanism 实现并行解码、Priority-based Conflict Handler 解决冲突,高效求解多智能体组合优化问题。

Periodic Skill Discovery

提出 Periodic Skill Discovery (PSD) 框架,通过将状态映射到圆形潜空间来自然编码周期性,实现无监督地发现具有不同周期的多样化运动技能。

Preference-based Reinforcement Learning beyond Pairwise Comparisons: Benefits of Multiple Options

在偏好强化学习中提出 M-AUPO 算法,利用 Plackett-Luce 排序模型处理多选项比较反馈,首次从理论上证明更大的子集规模直接改善样本效率。

Prompt Tuning Decision Transformers with Structured and Scalable Bandits

提出一种基于多臂老虎机的结构化prompt调优方法,通过将prompt分解为独立segment并利用预训练PDT作为特征提取器,将prompt搜索复杂度从组合爆炸降为线性,在多任务离线RL中显著提升冻结PDT骨干网络的推理性能。

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents

提出 AcTOL,通过视觉-语言排序损失和布朗桥约束来学习有序且连续的视觉-语言表征,无需刚性目标到达假设,在模拟和真实机器人操作任务上显著提升下游表现。

Quantifying Generalisation in Imitation Learning

本文提出 Labyrinth 基准环境,通过可控的迷宫结构变化实现训练与评估数据的严格分离,揭示了当前模仿学习方法在结构泛化上的严重不足(最佳方法在测试集仅 5% 成功率),为模仿学习的泛化评估提供了系统性工具。

Real-World Reinforcement Learning of Active Perception Behaviors

提出非对称优势加权回归(AAWR),在训练时利用额外特权传感器来估计更准确的优势函数,从而高效学习真实世界中的主动感知策略,在8个涵盖不同部分可观测程度的操控任务上均超越所有基线方法。

Reasoning Gym: Reasoning Environments for Reinforcement Learning with Verifiable Rewards

发布包含100+过程生成推理任务的Reasoning Gym库,覆盖代数、算术、算法、逻辑、几何、图论、游戏等领域,每个任务支持无限数据生成和参数化难度控制,实验证明RLVR训练在域内/跨域均实现显著技能迁移且能提升MATH、GSM8K等外部基准表现。

Reinforcement Learning for Long-Horizon Multi-Turn Search Agents

展示 RL 训练的 14B 参数搜索 agent 在法律文档检索任务上通过多轮交互可以超越 frontier 模型(85% vs GPT o3 的 81%),关键在于精心设计的分段奖励结构和允许长 horizon 多轮交互。

Reinforcement Learning Teachers of Test Time Scaling

提出强化学习教师(RLT)框架,将问题和答案同时提供给教师模型,训练其生成有效的解释性推理链条,而非从零解题,从而用7B参数的小教师模型产出比数量级更大模型更优的蒸馏数据。

Reinforcement Learning with Action Chunking

提出 Q-chunking,将动作分块技术从模仿学习推广到基于 TD 的强化学习方法中,通过在"分块"动作空间上直接运行 RL 来改善长horizon稀疏奖励任务的探索和学习效率。

RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models

提出首个基于强化学习的多模态大模型后训练框架 RePIC,用于个性化图像描述生成,在多概念场景中显著优于基于 SFT 的方法。

Retrosynthesis Planning via Worst-path Policy Optimisation in Tree-structured MDPs

将逆合成规划重构为树结构MDP中的最差路径(worst-path)优化问题——合成树的价值由最弱路径决定(任何一条死胡同路径将导致整棵树无效),提出InterRetro通过加权自模仿学习优化这一最差路径目标,在Retro*-190上达到100%成功率,路径长度缩短4.9%,仅需10%训练数据即达92%完整性能。

Reward-Aware Proto-Representations in Reinforcement Learning

系统发展了默认表示(DR)的理论基础——推导了 DP 和 TD 学习算法、分析了特征空间结构、提出了默认特征进行函数逼近——并在奖励塑形、期权发现、探索和迁移学习四个场景中展示了 DR 相比后继表示(SR)的奖励感知优势。

Risk-Averse Constrained Reinforcement Learning with Optimized Certainty Equivalents

提出一种基于奖励层面(reward-based)的风险感知约束RL框架,使用优化确定性等价(OCE)风险度量同时覆盖目标和约束,建立了参数化强对偶性,并给出模块化算法——可包装标准RL求解器(如PPO)作为黑盒使用。

Risk-Averse Total-Reward Reinforcement Learning

提出了面向无折扣总奖励准则(TRC)的风险规避Q-learning算法(ERM-TRC和EVaR-TRC),利用ERM的可引出性(elicitability)将Bellman算子转化为随机梯度下降形式,并证明了算法的收敛保证。

RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning

Tango 提出一种交替 RL 训练生成器和验证器的框架——验证器是生成式过程级 LLM(用自然语言逐步评判),仅用结果级正确性奖励训练(无需步骤标注),通过与生成器的共进化相互增强——在 7B/8B 级别模型上达到SOTA,AIME 2025 准确率相对 vanilla GRPO 提升 100%。

Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

Robot-R1 提出利用强化学习(GRPO)训练大视觉语言模型(LVLM)进行具身推理,通过将下一关键状态预测转化为多选题并用 RL 优化推理路径,仅凭 7B 参数在低级控制推理任务上超越 GPT-4o。

Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling

提出CART(Conservative Adversarially Robust Decision Transformer),首个在随机博弈中增强Decision Transformer对抗鲁棒性的方法,通过阶段博弈建模和NashQ值估计解决ARDT在随机状态转移下的过度乐观问题,实现更准确的极小极大值估计和更优的最差情况回报。

Robust and Diverse Multi-Agent Learning via Rational Policy Gradient

本文提出理性保持策略优化(RPO)框架和理性策略梯度(RPG)算法,通过引入操纵者智能体和对手塑造技术,在合作和一般和博弈场景中消除对抗优化导致的自毁行为,同时实现策略鲁棒化和多样化。

RoiRL: Efficient, Self-Supervised Reasoning with Offline Iterative Reinforcement Learning

提出RoiRL——一种基于离线迭代强化学习的轻量级自监督推理框架,通过加权对数似然目标函数替代在线RL(如TTRL),在不需要参考模型和真实标签的情况下实现LLM推理能力的自我提升,训练速度提高2.5倍且性能更优。

Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning

Router-R1 将多 LLM 路由和聚合建模为序列决策过程,用 LLM 自身作为路由器交替执行"思考"和"路由"动作,通过 PPO 训练配合格式/正确性/成本三重奖励,在 7 个 QA 基准上超越所有路由器基线且可泛化到未见过的 LLM。

Sample-Efficient Tabular Self-Play for Offline Robust Reinforcement Learning

提出 RTZ-VI-LCB 算法用于离线鲁棒两人零和 Markov 博弈(RTZM G),通过乐观鲁棒值迭代 + Bernstein 风格惩罚,实现近最优样本复杂度 \(O(C_r^* \cdot H^4 \cdot S \cdot (A+B) / \varepsilon^2)\),较此前最优结果 \(O(H^5 \cdot S^2 \cdot AB / \varepsilon^2)\) 在状态空间和动作空间依赖上均有显著改善。

Sample Complexity of Distributionally Robust Average-Reward Reinforcement Learning

首次为分布鲁棒平均奖励强化学习(DR-AMDP)建立了有限样本收敛保证,提出两种算法(折扣归约法和锚定法),在KL和\(f_k\)-散度不确定集下均达到\(\widetilde{O}(|S||A|t_{\mathrm{mix}}^2\varepsilon^{-2})\)的近最优样本复杂度。

Scalable Neural Incentive Design with Parameterized Mean-Field Approximation

提出 AMID 算法,将多智能体激励设计(ID)问题形式化为参数化平均场博弈(PMFG),证明有限\(N\)智能体目标以\(\mathscr{O}(1/\sqrt{N})\)速率逼近无限种群极限,在多种拍卖场景大幅提升收益。

Scalable Policy-Based RL Algorithms for POMDPs

提出将 POMDP 近似为有限状态的 Superstate MDP(状态为截断历史),给出更紧的最优值函数差上界(随历史长度指数衰减),并首次证明标准 TD 学习 + 策略优化在此非马尔可夫采样下的有限时间收敛保证。

Self-Improving Embodied Foundation Models

本文提出一种面向具身基础模型的两阶段后训练方法:第一阶段通过行为克隆和 steps-to-go 预测进行监督微调,第二阶段利用 steps-to-go 预测生成的自奖励函数和成功检测器实现在线 RL 自我改进,仅需 1-3% 额外数据即可实现 1.5x 以上的成功率提升,并首次展示了机器人自主学习超出模仿数据分布之外的新技能。

Sequential Monte Carlo for Policy Optimization in Continuous POMDPs

提出基于非马尔可夫 Feynman-Kac 模型的嵌套 SMC(Sequential Monte Carlo)算法,在连续 POMDP 中实现策略优化,天然捕获信息收集价值而无需手工启发式。

Sequential Multi-Agent Dynamic Algorithm Configuration

提出 Seq-MADAC 框架,将多超参数动态配置建模为上下文顺序多智能体 MDP,通过顺序优势分解网络(SADN)利用参数间的固有依赖关系,在多目标优化算法配置上超越现有 MARL 方法。

Shift Before You Learn: Enabling Low-Rank Representations in Reinforcement Learning

揭示了强化学习中后继度量(successor measure)本身并非近似低秩的,但"位移后继度量"(shifted successor measure)自然具有低秩结构;通过引入新的 Type II Poincaré 不等式量化所需位移量,为目标导向 RL 提供了有限样本理论保证和实践改进。

Simultaneous Swap Regret Minimization via KL-Calibration

提出 KL-Calibration 这一更强的校准度量,证明其等价于 log loss 的 swap regret,并通过非均匀离散化和新型随机取整方案实现 \(\tilde{\mathcal{O}}(T^{1/3})\) 的同时 swap regret 上界,覆盖比已有工作更广的 proper loss 类。

Solving Continuous Mean Field Games: Deep Reinforcement Learning for Non-Stationary Dynamics

提出DEDA-FP算法,首次在连续状态/动作空间的非平稳平均场博弈(MFG)中同时学习Nash均衡策略和种群分布,通过结合深度RL计算最优响应、监督学习表示平均策略、条件Normalizing Flow建模时变种群分布,实现了比现有方法快10倍以上的采样效率。

Solving Neural Min-Max Games: The Role of Architecture, Initialization & Dynamics

首次为两层神经网络参数化的零和博弈提供收敛保证,证明在适当过参数化、随机初始化和交替梯度下降上升(AltGDA)下,能以高概率收敛到 \(\epsilon\)-近似纳什均衡。

Spatial-Aware Decision-Making with Ring Attractors in Reinforcement Learning Systems

将神经科学中的环形吸引子模型集成到 DRL 的动作选择中,通过将动作映射到环上的空间位置并利用高斯信号注入 Q 值和不确定性,在 Atari 100K 上比基线提升 53%。

STAIR: Addressing Stage Misalignment through Temporal-Aligned Preference Reinforcement Learning

发现并形式化了偏好强化学习(PbRL)中的"阶段错位"问题——比较不同阶段的行为片段会产生无效反馈,提出STAIR方法通过对比学习获取时间距离来近似阶段差异,用四边形距离选择阶段对齐的查询,在多阶段任务中显著超越现有PbRL方法。

Strategic Costs of Perceived Bias in Fair Selection

通过博弈论模型揭示"感知驱动偏差"机制:在完全基于能力的选拔系统中,不同社会经济群体对选拔后价值的感知差异会导致理性的努力差异,从而在"公平"的流程中系统性地传播不平等。

Structural Information-based Hierarchical Diffusion for Offline Reinforcement Learning

提出SIHD框架,利用历史轨迹中的结构信息(结构熵)自适应构建多尺度扩散层次,用结构信息增益替代局部奖励预测作为条件引导信号,并引入结构熵正则化促进对离线数据中稀疏状态的探索,在D4RL基准上最高提升12.6%的决策性能。

Structured Reinforcement Learning for Combinatorial Decision-Making

提出 Structured Reinforcement Learning (SRL),将组合优化求解器作为可微层嵌入 actor-critic 的 actor 中,通过 Fenchel-Young 损失 + 高斯扰动实现端到端梯度传播,纯在线学习、无需专家数据,在6个工业级组合决策问题上匹配模仿学习、超越无结构 RL 最高 92%。

Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control

提出SoLS算法,通过不对称策略更新机制(成功时激进学习、失败时保守正则化)和成功转换回放(STR),实现基础模型在移动应用控制任务上的高效强化学习微调,在AndroidWorld上达到51.3%成功率。

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

首次将强化学习 (RL) 应用于真实世界软件工程任务(GitHub PR/Issue 修复),仅用基于规则的序列相似度奖励训练 Llama-3.3-70B,在 SWE-bench Verified 上达到 41.0% 解决率(中等规模模型 SOTA),且 RL 训练仅在 issue-solving 数据上进行,却涌现出在代码推理、数学、通用语言理解等域外任务上的泛化推理能力。

Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment

将个性化对话对齐建模为多轮马尔可夫决策过程,提出 RLPA 框架,让 LLM 通过与模拟用户的在线交互学习动态推断和维护用户画像,并据此生成个性化回复。

Temporal-Difference Variational Continual Learning

提出TD-VCL目标函数,将变分持续学习(VCL)中的学习目标重新表示为多个过去后验估计的加权组合,揭示了与强化学习中时序差分(TD)方法的深层联系,通过"分散"正则化压力有效缓解了近似误差的逐步累积问题。

TensorRL-QAS: Reinforcement Learning with Tensor Networks for Improved Quantum Architecture Search

提出 TensorRL-QAS 框架,通过用张量网络(MPS/DMRG)对强化学习量子架构搜索进行 warm-start,显著降低电路深度和 CNOT 门数量(最高 10 倍),同时加速训练(最高 98%),有效解决了 RL-QAS 在大规模量子系统上的可扩展性瓶颈。

The Burden of Interactive Alignment with Inconsistent Preferences

将用户与参与度驱动算法的交互建模为多领导者-单跟随者 Stackelberg 博弈,证明存在关键的前瞻视野阈值:超过该阈值的用户可实现对齐,否则反被算法对齐;同时证明引入低成本信号(如额外点击)可大幅降低对齐负担。

The Path Not Taken: RLVR Provably Learns Off the Principals

本文提出三门理论 (Three-Gate Theory) 解释 RLVR 的参数更新稀疏性假象,证明 RLVR 在权重空间的非主方向 (off-principal) 上学习,与 SFT 的优化机制本质不同,因此直接移植 SFT 时代的 PEFT 方法到 RLVR 是有缺陷的。

The Physical Basis of Prediction: World Model Formation in Neural Organoids via an LLM-Generated Curriculum

本文提出在人类神经类器官(organoids)中研究世界模型形成的框架,设计了三个渐进式虚拟环境(条件回避、捕食者-猎物、Pong),并引入 LLM 自动生成实验方案的元学习方法,结合多尺度生物物理评估策略量化生物学习的物理基础。

The World Is Bigger! A Computationally-Embedded Perspective on the Big World Hypothesis

从计算嵌入(computationally-embedded)的视角形式化了"大世界假说",证明被嵌入在通用局部环境中的智能体天然受限于自身容量,提出"交互性"(interactivity)作为持续适应能力的计算度量,并实验表明深度非线性网络难以维持交互性,而深度线性网络可随容量增加而提升交互性。

Thompson Sampling for Multi-Objective Linear Contextual Bandit

提出MOL-TS——首个具有worst-case Pareto regret理论保证的多目标线性上下文Bandit Thompson Sampling算法,通过定义"有效Pareto最优臂"概念和乐观采样策略,实现\(\widetilde{O}(d^{3/2}\sqrt{T})\)的regret上界,目标数\(L\)仅增加\(O(\log L)\)因子。

Thompson Sampling in Function Spaces via Neural Operators

将 Thompson 采样 (TS) 从有限维参数空间扩展到无限维函数空间,利用神经算子 (Neural Operators) 作为高斯过程后验的近似采样器,实现了对涉及偏微分方程 (PDE) 的功能优化问题的高效求解。

Time Reversal Symmetry for Efficient Robotic Manipulations in Deep Reinforcement Learning

提出 TR-DRL 框架,利用机器人操作任务中的时间反转对称性——通过轨迹反转增强(完全可逆的转移)和时间反转引导的势函数奖励塑形(部分可逆的转移)——显著提升 DRL 在成对任务(如开门/关门)中的样本效率和最终性能。

To Distill or Decide? Understanding the Algorithmic Trade-off in Partially Observable Reinforcement Learning

通过一个理论模型(perturbed Block MDP)和模拟运动控制实验,系统研究了部分可观测 RL 中特权专家蒸馏 (privileged expert distillation) 与标准 RL(无特权信息)之间的算法权衡,发现权衡关键取决于隐状态动力学的随机性。

Towards Provable Emergence of In-Context Reinforcement Learning

本文从理论上证明了 Transformer 经过标准 RL 预训练后,其全局最优参数能够实现 in-context temporal difference (TD) 学习,为 in-context RL (ICRL) 现象提供了首个可证明的理论支撑。

Tractable Multinomial Logit Contextual Bandits with Non-Linear Utilities

首次为MNL上下文赌博机问题在非线性效用函数(含神经网络)下设计了计算可行统计最优的算法ONL-MNL,在不依赖NTK假设的情况下达到\(\widetilde{\mathcal{O}}(\sqrt{T})\)的遗憾上界。

Training Language Models to Reason Efficiently

通过在 RL 奖励中加入长度惩罚项——正确回答的奖励乘以 \((1 - \alpha \cdot \sigma(\text{norm\_len}))\),用单一超参数 \(\alpha\) 控制 token-准确率权衡曲线,仅 100 步 RL 训练即可让 7B 推理模型减少 50% token 使用量而准确率仅下降 <5%。

TRiCo: Triadic Game-Theoretic Co-Training for Robust Semi-Supervised Learning

提出 TRiCo 框架,将半监督学习重构为教师-双学生-对抗生成器的三方博弈(Stackelberg 博弈),用互信息替代置信度做伪标签筛选,元学习教师自适应调节训练动态,在低标签场景下实现 SOTA 性能。

Trust Region Reward Optimization and Proximal Inverse Reward Optimization Algorithm

提出 TRRO 理论框架和 PIRO 实用算法,通过 Minorization-Maximization 过程保证 IRL 中奖励函数更新的单调改进,实现了逆强化学习领域类似于 TRPO/PPO 在正向 RL 中的稳定性保证。

Variance-Aware Feel-Good Thompson Sampling for Contextual Bandits

提出FGTS-VA算法,首次实现了基于Feel-Good Thompson Sampling的方差感知上下文赌博机算法,其后悔界在模型维度上达到最优,匹配了基于UCB的最优方差依赖后悔界。

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

构建了首个面向具身多智能体合作的层次化基准VIKI-Bench(含智能体激活、任务规划、轨迹感知三个层级),并提出两阶段框架VIKI-R(CoT示范微调+多级奖励RL),在多种机器人形态和多视角视觉观测下实现显著超越基线的合作表现,RL阶段涌现出组合式协作模式。

VolleyBots: A Testbed for Multi-Drone Volleyball Game Combining Motion Control and Strategic Play

本文提出 VolleyBots,一个多无人机排球竞技测试平台,融合了合作-对抗博弈、回合制交互与敏捷 3D 机动控制,基于 Isaac Sim 构建了从单体训练到多体竞技的任务课程体系,并通过分层策略在 3v3 任务中取得 69.5% 胜率,同时展示了零样本 sim-to-real 部署能力。

When Can Model-Free Reinforcement Learning be Enough for Thinking?

提出 Thought MDP 形式化框架来理解模型无关 RL 中"思考"行为的涌现条件:策略初始化是决定性因素,思考动作等价于智能体在行动前执行一步策略改进,且开源 LLM 满足思考涌现的必要条件。

When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners

受认知神经科学启发(人脑的推理与语言处理相对独立),在 LLM 的激活空间中识别并消除语言特定成分,实现语言与推理的解耦,从而在免训练条件下一致性地提升多语言推理性能。

Zero-Shot Context Generalization in Reinforcement Learning from Few Training Contexts

提出 Context-Enhanced Bellman Equation (CEBE) 和 Context Sample Enhancement (CSE) 方法,通过利用环境动力学和奖励函数对上下文参数的一阶导数信息,在仅训练于单一上下文的情况下实现对未见上下文的零样本泛化。

Zeroth-Order Optimization Finds Flat Minima

首次从理论上证明标准零阶优化(两点梯度估计)具有隐式正则化效果——收敛到Hessian迹最小的平坦极小值(flat minima),在凸且充分光滑条件下给出了\(T = \mathcal{O}(d^4/\epsilon^2)\)的收敛复杂度保证。