跳转至

🎮 强化学习

🧠 NeurIPS2025 · 143 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (25) · 🔬 ICLR2026 (400) · 💬 ACL2026 (46) · 🧪 ICML2026 (110) · 🤖 AAAI2026 (58) · 📹 ICCV2025 (7)

🔥 高频主题: 强化学习 ×48 · Agent ×12 · 推理 ×10 · 对抗鲁棒 ×8 · 扩散模型 ×4

A Differential and Pointwise Control Approach to Reinforcement Learning

将RL问题通过连续时间控制的微分对偶形式重新表述,利用哈密顿结构嵌入物理先验,提出dfPO算法实现逐点策略优化,在科学计算任务(曲面建模、网格控制、分子动力学)上以更少样本超越12个RL基线。

A Generalized Bisimulation Metric of State Similarity between Markov Decision Processes: From Theoretical Propositions to Applications

将传统只能在单个MDP内度量状态相似性的bisimulation metric (BSM)推广到跨MDP场景,提出广义双模拟度量(GBSM),严格证明了对称性、跨MDP三角不等式和同状态距离上界三个基本度量性质,并在策略迁移、状态聚合和基于采样的估计三个应用中推导出比标准BSM更紧的误差界和闭式样本复杂度。

A Near-optimal, Scalable and Parallelizable Framework for Stochastic Bandits Robust to Adversarial Corruptions and Beyond

提出 BARBAT 框架,改进了经典的 BARBAR 算法,通过固定 epoch 长度和逐 epoch 调整失败概率,将对抗腐蚀下随机多臂老虎机的 regret 从 \(O(\sqrt{K}C)\) 降至近最优的 \(O(C)\)(消除了 \(\sqrt{K}\) 因子),并成功扩展到多智能体、图老虎机、组合半老虎机和批量老虎机等多种场景。

A Theory of Multi-Agent Generative Flow Networks

提出多智能体生成流网络(MA-GFlowNets)的理论框架,证明了"局部-全局原理"——联合流函数可分解为各智能体独立流的乘积形式,设计了四种算法(CFN/IFN/JFN/CJFN),其中 JFN 和 CJFN 实现中心化训练+去中心化执行(CTDE),在 Hyper-Grid 和 StarCraft 环境中超越 RL 和 MCMC 方法。

A Unifying View of Linear Function Approximation in Off-Policy RL Through Matrix Splitting and Preconditioning

首次引入矩阵分裂理论,将线性函数逼近下的TD、FQI和PFQI统一为求解同一目标线性系统 \((\Sigma_{cov} - \gamma\Sigma_{cr})\theta = \theta_{\phi,r}\) 的迭代方法(仅预条件子不同),给出各算法收敛的充要条件,提出rank invariance新概念,并揭示target network的本质是预条件子从常数到数据自适应的连续变换。

Actor-Free Continuous Control via Structurally Maximizable Q-Functions

提出 Q3C(Q-learning for Continuous Control with Control-points),通过学习一组控制点来逼近 Q 函数并保证最大值恰好在控制点上取到,配合动作条件化 Q 值生成、控制点多样性损失和尺度归一化等关键改进,在标准基准上匹配 TD3,在受限动作空间中显著超越所有 actor-critic 方法。

Adaptive Cooperative Transmission Design for URLLC via Deep RL

提出 DRL-CoLA 算法,用双 Agent DQN 分别在源节点和中继节点上自适应配置 5G NR 传输参数(numerology、mini-slot、MCS),在两跳中继系统中仅用本地 CSI 即可达到接近全局 CSI 最优的 URLLC 可靠性。

Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning

提出 ANQ(Adaptive Neighborhood-constrained Q learning),在离线 RL 中引入基于优势函数的自适应邻域约束,在密度约束(过于保守)和支持约束(需精确建模行为策略)之间找到灵活的中间方案,通过双层优化框架实现高效 Q 学习,在 D4RL 基准上达到 SOTA。

Adaptively Coordinating with Novel Partners via Learned Latent Strategies

提出 TALENTS 框架,通过 VAE 学习潜在策略空间 + K-Means 聚类发现策略类型 + Fixed-Share 遗憾最小化算法在线推断队友类型,实现对未知人类/智能体队友的零样本实时适应协作。

ALINE: Joint Amortization for Bayesian Inference and Active Data Acquisition

ALINE 提出统一的分摊贝叶斯推断和主动数据获取框架,用 Transformer 架构 + RL 训练,使模型能同时策略性地选择最有信息量的数据点并即时完成后验推断,还支持灵活地针对特定参数子集或预测目标进行数据获取。

Approximating Shapley Explanations in Reinforcement Learning

提出 FastSVERL,一种可扩展的参数化学习框架,分别近似强化学习中 Shapley 值的两个计算瓶颈(特征函数和 Shapley 求和),支持离策略数据学习和随策略演化持续更新解释。

Bandit and Delayed Feedback in Online Structured Prediction

首次研究在线结构化预测中赌臂反馈和延迟反馈场景,通过设计新的伪逆矩阵梯度估计器,实现了不显式依赖输出集大小 \(K\)\(O(T^{2/3})\) 替代遗憾上界。

Behavior Injection: Preparing Language Models for Reinforcement Learning

揭示 LLM 对 RL 微调响应不一致的根本原因——通过 per-step influence 分析发现 RL 效果取决于(1)rollout 准确率分布(中等最优)和(2)数据 co-influence 强度,提出 BRIDGE 在 SFT 阶段注入探索/利用行为,使后续 RL 增益从 6% 提升到 46.6%。

Blending Complementary Memory Systems in Hybrid Quadratic-Linear Transformers

提出混合二次-线性 Transformer(HQLT),将 KV-memory(softmax attention,精确检索但二次复杂度)与 FW-memory(DeltaNet/线性 attention,线性复杂度但检索粗糙)融合为互补记忆系统,比较三种混合策略(延迟流式/延迟分块/同步),在 340M 和 1.3B 参数规模的语言建模、检索、算法推理和 RL 任务上验证同步混合最优。

Bootstrap Off-policy with World Model (BOOM)

提出 BOOM 框架,通过 bootstrap 循环将在线规划器(MPPI)与 off-policy 策略学习紧密结合:策略初始化规划器,规划器反过来通过无似然对齐损失(likelihood-free alignment)引导策略改进,配合 soft Q-weighted 机制优先学习高回报行为,在高维连续控制任务上取得 SOTA。

Boundary-to-Region Supervision for Offline Safe Reinforcement Learning

提出 B2R(Boundary-to-Region)框架,通过代价信号重对齐(CTG Realignment)解决序列模型在离线安全RL中对回报和代价的对称条件化谬误,将稀疏的边界监督转化为密集的安全区域监督,在38个安全关键任务中35个满足安全约束。

Certifying Concavity and Monotonicity in Games via Sum-of-Squares Hierarchies

证明了在多项式效用和半代数策略集的博弈中验证凹性和单调性是 NP-hard 的,并提出了两套基于平方和 (SOS) 规划的层次化认证方案,可在多项式时间内逐层求解。

Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions

提出 Generalized Lyapunov Function 方法,通过将 RL 值函数与神经网络残差项结合,并用多步加权下降条件替代经典的逐步严格下降要求,实现对 RL 策略的稳定性认证。

Checklists Are Better Than Reward Models For Aligning Language Models

提出 Reinforcement Learning from Checklist Feedback (RLCF),将指令分解为动态生成的 yes/no checklist,结合 AI judge 和代码验证器逐项评分后做 DPO 训练,在 5 个 benchmark 上一致性提升 Qwen2.5-7B-Instruct,是唯一在所有 benchmark 上都有正收益的方法(FollowBench +4pt, InFoBench +6pt, Arena-Hard +3pt)。

Comparing Uniform Price and Discriminatory Multi-Unit Auctions through Regret Minimization

从在线学习和遗憾最小化框架出发,系统比较统一价格拍卖与歧视性拍卖的学习难度,证明两种格式在最坏情况下遗憾率相同,但特定结构条件下统一价格拍卖允许更快的学习速率。

Complexity Scaling Laws for Neural Models using Combinatorial Optimization

以旅行商问题(TSP)为案例,研究固定模型容量下问题复杂度(解空间大小、表示空间维度)与模型性能之间的可预测缩放规律,揭示了 RL 和 SFT 在组合优化中的系统性性能趋势。

Computational Hardness of Reinforcement Learning with Partial \(q^\pi\)-Realizability

引入"部分 \(q^\pi\)-可实现性"概念,证明在此设定下使用贪心策略集时学习近优策略是 NP-hard 的,使用 softmax 策略集时在 rETH 假设下需要指数时间,弥合了 \(q^*\)-可实现性和 \(q^\pi\)-可实现性之间的理论空白。

Confounding Robust Deep Reinforcement Learning: A Causal Approach

基于部分辨识(partial identification)理论扩展 DQN,提出 Causal DQN 从含有未观测混淆因子的离线数据中学习鲁棒策略——通过优化最坏情况下的价值函数下界来获得安全策略,在 12 个混淆 Atari 游戏中一致性地超越标准 DQN。

Continual Knowledge Adaptation for Reinforcement Learning

提出 CKA-RL,为每个任务维护知识向量(task-specific knowledge vector),通过 softmax 加权的动态知识适配和自适应知识合并机制,在三个持续 RL 基准上实现 4.20% 的整体性能提升和 8.02% 的前向迁移提升。

Convergence Theorems for Entropy-Regularized and Distributional Reinforcement Learning

提出 温度解耦策略(temperature decoupling gambit),证明在熵正则化强化学习中,通过解耦评估温度和行为温度,可以在温度趋于零时保证策略和回报分布收敛到一个可解释的、保持多样性的最优策略。

CORE: Constraint-Aware One-Step Reinforcement Learning for Simulation-Guided Neural Network Accelerator Design

提出 CORE(Constraint-aware One-step REinforcement learning),一种无 critic 的单步 RL 框架,通过结构化分布采样、scaling-graph 解码器和约束感知的 reward shaping 来高效探索 DNN 加速器的硬件-映射联合设计空间,在 7 个 DNN 模型上取得至少 15× 的 latency 改善。

Counteractive RL: Rethinking Core Principles for Efficient and Scalable Deep Reinforcement Learning

CoAct TD Learning 颠覆 ε-greedy 的随机探索范式——以概率 ε 选择最小化 \(Q(s,a)\) 的动作(而非随机动作)来获取高时间差分信号,理论证明其产生更大 TD 误差,在 Atari 100K 上实现 248% 性能提升,仅需改动 2 行代码且零额外计算。

DCcluster-Opt: Benchmarking Dynamic Multi-Objective Optimization for Geo-Distributed Data Center Workloads

提出 DCcluster-Opt,一个面向地理分布式数据中心的开源高保真仿真基准平台,融合真实世界数据集(碳强度、电价、天气等)和物理模型,支持动态多目标负载调度的强化学习研究。

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation

SambaY 提出 Gated Memory Unit(GMU)用于跨层共享 SSM 的 token 混合表示,将 YOCO 的 cross-decoder 中一半的 cross-attention 层替换为轻量级 GMU,在保持线性预填充复杂度和长上下文检索能力的同时,大幅提升解码效率——最终产品 Phi4-mini-Flash-Reasoning (3.8B) 在推理任务上超越 Phi4-mini-Reasoning,且在 2K 提示 + 32K 生成场景下实现高达 10× 的解码吞吐提升。

Deep RL Needs Deep Behavior Analysis: Exploring Implicit Planning by Model-Free Agents

提出 ForageWorld 自然觅食环境和神经科学启发的行为分析框架,揭示无模型 RNN-based DRL 智能体通过涌现动力学展现出结构化的类规划行为——无需显式记忆模块或世界模型。

DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning

提出 DeepDiver,一个 RL 驱动的搜索推理框架,在真实开放网络环境中训练 LLM 的信息寻求能力,催生"搜索强度缩放"(SIS)涌现行为——7B 模型在知识密集任务上可媲美 671B 的 DeepSeek-R1。

DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning

提出 DISCOVER,一种面向稀疏奖励长视野 RL 的目标选择策略,通过同时平衡可达性(achievability)、新颖性(novelty)和相关性(relevance)来生成指向目标任务的课程,理论上证明达到目标的步数与目标距离线性相关(而非搜索空间体积),在高维导航和操作任务中显著超越先前 SOTA 探索策略。

Distribution Learning Meets Graph Structure Sampling

本文建立了高维概率图模型 PAC 学习与图结构高效计数/采样之间的新联系,利用在线学习框架(EWA/RWM)将指数级专家集合的维护问题转化为 DAG 结构的加权采样问题,首次给出了弦图骨架贝叶斯网络的高效 agnostic 学习算法,并将树结构分布的样本复杂度从 O(nk³/ε) 改进到最优的 O(nk²/ε)。

Dynamic Regret Reduces to Kernelized Static Regret

将动态遗憾最小化问题重新建模为再生核希尔伯特空间(RKHS)中的静态遗憾问题,通过精心设计平移不变核实现最优路径长度依赖 \(\widetilde{\mathcal{O}}(\sqrt{MP_TT})\),且天然不需要时间范围先验知识。

Dynamics-Aligned Latent Imagination in Contextual World Models for Zero-Shot Generalization

在 DreamerV3 架构中引入自监督上下文编码器 DALI,从交互历史中推断潜在环境参数(如重力、摩擦力),在 cMDP 基准上无需重训练即可实现零样本泛化,在外推任务上比 ground-truth context-aware 基线高出最多 96.4%。

Emergent World Beliefs: Exploring Transformers in Stochastic Games

将LLM涌现世界模型的研究从完全信息游戏(Othello、国际象棋)扩展到不完全信息领域(德州扑克),通过在PHH格式扑克数据上预训练GPT-2并探测其内部激活,证明模型不仅学习了确定性特征(牌型识别~98%准确率),还自发发展了对随机性特征(胜率/equity,相关系数0.59)的内部表示。

Empirical Study on Robustness and Resilience in Cooperative Multi-Agent Reinforcement Learning

通过 82,620 次大规模实验系统性研究合作多智能体 RL 中的鲁棒性和弹性,揭示超参数调优比算法选择更重要,并发现参数共享、GAE、PopArt 等常见做法在不确定性下反而有害,提出一套实用的超参数建议。

Enhancing Interpretability in Deep Reinforcement Learning through Semantic Clustering

提出语义聚类模块(SCM),将特征降维网络(FDR)与改进的 VQ-VAE 在线聚类相结合,无缝集成到 DRL 训练流程中,解决了 t-SNE 可视化不稳定的问题,揭示 DRL 内在具有基于语义的动态聚类特性。

Establishing Linear Surrogate Regret Bounds for Convex Smooth Losses via Convolutional Fenchel–Young Losses

通过构造基于卷积负熵(convolutional negentropy)的 Fenchel–Young 损失,首次证明凸且光滑的代理损失可以同时拥有线性代理遗憾界,打破了此前社区认为光滑性与线性遗憾率不可兼得的固有认知。

EvoLM: In Search of Lost Language Model Training Dynamics

系统训练 100+ 个 1B/4B 参数的 LM(从零开始),透明地研究预训练→续训→SFT→RL 各阶段的训练动态,揭示过度训练的递减收益、灾难性遗忘的缓解策略、以及 SFT/RL 配置的复杂权衡。

Exploration via Feature Perturbation in Contextual Bandits

提出特征扰动(Feature Perturbation)作为上下文 bandit 的新型随机探索策略:直接在特征输入上注入噪声,而非扰动参数或奖励,从而在广义线性 bandit 中实现 \(\tilde{O}(d\sqrt{T})\) 最优遗憾界,首次消除了随机化算法相较确定性方法的 \(\sqrt{d}\) 因子劣势。

Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches

系统评测 LLM/VLM 在经典 RL 探索任务(bandit、Gridworld、Atari)上的零样本能力,发现 VLM 存在"知行差距"(knowing-doing gap)——高层推理正确但低层控制失败,并提出简单的 VLM-RL 混合框架在理想条件下可显著加速学习。

Extending NGU to Multi-Agent RL: A Preliminary Study

将单智能体 NGU(Never Give Up)算法扩展至多智能体环境,通过共享回放缓冲区、共享新颖性信号和异构 β 参数三个设计维度的系统消融,发现 NGU + 共享经验池组合在 PettingZoo simple_tag 追捕任务中显著优于多智能体 DQN 基线。

FedRAIN-Lite: Federated Reinforcement Algorithms for Improving Idealised Numerical Weather and Climate Models

提出 FedRAIN-Lite 联邦强化学习框架,将 RL 智能体分配到不同纬度带学习局部气候参数化策略并定期全局聚合,在层次化理想能量平衡模型上验证 DDPG 在热带和中纬度区域可将面积加权 RMSE 降低 50% 以上,为 RL 扩展到全尺度 GCM 提供了可行路径。

Feel-Good Thompson Sampling for Contextual Bandits: a Markov Chain Monte Carlo Showdown

首次系统性实证评估 Feel-Good Thompson Sampling (FG-TS) 及其平滑变体 SFG-TS 在近似后验下的表现,横跨线性/逻辑/神经三类上下文赌博机设置和十四个基准,发现 FG-TS 在精确后验场景(线性/逻辑)下优于标准 TS,但在神经赌博机中反而退化,揭示了乐观偏差与采样噪声之间的关键权衡。

Financial Instruction Following Evaluation (FIFE)

FIFE 是一个面向金融分析任务的高难度指令遵循基准,包含 88 个人工编写的复杂提示和 40+ 种金融领域专用的可链式验证约束,通过严格/宽松两种模式评测 53 个模型,揭示出即使最强的开放权重模型(76.1% strict)也无法完美遵循金融领域的复杂指令要求。

Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning

首次给出鲁棒平均奖励 MDP 策略评估的有限样本复杂度分析:通过构造精巧的半范数证明鲁棒 Bellman 算子具有收缩性质,结合截断 Multi-Level Monte Carlo 估计器实现有限期望样本复杂度,最终达到阶最优的 \(\tilde{\mathcal{O}}(\epsilon^{-2})\) 样本复杂度。

Forecasting in Offline Reinforcement Learning for Non-stationary Environments

提出 Forl 框架,将条件扩散模型生成的多模态候选状态与零样本时序基础模型的偏移预测通过维度最近匹配(DCM)融合,在测试时无需重训练即可应对观测函数随 episode 非平稳变化的离线 RL 部署场景,在 D4RL 标准基准上平均提升数十分。

Foundation Models as World Models: A Foundational Study in Text-Based GridWorlds

系统性评估了基础模型(LLM)作为零样本世界模型(FWM)和直接决策智能体(FA)在文本网格世界中的表现,揭示了两种策略在确定性/随机性环境中的互补优势。

Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update

提出GLB-OMD算法,首次在广义线性赌博机(GLB)问题中同时实现近似最优遗憾界 \(\mathcal{O}(\log T\sqrt{T/\kappa_*})\) 和每轮 \(\mathcal{O}(1)\) 的时间/空间复杂度,核心技术是基于混合损失(mix loss)为在线镜像下降(OMD)估计量构建紧致置信集。

Generalizing Verifiable Instruction Following

引入IFBench基准评估精确指令遵循的泛化能力,证明当前SOTA模型严重过拟合于IFEval的25种约束模板,并提出IF-RLVR训练方法(基于GRPO + 可验证奖励)显著提升域内外指令遵循性能。

Global Convergence for Average Reward Constrained MDPs with Primal-Dual Actor-Critic

提出Primal-Dual Natural Actor-Critic(PDNAC)算法,首次在一般参数化策略下的平均奖励约束MDP中实现 \(\tilde{\mathcal{O}}(1/\sqrt{T})\) 的全局收敛率和约束违反率,匹配理论下界。

Gradient-Variation Online Adaptivity for Accelerated Optimization with Hölder Smoothness

在 Hölder 光滑函数类上实现梯度变差自适应的在线学习算法,其 regret 在光滑和非光滑极端之间平滑插值;通过在线到批量转换,首次为强凸优化提供在光滑情形下加速、非光滑情形下近优的通用方法。

GraphChain: Large Language Models for Large-scale Graph Analysis via Tool Chaining

提出 GraphChain 框架,通过渐进式图蒸馏(RL驱动的工具链序列生成)和结构感知测试时自适应(基于图拓扑指纹的轻量适配器),使 LLM 能像人类探索未知环境一样,通过动态工具链序列逐步分析大规模图数据,平均准确率 84.7% 超越最优基线 20.7%,可扩展至 20 万节点。

Greedy Algorithm for Structured Bandits: A Sharp Characterization of Asymptotic Success / Failure

本文对结构化 bandit 问题中的贪心算法(Greedy)进行了完整的理论刻画,提出 self-identifiability 作为贪心算法能否获得 sublinear regret 的充要条件,并将结论推广到上下文 bandit 及一般交互决策框架 DMSO。

Horizon Reduction Makes RL Scalable

本文通过大规模实验(最高 10 亿转移数据)揭示离线 RL 的可扩展性瓶颈源于决策时域过长(curse of horizon),并证明通过 n-step 回报和层次策略等时域缩减技术可显著提升扩展性,进而提出了简洁有效的 SHARSA 方法。

Human-Inspired Multi-Level Reinforcement Learning

本文提出 RbRL-KL,在 rating-based RL 基础上增加 KL 散度驱动的策略损失项,利用不同评分等级的失败经验以不同权重推开当前策略,在 6 个 DeepMind Control 环境中超越标准 RbRL。

Hybrid Latent Reasoning via Reinforcement Learning

HRPO 提出混合潜在推理策略优化:通过可学习的门控机制将前一步的隐藏状态表示逐步融入到采样的 token embedding 中,使 LLM 在推理阶段同时利用离散 token 和连续潜在表示,无需 CoT 标注即可通过 RL 训练,在知识密集型和 STEM 推理任务上均超越 PPO/GRPO 等基线。

Improved Regret and Contextual Linear Extension for Pandora's Box and Prophet Inequality

本文针对在线 Pandora's Box 问题提出新算法,将 regret 从 \(\widetilde{O}(n\sqrt{T})\) 改进到 \(\widetilde{O}(\sqrt{nT})\)(匹配下界),并首次提出 contextual linear 扩展实现 \(\widetilde{O}(nd\sqrt{T})\) regret。

Improved Regret Bounds for GP-UCB in Bayesian Optimization

本文证明 GP-UCB 在贝叶斯设定下可达 \(\widetilde{O}(\sqrt{T})\) 高概率 regret(Matern 核满足光滑条件时)和 \(O(\sqrt{T \ln^2 T})\)(SE 核),弥合了 GP-UCB 已有上界与最优上界间的差距。

Improving Planning and MBRL with Temporally-Extended Actions

本文提出在 shooting-based 规划和 MBRL 中将动作持续时间作为额外优化变量,配合 MAB 自动选择持续时间范围,在多个环境中显著加速规划并解决标准方法无法解决的困难任务。

Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning

将复杂 RAG 流水线中的多个组件(Query Rewriter、Selector、Generator)建模为协作多智能体系统,使用 MAPPO 算法进行联合优化,以最终答案的 F1 分数作为共享奖励,在多个 QA 基准上超越现有单模块优化方法。

Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

提出 RAIF,通过 RL+规则中心奖励培养 LLM 在复杂指令(含 And/Chain/Selection/Nested 组合约束)下的深度推理能力:发现 vanilla CoT 对指令跟随有负面影响(因 LLM 只会浅层复述指令),设计 superior CoT enforcement(样本级对比过滤无效推理)+ 行为克隆控制分布偏移,1.5B 模型匹配 8B 性能,7 个 benchmark 平均提升 11.74%。

Incremental Sequence Classification with Temporal Consistency

将强化学习中时序差分(TD)学习的思想引入序列分类任务,提出 TC-\(\lambda\) 损失函数,通过要求相邻时间步的预测分布满足时序一致性条件来训练增量式序列分类器,在文本分类和 LLM 验证任务上均优于标准交叉熵方法。

Interactive and Hybrid Imitation Learning: Provably Beating Behavior Cloning

当标注成本按状态而非轨迹计量时,证明交互式方法 Stagger 在 \(\mu\)-可恢复条件下可证明地超越 Behavior Cloning(次优性 \(O(\mu H \log B / N)\) vs \(O(RH \log B / CN)\)\(\mu \ll R\) 时优势显著);进一步提出混合 IL 算法 Warm-Stagger,结合离线数据和交互标注,在特定 MDP 上实现两种数据源的严格互补优势。

Inverse Optimization Latent Variable Models for Learning Costs Applied to Route Problems

提出 IO-LVM(Inverse Optimization Latent Variable Model),用 VAE 式编码器映射观测的 COP 解到潜在成本空间,通过 Fenchel-Young 损失和黑盒求解器(Dijkstra/TSP solver)在解码端保证可行性,无需 agent 标签即可从路径数据中学到成本函数的分布,成功不可监督地分离不同 agent 的导航偏好。

Kimina Lean Server: A High-Performance Lean Server for Large-Scale Verification

提出Kimina Lean Server——一个面向大规模强化学习训练的高性能Lean 4验证服务器,通过服务端并行化和LRU缓存机制实现1.5-2倍的速度提升,已用于训练SOTA定理证明模型Kimina-Prover。

Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

提出 Wiki-PRF,一套三阶段(处理-检索-过滤)的多模态 RAG 框架,通过强化学习训练 VLM 自主调用视觉工具和过滤检索结果,在 E-VQA 和 InfoSeek 上达到 SOTA。

Last Iterate Convergence in Monotone Mean Field Games

在非严格单调平均场博弈(MFG)中,提出基于 KL 散度的近端点(PP)方法实现渐近最后迭代收敛(LIC),并证明正则化镜像下降(RMD)以指数速率收敛到正则化均衡,两者结合的 APP 算法在标准基准上可靠收敛到非正则化均衡。

Learning from Demonstrations via Capability-Aware Goal Sampling

提出Cago方法,通过动态追踪智能体在专家演示轨迹上的达成能力,自适应采样处于能力边界的中间目标,构建隐式课程引导长视野稀疏奖励任务学习。

Learning Human-Like RL Agents through Trajectory Optimization with Action Quantization

提出 MAQ(Motion-Action Quantization)方法,通过 VQ-VAE 将人类动作离散化为有限的原语集合,然后在量化动作空间中进行轨迹优化,训练出行为模式更接近人类的 RL agent。

Learning in Stackelberg Mean Field Games: A Non-Asymptotic Analysis

提出首个具有非渐近收敛保证的单循环Actor-Critic算法AC-SMFG,用于求解Stackelberg平均场博弈(SMFG),收敛速率达到 \(\widetilde{\mathcal{O}}(k^{-1/2})\)

Learning Interestingness in Automated Mathematical Theory Formation

提出 Fermat——一个将数学理论形成建模为 MDP 的强化学习环境,以及 EvoAbstract——一个带抽象学习的 LLM 驱动进化算法,用于自动合成数学对象的"兴趣度"度量函数,在初等数论和有限域上显著超越硬编码基线。

Learning Intractable Multimodal Policies with Reparameterization and Diversity Regularization

提出Diversity-regularized Actor Critic(DrAC)算法,通过将不可解析的多模态策略(amortized actor和diffusion actor)统一为stochastic-mapping formulation,利用重参数化技巧直接进行策略梯度优化,并设计基于距离的多样性正则化替代传统熵正则化,在多目标导航和生成式RL等多样性关键任务中展现显著优势。

Learning Memory-Enhanced Improvement Heuristics for Flexible Job Shop Scheduling

提出 MIStar——首个基于深度强化学习 (DRL) 的改进型启发式框架,用于求解柔性作业车间调度问题 (FJSP)。核心创新包括有向异构析取图表示、记忆增强异构图神经网络 (MHGNN) 和并行贪心搜索策略,在合成数据和公开 benchmark 上全面超越手工改进启发式和 SOTA 构造型 DRL 方法。

Learning to Clean: Reinforcement Learning for Noisy Label Correction

将噪声标签纠正问题建模为强化学习中的马尔可夫决策过程,提出 RLNLC 框架,通过 k 近邻嵌入空间构建策略函数判断哪些标签需纠正,并设计标签一致性奖励和跨子集对齐奖励指导纠正过程,在多个基准数据集上的实例依赖和对称噪声场景中均达到最优性能。

Learning to Focus: Prioritizing Informative Histories with Structured Attention Mechanisms in Partially Observable Reinforcement Learning

提出两种结构化时序先验(Memory-Length Prior和Gaussian Distributional Prior)嵌入Transformer世界模型的自注意力机制中,在部分可观测RL环境下,Gaussian Attention在Atari 100k基准上相对UniZero提升77%的人类归一化均分,且计算开销几乎为零。

Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning

提出 SUBSAMPLE-MFQ 算法,通过从 \(n\) 个智能体中随机采样 \(k\) 个进行均场 Q 学习,将多智能体强化学习的样本复杂度从 \(\text{poly}(n)\) 降低到 \(\text{poly}(k)\),且性能差距仅为 \(\tilde{O}(1/\sqrt{k})\)(与 \(n\) 无关),当 \(k = O(\log n)\) 时实现相对均场 MARL 的指数加速。

Meta-World+: An Improved, Standardized, RL Benchmark

本文系统揭示 Meta-World 基准在不同版本间因奖励函数不一致导致的算法比较失真问题,并发布标准化新版本 Meta-World+,明确保留 V1/V2 两套奖励函数,新增 MT25/ML25 任务集,升级至 Gymnasium API,实现完全可复现的多任务和元强化学习评估。

MetaBox-v2: A Unified Benchmark Platform for Meta-Black-Box Optimization

MetaBox-v2 是对元黑箱优化(MetaBBO)基准平台的里程碑式升级,统一支持 RL/SL/NE/ICL 四大学习范式,复现 23 个基线算法,集成 18 个测试套件(1900+ 问题实例),并通过向量化环境和分布式测试实现 10-40 倍加速。

Mind the GAP! The Challenges of Scale in Pixel-based Deep Reinforcement Learning

发现像素输入的深度 RL 网络中,编码器(卷积层 \(\phi\))与全连接层(\(\psi\))之间的"瓶颈连接"是阻碍网络缩放的根本原因,提出用全局平均池化(GAP)这一极简方法直接化解瓶颈,以更低计算成本获得与复杂方法(SoftMoE、稀疏训练)相当或更优的性能。

Mixing Expert Knowledge: Bring Human Thoughts Back to the Game of Go

提出 LoGos,通过混合领域专家数据(围棋)与通用长 CoT 推理数据进行冷启动微调 + GRPO 强化学习,使通用 LLM 在围棋中达到职业棋手水平的同时保持优秀的通用推理能力。

MMaDA: Multimodal Large Diffusion Language Models

提出 MMaDA,首个在统一离散扩散架构下同时实现文本推理、多模态理解和文本到图像生成的多模态基础模型,通过混合长 CoT 微调和 UniGRPO 强化学习算法弥合了扩散模型预训练与后训练之间的鸿沟。

Models That Prove Their Own Correctness

本文提出 Self-Proving Models 框架,让模型通过交互式证明系统向验证算法证明其输出的正确性,并设计了 Transcript Learning (TL) 和 Reinforcement Learning from Verifier Feedback (RLVF) 两种学习方法,在 GCD 计算任务上实验验证 Annotated TL 可达 96% 的 Verifiability。

Modulation of Temporal Decision-Making in a Deep Reinforcement Learning Agent under the Dual-Task Paradigm

在简化版Overcooked环境中训练DRL智能体执行单任务(时间生产)和双任务(时间生产+数字比较),发现双任务智能体在四种目标时长下均显著过度生产时间——这一涌现行为与人类时间感知研究中双任务范式下的时间高估现象高度一致。

MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization

首次系统分析扩散语言模型(DLM)推理短板的根因——去噪过程中token独立生成导致序列内/序列间相关性缺失,提出多奖励优化框架MRO,在test-time scaling、reject sampling和RL三种模式下均显著提升LLaDA-8B的推理性能,MATH500从34.4%提升至37.4%。

Multi-Objective Reinforcement Learning with Max-Min Criterion: A Game-Theoretic Approach

将熵正则化的 max-min 多目标强化学习重新建模为两人零和正则连续博弈,提出 ERAM/ARAM 算法,通过镜像下降实现闭式权重更新和全局 last-iterate 收敛,在多种 MORL 环境中显著超越基线。

Near-Optimal Quantum Algorithms for Computing (Coarse) Correlated Equilibria of General-Sum Games

首次研究计算多玩家一般和博弈的相关均衡(CE)和粗相关均衡(CCE)的量子算法,通过量子化多尺度 MWU 方法和统一 QRAM 方案,实现 \(\tilde{O}(m\sqrt{n})\) 的近最优查询复杂度(在玩家数 m 和动作数 n 上),并证明了匹配的量子下界。

NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation

提出NoisyRollout,一种零额外训练成本的数据增强方法,在GRPO训练VLM时混合来自干净和适度扰动图像的rollout以增强策略探索多样性,仅用2.1K样本在5个域外基准上达到开源RL微调模型SOTA。

Non-convex Entropic Mean-Field Optimization via Best Response Flow

将Best Response Flow从凸函数泛函优化扩展到非凸情形,证明在充分大的熵正则化下,BR算子在 \(L^1\)-Wasserstein距离下成为压缩映射,保证非凸目标的唯一全局最小值存在性及指数收敛。

On the Global Optimality of Policy Gradient Methods in General Utility Reinforcement Learning

本文为一般效用强化学习(RLGU)中的策略梯度方法建立了全局最优性理论保证:在表格设定下通过新的梯度支配不等式证明了全局收敛,在大规模状态-动作空间下提出基于最大似然估计(MLE)的占据度量近似算法 PG-OMA,样本复杂度仅依赖函数近似类的维度 \(m\) 而非状态-动作空间大小。

Online Optimization for Offline Safe Reinforcement Learning

提出 O3SRL 框架,将离线安全强化学习问题形式化为极小极大优化,通过结合离线 RL oracle 和基于 EXP3 多臂老虎机的在线优化来自适应调整拉格朗日乘子,避免了不稳定的离策略评估,在严格安全约束下实现高奖励。

Open-World Drone Active Tracking with Goal-Centered Rewards

提出首个开放世界无人机主动跟踪基准 DAT(24 个城市级场景、高保真动力学仿真),以及基于目标中心奖励函数和课程学习的强化学习跟踪方法 GC-VAT,在仿真器上达到约 72% 的跟踪成功率。

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

Open Vision Reasoner(OVR)通过"语言冷启动 + 大规模多模态 RL"两阶段训练范式,将语言模型中的认知行为(如回溯、验证)有效迁移到视觉推理中,基于 Qwen2.5-VL-7B 在 MathVision 上首次突破 50%(51.8%),成为同规模 SOTA。

Optimizing the Unknown: Black Box Bayesian Optimization with Energy-Based Model and Reinforcement Learning

提出REBMBO框架,将高斯过程(局部建模)、能量模型EBM(全局探索)和PPO强化学习(多步前瞻)统一为贝叶斯优化闭环,在高维/多峰黑盒优化中显著优于传统BO方法。

Oryx: a Scalable Sequence Model for Many-Agent Coordination in Offline MARL

本文提出 Oryx,一种面向离线合作 MARL 的可扩展序列模型算法,将基于 Retention 的 Sable 架构与自回归形式的 ICQ 离线正则化结合,通过双解码器输出策略和 Q 值并利用反事实优势估计,在 65 个数据集上超过 80% 达到 SOTA,并展示了在 50 智能体规模下的稳健扩展能力。

Parameter-Free Algorithms for the Stochastically Extended Adversarial Model

针对桥接对抗性和随机在线凸优化的 SEA 模型,首次开发无参数算法:在未知域直径 \(D\) 和/或 Lipschitz 常数 \(G\) 条件下,基于 Optimistic Online Newton Step (OONS) 实现与已知参数情况相当的 regret 界。

Parameter Efficient Fine-tuning via Explained Variance Adaptation

提出 Explained Variance Adaptation (EVA),通过对激活向量进行增量 SVD 来初始化 LoRA 矩阵,可证明地最大化期望梯度信号,并结合自适应秩分配机制在语言生成/理解、图像分类、强化学习等多领域建立了精度-效率的新 Pareto 前沿。

PARCO: Parallel AutoRegressive Models for Multi-Agent Combinatorial Optimization

提出 PARCO 框架,通过 Communication Layers 实现智能体间协调、Multiple Pointer Mechanism 实现并行解码、Priority-based Conflict Handler 解决冲突,高效求解多智能体组合优化问题。

Prompt Tuning Decision Transformers with Structured and Scalable Bandits

提出一种基于多臂老虎机的结构化prompt调优方法,通过将prompt分解为独立segment并利用预训练PDT作为特征提取器,将prompt搜索复杂度从组合爆炸降为线性,在多任务离线RL中显著提升冻结PDT骨干网络的推理性能。

Quantifying Generalisation in Imitation Learning

本文提出 Labyrinth 基准环境,通过可控的迷宫结构变化实现训练与评估数据的严格分离,揭示了当前模仿学习方法在结构泛化上的严重不足(最佳方法在测试集仅 5% 成功率),为模仿学习的泛化评估提供了系统性工具。

Reasoning Gym: Reasoning Environments for Reinforcement Learning with Verifiable Rewards

发布包含100+过程生成推理任务的Reasoning Gym库,覆盖代数、算术、算法、逻辑、几何、图论、游戏等领域,每个任务支持无限数据生成和参数化难度控制,实验证明RLVR训练在域内/跨域均实现显著技能迁移且能提升MATH、GSM8K等外部基准表现。

Reinforcement Learning for Long-Horizon Multi-Turn Search Agents

展示 RL 训练的 14B 参数搜索 agent 在法律文档检索任务上通过多轮交互可以超越 frontier 模型(85% vs GPT o3 的 81%),关键在于精心设计的分段奖励结构和允许长 horizon 多轮交互。

Reinforcement Learning Teachers of Test Time Scaling

提出强化学习教师(RLT)框架,将问题和答案同时提供给教师模型,训练其生成有效的解释性推理链条,而非从零解题,从而用7B参数的小教师模型产出比数量级更大模型更优的蒸馏数据。

Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models

提出扩散横向思维链(DCoLT),将扩散语言模型逆向过程中的每个中间步视为潜在"思考"动作,通过基于最终结果的强化学习优化整条推理轨迹,在SEDD和LLaDA两种扩散语言模型上实现了数学和代码生成的SOTA表现。

RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models

提出首个基于强化学习的多模态大模型后训练框架 RePIC,用于个性化图像描述生成,在多概念场景中显著优于基于 SFT 的方法。

ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

ReSearch框架将搜索操作嵌入推理链中作为第一类原语,通过GRPO强化学习自动学习何时何如搜索,无需任何推理步骤的监督标注,在多跳QA任务上相对基线平均提升15.81%。

Reward-Aware Proto-Representations in Reinforcement Learning

系统发展了默认表示(DR)的理论基础——推导了 DP 和 TD 学习算法、分析了特征空间结构、提出了默认特征进行函数逼近——并在奖励塑形、期权发现、探索和迁移学习四个场景中展示了 DR 相比后继表示(SR)的奖励感知优势。

Risk-Averse Constrained Reinforcement Learning with Optimized Certainty Equivalents

提出一种基于奖励层面(reward-based)的风险感知约束RL框架,使用优化确定性等价(OCE)风险度量同时覆盖目标和约束,建立了参数化强对偶性,并给出模块化算法——可包装标准RL求解器(如PPO)作为黑盒使用。

Risk-Averse Total-Reward Reinforcement Learning

提出了面向无折扣总奖励准则(TRC)的风险规避Q-learning算法(ERM-TRC和EVaR-TRC),利用ERM的可引出性(elicitability)将Bellman算子转化为随机梯度下降形式,并证明了算法的收敛保证。

RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning

Tango 提出一种交替 RL 训练生成器和验证器的框架——验证器是生成式过程级 LLM(用自然语言逐步评判),仅用结果级正确性奖励训练(无需步骤标注),通过与生成器的共进化相互增强——在 7B/8B 级别模型上达到SOTA,AIME 2025 准确率相对 vanilla GRPO 提升 100%。

Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling

提出CART(Conservative Adversarially Robust Decision Transformer),首个在随机博弈中增强Decision Transformer对抗鲁棒性的方法,通过阶段博弈建模和NashQ值估计解决ARDT在随机状态转移下的过度乐观问题,实现更准确的极小极大值估计和更优的最差情况回报。

Robust and Diverse Multi-Agent Learning via Rational Policy Gradient

本文提出理性保持策略优化(RPO)框架和理性策略梯度(RPG)算法,通过引入操纵者智能体和对手塑造技术,在合作和一般和博弈场景中消除对抗优化导致的自毁行为,同时实现策略鲁棒化和多样化。

RoiRL: Efficient, Self-Supervised Reasoning with Offline Iterative Reinforcement Learning

提出RoiRL——一种基于离线迭代强化学习的轻量级自监督推理框架,通过加权对数似然目标函数替代在线RL(如TTRL),在不需要参考模型和真实标签的情况下实现LLM推理能力的自我提升,训练速度提高2.5倍且性能更优。

Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning

Router-R1 将多 LLM 路由和聚合建模为序列决策过程,用 LLM 自身作为路由器交替执行"思考"和"路由"动作,通过 PPO 训练配合格式/正确性/成本三重奖励,在 7 个 QA 基准上超越所有路由器基线且可泛化到未见过的 LLM。

Scalable Neural Incentive Design with Parameterized Mean-Field Approximation

提出 AMID 算法,将多智能体激励设计(ID)问题形式化为参数化平均场博弈(PMFG),证明有限\(N\)智能体目标以\(\mathscr{O}(1/\sqrt{N})\)速率逼近无限种群极限,在多种拍卖场景大幅提升收益。

Scalable Policy-Based RL Algorithms for POMDPs

提出将 POMDP 近似为有限状态的 Superstate MDP(状态为截断历史),给出更紧的最优值函数差上界(随历史长度指数衰减),并首次证明标准 TD 学习 + 策略优化在此非马尔可夫采样下的有限时间收敛保证。

Sequential Monte Carlo for Policy Optimization in Continuous POMDPs

提出基于非马尔可夫 Feynman-Kac 模型的嵌套 SMC(Sequential Monte Carlo)算法,在连续 POMDP 中实现策略优化,天然捕获信息收集价值而无需手工启发式。

Sequential Multi-Agent Dynamic Algorithm Configuration

提出 Seq-MADAC 框架,将多超参数动态配置建模为上下文顺序多智能体 MDP,通过顺序优势分解网络(SADN)利用参数间的固有依赖关系,在多目标优化算法配置上超越现有 MARL 方法。

Shift Before You Learn: Enabling Low-Rank Representations in Reinforcement Learning

揭示了强化学习中 successor measure 本身并非近似低秩的,但通过"移位"(shift)操作——跳过前几步转移后——可以自然涌现低秩结构,并基于此提出了 Type II Poincaré 不等式来量化所需的移位量,在 goal-conditioned RL 中验证了改进效果。

Simultaneous Swap Regret Minimization via KL-Calibration

提出 KL-Calibration 这一更强的校准度量,证明其等价于 log loss 的 swap regret,并通过非均匀离散化和新型随机取整方案实现 \(\tilde{\mathcal{O}}(T^{1/3})\) 的同时 swap regret 上界,覆盖比已有工作更广的 proper loss 类。

Solving Continuous Mean Field Games: Deep Reinforcement Learning for Non-Stationary Dynamics

提出DEDA-FP算法,首次在连续状态/动作空间的非平稳平均场博弈(MFG)中同时学习Nash均衡策略和种群分布,通过结合深度RL计算最优响应、监督学习表示平均策略、条件Normalizing Flow建模时变种群分布,实现了比现有方法快10倍以上的采样效率。

Solving Neural Min-Max Games: The Role of Architecture, Initialization & Dynamics

首次为两层神经网络参数化的零和博弈提供收敛保证,证明在适当过参数化、随机初始化和交替梯度下降上升(AltGDA)下,能以高概率收敛到 \(\epsilon\)-近似纳什均衡。

Strategic Costs of Perceived Bias in Fair Selection

通过博弈论模型揭示"感知驱动偏差"机制:在完全基于能力的选拔系统中,不同社会经济群体对选拔后价值的感知差异会导致理性的努力差异,从而在"公平"的流程中系统性地传播不平等。

Structural Information-based Hierarchical Diffusion for Offline Reinforcement Learning

提出SIHD框架,利用历史轨迹中的结构信息(结构熵)自适应构建多尺度扩散层次,用结构信息增益替代局部奖励预测作为条件引导信号,并引入结构熵正则化促进对离线数据中稀疏状态的探索,在D4RL基准上最高提升12.6%的决策性能。

Structured Reinforcement Learning for Combinatorial Decision-Making

提出 Structured Reinforcement Learning (SRL),将组合优化求解器作为可微层嵌入 actor-critic 的 actor 中,通过 Fenchel-Young 损失 + 高斯扰动实现端到端梯度传播,纯在线学习、无需专家数据,在6个工业级组合决策问题上匹配模仿学习、超越无结构 RL 最高 92%。

Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control

提出SoLS算法,通过不对称策略更新机制(成功时激进学习、失败时保守正则化)和成功转换回放(STR),实现基础模型在移动应用控制任务上的高效强化学习微调,在AndroidWorld上达到51.3%成功率。

Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment

将个性化对话对齐建模为多轮马尔可夫决策过程,提出 RLPA 框架,让 LLM 通过与模拟用户的在线交互学习动态推断和维护用户画像,并据此生成个性化回复。

Temporal-Difference Variational Continual Learning

提出TD-VCL目标函数,将变分持续学习(VCL)中的学习目标重新表示为多个过去后验估计的加权组合,揭示了与强化学习中时序差分(TD)方法的深层联系,通过"分散"正则化压力有效缓解了近似误差的逐步累积问题。

TensorRL-QAS: Reinforcement Learning with Tensor Networks for Improved Quantum Architecture Search

提出 TensorRL-QAS 框架,通过用张量网络(MPS/DMRG)对强化学习量子架构搜索进行 warm-start,显著降低电路深度和 CNOT 门数量(最高 10 倍),同时加速训练(最高 98%),有效解决了 RL-QAS 在大规模量子系统上的可扩展性瓶颈。

The Burden of Interactive Alignment with Inconsistent Preferences

将用户与参与度驱动算法的交互建模为多领导者-单跟随者 Stackelberg 博弈,证明存在关键的前瞻视野阈值:超过该阈值的用户可实现对齐,否则反被算法对齐;同时证明引入低成本信号(如额外点击)可大幅降低对齐负担。

The Path Not Taken: RLVR Provably Learns Off the Principals

本文提出三门理论 (Three-Gate Theory) 解释 RLVR 的参数更新稀疏性假象,证明 RLVR 在权重空间的非主方向 (off-principal) 上学习,与 SFT 的优化机制本质不同,因此直接移植 SFT 时代的 PEFT 方法到 RLVR 是有缺陷的。

The World Is Bigger! A Computationally-Embedded Perspective on the Big World Hypothesis

从计算嵌入(computationally-embedded)的视角形式化了"大世界假说",证明被嵌入在通用局部环境中的智能体天然受限于自身容量,提出"交互性"(interactivity)作为持续适应能力的计算度量,并实验表明深度非线性网络难以维持交互性,而深度线性网络可随容量增加而提升交互性。

Thompson Sampling for Multi-Objective Linear Contextual Bandit

提出MOL-TS——首个具有worst-case Pareto regret理论保证的多目标线性上下文Bandit Thompson Sampling算法,通过定义"有效Pareto最优臂"概念和乐观采样策略,实现\(\widetilde{O}(d^{3/2}\sqrt{T})\)的regret上界,目标数\(L\)仅增加\(O(\log L)\)因子。

Thompson Sampling in Function Spaces via Neural Operators

将 Thompson 采样 (TS) 从有限维参数空间扩展到无限维函数空间,利用神经算子 (Neural Operators) 作为高斯过程后验的近似采样器,实现了对涉及偏微分方程 (PDE) 的功能优化问题的高效求解。

Towards Provable Emergence of In-Context Reinforcement Learning

本文从理论上证明了 Transformer 经过标准 RL 预训练后,其全局最优参数能够实现 in-context temporal difference (TD) 学习,为 in-context RL (ICRL) 现象提供了首个可证明的理论支撑。

Tractable Multinomial Logit Contextual Bandits with Non-Linear Utilities

首次为MNL上下文赌博机问题在非线性效用函数(含神经网络)下设计了计算可行统计最优的算法ONL-MNL,在不依赖NTK假设的情况下达到\(\widetilde{\mathcal{O}}(\sqrt{T})\)的遗憾上界。

Training Language Models to Reason Efficiently

通过在 RL 奖励中加入长度惩罚项——正确回答的奖励乘以 \((1 - \alpha \cdot \sigma(\text{norm\_len}))\),用单一超参数 \(\alpha\) 控制 token-准确率权衡曲线,仅 100 步 RL 训练即可让 7B 推理模型减少 50% token 使用量而准确率仅下降 <5%。

TRiCo: Triadic Game-Theoretic Co-Training for Robust Semi-Supervised Learning

提出 TRiCo 框架,将半监督学习重构为教师-双学生-对抗生成器的三方博弈(Stackelberg 博弈),用互信息替代置信度做伪标签筛选,元学习教师自适应调节训练动态,在低标签场景下实现 SOTA 性能。

Variance-Aware Feel-Good Thompson Sampling for Contextual Bandits

提出FGTS-VA算法,首次实现了基于Feel-Good Thompson Sampling的方差感知上下文赌博机算法,其后悔界在模型维度上达到最优,匹配了基于UCB的最优方差依赖后悔界。

When Can Model-Free Reinforcement Learning be Enough for Thinking?

提出 Thought MDP 形式化框架来理解模型无关 RL 中"思考"行为的涌现条件:策略初始化是决定性因素,思考动作等价于智能体在行动前执行一步策略改进,且开源 LLM 满足思考涌现的必要条件。

When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners

受认知神经科学启发(人脑的推理与语言处理相对独立),在 LLM 的激活空间中识别并消除语言特定成分,实现语言与推理的解耦,从而在免训练条件下一致性地提升多语言推理性能。

Zeroth-Order Optimization Finds Flat Minima

首次从理论上证明标准零阶优化(两点梯度估计)具有隐式正则化效果——收敛到Hessian迹最小的平坦极小值(flat minima),在凸且充分光滑条件下给出了\(T = \mathcal{O}(d^4/\epsilon^2)\)的收敛复杂度保证。