ICML2026 强化学习论文解读论文笔记推理 Agent LLM 对抗鲁棒扩散模型

🎮 强化学习¶

🧪 ICML2026 · 110 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (25) · 🔬 ICLR2026 (400) · 💬 ACL2026 (46) · 🤖 AAAI2026 (58) · 🧠 NeurIPS2025 (143) · 📹 ICCV2025 (7)

🔥 高频主题： 强化学习 ×45 · 推理 ×14 · Agent ×10 · LLM ×10 · 对抗鲁棒 ×4

Adaptive Bandit Algorithms for Contextual Matching Markets: 本文研究带上下文的在线匹配市场，把玩家对动态 arm context 的线性偏好作为 bandit 学习目标，提出适用于 stochastic contexts 的 BARB 和 adversarial contexts 的 AdECO，并给出 player-optimal stable regret 的自适应上界与紧的 \(\tilde O(T^{2/3})\) 级别理论结果。
Agent Learning via Early Experience: 本文提出 early experience 范式，让语言 Agent 在没有外部奖励的情况下利用自己尝试动作后的未来状态学习环境动态和决策反思，从而在 8 个 Agent 环境中稳定超过纯模仿学习，并为后续 GRPO 强化学习提供更好的初始化。
ALSO: Adversarial Online Strategy Optimization for Social Agents: ALSO 把 LLM 社会智能模拟中的动态策略选择建模为对抗在线 bandit，并用轻量级奖励代理模型从对话历史中泛化稀疏反馈，在 Sotopia-Hard 上把整体分数从 3.02 提升到 3.53，尤其显著改善关系维度。
ASAP: Exploiting the Satisficing Generalization Edge in Neural Combinatorial Optimization: ASAP 发现神经组合优化中“找出一组有希望的动作”比“直接选中唯一最优动作”更容易跨分布泛化，并用 proposal-selection 两阶段策略和 MAML 初始化让 3D-BPP、TSP、CVRP 神经求解器在分布变化时更稳、更快适配。
Beyond Scalar Rewards: Dense Feedback for LLM Policy Synthesis in Sequential Social Dilemmas: 提出 LLM 迭代策略合成框架，让 LLM 直接生成 Python 策略代码用于多智能体序贯社会困境，并通过"反馈工程"证明：在标量奖励基础上加入效率/公平/可持续/和平四项社会指标作为 dense feedback，可以打破"反馈混叠"问题，在 Cleanup 游戏中实现高达 54% 的效率提升。
Beyond the Proxy: Trajectory-Distilled Guidance for Offline GFlowNet Training: 提出 TD-GFN，一种无需代理奖励模型的离线 GFlowNet 训练框架，通过逆强化学习从离线轨迹中提取边级奖励，再经 DAG 剪枝与优先反向采样间接指导策略学习，同时保证梯度更新仅依赖真实终端奖励，在分子设计和序列生成等任务上显著超越现有基线。
Bilevel Optimization over Saddle Points of Zero-Sum Markov Games: 提出 PANDA 算法，通过基于 Nikaido-Isoda 函数的惩罚重构，用纯一阶策略梯度方法求解下层为正则化零和马尔可夫博弈的双层 RL 问题，达到 \(\tilde{O}(\epsilon^{-1})\) 迭代复杂度和 \(\tilde{O}(\epsilon^{-3})\) 样本复杂度，匹配单策略下层 BRL 的最优已知速率。
Break the Block: Dynamic-size Reasoning Blocks for Diffusion Large Language Models via Monotonic Entropy Descent with Reinforcement Learning: 针对扩散语言模型 (dLLM) 半自回归生成时"块大小固定"破坏推理逻辑链的问题，本文提出 b1：用 RL 学一个块结束指示 token 来生成动态长度块，并用一个"块级熵单调下降 (Monotonic Entropy Descent, MED) 奖励"驱动连贯推理，作为即插即用的奖励项接入现有 dLLM RL 框架（Diffu-GRPO/GDPO/d1/wd1），在 Countdown 上将 wd1 从 39.45 推到 58.98。
CAMEL: Confidence-Gated Reflection for Reward Modeling: 本文观察到 verdict token 的 log-probability margin 与判断正确率高度相关，据此提出 CAMEL —— 先用单 token 快速给出偏好判断，仅在低置信度时才触发反思生成，并用反事实前缀增强 GRPO 训练自我纠错能力，在三个奖励模型 benchmark 上以 14B 参数取得 82.9% 的平均准确率（超过此前最佳 70B 模型 3.2%）。
Can Large Language Models Generalize Procedures Across Representations?: 本文发现 LLM 在符号表征（代码/图）上学到的过程知识无法可靠迁移到自然语言任务，提出"先符号后自然语言"的两阶段 RL 课程学习策略，使 1.5B Qwen 模型在异步规划任务上接近 zero-shot GPT-4o，并从认知科学角度证明成功的跨表征泛化可被解释为生成类比。
Chebyshev Policies and the Mountain Car Problem: Reinforcement Learning for Low-Dimensional Control Tasks: 本文首次解析求解了经典 Mountain Car 最优控制问题（36 年未解），揭示出最优策略形式极简（\(\alpha = C \cdot \dot{x}\)）而现有 RL 智能体存在惊人高的遗憾值，进而提出基于多元 Chebyshev 多项式的策略参数化方法，在参数量减少 277 倍的同时将遗憾值降低 4.18 倍。
COLLIE: Guiding Skill Discovery in Semantically Coherent Latent Space: 本文提出 COLLIE——一种引导式技能发现（GSD）框架，用大量无标注数据先构建一个"语义连贯"的技能隐空间（隐空间里靠得近的状态人类期望度也相近），从而仅凭稀疏的人类"好/坏"标签就能 免训练 地传播出一个稠密引导信号 \(w(s)\)，把无监督探索导向安全、任务相关的区域，避免学出危险或无用技能，且无需训练任何额外的引导网络。
Compositional Transduction with Latent Analogies for Offline Goal-Conditioned Reinforcement Learning: 本文提出 CTA（Compositional Transduction with latent Analogies），通过将目标到达任务分解为"任务内生类比"和"任务外生上下文"两个独立因子，利用时间距离差分场作为类比表示，并结合双线性转导实现对未见类比—上下文组合的外推，在 OGBench 操控环境上平均性能超过最强基线约 42%。
Convergence of Steepest Descent and Adam under Non-Uniform Smoothness: 本文提出一种比 Zhang 等 \((L_0,L_1)\)-NS 更广的非均匀光滑性 \((H_0,H_1)\)-NS，并在此假设和 (非均匀) Łojasiewicz 条件下首次给出确定性对角 RMSProp / Adam 与一般最速下降 (Sign GD、Norm.GD、Sign CD-GS) 的统一收敛率，证明在分离数据上的逻辑回归与 softmax 策略梯度上它们比 GD / AdaGrad / heavy-ball 都严格更快。
Convergence of Two-Timescale Markovian Stochastic Approximations with Applications in Reinforcement Learning: 本文首次在 Markov 噪声且不依赖任何投影算子的条件下，建立了一般两时间尺度随机逼近 (SA) 的稳定性与几乎必然收敛性，并据此给出离策略线性函数逼近下 TDC(\(\lambda\)) 算法的首个几乎必然收敛结果。
Counterfactual Transport Flows for Offline Conservative Trajectory Refinement: 给定一条"低回报"的候选轨迹，本文不重新生成动作，而是在潜在轨迹空间里检索附近"更优"的轨迹作为弱监督，用源条件流匹配（source-conditioned flow matching）学一个"实例专属"的精炼方向，并用一个精炼强度参数 \(\alpha\) 控制改多少，从而在"保留原行为"和"提升回报"之间连续权衡。
Coupled Variational Reinforcement Learning for Language Model General Reasoning: CoVRL 把"用回答概率当奖励"的 verifier-free RL 重写成一个变分推断问题，构造一个"先验 (只看问题) + 后验 (看到答案)"的复合分布，并用混合采样 + 重要性加权同时优化两者，使 Qwen2.5-7B 在 9 个通用与数学推理基准上相对 base 平均涨 12.4%，比最强 verifier-free 基线再涨 2.3%。
CPMöbius: Iterative Coach–Player Reasoning for Data-Free Reinforcement Learning: 把 self-play 从"对抗"换成"协作": Coach 出题、Player 解题、Coach 拿"Player 进步幅度 × Player 解题率"作为奖励, 在完全不用外部训练数据的条件下让 Qwen2.5-Math-7B-Instruct 在六个数学 benchmark 上总均分 +4.9、OOD +5.4, 超过 RENT/R-Zero 等已有 unsupervised 方法。
CSPO: Constraint-Sensitive Policy Optimization for Safe Reinforcement Learning: 针对安全 RL 里原始-对偶方法"对偶滞后→约束修正延迟→在边界附近震荡"的老毛病，CSPO 把"到安全边界的最短带符号距离"作为约束敏感的修正项加进策略更新，按约束梯度范数自适应地调节纠偏力度，从而更快更稳地回到可行域，且不改变原约束问题的 KKT 解。
d2: Improving Reasoning in Diffusion Language Models via Trajectory Likelihood Estimation: 本文为掩码扩散语言模型（masked DLM）提出 d2 强化学习框架，核心是用两种"轨迹似然估计器"（d2-AnyOrder 对支持 any-order 解码的模型给出单次前向的精确估计，d2-StepMerge 对标准 MDM 给出可调精度的近似估计）来正确实现 GRPO，使 LLaDA-8B-Instruct 在 Sudoku/Countdown/GSM8K/MATH500 上分别达到 91.9% / 56.6% / 85.0% / 41.6%，全面超越 d1、wd1 等扩散 RL 基线。
D\(^2\)Evo: Dual Difficulty-Aware Self-Evolution for Data-Efficient Reinforcement Learning: D\(^2\)Evo 在每一轮 RL 迭代里都用当前 Solver 估计难度、挑出中等难度真实样本作为锚点，再训练 Questioner 围绕锚点合成同等难度的新题，从而以 < 2K 真实数学题就在数学和通用推理上同时超过用 19K 真实数据训练的 GRPO 基线。
DARTS: Distribution-Aware Active Rollout Trajectory Shaping for Accelerating LLM Reinforcement Learning: DARTS 把 LLM RL 训练的 rollout 长尾瓶颈从"调度绕开"重新定义成"主动塑形分布"，通过 intra-prompt 冗余采样 + 双端长度采样 + 方差驱动的冗余预算分配，把模型的 rollout 长度分布显式压短压紧，在 Qwen 系列 3B–32B 模型上相比 VeRL 取得最高 1.77 倍加速，同时不损失下游精度。
Data- and Variance-dependent Regret Bounds for Online Tabular MDPs: 本文针对已知转移的在线 episodic tabular MDP，基于带 log-barrier 的乐观 follow-the-regularized-leader（OFTRL）设计了单一 best-of-both-worlds 算法，同时给出对抗 regime 下的一阶/二阶/路径长度三种数据依赖 regret 上界，以及随机 regime 下的方差感知 gap-无关和 gap-相关 polylog 界，并配套证明匹配的下界。
DR.Q: Debiased Model-based Representations for Sample-efficient Continuous Control: DR.Q 在 MR.Q 类"模型化表示 + actor-critic"骨架上加两件事——用 InfoNCE 显式最大化 \(z_{sa}\) 与下一状态表示 \(z_{s'}\) 的互信息，再用"PER × forget"融合的 faded prioritized replay 缓解早期经验过拟合——在 73 个连续控制任务上用单一超参组击败 SimBaV2 / MR.Q / TDMPC2 等强基线。
Decoupling Skeleton and Flesh: Efficient Multimodal Table Reasoning with Disentangled Alignment and Structure-aware Guidance: 本文为多模态表格推理提出两件套：训练阶段 DiSCo 用结构匿名化把"骨架"和"血肉"两个对齐目标解耦，让 LVLM 只用 10K 表格图就学会布局；推理阶段 Table-GLS 用"全局结构探查 → 自反思子表抽取 → 证据稳态推理"三步把整图问答压缩到最小可验证子表上，整套无需推理数据微调也不调外部工具，在 21 项 benchmark 上超过依赖 82K-97K 标注的 SFT/RL 基线。
Direction-Conditioned Policies via Compositional Subgoal Scoring for Online Goal-Conditioned Reinforcement Learning: 本文提出 DCP（Direction-Conditioned Policies），把在线目标条件 RL 里"actor 直接吃原始目标坐标"换成"actor 吃学到的表示空间里指向目标的单位方向 + 模长"，并用一个从历史访问状态里选子目标的打分规则在训练早期稳定这个方向，在九个导航/操作环境上多数指标超过对比 RL（CRL）。
Distributional Inverse Reinforcement Learning: 本文提出 DistIRL：在离线逆强化学习中把奖励本身建模为条件分布、把"专家比学习者更优"这一约束从期望升级到一阶随机占优 (FSD)，并用失真风险度量 (DRM) 把 FSD 难解的 0/1 指示函数松弛成可优化的风险加权目标，从而首次系统地从离线示范中同时学到完整奖励分布与分布感知策略。
Dr. Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research: Dr. Tulu 提出 RLER（Reinforcement Learning with Evolving Rubrics），让评估 rubric 在训练过程中与策略共同演化，把 RLVR 从短答案 QA 推广到带引用的长文深度研究任务，最终用 Qwen3-8B 训出的 DR Tulu-8B 在四个长文 deep research 基准上平均超 Tongyi DR-30B 15.6 个点，并以 1000 倍更低成本达到 OpenAI Deep Research 同等水平。
DRIVE: Distributional and Retrieval-Augmented Bidding with Value Evaluation: 针对广告实时竞价中 Decision Transformer 类方法"把多种有效出价策略平均成一个不上不下的烂动作"和"稀疏长尾流量下乱出价"两大毛病，DRIVE 把候选动作生成和最终决策解耦：用高斯混合（GMM）头生成多模态候选、再从历史高质量决策里检索候选、最后用 IQL 价值评论家给所有候选打分选最优出价，在 AuctionNet 上平均分从最强基线的 378.4 提到 386.6，并能即插即用地嫁接到多种 DT 类方法上。
EAPO: Enhancing Policy Optimization with On-Demand Expert Assistance: EAPO 把"咨询外部专家"作为一个可学习的离散动作嵌入策略空间，让 LLM 在 RL 训练阶段按需调用更强模型获取中间提示，并通过逐步衰减的接受率把专家知识内化到自身策略中，在评测时完全独立推理仍能在 AIME / AIMO 等数学推理基准上稳定超越纯自探索 RL。
EchoRL: Reinforcement Learning via Rollout Echoing: 本文指出 RLVR 训练后期 GRPO 类方法因为一组 rollout 全部成功导致优势归零、梯度消失（advantage degeneration），提出 EchoRL：从 verified-success rollout 里基于步级熵峰值挑出"最艰难却走通了的"前缀 EchoClip，作为辅助 SFT 项加到 loss 上，在 4 个 RLVR 框架、5 个 backbone、10 个 benchmark 上稳定带来最高 5.6%/5.0% 的 ID/OOD 提升。
FAB: A First-Order AB-based Gradient Algorithm for Distributed Bilevel Optimization over Time-Varying Directed Graphs: 本文提出 FAB——首个面向时变有向图分布式双层优化的纯一阶算法，将 AB/Push-Pull 通信与值函数惩罚法相结合，给出非渐近 \(\mathcal{O}(K^{-2/3})\) 收敛率，并顺带解决了 AB/Push-Pull 在时变有向图非凸场景下收敛率长期悬而未决的开放问题。
Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning: 针对扩散 Q-learning 多步去噪 + BPTT 又慢又脆的痛点，BFQ 把"噪声→动作"的整段位移做分治式自举——先学短程位移（可由 Flow Matching 边际速度精确估计），再把它们逐级拼成单步的直达映射，从而在训练和推理时都只需一步生成动作，不用辅助网络、不用蒸馏、不用多阶段，在 D4RL 上既提分又大幅提速。
Flow-Equivariant World Models: Memory for Partially Observed Dynamic Environments: FloWM 通过在隐空间中利用时间参数化对称性（流等变）维持结构化动态记忆——解决部分可观测环境下对象越界后失踪的问题，使长视野预测精度远超扩散和循环基线（3D Block World 210 步预测 SSIM 0.9525 vs DFoT 0.8885）。
From Reward-Free Representations to Preferences: Rethinking Offline Preference-Based Reinforcement Learning: 本文把离线偏好强化学习 (PbRL) 改写在 Forward-Backward (FB) 表示空间里，证明在 FB 框架下标准的 Bradley-Terry 偏好损失等价于 SimCLR 对比损失，从而提出 FB-PbRL：先在无奖励离线数据上预训练 FB 表示，再在偏好数据上用对比目标搜索任务向量 \(\boldsymbol{z}^\star\) 并微调表示，整个流程不再训练任何显式奖励或偏好模型。
Game of Thought: Robust Information Seeking with Large Language Models Using Game Theory: 本文把 LLM 主动提问场景（20 Questions / 医疗诊断 / 故障排查）建模成两人零和扩展式博弈 (EFG)，提出 Game of Thought (GoT)：用深度有限的子博弈构造 + CFR 求 Nash 均衡来产生“随机化提问策略”，在所有数据集上把 worst-case 交互轮数显著降低，且 weighted 变体下相对 UoT 提升 15–40%。
Global Policy-Space Response Oracles for Two-Player Zero-Sum Games: 本文指出主流 PSRO 在扩展策略种群时只看"受限博弈"的局部信息会导致最坏情况下要加入近 \(N\) 个纯策略才能收敛，因此提出一个先采样多条候选最优响应、再用 post-expansion Population Exploitability (PE) 直接打分挑选最佳扩展的两阶段探索-选择框架 Global PSRO，并通过参数共享的条件策略网络把多候选训练和评估的代价压到可接受范围。
Hista and Numca: Estimate State Value Effectively for LLM Reinforcement Learning: 本文先用一个新建的 State Value Estimation Benchmark (SVEB) 实证 PPO critic 在 LLM RL 里几乎完全退化为 GRPO 的组均奖励 baseline，再提出两种以"无须额外 rollout、几乎零额外算力"为目标的状态价值估计方法 —— Numca 用数字 milestone 把数学推理重写为目标条件 RL 做信用分配，Hista 用 LLM 末层隐状态 + MinDistance 做概率加权奖励平均 —— 在五大类 SVEB 子集都把 MAE 降到 GRPO/PPO 之下，并让 DAPO/CSIPO 等强算法在多个数学基准上拿到一致提升。
How Does Reasoning Flow? Tracing Attention-Induced Information Flow for Targeted RL in LLMs: 把一条生成轨迹看成注意力诱导的有向无环图，用一种 Doob-h 式重加权把"真正流向答案"的信息路径筛出来，再用每个 token 的"流量吞吐"给 GRPO 做非均匀信用分配——让训练信号集中在少数支撑答案的关键 token 上，在数学推理等任务上稳定超过 GRPO 与各类逐点启发式。
How Reasoning Evolves from Post-Training Data: An Empirical Study Using Chess: 作者把"训 LLM 学下国际象棋"当成可验证 RL 的干净实验台，系统比对 6 类自制 SFT 数据集对 RL 的影响，发现"直接预测最佳一步 (Best Move)"得最高分但 RL 后产生不忠实推理，"预测多步最佳走法 (Best Line)"性能相当但 RL 更稳、推理更忠实；并提炼出三条可用 SFT-checkpoint 预测 RL 终局性能的指标，最终用 7B 模型在多个国象 benchmark 上超过 gpt-oss-120b。
Informed Asymmetric Actor-Critic: Leveraging Privileged Signals Beyond Full-State Access: 本文把"非对称 actor-critic"从"critic 必须看到完整环境状态"放宽为"critic 可以看任意状态相关的特权信号"，证明任何这类信号都给出无偏策略梯度，并进一步提出两个判断"哪个特权信号最有用"的信息量检验，实验证明精挑的部分特权信号能在用更少状态信息的前提下追平甚至超过用全状态的非对称基线。
InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning: 本文把"迭代推理 + 显式摘要"这一推理范式从纯 SFT 升级到端到端 RL，提出 InftyThink+：用轨迹级 GRPO 同时优化"何时摘要、保留什么、如何续推"三个决策，并配以效率奖励，在 DeepSeek-R1-Distill-Qwen-1.5B 上把 AIME24 准确率提升 21%、延迟降低 32.8%。
Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning: 本文从信息论视角出发，把多智能体之间的"互相影响"用条件互信息刻画出来，再设计同时遮挡观测和扰动动作的攻击器去最小化跨组互信息，并据此训练出能在协作部分崩溃时仍能稳定决策的 IBAL 策略，在 SMAC / SMACv2 / LBF 等多种攻击与"队友缺失"扰动下都显著超过既有鲁棒 MARL 方法。
LABO: LLM-Accelerated Bayesian Optimization through Broad Exploration and Selective Experimentation: 本文提出 LABO，把 LLM 当作"低保真度"评估源接入贝叶斯优化循环——用 Kennedy–O'Hagan 联合高斯过程把真实实验 \(f_R\) 分解为缩放的 LLM 预测 \(\rho f_L\) 加上残差过程 \(\delta\)，再用"差异主导率" \(p_\Delta = \sigma_\delta^2/(\rho^2\sigma_L^2 + \sigma_\delta^2)\) 做门控决定每个候选要不要花真实实验，从而用近乎免费的 LLM 查询广撒网、把昂贵真实实验集中到 LLM 不可信的区域，在 COF、Fullerene 等 6 个科学优化任务上同等真实预算下显著超过 vanilla BO 与 LLAMBO、BOPRO、CAKE。
Laplacian Representations for Decision-Time Planning: 本文提出 ALPS，将图 Laplacian 的特征向量空间（缩放后近似 commute-time distance）作为分层决策时规划的潜空间，先用 k-means 在该空间发现子目标并跑 Dijkstra 生成高层路径，再用带行为先验的 CEM 在原始状态空间做短程低层规划，在 OGBench 的离线目标条件 RL 上首次让基于模型的规划方法系统性击败 model-free SOTA。
LASER: Learning Active Sensing for Continuum Field Reconstruction: 把"该把稀疏传感器放哪"建模成一个 POMDP，用一套包含编码器、GRU、扩散动力学预测器和隐式神经场解码器的"连续场潜世界模型"提供 imagined 下一步潜状态作为策略条件，再用 GRPO + 动态 group 过滤 + 多步前瞻奖励训练交叉注意力策略，在 Navier-Stokes / 浅水方程 / 真实海表温度（SST）三个数据集的稀疏感知重建任务上一致打败固定布局和 offline-optimized 布局。
Latent Representation Alignment for Offline Goal-Conditioned Reinforcement Learning: 通过把 goal-conditioned 价值函数显式参数化为 非对称潜空间中的负欧氏距离 \(V(s,g)=-\|\varphi_S(s)-\varphi_G(g)\|_2\) 并配合连续性正则与 HIQL 分层结构，LAVL 在 OGBench 22 个数据集里拿下 20 个 SOTA，把 giant 迷宫和 stitch 数据集这类长程任务的成功率从基线的几乎为零拉到 80%+。
Learning in Structured Stackelberg Games: 本文给"上下文 Stackelberg 博弈"加上一条结构性假设（context→follower type 的映射来自某个假设类 \(\mathcal{H}\)），并构造出两类全新的学习论维度——刻画在线悔界的 Stackelberg-Littlestone 维度 SLdim 与刻画 PAC 样本复杂度上下界的 \(\gamma\)-SG / \(\gamma\)-SN 维度——证明它们能严格胜过多类 Littlestone / Natarajan 维度，给出实例最优的在线算法 SSOA 和分布式算法 \(\mathfrak L^*\)。
Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory: BudgetMem 把"运行时智能体记忆抽取"重新组织成"过滤 → 实体/时间/主题并行 → 摘要"的模块化流水线，给每个模块挂上 LOW/MID/HIGH 三档预算接口，并用 PPO 训练一个共享的轻量路由器在 query 到来时为每个模块挑档位，从而在 LoCoMo、LongMemEval、HotpotQA 上同时改善了 F1/Judge 和单 query 平均成本。
Learning to Approximate Uniform Facility Location via Graph Neural Networks: 本文为 Uniform Facility Location 设计了一个把经典近似算法 SimpleUniformFL 神经化的 MPNN，既可用无监督期望成本损失端到端训练，也具备 \(\mathcal{O}(\log n)\)（递归版还能到 \(\mathcal{O}(1)\)）的可证明近似界，实验上既打过 SimpleUniformFL 经典算法、也逼近 ILP 最优。
Learning to Bet for Horizon-Aware Anytime-Valid Testing: 本文把"在严格观测上限 \(N\) 下设计 anytime-valid 序贯检验"重新表述为一个状态空间为 \((t,\log W_t)\) 的有限期最优控制问题，从理论上证明 Kelly 下注在"按时进度"的中间带最优、落后时该激进、超前时该保守，得到一张三区"相图"，并用一个在大量合成 Beta 分布上训练的统一 DQN agent 自动学到与相图一致的状态依赖策略，在合成与真实数据上同时拿到更高的 deadline-内拒绝率与更窄的置信序列，同时通过 Ville 不等式保持 anytime-validity。
Learning to Route Languages for Multilingual Policy Optimization: 本文提出 LRPO（Language-Routed Policy Optimization），把"用哪个语言生成 rollout"当作可学习变量，用一个上下文 bandit 形式的语言路由器为每条训练样本在固定 rollout 预算下挑选最有信息量的语言组合，并通过离线估计 + 在线校准的跨语言相似度奖励把多语言 rollout 拉到同一个尺度上做 GRPO，在 Qwen/Llama/Gemma 三族骨干、五个多语言基准上稳定优于 GRPO 与各种 dominant-language 基线。
Learning to Search and Searching to Learn for Generalization in Planning: 本文提出 GSP：一种把加权 A* 最佳优先搜索和 Q-learning 套在同一循环里、以关系图神经网络表达 \(Q_\theta(s,a)\) 的"自改进广义规划器"，仅在小规模实例上训练就能零样本泛化到比训练时大十几倍的实例（如 Blocksworld 从 ≤30 块到 488 块），在多个 IPC 基准、Sokoban、PushWorld、The Witness 上同时刷新覆盖率并超越基于实时搜索的 DRL 基线。
Learning Unmasking Policies for Diffusion Language Models: 本文把掩码扩散语言模型的解码过程显式建模为一个 MDP，用 GRPO 训练一个仅以 token 置信度为输入、参数量不到底座模型 0.01% 的单层 Transformer 策略，自适应地决定每一步要 unmask 哪些位置，在 semi-AR 设定下追平 Fast-dLLM 等手工启发式，在 full-diffusion 设定下显著反超并展现跨模型、跨任务、跨长度的迁移性。
LLM-Guided Communication for Cooperative Multi-Agent Reinforcement Learning: 本文提出 LMAC——用 LLM 离线为合作型 MARL 设计可执行的通信协议代码，依据"状态可重建性"指标做两轮反馈迭代（先提高重建准确度，再降低跨智能体的不平衡），在 SMAC-Comm、LBF、GRF、SMACv2 等基准上显著超过 TarMAC/SMS/T2MAC/MASIA 等通信基线，部分场景甚至超过把全局状态喂给所有智能体的 QMIX+State 上界。
Long-Horizon Model-Based Offline Reinforcement Learning Without Explicit Conservatism: 本文挑战“离线 RL 必须显式保守”的主流共识，提出 Neubay：用贝叶斯视角看后验上的模型集合、用长 horizon rollout（数百步）自然吸收价值高估、用 layer norm 与不确定度阈值控制 compounding error，从而在 D4RL/NeoRL 共 33 个数据集上不靠悲观惩罚就追平 SOTA 保守算法，并在 7 个数据集上刷新纪录。
Making Expert Reasoning Learnable with Self-Distillation: DAIL 用一个"教师 = 看过专家解的自己 + 学生 = 没看过专家解的自己"的混合策略 rollout，把不到 1000 条专家解题轨迹改写成与学生策略分布一致的推理链，再用对比损失压低"只看中间答案的负参考模型"高概率的捷径 token，在 Qwen2.5-Instruct / Qwen3 上拿到最高 31% 的 pass@128 提升，并把所需推理 token 砍掉一半。
MFPO: 用 Few-step MeanFlow Policy 把 MaxEnt RL 跑到接近 Gaussian policy 的速度: MFPO 用 MeanFlow models（学 average velocity 而非 instantaneous velocity）当 RL policy 把扩散策略采样步数从 20+ 降到 2 步，用 average divergence network 解决 action likelihood 计算、用 ESS-weighted SNIS 组合 Gaussian + policy proposal 解决 soft policy improvement，在 MuJoCo/DMC/HumanoidBench 上性能 ≥ diffusion baseline 且训练时间降 ~50%。
Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization: 把多轮 jailbreak 重新形式化为推理时的策略优化问题——在 adversarial POMDP 框架下，Attacker 与 Metacognitive Evaluator 构成闭环：Evaluator 输出的密集分析反馈被当作「语义梯度」来引导 Attacker 的 belief 更新与策略改进，从而在不重新训练任何权重的情况下，对包括 O1 / GPT-5-chat / Claude-3.7 在内的 10 个前沿模型平均 ASR 89.2%，token 消耗较强 baseline 平均降低 8.2 倍。
Mind Dreamer: Untethering Imagination via Active Causal Intervention on Latent Manifolds: 本文为模型基强化学习（MBRL）提出 Mind Dreamer，用一个对抗式生成器在世界模型已学到的隐空间流形上"跳跃"到非历史轨迹覆盖的关键锚点，并通过新设计的 Relay Value/Uncertainty 函数（含 \(\gamma^2\) 折扣）解决跨断点的信用分配，在 DMC 上相对 DreamerV3 平均提速 \(1.67\times\)、稀疏奖励任务最高提速 \(8.8\times\)。
MindZero: Learning Online Mental Reasoning with Zero Annotations: MindZero 把贝叶斯逆向规划改写成一个对多模态 LLM 的「自监督 RL」目标——奖励模型生成的心智假设使观察到的人类动作似然最大，再用 GRPO 训练，使小模型在不需要任何心智标注的前提下实现单次前向、快速且鲁棒的在线心智推理。
MoMa QL: 用矩匹配加速扩散/流匹配策略的离线 + 离线-在线 RL: MoMa QL 用 Maximum Mean Discrepancy 替代标准 BC 损失，把扩散/流匹配策略的多步采样压缩为单步或少步的"边际保持插值"采样器，在 D4RL 上 Gym 平均归一化分 95.5 全面领先 Diffusion-QL（87.9），同时因为采样快得多，offline-to-online 微调时也比一致性 AC、Diffusion-QL 提升更大。
Multi-Agent Decision-Focused Learning via Value-Aware Sequential Communication: SeqComm-DFL 把"多智能体通信"作为预测器、把"联合策略选择"作为下游优化器，用价值感知的消息生成 + Stackelberg 序贯条件 + 隐式微分双层优化把通信学习直接对齐到团队回报，在医院调度和 SMAC 上取得 4-6 倍的累积奖励提升与 >13 个百分点的胜率提高。
Multi-Agent Reinforcement Learning from Delayed Marketplace Feedback for Objective-Weight Adaptation in Three-Sided Dispatch: DoorDash 把外卖派单的"目标权重"调控做成一个离线多智能体强化学习问题：不替换原有的组合分派优化器，而是让每个门店级 agent 根据本地市场状态选一个离散乘子来微调优化器在"送达速度 vs 拼单效率"之间的权衡，用 Double DQN + 保守 Q 正则从带延迟、噪声、耦合的市场日志里离线训练，并在约 4000 个地理区域的生产 switchback 实验中做到"提高拼单率、降低骑手侧耗时，同时不损害顾客送达质量"。
Noise-Guided Transport: Imitation Learning from Random Priors: 把模仿学习改写成「让一个预测网络在专家数据上去拟合一个冻结随机先验网络、在智能体数据上反着拟合」的对抗训练，证明这个目标等价于在最小化专家与智能体分布之间的最优传输距离（EMD），从而得到一个不需要梯度惩罚、在只有 20 条转移的超低数据下也能学会人形机器人步态的轻量方法。
Offline Reinforcement Learning with Generative Trajectory Policies: 本文用「连续时间 ODE 解映射」把扩散策略、Flow Matching、一致性策略统一为同一族「生成轨迹策略 (GTP)」，再加上一个对齐离线样本的闭式 score 近似与一个优势加权的训练目标，使策略在 D4RL 上既能少步采样、又能在 AntMaze 等硬任务上拿到接近满分的成绩。
Offline Reinforcement Learning with Universal Horizon Models: 作者把"几何视界模型 (GHM) 只能采样一个固定折扣分布"这个限制打开，提出能在任意视界 \(n\) 上直接采样未来状态的 universal horizon model (UHM)，再用 Winsorized 几何分布把过长视界截断，在 OGBench 100 个任务上比最强基线平均成功率提升约 14%。
One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models: 本文系统测量五个高质量 RM（含 SOTA Skywork-Reward-V2）的长度、不确定性、位置、谄媚、模型风格五类偏置，把它们划分为"低复杂度（线性可修）"和"高复杂度（线性不可修）"两类，并提出 mechanistic reward shaping —— 用 DiffMean 线性探针在最后一层隐藏态上做零空间投影 —— 在不掉 RewardBench2 准确率的前提下显著缓解前三类偏置且能 OOD 泛化到 best-of-N。
ORLoopBench: Solver-in-the-Loop Benchmarks for Self-Correction and Behavioral Rationality in Operations Research: 作者把"修一个 Infeasible 的运筹模型"形式化成"每改一步都要重跑 Gurobi 拿 IIS 反馈"的求解器在环 MDP，发布了配套基准 ORLoopBench（5362 条 LP/MILP 修复实例 + 库存决策偏差测评），并用 RLVR 把一个 8B 模型训到在 LP 修复上以 95.3% RR@5 反超闭源 API（92.4%）。
PAC-Bayesian Reinforcement Learning Trains Generalizable Policies: 本文给出第一个显式依赖马尔可夫链混合时间且对长 horizon \(1/(1-\gamma)\) 依赖只到一次方的 PAC-Bayesian RL 泛化上界，并把它作为活的训练目标内嵌进 SAC，得到 PB-SAC 算法——在 MuJoCo 连续控制任务上同时给出非空 (non-vacuous) 部署证书与具竞争力的性能。
Parameter-free Dynamic Regret: Time-varying Movement Costs, Delayed Feedback, and Memory: 本文给出第一个针对无约束在线凸优化、时变移动代价与动态比较序列三重设定的 parameter-free 算法，把延迟反馈与时变记忆都规约为带时变移动代价的 OCO，从而统一刷新这三个场景的动态遗憾上界。
PAWS: Preference Learning with Advantage-Weighted Segments: PAWS 指出现有偏好强化学习（PbRL）"在段级训练效用函数、却在单步级使用"造成了分布偏移，从而提出全程都在轨迹段（segment）层面训练优势函数并更新策略，用段级优势加权 + 信任域约束的加权最大似然来优化策略，在 Meta-World 机器人操作任务上把偏好信号的利用率和成功率都显著拉高。
Perceptual Flow Network for Visually Grounded Reasoning: 摒弃"用视觉专家的精确框做硬监督"的传统 RLVR 路线，PFlowNet 把感知行为本身建模为一段结构化的 Perceptual Flow 潜变量，用变分分布 \(p_\theta(Z|X)\) 近似面向推理的理想后验，并用 Sub-TB 变分 RL + 多维奖励 + 邻域几何整形 (Vicinal Geometric Shaping) 训练，使得 8B 的 Qwen3-VL 在 V* Bench 拿到 90.6%、MME-RealWorld-lite 67.0% 的新 SOTA。
Plug-and-Play Benchmarking of Reinforcement Learning Algorithms for Large-Scale Flow Control: 本文提出 FluidGym——首个完全用 PyTorch 实现、无外部 CFD 求解器依赖、端到端可微、原生支持多智能体与 3D 流场的 RL 主动流控基准，用 PPO/SAC/TD-MPC/DPC 在 13 个 2D/3D 环境上跑出 25k+ GPU 小时的标准化结果。
Position: Deployed Reinforcement Learning should be Continual: 本文是一篇立场论文：作者主张凡是部署后仍能拿到评价性奖励信号、且环境复杂度超出 agent 表征/计算能力的 RL 系统，本质都是一个持续强化学习（CRL）问题，应当抛弃"训练完就冻结"的范式，让 agent 在部署中持续更新策略。
Practical and Optimal Algorithm for Linear Contextual Bandits with Rare Parameter Updates: 在线性 contextual bandit 上，作者把过去"batched"一词隐式混淆的"何时拿到 reward"和"区间内能否依赖到达的 context"两个轴显式拆开，定义出"rare parameter updates"（只限制 reward-driven 参数更新次数、允许 reward-free 的 context 自适应）这个更贴近实际部署的设定；并据此提出两个仅需 \(\mathcal O(\log\log T)\) 次参数更新的算法 BLCE-G 和 BLCE，前者首次在小-\(K\) 与大-\(K\) 两个 regime 同时达到 minimax-optimal regret \(\widetilde{\mathcal O}(\sqrt{dT\log K}\wedge d\sqrt T)\)，后者更进一步彻底去掉 G-optimal design 这个主算力瓶颈、把 runtime 砍到所有 optimal 算法中最低；并把同一思想扩到广义线性 bandit，得到不依赖最坏曲率参数 \(\kappa\) 的 BGLE。
Probing RLVR Training Instability through the Lens of Objective-Level Hacking: 作者提出"objective-level hacking"框架,把 MoE 大模型在 RLVR 中训练-推理差异越训越大的现象归因为 token 级权重失真在优化目标里引入的有偏伪信号,并在 30B MoE 上通过四组实验验证"偏差(不是方差)才是元凶"。
ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation: 针对"主动推荐"任务中朴素策略梯度坍缩到"等长重复路径"的问题，作者从理论上把失败归因为路径级奖励分解后的正均值步级奖励所诱导的"长度捷径"和过高方差，并提出 ProRL：用 Stepwise Reward Centering 把每步期望奖励减去常值基线、消除长度偏置，再用 Position-Specific Advantage Estimation 按步位置做 GRPO 式分组基线降低方差，三个真实数据集上 IoI、IoR、CTR、Coherence 四指标全面超过启发式、监督式与 LLM 式 SOTA。
Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training: 本文为「先易后难」的课程式 RL 后训练给出第一份严格的样本复杂度证明：在 transformer 的状态条件自回归推理树上，若课程能让相邻阶段的难度比保持在目标难度的 \(L/p\) 次根级别，则总样本数可从直接训练的指数级 \((C^\star)^L\) 降到课程版的多项式级 \(L\cdot (C^\star)^{p_\max}\)。
Quantifying and Optimizing Simplicity via Polynomial Representations: 作者提出用"沿数据插值路径拟合 Chebyshev 多项式"作为神经网络的低维函数空间代理，并定义"有效次数"（Effective Degree, ED）—— 对系数加绝对值再乘多项式阶数 —— 作为衡量"函数有多简单"的标量；它在 CIFAR-10/ImageNet/CLIP 上比 sharpness、参数 \(L_2\) 范数等已知泛化代理更准地预测泛化间隔，并且整条估计 pipeline 可微，可直接当做训练时的"简单性正则项"，在图像、文本、CLIP 微调与 RL 四类任务上一致带来增益。
Randomized Advantage Transformation (RAT): Computing Natural Policy Gradients via Direct Backpropagation: 通过 Woodbury 恒等式把 Tikhonov 正则化的自然策略梯度改写为"带有变换后优势的普通策略梯度"，再用随机分块 Kaczmarz 迭代在 mini-batch 上求解这个优势变换，从而完全绕开 Fisher 矩阵的显式构造、共轭梯度内循环以及 KFAC 那类架构相关的曲率近似——只用一次标准反向传播就能拿到自然策略梯度，并在 MuJoCo 与 Procgen 上匹配或超过 TRPO/ACKTR/KFAC 的表现。
Reinforced Sequential Monte Carlo for Amortised Sampling: 本文把分层变分推断、MaxEnt 强化学习与序列蒙特卡洛/退火重要性采样统一到一个框架下，让学到的策略与流函数同时充当 SMC 的提议核与扭曲目标，再反过来用 SMC 产生的近目标样本作为离策略行为策略训练神经采样器，并配合自适应权重温度和重要性加权经验回放，在多模目标与 alanine dipeptide 玻尔兹曼分布上同时改善了模式覆盖与训练稳定性。
Reinforcement Learning for Reachability: Guaranteeing Asymptotic Optimality: 本文针对未知 MDP 上的可达性规约学习问题，提出一个分阶段细化 PAC 参数的直接学习算法，证明以概率 1 存在有限阶段 \(K_{\mathsf{opt}}\)，此后只输出最优策略，并用内在 MDP 参数显式刻画该阶段，在量化验证基准上经验地证实最优策略可在极少阶段（中位数 \(k=2\)）内出现。
Reverse Flow Matching: A Unified Framework for Online Reinforcement Learning with Diffusion and Flow Policies: 针对「在线 RL 里没有目标策略的直接样本」这个核心难题，本文提出反向流匹配（RFM）：把训练扩散/流策略去拟合 Boltzmann 分布，转化成一个「给定中间噪声样本、估计后验均值」的问题，再用 Langevin Stein 算子构造零均值控制变量把现有的「噪声期望」与「梯度期望」两类方法统一成同一族估计器，从而第一次让流策略（而不止扩散策略）也能采样 Boltzmann 分布，并在连续控制基准上比扩散策略基线更稳更好。
Revisiting Regularized Policy Optimization for Stable and Efficient Reinforcement Learning in Two-Player Games: KLENT 把 reverse-KL 正则（控制策略更新幅度）+ 熵正则（维持探索）+ λ-return（平衡偏差方差）这三件成熟"老零件"重新组合到自博弈 model-free RL 里，在 5 个棋类上达到比 Gumbel AlphaZero 高 4 倍训练效率，并给出 normal-form 与 finite-length 两种场景下的收敛性证明。
RL-SPH: Learning to Achieve Feasible Solutions for Integer Linear Programs: 本文提出 RL-SPH —— 一种不依赖外部 ILP 求解器、能独立产出 100% 可行解的端到端强化学习启发式算法，用「可行性奖励 + 双阶段策略 + 可行性感知邻域搜索」让 Graph Transformer Agent 在包含非二元整数变量的 ILP 上把 primal gap 平均降低 28.6 倍。
RL4RLA: Teaching ML to Discover Randomized Linear Algebra Algorithms Through Curriculum Design and Graph-Based Search: RL4RLA 用"难度递增的数值课程 + 蒙特卡洛图搜索 (MCGS)"驱动一个 RL agent 从线性代数原语里组合出可解释的随机数值线性代数 (RLA) 算法，成功重现了 Sketch-and-Precondition、Randomized Kaczmarz、Newton Sketch 等经典方法。
RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments: RLVE 把语言模型 RL 训练的数据从"静态题库"换成 400 个可程序化生成题目、可算法验证奖励的"可验证环境"，并让每个环境的题目难度随策略模型能力实时上调，从而把训练信号始终钉在模型能力前沿；在已被 RLVR 训到饱和的 1.5B 强模型上，RLVE 用约 1/3 的算力把六个推理 benchmark 平均提升 \(3.37\%\)（对照组继续原 RL 训练只涨 \(0.49\%\)）。
RulePlanner: All-in-One Reinforcement Learner for Unifying Design Rules in 3D Floorplanning: 本文把 3D 芯片 floorplanning 中七类工业设计规则统一塞进一个 actor-critic RL 框架：核心是把每条规则编译成一张 \(W\times H\) 的"邻接矩阵掩码"，在策略 softmax 之前用大负数把违规位置直接屏蔽掉，再加上离散位置 + 连续长宽比的混合动作空间和 Transformer 编码的网表特征，让单一智能体首次能同时满足边界、分组、跨层对齐、非重叠等七条规则，并对未见电路有零样本迁移能力。
Safe In-Context Reinforcement Learning: 本文首次把"安全约束"引入 in-context 强化学习（ICRL），提出 SCARED：在预训练阶段用一个单乘子 + 取正号 hinge 的精确罚 Lagrangian 让 Transformer 策略学会在测试时不更新任何参数地依靠 cost-to-go 上下文做 CMDP 适应，在 OOD 网格 / MuJoCo / Velocity 基准上 reward 单调上升、cost 单调下降，并能随用户给的预算 \(\delta\) 在保守与激进之间平滑切换。
Safe Reinforcement Learning with Preference-Based Constraint Inference: 本文提出 PbCRL，用一个带"死区"的扩展 Bradley-Terry 偏好模型从轨迹比较中学安全约束，再叠加一个信噪比正则避免代价函数被压平，最后用两阶段（离线预训练 + 在线少量标注微调）训练打通 Safe RL 的完整流水线，在 Safety Gymnasium、自动驾驶与语言模型对齐三类任务上既显著降代价、又保住奖励。
Safety Generalization Under Distribution Shift in Safe Reinforcement Learning: A Diabetes Testbed: 作者在 UVA-Padova 物理模型基础上搭了一个统一的 T1D/T2D 糖尿病模拟器，发现 8 种主流 Safe RL 算法虽然在训练病人上能满足安全约束，但部署到未见病人时 Time-in-Range 普遍掉 8–13%，于是提出用 Basis-Adaptive Neural ODE 预测血糖轨迹、再用预测性屏蔽 (predictive shielding) 在测试时过滤危险动作，让 PPO-Lag / CPO 等基线在 OOD 病人上重新拿回 13–14% TIR。
Shapley Neuron Values for Continual Learning: Which Neurons Matter Most?: 作者把合作博弈论里的 Shapley 值搬到卷积神经网络的"滤波器"级别，用 Monte Carlo + 截断 + 多臂老虎机三重近似估计每个 Neuron 的连续重要度排名，然后冻结 Top-\(r\%\) 的"专家"Neuron、留下其余继续可塑训练，从而在不存储样本、不扩展架构的前提下把 ImageNet-1k 上类增量学习的精度比第二名 buffer-free 方法再提升 \(+2.88\%\)、任务增量提升 \(+6.46\%\)。
Single-Rollout Hidden-State Dynamics for Training-Free RLVR Data Selection: SHIFT 用一次贪心解码下的"开始 token → 结束 token"隐状态差 \(\Delta(x)=\mathbf{e}(x)-\mathbf{s}(x)\) 同时充当 RLVR 样本的效用代理和多样性特征，再用质量加权的最远优先 CoreSet 在大规模无标注池里挑出极少量样本，全过程不训练、不需要奖励或答案。
Space-sampled Value Decay: Forgetting Mechanisms for Non-stationary Deep Reinforcement Learning: 针对环境会悄悄"漂移"、且不给任何 task ID 或 context 提示的非平稳强化学习场景，本文提出 Space-sampled Value Decay (SsVD)：通过从状态空间采样并把那些"没去过 / 信息已过期"的状态的 Q 值持续衰减回一个基线，让 DQN/SAC 主动遗忘陈旧知识，从而在动态变化的环境里维持高回报。
SPHERE: Mitigating the Loss of Spectral Plasticity in Mixture-of-Experts for Deep Reinforcement Learning: 本文把 MoE 策略在持续强化学习中的可塑性丢失形式化为 empirical NTK 矩阵谱熵有效秩的下降，再用 Gauss-Newton 与 Kronecker 分解把它降维到一个只依赖"专家特征 Gram 矩阵"的可计算 proxy，最后用一个一行的 Parseval 罚（SPHERE）拉高这个 proxy，在 MetaWorld 和 HumanoidBench 持续 RL 设置下把任务成功率分别提升 133% 和 50%。
Stochastic Minimum-Cost Reach-Avoid Reinforcement Learning: 本文提出 Reach-Avoid Probability Certificate (RAPC), 用一个 max-min-夹紧的 Bellman 收缩算子让值函数下界 reach-avoid 概率, 配合一个对抗 \(\gamma^T\) 衰减的 "补偿因子"作归一化, 再用对称梯度投影联合优化 "成本"与 "reach-avoid 概率"两个冲突目标, 在 MuJoCo 上同时拿到比 RC-PPO / RESPO / CPPO 更低的累积成本和更高的 reach 成功率。
The Obfuscation Atlas: Mapping Where Honesty Emerges in RLVR with Deception Probes: 本文构造 MBPP-Honeypot 这一会自然诱发奖励黑客 (hardcode 测试用例) 的 RLVR 环境, 系统地刻画了"用白盒欺骗探针 (deception probe) 当训练信号"会得到的四类策略——诚实 / 露骨欺骗 / 混淆策略 (obfuscated policy) / 混淆激活 (obfuscated activations), 并证明只要 KL 正则系数 \(\beta\) 与探针惩罚系数 \(\alpha\) 都足够大, 就能在奖励黑客场景下稳定收敛到诚实策略。
The Shape of Reasoning: Topological Analysis of Reasoning Traces in Large Language Models: 本文把 LLM 的 chain-of-thought 看作嵌入空间中的"点云", 用拓扑数据分析 (TDA) 提取持续同调特征作为推理质量的客观度量, 在 AIME 数据集上证明 TDA 特征对 Smith-Waterman 对齐分数的预测能力 (平均 \(R^2=0.236\)) 显著高于传统图统计 (平均 \(R^2=0.064\))。
The Surprising Difficulty of Search in Model-Based Reinforcement Learning: 作者反直觉地指出 model-based RL 中搜索失败的根因不是模型不准，而是 MPC 行为策略与价值函数训练策略不一致引发的过估计偏差，并提出在 10 个价值函数集成上"取最小"的 MRS.Q 算法，在 50+ 个连续控制任务上稳定超过 TD-MPC2、BMPC、BOOM、SimbaV2 等 SOTA。
Extra-CoT：极端压缩比下的思维链压缩框架: Extra-CoT 提出一个三阶段框架（语义保持压缩器 → 混合比率SFT → 层次化奖励RL），在极端压缩比（保留仅20%的token）下仍能维持推理精度，在MATH-500上实现73%的token缩减同时精度提升0.6%。
Tracking Drift: Variation-Aware Entropy Scheduling for Non-Stationary Reinforcement Learning: AES 把最大熵 RL 的探索强度调度问题投影到在线凸优化的动态遗憾框架，导出"熵权应与环境漂移幅度的平方根成正比"的硬理论结果，再用 TD 误差分位数作为可观测漂移代理实现完全在线的算法不可知熵调度——在 SAC / PPO / SQL / MEow 四种框架 + 12 个任务上，激变恢复时间普遍减半。
Trajectory-Level Data Augmentation for Offline Reinforcement Learning: 本文提出 LIFT：在主动定位任务里，利用轨迹几何性质把次优 logging policy 留下的冗余 zig-zag 轨迹"抄近道"成 shortcut，并把这些合成 transition 喂给一个轻量增广器在数据采集期间替换 logging 动作，使离线 CQL 在低维到高维、partial obs 等各种设置下显著超越普通离线 RL 与 warm-start SAC。
Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges: 把 LLM 评判器已知的风格偏好（冗长、列表、emoji 等）当作可被系统性利用的攻击面，作者将攻击建模为上下文老虎机，用 LinUCB 在 25 次查询预算内自适应挑选 8 种语义保持的风格改写动作，对 5 个主流评判器实现 >65% 攻击成功率、+1~2 分（满分 9）的分数膨胀，且绕过 style control 防御。
跨域离线强化学习中统一值对齐与值分配: 本文在异质跨域离线强化学习设定下揭示"值误分配"问题——源数据来自多个域和多个策略时，优势函数评估不准导致数据筛选失效。提出 V2A 框架通过时间一致的模态表示学习与模态感知的优势学习来统一解决值对齐和值分配问题，性能比 DVDF 提升 21.4%。
Unlocking Zero-Shot Geospatial Reasoning via Indirect Rewards: 作者把"地面街景与卫星图能否定位为同一坐标"作为可验证间接奖励，用 GRPO 对 Qwen2.5-VL-7B 做两阶段后训练（CoT scaffolding + RL self-exploring），让模型仅凭 GPS metadata 学到可零样本迁移到 25+ 地理空间任务的通用推理能力。
Video-Based Optimal Transport for Feedback-Efficient Offline Preference-Based Reinforcement Learning: 针对偏好强化学习（PbRL）需要成千上万次人工比较才能学出好奖励的高标注成本问题，VOTP 把轨迹片段用视频基础模型编码进语义空间，再用最优传输在"少量已标注对"和"海量未标注对"之间求对齐、把偏好传播过去自动生成伪标签，只用 10 个标注就能学到有效奖励，在 D4RL 运动控制和 MetaWorld 操作任务上超过现有离线 PbRL 方法、几乎追平 Oracle。
Vulnerable Agent Identification in Large-Scale Multi-Agent Reinforcement Learning: 本文研究"在 N 个智能体的大规模 MARL 系统中挑出 K 个最脆弱的智能体"这一双层 NP-hard 问题，把它建模为 HAD-MFC（Hierarchical Adversarial Decentralized Mean Field Control），用 Fenchel-Rockafellar 变换把下层最坏对抗策略的训练折叠成一个加正则项的"鲁棒 mean-field Bellman 算子"，再把上层组合选择问题转化为带稠密 reward 的 MDP 用贪心或 RL 求解，证明分解保持最优性，在 18 个任务中 17 个超 baseline。
视觉工具使用强化学习究竟学到了什么？: 本文提出 MED 框架系统分析视觉工具使用 RL 在裁剪-放大场景中的实际学习效果——发现 RL 训练所带来的性能提升主要源于内在能力提升而非工具掌握能力提升，模型主要学会了如何与工具安全共存而非真正掌握工具。
You Can Learn Tokenization End-to-End with Reinforcement Learning: 本文把 byte-level LLM 中“哪里画 token 边界”建模成离散随机决策，用带 early-exit relative reward、time discounting 和 batch-relative advantage 的 score function estimator 端到端学习 tokenization，在 147M 自然语言模型和 90M 代码模型上优于直通估计器并接近 BPE-guided downsampling。