跳转至

🎮 强化学习

💬 ACL2026 · 46 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (25) · 🔬 ICLR2026 (400) · 🧪 ICML2026 (110) · 🤖 AAAI2026 (58) · 🧠 NeurIPS2025 (143) · 📹 ICCV2025 (7)

🔥 高频主题: 强化学习 ×21 · LLM ×10 · 推理 ×10 · Agent ×2 · 对抗鲁棒 ×2

A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks (EAGLET)

EAGLET 把长程 agent 任务拆成「全局 planner + 局部 executor」两个模块,通过「同源共识过滤合成 SFT 冷启动 + 用执行器能力增益作奖励的 GRPO 微调」两步训练出一个即插即用的 planner,三个长程任务上刷新 SOTA 且训练成本仅为 RL baseline 的 1/8。

A Survey of Reinforcement Learning for Large Language Models under Data Scarcity: Challenges and Solutions

首篇系统综述数据稀缺条件下LLM强化学习的工作,提出数据中心、训练中心、框架中心三层分类体系,覆盖数据剪枝/合成/压缩、轨迹生成/奖励工程/策略优化、以及自演化/协同演化/多智能体演化等方向。

Adaptive Instruction Composition for Automated LLM Red-Teaming

提出 Adaptive Instruction Composition (AIC) 框架,利用 Neural Thompson Sampling 在众包有害查询和越狱策略的组合空间中自适应地选择攻击指令,同时优化攻击成功率和多样性,在 Harmbench 上大幅超越已有方法。

ARGUS: Policy-Adaptive Ad Governance via Evolving Reinforcement with Adversarial Umpiring

ARGUS 用 Prosecutor–Defender–Umpire 三智能体辩论 + GRPO 强化学习,让广告审核 VLM 在政策不断更新时既能纠正历史「过时标签」、又能挖出灰区潜在违规,工业 A/B 把违规漏放率(VLR)相对降低 35.2%。

AttnPO: Attention-Guided Process Supervision for Efficient Reasoning

提出 AttnPO,一个利用模型内在注意力信号进行步级信用分配的低开销过程监督 RL 框架,通过识别 Key-Focus Heads(KFH)区分冗余和关键推理步骤,在大幅缩短推理长度的同时显著提升准确率。

Beyond Fully Random Masking: Attention-Guided Denoising and Optimization for Diffusion Language Models

这篇论文发现扩散语言模型(dLLM)里"更多看向已确定上下文的 token 生成更稳、对推理更关键",于是提出 AGDO——用注意力推导出去噪顺序,并在监督微调和强化学习中加权强调这些注意力枢纽 token,从而在数学和代码推理上稳定超过依赖随机掩码的现有 dLLM 后训练方法。

Beyond Majority Voting: Towards Fine-grained and More Reliable Reward Signal for Test-Time Reinforcement Learning

针对 TTRL 用 majority voting 做伪标签带来的「确认偏差 + 稀疏奖励」两大痛点,SCOPE 提出步级置信度加权投票(不再唯频次是从)+ Pareto-optimal subgroup 动态划分(每子组独立 bootstrap 出局部共识),在 Qwen3-8B 上把 AIME 2024 从 47.13 → 52.70、AIME 2025 从 27.40 → 31.00。

Breaking the Impasse: Dual-Scale Evolutionary Policy Training for Social Language Agents

针对自博弈 RLVR 在开放式社交语言博弈(谈判 / 不许说 / 两美元分配)中出现的"进化僵局"——agent 行为同质化导致比赛结果分布退化为确定性、梯度信号消失——本文提出 DEPT 用 fast/slow 双时间尺度 EMA baseline 检测 stagnation,再用 asymmetric advantage reshaping 抑制 dominant outcome、放大 rare trajectory,在 Qwen3-4B/8B-Base 上把谈判任务胜率从 16-20% 拉到 32%,并在 OOD 数学/推理 benchmark 上同步受益。

Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning

提出 DYPO(Dynamic Policy Optimization),通过动态难度分级将样本路由到不同优化路径——Hard样本用多教师蒸馏降低SFT偏差、Mid样本用Group Alignment Loss降低RL方差,在数学推理benchmark上平均提升4.8%,OOD任务提升13.3%。

CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

提出 CE-GPPO 算法,通过 stop-gradient 操作重新引入 PPO 裁剪区间外低概率 token 的梯度信号,实现对策略熵的精细化协调控制,在探索-利用之间取得更好平衡。

Community-Aware Assessment of Social Textual Engagement and Resonance: A Human-Centric Perspective on User-Generated Content Evaluation

这篇论文提出 CASTER 任务与 CASTER-Bench,并用 MEDEA 通过 Social-CoT、SFT 和带 Social Alignment Reward 的过程监督强化学习来模拟社区反应,在 CASTER-Bench 上把 High-Quality F1 提升到 0.650、Macro-F1 提升到 0.749,显著优于传统 VQA 和通用 LMM 基线。

Controlling Multimodal Conversational Agents with Coverage-Enhanced Latent Actions

提出为多模态对话智能体(MCA)构建紧凑的潜在动作空间来替代巨大的 token 动作空间进行 RL 微调,通过跨模态投影器和循环一致性损失利用配对图文数据和纯文本数据共同构建码本,将动作空间从 152K(词表大小)压缩到 128(码本大小),在两个对话任务上全面超越 token 级 RL 基线。

d-TreeRPO: Towards More Reliable Policy Optimization for Diffusion Language Models

针对扩散语言模型(dLLM)RL 的两大可靠性瓶颈 —— 奖励稀疏 / 概率估计偏差 —— 作者提出 d-TreeRPO:把 rollout 组织成树,用叶子节点的可验证奖励自下而上算出步级 advantage;同时理论证明「模型越自信,单步前向概率估计越准」,并设计时间调度的自蒸馏 loss 在训练后期收紧策略,最终在 LLaDA-8B-Instruct 上 Sudoku +86.2% / Countdown +51.6% / GSM8K +4.5% / Math500 +5.3%。

Deliberative Searcher: Improving LLM Reliability via Reinforcement Learning with Constraints

本文提出 Deliberative Searcher,一个推理优先的框架,将搜索操作集成到 CoT 生成中并保持显式置信度校准,使用自适应拉格朗日乘子的约束 RL 联合优化正确性和可靠性,将 7B 模型的平均"错误-确定"率从基线的 54% 降至 2%。

DPEPO: Diverse Parallel Exploration Policy Optimization for LLM-based Agents

作者提出"并行探索"新范式——agent 同步与 \(K\) 个 environment 交互、跨轨迹共享经验,并给出对应的 RL 算法 DPEPO:先 SFT 冷启动学会并行 reasoning,再用"轨迹级成功 + 步级 Diverse Action / Diverse State Transition"分层奖励的 GRPO 训练,在 ALFWorld 与 ScienceWorld 全部 split 上拿下 SOTA(Qwen2.5-7B 上分别 98.2% / 61.4%),且在更大 \(K\) 时 token 增长远低于"多采样"基线。

Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

提出 EasyRL 框架,受认知发展理论启发,仅用10%的简单标注数据通过知识迁移初始化模型,再通过分治伪标注和由难度递进的自训练逐步掌握困难未标注数据,一致性超越全量数据监督的 GRPO。

Efficient Hyperparameter Optimization for LLM Reinforcement Learning

本文提出 JF-HPO,把小型同族代理模型、训练步数保真度、训练动态早停和 checkpoint 复用合到一个 Bayesian HPO 框架中,用更低成本为 LLM 强化学习找到更稳的超参数,并在多个推理任务上优于 VeRL Recipe、Random Search 和 BOHB。

EvoCoT: Overcoming the Exploration Bottleneck in Reinforcement Learning for LLMs

本文提出 EvoCoT,一个两阶段自我进化的课程学习框架:先用最终答案约束 LLM 自生成可验证的 CoT 轨迹,再渐进地从尾部删除推理步骤,逐步扩大探索空间,从而在 sparse reward 的硬题上稳定训练 RLVR,不依赖任何教师模型或人写 CoT,就让 R1-Qwen-1.5B 在 MATH 训练集上的硬题正确率从 55.7 飙升到 87.8。

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA 把自由能原理 (FEP) 引入无标签 RL 微调,用「共识 + 探索」自适应奖励 (FER) 和基于奖励分布偏度的自适应优势整形 (AAS) 同时解决传统多数投票 / 自信度 reward 的过早收敛和 advantage 估计在训练阶段错配两个问题,在 3 个推理任务、9 个数据集上达到与 supervised GRPO 持平甚至更好的水平。

From Isolated Scoring to Collaborative Ranking: A Comparison-Native Framework for LLM-Based Paper Evaluation

这篇论文把 LLM 论文评审从“单篇打绝对分”改成“成对比较再全局排序”,用语义图采样、比较式 SFT 与可验证奖励强化训练 7B 模型,在 ICLR-2025 论文排序和录用预测上显著超过 DeepReview-14B,并能迁移到多个未见会议。

GeoRA: Geometry-Aware Low-Rank Adaptation for RLVR

本文提出 GeoRA,一种专为强化学习可验证奖励(RLVR)设计的低秩适配方法,通过构建几何约束矩阵(融合谱先验和欧几里得先验)提取 RL 更新子空间的主方向进行 SVD 初始化,同时冻结残差矩阵作为结构锚,在 1.5B-32B 参数的 Qwen/Llama 模型上,数学、医学和代码 RLVR 任务中一致超越 LoRA、PiSSA、MiLoRA 等基线,且具备更强的域外泛化和更少的能力遗忘。

Glance-or-Gaze: Incentivizing LMMs to Adaptively Focus Search via Reinforcement Learning

这篇论文提出 Glance-or-Gaze (GoG),让多模态大模型在回答知识密集型视觉问题时学会先看全图、再选择高价值区域精查,并通过 SFT + 复杂度自适应 GRPO 在 6 个视觉问答/搜索基准上显著优于直接回答、全量搜索和 MMSearch-R1 等基线。

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

这篇论文指出 RLVR 不能区分“推理质量高的正确答案”和“碰巧答对的低质量推理”,并提出用示范的 in-context 教学效用 Evidence Gain 作为隐式质量信号,通过 In-Context RLVR 在不训练 PRM 的情况下提升数学推理准确率和推理质量。

HEALing Entropy Collapse: Enhancing Exploration in Few-Shot RLVR via Hybrid-Domain Entropy Dynamics Alignment

提出 HEAL 框架,通过混合通用领域数据和熵动态对齐(EDA)奖励机制解决少样本 RLVR 中的严重熵崩溃问题,仅用32个目标域样本即可匹配甚至超越使用1K样本的全量 RLVR 性能。

ImpRIF: Stronger Implicit Reasoning Leads to Better Complex Instruction Following

ImpRIF 将复杂指令中的隐式推理结构形式化为可验证的显式推理图(ERG),基于此构建大规模单轮/多轮数据并通过 SFT+过程验证 RL 训练,使 4B-32B 模型在五个指令遵循基准上显著超越基座模型,32B 模型甚至超越部分大型商用模型。

KASER: Knowledge-Aligned Student Error Simulator for Open-Ended Coding Tasks

KASER先估计学生对知识点的掌握度,再用GRPO和“代码相似度 + 错误匹配 + 多样性”混合奖励训练代码生成器,使其能模拟与学生知识状态一致的编程错误。

KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality

KnowRL 把"原子事实校验"作为过程级奖励直接塞进 GRPO 训练循环,对慢思考模型的 CoT 每一步进行事实判定,同时用"拒答给正奖励"教模型识别自己的知识边界,在 SimpleQA Incorrect Rate 上直降 20.3% 的同时不损失(甚至略升)GPQA / AIME 等推理能力,并展现出英文知识 → 中文 QA 的跨语言迁移。

LANG: Reinforcement Learning for Multilingual Reasoning with Language-Adaptive Hint Guidance

LANG 用同语种推理 hint 启动多语言数学推理 RL,再通过余弦衰减和按语言难度自适应关停 hint,让模型在保持语言一致性的同时提升非英语推理准确率。

LearnAlign: Data Selection for LLM Reinforcement Learning with Improved Gradient Alignment

针对 RLVR 后训练的数据选择问题,提出 LearnAlign——把"梯度对齐"作为代表性指标,再用"成功率 \(V(\xi)=p(1-p)\)"作为可学习性权重消除响应长度偏置,仅用 1000 条数据(约 6%)就在 5 个推理 benchmark 上做到接近全量训练(42.4% vs 44.9%),且 GSM8K 上以 13.4% 数据 (77.5%) 超过全量 (77.0%)。

LENS: Less Noise, More Voice — Reinforcement Learning for Reasoning via Instruction Purification

LENS 发现 RLVR 中许多探索失败并非因为问题难度,而是因为 prompt 中少量(<5%)干扰 token,通过识别和删除这些 token 来提升 rollout 成功率,并将净化 rollout 的学习信号转移到原始噪声 prompt 的策略优化中,平均提升 3.88% 并加速 1.6 倍。

LoVeC: Reinforcement Learning for Better Verbalized Confidence in Long-Form Generations

LoVeC 教 LLM 在长文本生成过程中每写完一句就追加一个 0–10 的 <confidence> 数字标签,用 GRPO(在线,需 oracle fact-checker)或 DPO(离线偏好对)训练让该标签与 GPT-4o 判定的事实性对齐,单次解码即可输出可校准、可机器解析的置信度,比 SOTA LUQ 在 Brier/ECE/Spearman 上全面更好且推理速度快 20 倍。

NaviMaster: Learning a Unified Policy for GUI and Embodied Navigation Tasks

NaviMaster 把 GUI 操作和具身导航都改写成“视觉目标定位 + 动作执行”的统一 MDP,并用混合轨迹上的 GRPO 与距离感知密集奖励训练一个 Qwen2.5-VL-7B 策略,在 OOD GUI、空间可供性预测和 ObjectNav 上都超过单域训练与主流基线。

RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

RL-PLUS 提出混合策略优化方法,通过多重重要性采样(MIS)解决外部数据分布不匹配问题,以及探索式优势函数(EAF)引导模型学习低概率但正确的推理路径,成功突破 RLVR 导致的能力边界坍塌,在六个数学推理基准上达到 SOTA(平均 53.4),且跨模型一致提升最高达 69.2%。

Savoir: Learning Social Savoir-Faire via Shapley-based Reward Attribution

本文提出 Savoir,一个基于合作博弈论的社交 RL 框架,结合期望效用(前瞻性评估话语的战略潜力)和 Shapley 值(公理化公平信用分配)解决多轮对话中的信用分配问题,在 SOTOPIA 基准上以 7B 模型达到 SOTA 性能(Hard 设置 Goal 7.18),匹配或超越 GPT-4o 和 Claude-3.5-Sonnet,且大型推理模型(o1、DeepSeek-R1)在社交任务上系统性欠佳。

Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study

首次系统研究 LLM 强化学习后训练的缩放行为,在 Qwen2.5 系列(0.5B-72B)上发现性能与训练资源之间遵循幂律关系,且学习效率随模型规模增大呈饱和趋势。

Self-EmoQ: Plutchik-Guided Value-based Planning to Drive Streaming Emotional TTS

Self-EmoQ 把"系统该用什么情绪说话"建模成一个话语级强化学习决策问题——在生成文本之前先用价值型 RL(DQN)规划出本轮情绪,再用这个情绪同时驱动文本生成和流式情感语音合成(Emo-TTS),并用 Plutchik 情感轮理论设计的奖励让情绪选择更像真人。

Semantic-Space Exploration and Exploitation in RLVR for LLM Reasoning

本文指出 RLVR 中传统的 token 级探索-利用权衡是测量方式的伪象,提出在隐状态语义空间中用 Effective Rank (ER) 和其时间导数 (ERV/ERA) 来解耦探索与利用,并据此设计 VERL 方法实现两者的同步提升,在高考数学等基准上获得高达 21.4% 的提升。

SpiralThinker: Latent Reasoning through an Iterative Process with Text-Latent Interleaving

本文提出 SpiralThinker,通过在潜在表示空间中进行迭代更新、并与文本推理步骤交替进行的框架实现隐式推理,引入渐进对齐目标确保潜在表示在迭代过程中保持与显式推理的一致性,在数学、逻辑和常识推理任务上超越所有潜在推理基线。

Targeted Exploration via Unified Entropy Control for Reinforcement Learning

本文提出 UEC-RL,一个统一的双向熵控制框架,通过对困难 prompt 进行高温定向探索(增大熵)和通过经验回放稳定器巩固高质量轨迹(减小熵),解决 GRPO 中普遍存在的熵坍塌和训练不稳定问题,在 Geometry3K 上实现 37.9% 的相对提升。

The Stackelberg Speaker: Optimizing Persuasive Communication in Social Deduction Games

本文将社交推理游戏中的回合制对话建模为 Stackelberg 博弈,当前玩家作为 leader 通过度量下一玩家的响应分布来优化话语的说服力影响,使用 GRPO 训练 Refiner 模型在狼人杀、阿瓦隆等四个游戏基准上显著超越基线。

Understanding Generalization in Role-Playing Models via Information Theory

本文提出首个信息论框架 R-EMID 来量化角色扮演模型(RPM)在用户/角色/对话分布偏移下的性能退化,通过引入推理过程和协同进化强化学习(CoRL)实现准确估计,发现用户偏移是最大的泛化风险,且强化学习是唯一一致有效的改进方法。

UniCreative: Unifying Long-form Logic and Short-form Sparkle via Reference-Free Reinforcement Learning

本文提出 UniCreative 框架,通过自适应约束偏好优化(ACPO)和自适应标准生成式奖励模型(AC-GenRM),在无需 SFT 和参考答案的条件下统一长文本(规划→写作)和短文本(直接生成)两种创意写作模式,模型涌现出自主区分任务类型的元认知能力。

Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward

VIGOR 用每个 completion 在当前模型参数下的 teacher-forced NLL 梯度范数作为内在奖励,偏好低梯度范数输出,并通过 \(\sqrt{T}\) 长度校正和组内 rank shaping 稳定 GRPO,从而在无需 gold answer 或外部 verifier 的情况下提升数学与代码推理。

Visually-Guided Policy Optimization for Multimodal Reasoning

VGPO 在 RLVR 训练中用隐藏状态相似度定位视觉相关 token,再通过后段视觉补偿和轨迹内/轨迹间优势重加权强化视觉关注,使 Qwen2.5-VL-7B 在数学多模态推理和视觉依赖任务上超过 GRPO/DAPO 及已有视觉增强 RL 方法。

SCRL: What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time

本文提出 SCRL(Selective-Complementary Reinforcement Learning),一个鲁棒的测试时强化学习框架,通过选择性正伪标签(严格共识标准过滤不可靠多数)和熵门控负伪标签(首次在 TTRL 中引入负监督信号来修剪错误轨迹)缓解标签噪声放大问题,在 AIME25 上比 TTRL 提升高达 10.1 个百分点。

Why Does Reinforcement Learning Generalize? A Feature-Level Mechanistic Study of Post-Training in Large Language Models

本文用严格受控的 SFT/RL 后训练对比和 Sparse Crosscoder 特征对齐发现:SFT 会快速形成大量专门化特征,而 RL 更像是在保留基座表示的同时逐步增强少量跨任务泛化特征,且这些特征被置零会显著伤害 RL 泛化、被放大则能提升基座模型表现。