🎮 强化学习¶

💬 ACL2025 · 6 篇论文解读

📌 同领域跨会议浏览： 💬 ACL2026 (34) · 📷 CVPR2026 (22) · 🔬 ICLR2026 (142) · 🤖 AAAI2026 (71) · 🧠 NeurIPS2025 (173) · 📹 ICCV2025 (7)

🔥 高频主题： 强化学习 ×5 · LLM ×3

Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback: 本文提出 Align-SLM 框架，首次将偏好优化（DPO + RLAIF）应用于纯语音语言模型（无文本注入），通过 LLM 自动评估生成的语音续写质量构建偏好数据，结合课程学习迭代提升 SLM 的语义理解能力，在 ZeroSpeech 和 StoryCloze 等基准上达到 SLM 的 SOTA。
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient: 本文提出一种基于策略梯度的LLM结构化剪枝方法，通过在概率空间中学习伯努利剪枝掩码来直接优化剪枝模型的损失函数，全程无需对LLM本身进行反向传播，仅需前向推理即可完成剪枝优化。
Learning to Generate Structured Output with Schema Reinforcement Learning: 提出 SchemaBench 基准（约4万条 JSON schema）和 Schema Reinforcement Learning (SRL) 训练框架，通过细粒度 schema 验证器提供密集奖励信号，结合 Thoughts of Structure (ToS) 推理机制，将 LLM 的复杂 JSON 生成准确率提升高达16%，同时不损害通用推理能力。
LLM-Enhanced Self-Evolving Reinforcement Learning for Multi-Step E-Commerce Payment Fraud Risk Detection: 将电商支付欺诈检测建模为多步 MDP，用 LLM（Mixtral/LLaMA/Gemma）通过进化算法自动生成和优化 RL 奖励函数，在 eBay 真实交易数据上比人工设计奖励函数和传统 SL 基线显著提升 dollar-wise precision。
Prompt-based Personality Profiling: Reinforcement Learning for Relevance Filtering: 提出RL-Profiler方法，用强化学习训练一个帖子相关性过滤器（SelNet），从用户Profile的大量帖子中筛选出与人格特征相关的少量帖子，再交给LLM零样本预测人格，在大幅减少上下文长度的同时保持接近使用全部帖子的预测效果。
TreeRL: LLM Reinforcement Learning with On-Policy Tree Search: 提出 TreeRL，将基于熵引导的树搜索（EPTree）直接集成到 LLM 的 on-policy 强化学习训练中，通过在高不确定性 token 处分叉来扩展推理路径多样性，并利用树结构提供的全局+局部优势作为过程监督信号，在数学和代码推理任务上超过传统的多链采样 RL。