跳转至

🎮 强化学习

📷 CVPR2026 · 25 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (400) · 💬 ACL2026 (46) · 🧪 ICML2026 (110) · 🤖 AAAI2026 (58) · 🧠 NeurIPS2025 (143) · 📹 ICCV2025 (7)

🔥 高频主题: 强化学习 ×17 · Agent ×3 · 多模态 ×2 · 推理 ×2

AnyDoc: Enhancing Document Generation via Large-Scale HTML/CSS Data Synthesis and Height-Aware Reinforcement Optimization

AnyDoc 提出了一个基于统一 HTML/CSS 表示的通用文档生成框架,通过自动化数据合成管线构建 265K 文档数据集 DocHTML,结合 SFT 和高度感知强化学习(HARL)微调多模态大模型,在意图到文档、文档反渲染和元素到文档三个任务上超越 GPT-4o 等基线。

CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning

提出 CCCaption 双奖励强化学习框架,通过 completeness reward(基于多 MLLM 生成的视觉 query 集)和 correctness reward(基于 caption 分解后的子 query 幻觉检测)联合优化图像描述的完整性和正确性,2B 模型超越 32B 基线。

Cloning Deterministic Worlds: The Critical Role of Latent Geometry in Long-Horizon World Models

作者用一个"oracle"诊断实验证明:在确定性环境里,世界模型长程崩溃的瓶颈不是动力学模型而是潜在表示的几何结构,进而提出 GRWM——把时序对比学习当作几何正则项,重塑自编码器潜在空间使其对齐环境真实状态流形,作为即插即用模块显著拉长各类世界模型的保真预测视野。

CME-CAD: Heterogeneous Collaborative Multi-Expert Reinforcement Learning for CAD Code Generation

针对"从二维工程三视图直接生成可执行、可编辑 CAD 代码"这一工业场景,CME-CAD 让多个异构预训练大模型分别扮演风格各异的"专家",先用各自的推理风格做监督微调(MEFT),再在强化学习阶段(MERL)让强专家通过 KL 蒸馏把好策略传给弱专家、并用难例缓冲机制反复攻克最难的样本,最终在自建的工业级基准 CADExpert 上把 IoU 从 71.84% 提升到 80.71%、代码可执行率提到 98.25%。

Cross-modal Identity Mapping: Minimizing Information Loss in Modality Conversion via Reinforcement Learning

提出 Cross-modal Identity Mapping (CIM),通过分析用 caption 检索到的图像的表示一致性(GRC)和与源图像的相关性(QIR)来量化图像描述中的信息损失,将其作为 RL 奖励信号训练 LVLM 生成细粒度且精确的描述,无需额外标注。

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

DreamSAC 给基于像素的世界模型(DreamerV3)换上一个 SE(3) 不变的哈密顿动力学先验,并用一个"主动做功打破对称性"的内在好奇心去采集物理信息量最大的数据,让模型不再只学像素统计相关性、而是学到守恒律,从而在质量/重力/摩擦力等未见物理参数上的外推泛化比 SOTA 高 22%–163%。

EVA: Efficient Reinforcement Learning for End-to-End Video Agent

EVA 把长视频理解建模成一个"先规划、后感知"的马尔可夫决策过程,让 MLLM 智能体仅凭文本问题就决定"看哪段、看几帧、看多清",再用 SFT 冷启动 → KTO 离线纠偏 → 数据增强 GRPO 的三段式训练把它从"格式模仿者"练成"会主动探索的看视频高手",在 6 个视频基准上以约 1/10 的视觉 token 取得比通用 MLLM 高 6–12%、比已有自适应智能体高 1–3% 的精度。

GeoWorld: Geometric World Models

GeoWorld 将预测式世界模型的潜在表征从欧氏空间映射到双曲流形上,通过 Hyperbolic JEPA 保持几何结构和层级关系,并提出 Geometric Reinforcement Learning 来优化多步规划,在 CrossTask 和 COIN 上实现了约 3% SR(3步)和 2% SR(4步)的提升。

Incentivizing Generative Zero-Shot Learning via Outcome-Reward Reinforcement Learning with Visual Cues

RLVC 把生成式零样本学习里的特征生成器当成 RL 策略,用一个冻结分类器给出的"分对了没有"的结果奖励来驱动生成器自进化,再用类级视觉线索做原型蒸馏稳住训练,在 CUB / SUN / AWA2 三个基准上把生成式 ZSL 推到新的 SOTA(CUB 上 CZSL 准确率 90.1%、GZSL 调和均值 81.2%)。

JoPPO: Hierarchical Photography Assessment via Contrastive Joint Conditional Probabilistic Reinforcement Learning

JoPPO 把"用 VLM 给图打美学分"从回归单一全局分,升级成在一批图里建模"属性分与总分的联合高斯分布、推导出属性条件下的成对胜率",并把这个胜率作为 GRPO 的奖励来训练裁判,从而让模型既能给出可解释的多属性子分,又能在排序一致性上显著超过 GPT-4o。

Local Motion Matters: A Deconstruct-Recompose Paradigm for Reinforcement Learning Pre-training from Videos

把视频里复杂的"整体运动"拆解成一批与身体形态无关的"原子动作"(局部光流块),用双注意力编码器学到可跨智能体迁移的局部运动表征,再通过一个可学习的聚合 token 重组进世界模型,从而在 DMControl Remastered 和 Meta-World 等下游机器人控制任务上显著提升 RL 的样本效率与最终性能。

MangoBench: A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning

本文把单智能体的「离线目标条件 RL(OGCRL)」首次扩展到多智能体协作场景,提出基于目标重标注 + 机器人结构化分解的 goal-conditioned 离线 MARL 框架,并配套发布 MangoBench——首个面向该设定的全协作多目标基准(3 个环境、4 类智能体、47 个任务、6 个 baseline),实验显示分层策略的 IHIQL 在稀疏奖励下泛化最好但无方法通吃所有任务。

Masked Auto-Regressive Variational Acceleration: Fast Inference Makes Practical Reinforcement Learning

MARVAL 用一种带 CFG 引导的分数隐式匹配(GSIM)把 Masked Auto-Regressive 扩散模型内部那条几十上百步的扩散去噪链压成"一步生成",在 ImageNet 256×256 上做到 FID=2.00、比 MAR 快 30 倍以上,并借助这次提速第一次让 MAR 类模型能跑可验证奖励的强化学习后训练,把 CLIP / ImageReward 这类人类偏好分数显著提上去。

MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning

提出多阶段强化学习(MSRL)方法,通过先在大规模文本偏好数据上学习奖励推理能力,再逐步迁移到多模态任务,解决多模态奖励模型训练中标注数据稀缺的瓶颈问题,在 VL-RewardBench 上将准确率从 66.6% 提升至 75.9%。

PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

针对 VLM 在 360° 等距柱状投影(ERP)全景图上 3D 空间推理几乎崩溃的问题,本文构建了 14.8K 题、五类几何对齐标注的 PanoEnv-QA 基准,并用「按题型路由的真值奖励 + 两阶段课程」的 GRPO 后训练把一个 7B 模型的总精度从 49.34% 提到 52.93%、开放式问答精度从 6.39% 提到 14.83%,反超 32B 模型。

PlannerRFT: Reinforcing Diffusion Planners through Closed-Loop and Sample-Efficient Fine-Tuning

PlannerRFT 给基于扩散的自动驾驶规划器做强化微调:用「策略引导去噪」把模态坍缩的扩散采样变成多样且场景自适应的轨迹群,再用 GRPO + PPO 双分支闭环优化,配合自研 10× 加速仿真器 nuMax,在 nuPlan 上拿到 SOTA 闭环规划性能。

ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering

提出 ReAG,一个推理增强的多模态 RAG 方法,结合粗细粒度检索与 Critic 过滤模型减少噪声,并通过 GRPO 强化学习训练生成器进行显式推理,在知识密集型 VQA 上达到新 SOTA。

Resolving the Stability-Plasticity Dilemma in Reinforcement Learning via Complementary Continual Critics

针对视觉 RL 中"既要快速适应又要不遗忘"的稳定—可塑性困境,本文提出 CD-CCA:用持续反向传播(CBP)武装一个"塑性 critic"、用弹性权重巩固(EWC)武装一个"稳定 critic",再用跨注意力机制按观测自适应融合两者的 Q 值,在 DMControl 与 CARLA 上同时提升样本效率和收敛稳定性。

Saliency-Guided Representation with Consistency Policy Learning for Visual Unsupervised Reinforcement Learning

针对后继表征(SR)方法在高维视觉无监督强化学习(URL)中失效的问题,SRCP 用显著性引导的动力学任务把表征学习从 SR 目标中解耦出来、让编码器专注于动力学相关区域,并用带分类器自由引导的一致性策略建模多模态技能,在 ExORL 的 16 个视觉控制任务上取得了 SOTA 零样本泛化。

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

提出Evidence-Constrained Reweighting Decoding(ECRD)框架:在LVLM解码时维护动态文本证据池,通过分布协商重加权候选token,不确定时自动调用轻量视觉决策器提取微证据,无需训练即可在多个LVLM上显著减少视觉幻觉、提升推理准确率。

Seeing is Improving: Visual Feedback for Iterative Text Layout Refinement

VFLM 提出一个利用视觉反馈进行迭代优化的布局生成框架,通过结合 OCR 准确率的视觉奖励模型和强化学习训练,使多模态大语言模型能够"看到"渲染结果并反复修正,在文本排版质量上显著超越仅生成代码的方法。

Specificity-aware Reinforcement Learning for Fine-grained Open-world Classification

提出 SpeciaRL——一种特异性感知的强化学习框架,通过基于在线 rollout 最佳预测的动态奖励信号,引导推理型大型多模态模型在开放世界细粒度图像分类中同时提升预测的特异性和正确性。

Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes

Talk2Move 把"按文字指令平移/旋转/缩放场景中某个物体"建模成一个 RL 问题,用 Flow-GRPO 在扩散轨迹上做带空间奖励的探索,免去成对监督数据,并通过早退步采样把训练加速 2×,在空间精度和场景一致性上显著超过 GPT-Image-1、Flux-Kontext、QwenImageEdit 等编辑模型。

TaskForce: Cooperative Multi-agent Reinforcement Learning for Multi-task Optimization

把多任务优化里"怎么把各任务梯度加权合成一个更新方向"这件事,建模成一个合作式多智能体强化学习问题:每个任务配一个 agent,观察一份用 Gram 矩阵压缩过的梯度摘要,输出自己梯度的权重,并由一个同时编码"梯度对齐"和"loss 下降"的混合奖励来驱动学习;在 NYU-v2、Cityscapes、QM9 上一致超过现有 SOTA 多任务优化方法。

TSTM: Temporal Segmentation for Task-relevant Mask in Visual Reinforcement Learning Generalization

TSTM 用一个带 ConvLSTM 的「编码器-时序-解码器」分割网络从连续多帧观测里抠出任务相关区域(掩码),再配合 VICReg 式不变表示学习和策略一致性约束训练 SAC,在 DMC-GB 的 video easy/hard 上把视觉强化学习的泛化能力刷到 SOTA。