🎮 强化学习¶
📷 CVPR2025 · 5 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (25) · 🔬 ICLR2026 (400) · 💬 ACL2026 (46) · 🧪 ICML2026 (110) · 🤖 AAAI2026 (58) · 🧠 NeurIPS2025 (143)
- CALF: Communication-Aware Learning Framework for Distributed Reinforcement Learning
-
本文提出 CALF 框架,通过在 RL 训练中注入可配置的网络延迟、抖动和丢包模型,使策略在部署到真实分布式边缘设备时性能退化降低约 3-4 倍,揭示网络条件是 sim-to-real 转移中被忽视的重要维度。
- Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging
-
提出Visual Forager(VF)模型,通过目标特征调制、目标价值调制和ViT-based Actor-Critic决策网络模拟人类混合视觉搜索任务中的眼动策略,在归一化得分上达到72.6%(人类87.4%),扫视大小仅差0.01°(4.06° vs 人类4.05°),首次揭示目标价值和出现率如何联合影响人类搜索决策。
- GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill
-
本文提出GROVE框架,利用LLM生成物理约束+VLM评估动作语义的互补方式构建广义奖励函数,并通过Pose2CLIP轻量映射器跳过渲染直接将姿态投影到语义空间,实现了开放词汇物理技能学习,比现有方法训练速度快8.4倍同时动作自然度提升22.2%。
- SkillMimic: Learning Basketball Interaction Skills from Demonstrations
-
提出 SkillMimic,一个纯数据驱动的框架,通过统一的 HOI 模仿奖励(特别是创新的接触图奖励)从动捕数据中学习多样的篮球交互技能,并通过高层控制器组合技能实现连续得分等复杂长程任务。
- ThinkStream: Thinking in Streaming Video
-
提出 ThinkStream,采用 Watch-Think-Speak 范式实现流式视频的实时连续推理,通过 RCSM(推理压缩流式记忆)将推理 trace 作为紧凑语义锚点替代旧视觉 token,配合 Streaming RLVR 训练策略,在保持低延迟/低内存的同时超越现有在线视频模型。